Učíme stroje rozpoznávat lidskou řeč. V češtině používáme půl milionu slov
18. dubna 2021
Učíme stroje rozpoznávat lidskou řeč. V češtině používáme půl milionu slov
18. dubna 2021
Učíme stroje rozpoznávat lidskou řeč. V češtině používáme půl milionu slov
Na kvalitní přepis hlasového záznamu z angličtiny stačí programu znalost třiceti tisíc slov, pro přepis češtiny jich máme v databázi půl milionu, říká Petr Herian, šéf a majitel společnosti Newton Media, která monitoruje obsah českých médií. Denně jen v Česku archivuje čtyřicet tisíc článků z deseti tisíc zdrojů.
Jednak to budou sledovací technologie, které hlídají, když se na webu objeví nová zpráva. A budou to i technologie na rozpoznávání řeči – to, o čem se budeme bavit, přepíšou do textové podoby, aby se pak v textu dalo vyhledávat.
Je v našem datacentru a je uchováván po neomezeně dlouhou dobu. Nejstarší materiály, které máme, jsou staré pětadvacet let. Uchováváme data ve všech podobách, u rozhovoru je to tedy audionahrávka i textový přepis.
Je to v Praze, v pronajatém datovém centru, kde je veškerý náš hardware.
V Česku ukládáme denně kolem čtyřiceti tisíc článků, a to ze zhruba deseti tisíc zdrojů.
Primárně se soustředíme na monitoring a archivaci článků ze zemí, kde jako skupina působíme, což je střední a východní Evropa. Tam chceme mít plnotextové verze článků. Jinak spolupracujeme s podobně zaměřenými organizacemi ve světě, takže lze říct, že jsou to statisíce zdrojů denně.
Podpořte Reportér sdílením článku
Zakladatel magazínu Reportér.