Učíme stroje rozpoznávat lidskou řeč. V češtině používáme půl milionu slov

18. dubna 2021

Post Image

Učíme stroje rozpoznávat lidskou řeč. V češtině používáme půl milionu slov

Play icon
45 minut
Petr Herian, šéf a majitel společnosti Newton Media, která monitoruje obsah českých médií.

archiv

Na kvalitní přepis hlasového záznamu z angličtiny stačí programu znalost třiceti tisíc slov, pro přepis češtiny jich máme v databázi půl milionu, říká Petr Herian, šéf a majitel společnosti Newton Media, která monitoruje obsah českých médií. Denně jen v Česku archivuje čtyřicet tisíc článků z deseti tisíc zdrojů.

Náš dnešní rozhovor vychází na webových stránkách a také jako podcast. Jaké technologie se do něj „zakousnou“, aby jej zmonitorovaly?

Jednak to budou sledovací technologie, které hlídají, když se na webu objeví nová zpráva. A budou to i technologie na rozpoznávání řeči – to, o čem se budeme bavit, přepíšou do textové podoby, aby se pak v textu dalo vyhledávat.

Jak dlouho je obsah takového rozhovoru uchováván? A kde konkrétně je uložen?

Je v našem datacentru a je uchováván po neomezeně dlouhou dobu. Nejstarší materiály, které máme, jsou staré pětadvacet let. Uchováváme data ve všech podobách, u rozhovoru je to tedy audionahrávka i textový přepis.

Kde fyzicky ta data jsou?

Je to v Praze, v pronajatém datovém centru, kde je veškerý náš hardware.

Kolik zdrojů dnes Newton monitoruje? Pro začátek, řekněme, třeba v České republice…

V Česku ukládáme denně kolem čtyřiceti tisíc článků, a to ze zhruba deseti tisíc zdrojů.

Kolik jich je celkem i se světovými zdroji?

Primárně se soustředíme na monitoring a archivaci článků ze zemí, kde jako skupina působíme, což je střední a východní Evropa. Tam chceme mít plnotextové verze článků. Jinak spolupracujeme s podobně zaměřenými organizacemi ve světě, takže lze říct, že jsou to statisíce zdrojů denně.

Jak monitoring probíhá v praxi? Představuji si to tak, že nějaké algoritmy v určitém rytmu projíždějí všechny zmiňované zdroje.

Podpořte Reportér sdílením článku