Jazyk funguje jako otisk prstu

3. listopadu 2022

Lidé si neuvědomují, co všechno lze zjistit z jejich jazykového projevu, říká forenzní analytička Kateřina Lesch. Když potřebujeme jen ztotožnit někoho z okruhu podezřelých a máme k dispozici nějaký referenční text, obvykle stačí, když ho porovnáme s jiným dokumentem o šesti stech slov, dodává.

Zabýváte se automatickým zpracováním strukturovaných dat. Co se pod tím dá představit?

Lehce vás opravím. Já se zabývám především automatickým zpracováním nestrukturovaných dat, což znamená, že vstupní data, která studuji, mohou být kromě textů i obrázky nebo audio. Prostě všechno, co nejsou jednoduché jedničky a nuly. Strukturovaná data jsou tabulky, ve kterých už jsou nějaké hodnoty. Je ale fakt, že ta definice není až tak jednoduchá, protože to, co s kolegy děláme, vlastně je, že nestrukturovaná data převádíme na ta strukturovaná. A následně s pomocí automatizace už pracujeme s čísly.

Jak?

Dá se to popsat třeba na e-mailech. Představte si, že by někdo potřeboval zpracovat velké množství e-mailů a dosud to musel dělat manuálně. My ale dokážeme pomocí převedení textu na vektory, tedy ty jedničky a nuly, automaticky zpracovat i desítky milionů mailů najednou a najít v nich vzorce nebo anomálie, které by mohly ukazovat na nějaké protiprávní jednání. Pokud bychom se bavili třeba o nějakém forenzním vyšetřování, tak dokážeme určit, že v určité části textu se lidé baví o tom, že mají vyzvednout děti ze školky, ale v jiné už mluví o nějakých podezřelých smlouvách. To jde samozřejmě zjistit i bez automatizace, ale bylo by to výrazně pracnější a zdlouhavější.

Říkala jste, že pracujete s nestrukturovanými daty. Co se všechno z nich dá vyčíst?

Všechno (smích). Jazyk funguje doslova jako otisk prstu. Každý má jiné jazykové prostředky, což souvisí s tím, že když má někdo třeba mámu z Hané a tátu z Ostravy, tak se to propíše i do jeho jazyka. Každý máme jinou syntax, jinou distribuci slovních druhů, zejména spojek nebo předložek. Stejně tak je měřitelné, jaká výplňková slova konkrétní člověk používá nejčastěji. Z jazyka poznáte, odkud kdo je, nebo to, jak je starý, třeba podle toho, jaké používá neologismy. A samozřejmě poznáte úroveň vzdělání. A logicky i pohlaví, což je u češtiny mimochodem jednodušší než u angličtiny, protože ta nemá různé koncovky pro příčestí minulé v ženském a mužském rodě.

To je hodně věcí. Je tam ještě něco dalšího?

Poznáte například i to, co je pro toho člověka důležité. Když například v textu několikrát uvede, že by ho maminka za něco nepochválila, tak je to možné použít třeba v případě hrozby trestu. Naznačíte, že by ho za něco maminka nepochválila a ono to na něj dost pravděpodobně bude působit. Což je vlastně oblast, která souvisí s mým původním oborem, protože já jsem studovala automatizované rozpoznávání emocí. Pomáhá mi to ale i v současném oboru, kdy musíme rozpoznat stupeň agrese. Podle toho, jak se člověk vyjadřuje, dokážeme odhadnout, jak bude v rámci vyšetřování spolupracovat, zda bude poddajný, nebo naopak nebezpečný vůči vyšetřovatelům.

Dovedu si představit, že to, o čem mluvíte, se dá zjistit z textu. Jak se to dá ale poznat z obrázků nebo jiných dat, která jste zmiňovala?

Třeba s obrázky nebo s videem se dá pracovat s pomocí trénovacích dat, která určí, že se na obrazu někdo třeba usmívá nebo mračí. A na základě toho, co na snímku je, se k němu přidá nějaký automatický popisek. A s jeho pomocí se už dá různě filtrovat a vyhledávat. Samozřejmě se to dát dělat opět manuálně, ale je to pomalé a pracné. Automatizace to hrozně urychlila.