Jazyk funguje jako otisk prstu

Lidé si neuvědomují, co všechno lze zjistit z jejich jazykového projevu, říká forenzní analytička Kateřina Lesch. Když potřebujeme jen ztotožnit někoho z okruhu podezřelých a máme k dispozici nějaký referenční text, obvykle stačí, když ho porovnáme s jiným dokumentem o šesti stech slov, dodává.

Zabýváte se automatickým zpracováním strukturovaných dat. Co se pod tím dá představit?

Lehce vás opravím. Já se zabývám především automatickým zpracováním nestrukturovaných dat, což znamená, že vstupní data, která studuji, mohou být kromě textů i obrázky nebo audio. Prostě všechno, co nejsou jednoduché jedničky a nuly. Strukturovaná data jsou tabulky, ve kterých už jsou nějaké hodnoty. Je ale fakt, že ta definice není až tak jednoduchá, protože to, co s kolegy děláme, vlastně je, že nestrukturovaná data převádíme na ta strukturovaná. A následně s pomocí automatizace už pracujeme s čísly.

 

Jak?

Dá se to popsat třeba na e-mailech. Představte si, že by někdo potřeboval zpracovat velké množství e-mailů a dosud to musel dělat manuálně. My ale dokážeme pomocí převedení textu na vektory, tedy ty jedničky a nuly, automaticky zpracovat i desítky milionů mailů najednou a najít v nich vzorce nebo anomálie, které by mohly ukazovat na nějaké protiprávní jednání. Pokud bychom se bavili třeba o nějakém forenzním vyšetřování, tak dokážeme určit, že v určité části textu se lidé baví o tom, že mají vyzvednout děti ze školky, ale v jiné už mluví o nějakých podezřelých smlouvách. To jde samozřejmě zjistit i bez automatizace, ale bylo by to výrazně pracnější a zdlouhavější.

 

 

Říkala jste, že pracujete s nestrukturovanými daty. Co se všechno z nich dá vyčíst?

Všechno (smích). Jazyk funguje doslova jako otisk prstu. Každý má jiné jazykové prostředky, což souvisí s tím, že když má někdo třeba mámu z Hané a tátu z Ostravy, tak se to propíše i do jeho jazyka. Každý máme jinou syntax, jinou distribuci slovních druhů, zejména spojek nebo předložek. Stejně tak je měřitelné, jaká výplňková slova konkrétní člověk používá nejčastěji. Z jazyka poznáte, odkud kdo je, nebo to, jak je starý, třeba podle toho, jaké používá neologismy. A samozřejmě poznáte úroveň vzdělání. A logicky i pohlaví, což je u češtiny mimochodem jednodušší než u angličtiny, protože ta nemá různé koncovky pro příčestí minulé v ženském a mužském rodě.

 

To je hodně věcí. Je tam ještě něco dalšího?

Poznáte například i to, co je pro toho člověka důležité. Když například v textu několikrát uvede, že by ho maminka za něco nepochválila, tak je to možné použít třeba v případě hrozby trestu. Naznačíte, že by ho za něco maminka nepochválila a ono to na něj dost pravděpodobně bude působit. Což je vlastně oblast, která souvisí s mým původním oborem, protože já jsem studovala automatizované rozpoznávání emocí. Pomáhá mi to ale i v současném oboru, kdy musíme rozpoznat stupeň agrese. Podle toho, jak se člověk vyjadřuje, dokážeme odhadnout, jak bude v rámci vyšetřování spolupracovat, zda bude poddajný, nebo naopak nebezpečný vůči vyšetřovatelům.

 

Dovedu si představit, že to, o čem mluvíte, se dá zjistit z textu. Jak se to dá ale poznat z obrázků nebo jiných dat, která jste zmiňovala?

Třeba s obrázky nebo s videem se dá pracovat s pomocí trénovacích dat, která určí, že se na obrazu někdo třeba usmívá nebo mračí. A na základě toho, co na snímku je, se k němu přidá nějaký automatický popisek. A s jeho pomocí se už dá různě filtrovat a vyhledávat. Samozřejmě se to dát dělat opět manuálně, ale je to pomalé a pracné. Automatizace to hrozně urychlila.

 

Kapříci usnadní analýzu

Už jste naznačila, že se automatické zpracování dat dá použít třeba v kriminalistice. Kde všude jinde?

V nebyznysovém prostředí se zpracování emocí dá třeba využít pro ztotožňování a vyhledávání haterů a nenávistných projevů. Velké téma je také kyberšikana. Třeba když malým youtuberům někdo píše, že by se měli jít zabít, může to systém rychle odhalit právě s pomocí automatizace. A stejně to platí i u diskusí. Můžete u nich nasadit robota, který rozpozná, že se tam objevuje nějaká úroveň šikany v souvislosti třeba s tělesným handicapem, náboženstvím nebo rasou.

 

V byznysovém prostředí je to, předpokládám, také.

Firmy to pochopitelně využívají také. To použití je dominantní asi ve dvou oblastech. Oddělení ve firmě Deloitte, kde pracuji, se jmenuje Datová analytika a umělá inteligence a děláme i robotizaci a digitalizaci. Pomáháme firmám zajišťovat automatizaci práce, kterou nyní dělají lidé. Skoro každá firma má například zákaznické centrum, kde sedí jedna paní a čte e-maily, které pak pošle dál na příslušného zaměstnance. Ale my jsme schopni říct, jestli ji může nahradit „krabička“, která s pomocí trénovacích dat zastane levněji a rychleji stejnou práci. Nebo třeba banky provozují centra, kde někdo kontroluje, zda jim klient dodal správně naskenovaný občanský průkaz. I to se dá automatizovat. Chápu, že pro toho dotyčného může být stresující, že ho nahradí nějaký stroj. Ale na druhou stranu může dělat něco záživnějšího.

 

A ta druhá věc?

Ta se týká právě forenzní lingvistiky. Deloitte nabízí forenzní analýzu v souvislosti s audity. V jejich rámci se často naráží na otázku, zda se někdo nedopustil nějakého podvodného jednání. Například jsme řešili případ, kdy někdo odešel z konkrétní firmy a na kradeném know-how si založil vlastní společnost. A my jsme s pomocí analýzy e-mailů dokazovali, zda to tak bylo. A pak samozřejmě dokážeme odhalit třeba úplatky. Většina lidí si neuvědomuje, že jejich zaměstnavatel může vstupovat do jejich komunikace na firemních mailech. Takže my pak máme k dispozici firemní e-maily všech zaměstnanců, abychom dopředu někoho nevyděsili. Ale díky tak vysokému vzorku dat můžeme s pomocí automatizace zjistit dost věcí.

 

Nepomůže ani, když se používají třeba nějaká krycí slova? Třeba jako kapřík, což bylo označení pro úplatek ze známé fotbalové korupční kauzy?

Slangové nebo speciální výrazy jsou shodou okolnosti nejlepší. Je naopak na první pohled vidět, že jde o nějakou anomálii. Ti lidé se celou dobu baví o nějakých smlouvách a najednou je tam třeba sportovní terminologie. Říká se tomu „coding speech“, prostě ti lidé se snaží používat nějaký kódovací jazyk, ale vlastně nám analýzu textu dost usnadňují.

 

Jak hodně velký vzorek dat potřebujete pro podobný rozbor?

Záleží na tom, co potřebujete zjistit. Když potřebujeme jen ztotožnit někoho z okruhu podezřelých a máme k dispozici nějaký referenční text, který máme porovnat, tak obvykle stačí jiný dokument, který má kolem šesti set slov. Následně porovnáme oba dva texty a řekneme, s jakou pravděpodobností se jazyk shoduje. V důkazním řízení to sice nefunguje jako něco, na základě čeho by konkrétního člověka odsoudili, ale většinou jsou k tomu dokumentu i nějaká metadata. Z nich třeba dokážeme vyčíst, kde ten člověk seděl, byť říká něco jiného. Ale samozřejmě čím víc o tom člověku chceme vědět, tím víc záleží na délce textu, který máme k dispozici. Na základní jednoduché věci stačí i kratší rozsah, což ukázal třeba případ Theodora Kaczynského, jestli jste o něm slyšel.

 

Slyšel, ale uniká mi souvislost.

Forenzní lingvistiku proslavil právě případ Theodora Kaczynského (americký matematik, který od 70. let minulého století rozesílal po USA podomácku vyrobené bomby. Zabil tak celkem tři lidi, měl přezdívku Unabomber – pozn. red.). To, že jde o něj, rozpoznal až jeho bratr. Když totiž Kaczynski napsal manifest do novin, použil velmi specifické slovo z dětství, které používali mezi sebou jen on s bratrem. Zároveň k tomu měli vyšetřovatelé indicie, že ten člověk musí být z okolí Chicaga a že je hodně vzdělaný. A bratr si dal dohromady, že to bude asi Theodor.

 

 

V Česku se ale forenzní lingvistika nestuduje, ne?

Ne. Jako obor ji u nás není možné studovat, byť s automatizací zájem studentů hodně vzrostl. Ale neznamená to, že by se u nás forenzní lingvistika nedělala. Například na Kriminalistickém ústavu ji využívá paní doktorka Musilová. Bohužel ale pracuje pouze manuálně – představte si spíš, že třeba čte deníky zneužívaných dětí a hledá v nich důkazy a podobně. Automatizace se tam, pokud vím, nevyužívá.

 

Máte kuře v troubě

Mluvila jste o tom, co všechno lze z textu nebo audia poznat o jeho pisateli. Jak hodně lze poznat, zda lže, nebo mluví pravdu?

K tomu existují zajímavá data z výpovědí svědků a pak ze studií o mlčení. Zjistilo se například, že hodně záleží na tom, jak dlouho kdo váhá s odpovědí. Ti, kteří otáleli déle, byli často usvědčeni ze lži. Což se týká třeba i videozáznamů nebo audia. U textů můžu například zmínit trénovací data z dopisů na rozloučenou. Existuje nástroj, který je natrénovaný na autentických dopisech lidí, kteří spáchali sebevraždu, a vedle toho i na podvržených dopisech. A klasifikátor funguje následně tak, že když mu dáte nějaký nový text, řekne, s jakou pravděpodobností je ten dopis autentický. Vysledovali jsme například, že když lidé v psaném projevu lžou, používají kratší věty. Ty podvrhy byly jak z amerického filmu, ve stylu vět: „Odcházím, mám vás rád, mrzí mě to.“ A obecně v nich bylo víc pozitivních emocí. Zatímco ti, kteří se skutečně zabili, psali věty typu: „Na zítra máte kuře v troubě“ nebo „Ať si dcera zítra vezme do školky tyhle šaty“. Asi to není univerzální odpověď, zda umíme detekovat lež za všech okolností, ale pokud máme trénovací data, která se vztahují ke konkrétní doméně, tak se to celkem rozpoznat dá.

 

Bavíme se celou dobu o automatizaci, což souvisí hodně i s umělou inteligencí. Nedávno vzbudil zájem případ jazykového modelu LaMDA od Googlu, o němž jeho vývojář prohlásil, že dokáže vnímat sama sebe. Co si o tom myslíte?

Jsem k tomu skeptická. On sice ten vývojář oznámil, že LaMDA nabyla vědomí, protože podle něj projevila emoce, ale osobně si myslím, že šlo spíš jen o naučené fráze v reakci na určitý jazykový kontext. Prostě věděla, kdy má říct, že je jí něco líto, ale neví, co to lítost je. A ten vývojář zároveň věděl, jak se jí ptát. Kdyby totiž rozhovor vedl někdo jiný a ptal se na náhodné věci, dopadlo by to nejspíš jinak. Ale faktem je, že by LaMDA asi hravě prošla přes Turingův test, který se používá pro rozlišení, zda je na druhé straně konverzace člověk, nebo stroj. Docela bych proto zpochybnila, zda je tento test v době neuronových sítí dostačující. Byl ostatně překonán poprvé už v roce 2014. Bude muset proto vzniknout asi nějaký nový způsob, jak máme tohle testovat.

 

 

Reklama
Advertisement
Reklama
Reklama

Sdílení

Reklama

Podpořte nezávislou žurnalistiku

I díky Vám mohou vznikat finančně náročné texty a reportáže v magazínu Reportér.

200 Kč 500 Kč 1000 Kč Jiná částka

On-line platby zajišťuje nadace Via a její služba darujme.cz

Reklama
Advertisement
Reklama
Advertisement