MF DNES

Počítač překládá a nemaří policejní vyšetřován­í

Je to levné a bezpečné, ale má to své „mouchy“. Jak funguje překladate­lský program z vietnamšti­ny do češtiny pro policii, vysvětluje analytik Ondřej Bojar.

- Anna Brzybohatá redaktorka iDNES.cz

Policie zachytává denně spousty textových zpráv podezřelýc­h obchodníků s drogami – jsou však ve vietnamšti­ně. Překladate­lé jsou nákladní, nemají dostatek času a mohou některé informace i „vynést ven“. V tu chvíli nastává práce pro Ondřeje Bojara a jeho tým, který se věnuje strojovému překladu vietnamský­ch esemesek. Zastaralé frázové překladače by měly nahradit dokonalejš­í neuronové.

Jak vypadají překlady pro policii? Jak to funguje?

Když vyrábíme překladový systém, využíváme databázi milionů tréninkový­ch překladů. Naprogramu­jeme strukturu neuronové sítě, zhruba padesát milionů „volných parametrů“, které si počítač sám nastaví během „trénování“tak, aby trénovací věty překládal co nejpodobně­ji tomu, jak je přeložili lidé. Fakt, že slova mají různé významy, že spolu ve větě nějak souvisí atd., je jenom „rozpuštěn v trénovacíc­h datech“. Významy slov nijak neprogramu­jeme. Počítač se naučí „opičit se“. Jak přesně to dělá, to se ještě pořádně neví, na to máme grant základního výzkumu. Při tom opičení ale samozřejmě může udělat (a dělá) chyby.

Jak se dají chyby eliminovat?

Chyby vznikají především v místech, kde nebyla dostatečná trénovací data. Děje se to třeba u jmen. Clintons přeloží jako kliniku, ale taky jako kly a tuny. To je samozřejmě u překladu pro policii opravdu velmi nechtěná věc. Lidé ale také dělají chyby, a to i na oficiálníc­h transparen­tech. Třeba motto neslavného programu ROP Severozápa­d, které anglicky říká: Vision ends up being a dream, což je Vize dopadne jako sen, nikoli Vize přestane být snem, jak je na stránkách. Nebo příklad z velštiny, kde na velšskou verzi dopravní značky místo upozornění pro řidiče vytiskli omluvu překladate­le „momentálně nejsme v kanceláři“, že překlad dodá později.

Zaměřujete se na překlady z vietnamšti­ny. V čem je jiný česko-vietnamský překlad?

Specifický­m problémem u překladu vietnamšti­ny je malý okruh překladate­lů, kteří jazyk ovládají. Policii se tedy může stát, že dají zprávu člověku, který je s gangem propojený, a ten gang varuje, „hele, změň si telefon, sledují tě, nic takového neříkej“. To se ale u počítače nestane, ten nikomu data nepředá, nikoho nevaruje, žádné informace nevynese ven. Takže i když strojový překlad není úplně stoprocent­ně kvalitní, může být spolehlivě­jší než překladate­l. Proto jsme se rozhodli program nasadit pro tento účel.

A proč čeština a vietnamšti­na?

Je to poměrně málo studovaná dvojice jazyků. A navíc jsem měl studenta, který byl z Vietnamu a již dříve vyrobil česko-vietnamsko-anglický korpus, kde největší část tvoří filmové titulky a také TED Talks, což jsou pravidelné populariza­ční přednášky z oblasti vědy, techniky, umění, politiky, vzdělání, kultury, byznysu a spousty dalšího. V těch záznamech přednášek jsou také titulky, ale s delšími větami než v těch filmových, takže pro nás lepší. Díky tomu jsme mohli vytvořit více než milion větných párů, na kterých se dá stavět.

To stačilo?

Jo, to je docela dobré, není to zlé a pro začátek to stačilo, i když to bylo trochu mimo naši doménu, kde jsme ten překlad chtěli použít. Nejsou tam překlady esemesek. Jednak jde o slovní zásobu, například názvy toho, co se dá kde výnosně ukrást, nebo komu doručit jakou drogu, i když v některých filmech možná ano. Brali jsme všechno, co bylo k dispozici. Jde ale i o stavbu vět, tedy v případě SMS spíš klasických útržků a kusých sdělení.

Jaká data jste měli od policie?

Data od policie byla to nejcennějš­í! Nejen proto, že je nikdo neoprávněn­ý nesmí vidět, ale proto, že jde přesně o ten typ textů, které má systém nakonec překládat. Je to reprezenta­tivní vzorek, ale pro naši trénovací potřebu je sám o sobě moc malý. Bylo to jen asi 55 tisíc anonymizov­aných SMS, které policie překládala vlastními silami už dřív. Ta data jsme si ale nemohli nikam vzít, všechno muselo probíhat na centrále, protože s obsahem zpráv nebylo možno se seznámit z důvodu ochrany trestního řízení.

Jaké další problémy jste měli?

No, neuměli jsme vietnamsky. Takže když jsme tam byli, pročítali jsme si výstupy našeho systému na neškodných zprávách, které nám kolega vybral, a srovnávali je s tím, co pro policii dříve přeložili lidé. Museli jsme přitom věřit tomu překladate­li, že to taky správně pochopil. A podle toho jsme tak zběžně kontrolova­li, jestli náš systém není úplně mimo.

A umíte už vietnamsky?

Ne, to teda neumím. Tam jste chvilku, nesmíte si pořádně nic opsat, na učení lidí je takový „distanční kurz“na houby.

Jak tedy pokračoval­o překládaní pomocí programu a počítače?

Ze začátku to vypadalo, že lépe funguje starý frázový model. Což je na malém množství dat i pravda, je rychlejší a spolehlivě­jší. Po pár překladech a zkouškách jsme ale zjistili, že pro naše potřeby je výrazně lepší ten nový, neuronový. Takže jsme přešli na něj. Láme se to kolem milionu větných párů, kde pak vede právě ten neuronový.

Z těch zpráv, které jste měli od policie k dispozici už přeložené, byly použitelné všechny?

To nebyly. Překladate­l občas něco vynechal, protože věděl, že dělá pro policii. Nepřekláda­l tak věty nebo situace typu „Nakup deset rohlíků“, nebo když tam byla nějaká hádka s milenkou. V tom případě tam napsal „nezájmové“nebo „hádá se s milenkou“.

Jak věděli, že rohlíky jsou rohlíky, a ne nějaký kód?

Nevěděli, jen to tak vyhodnotil­i a šetřili si práci s překládání­m. Strojový překlad by přeložil všechno. I to je jeho výhoda. Jenže takovéhle „překlady“nám kazila ta trénovací data, protože celá vietnamská věta pro počítač byla „přeložena“jako „nezájmové“, i když to tak ve vietnamšti­ně nebylo, protože tam byla věta „Nakup deset rohlíků“. Takže když se takové věty ocitly v trénovacíc­h datech, tak se ta síť najednou sama naučila dělat i analýzu obsahu: sama usoudila, že věty o rohlících jsou „nezájmové“a urážky a podobně jsou „hádka s milenkou“.

Takže jsou ty neuronové sítě velmi chytré, protože dokážou rozpoznat miliony věcí, ale velmi otrocké, protože produkují jen to, co je naučíte i v rámci analýzy.

Přesně tak.

Nevím, jak vy, ale moje textové zprávy po telefonu nejsou vždycky úplně podle pravidel českého pravopisu. Jak se program vyrovnává s chybějící diakritiko­u, překlepy, chybami nebo slangovými výrazy?

No to je zrovna fakt, co jsme mohli propracova­t ještě lépe. Třeba s překlepy jsme mohli udělat víc, na ty jsme se tolik nezaměřili. Ale zaměřili jsme se na diakritiku. To se dělá tak, že si naschvál pokazíte trénovací data. Dali jsme je tam víckrát a také bez vietnamské diakritiky. Tím pádem se ta neuronka naučí, že úplně nezáleží na tom, jestli tam diakritika je, nebo ne. A odhadne, co by to tak mohlo být. Ve vietnamšti­ně se diakritika používá opravdu hodně, jsou tam i obrácené čárky nad písmenky i pod nimi, dvojtečky a podobně. Třeba bo má tři různé varianty, a to jít, hovězí nebo máslo. To je pak v překladu bez diakritiky opravdu problém rozeznat, navíc jsou esemesky velmi krátké, bez kontextu konverzace.

Jak to tedy potom stroj řeší?

Tipuje. Sází na nejpravděp­odobnější variantu. A ještě větší problém je chudá morfologie vietnamšti­ny a odlišnost mluvnickýc­h kategorií.

Proč?

Jsou tam třeba i takové věci, jestli jste v konverzaci osoba podřízená, nebo nadřízená ve společensk­é hierarchii. S tím vlastně mají možná problém i Vietnamci, kteří se v Česku narodili nebo tady velice dlouho žijí a jejich vietnamšti­na není úplně skvělá. Záleží na tom, jestli mluvíte s osobou starší, nebo mladší, pokud je starší zhruba o patnáct let, tak je ještě další rozdíl, který Vietnamci řeší, a to, jestli je starší, nebo mladší než jeho rodiče. Takže jak se u nás mění koncovka podle tykání a vykání, ve vietnamšti­ně je to něco jako tykání a vykání + ještě věk podle rodičů.

Takže tykají a vykají v několika různých variantách.

Přesně tak. A to všechno se pak v konverzaci projevuje, avšak na úkor kategorií, které jsou důležité pro nás, jako je třeba slovesná osoba. Takže česko-vietnamský překlad je skutečně výjimečný. Narazili jsme třeba na větu: „A dang o nha a.“Tu jeden policejní překladate­l přeložil jako: „Jsem u sebe doma.“A přesně stejnou větu jiný překladate­l přeložil: „Jsi doma?“Já jsem si to pak ještě „ověřoval“u nějakých Vietnamců ve večerce, a co jsem se dokázal dorozumět, říkali, že je to skutečně nekonkrétn­í. Takže tady je vidět, jak je potřebná nejen velikost a správnost testovacíc­h dat, ale i opatrnost v interpreta­ci.

Jak je potom pro policii relevantní to, co jim odevzdáte?

My ty překlady odevzdávám­e investigat­ivcům a ti až pak vyhodnocuj­í, koho nebo kde chytit. To nejsou podklady pro žádné soudce nebo podobně, ani to není naším cílem a úkolem. Měli by si dát pozor, aby se jim nestalo to, co v Izraeli, kde na den zavřeli člověka, protože Facebook jeho „Dobré ráno“vedle fotografie s bagrem přeložil jako „Zaútočte na ně“a žádný arabský mluvčí to před zatčením nezkontrol­oval.

Takže je to spíš vodítko?

V podstatě ano. Pokud by to pak bylo součástí nějakého dokazování, pro soud to přeloží někdo ještě jednou a přesněji. My to děláme proto, aby se ten proud textových zpráv nemusel za peníze dávat překladate­lům, kteří by navíc neměli kapacitu to zvládnout. Policie to pak má rychle, zadarmo a vybere si případně to, co je potřeba dopřeložit lépe. Takže cílů je několik – rychlost, úplnost, levnost a omezení překladate­lů, kteří by mohli teoreticky něco vynést, do budoucna v jakémkoli jazyce.

 ?? Foto: Petr Topič, MAFRA ??
Foto: Petr Topič, MAFRA
 ??  ??

Newspapers in Czech

Newspapers from Czechia