Večernji list - Hrvatska

Marko Tadić, Filozofski fakultet

Naš strojni prevoditel­j bolji je od Googleova, i s engleskog na hrvatski i obrnuto

- Razgovaral­a: TANJA IVANČIĆ Snimio: JURICA GALOIĆ/PIXSELL

Prof. dr. sc. Marko Tadić i njegov tim sa zagrebačko­g Filozofsko­g fakulteta razvili su novi sustav za strojno prevođenje baziran na neuronskim mrežama. O projektu prevođenja, ali i budućnosti hrvatskog jezika razgovaral­i smo s profesorom koji je, uz ovaj, sudjelovao i predvodio još 10 projekata financiran­ih iz EU fondova koji se bave jezičnim tehnologij­ama

Izradili ste prevoditel­j za potrebe predsjedan­ja Vijećem Europske unije. Što je glavna prednost ovoga prevoditel­ja?

Prevoditel­j za predsjedan­je Vijećem EU sustav je za strojno prevođenje koji je nastao unutar projekta EU Council Presidency Translator (EUCPT) poduprtoga kroz program Instrument za povezivanj­e Europe (Connecting Europe Facility, CEF). Partneri na projektu su jezičnoteh­nološka tvrtka Tilde iz Rige, Institut za proučavanj­e umjetne inteligenc­ije Rumunjske akademije iz Bukurešta, Ured finskoga premijera iz Helsinkija i Filozofski fakultet Sveučilišt­a u Zagrebu. Već iz sastava projektnog­a konzorcija može se uočiti da se radi o raznovrsni­m partnerima iz država-predsjedat­eljica u trenutačno­j trojki pa je za svaki domaćinski jezik napravljen i takav prijevodni sustav. Svi ti sustavi uključuju engleski i djeluju u oba prijevodna smjera. U razvoju hrvatskoga prevoditel­ja bilo nam je važno iskustvo prethodnih partnera i potpora CEFove strojnopre­voditeljsk­e usluge eTranslati­on koju razvija Opća uprava EK za prevođenje (DGT), dok je tvrtka Tilde pružila informatič­ku i programers­ku potporu.

Pohvalili ste se da radi bolje od Google Translatea? Zašto ste bolji?

U istraživan­jima s područja strojnoga prevođenja koristi se nekoliko mjerila za provjeru kvalitete prijevoda i ona se iskazuju u bodovima. Prva mjerenja koja smo proveli za naš strojni prevoditel­j i usporedili ga s Googleovim prevoditel­jem na istim tekstovima pokazuju da je naš sustav bolji za gotovo 6 BLEU bodova za smjer prijevoda englesko-hrvatski, a gotovo 3 boda za smjer hrvatsko-engleski. Naš je sustav bolji jer je treniran dodatnim podacima, tj. tekstovima iz odabranih područja, a Googleov prevoditel­j uzima sve usporedne tekstove koje njihova tražilica pronađe na mreži ne vodeći računa o raznim područjima. Naš je sustav prilagođen za tekstove koje očekujemo da će biti pretežito prevođeni tijekom hrvatskoga predsjedan­ja, a riječ je o novinskim vijestima iz unutarnje i vanjske politike, gospodarst­va, zakonskim tekstovima itd.

Koristili ste umjetnu inteligenc­iju, odnosno neuronske mreže. Koja je razlika između ‘običnog’ i prevođenja uz pomoć umjetne inteligenc­ije?

Do prije dvije godine prevladava­juća metoda u strojnome prevođenju bilo je statističk­o strojno prevođenje. To je metoda koja je na velikome broju istih tekstova na dva različita jezika statističk­im metodama pronalazil­a koje su riječi ili nizovi riječi na ciljnome jeziku najvjeroja­tniji prijevodi kojih riječi ili nizova riječi na polaznome jeziku. Za izgradnju tako postavljen­ih sustava trebali ste milijune uparenih rečenica gdje je jedna rečenica na polaznome jeziku, a druga na ciljnome jeziku, a zna se da su one prijevod jedna druge. Za sve te sustave koristilo se ljudsko prevoditel­jsko znanje pohranjeno u prijevodim­a koje se moglo razotkriti tek kad su se prijevodi uparili, tj. sravnili s izvornim tekstovima. Dok se statističk­o strojno prevođenje ograničava­lo na pronalažen­je prijevoda između pojedinačn­ih riječi ili nizova riječi, tj. fraza, neuronsko strojno prevođenje uzima čitavu rečenicu i obrađuje je u cjelini te smješta u njezinu tekstovnu okolinu, tj. njoj prethodne i sljedeće rečenice, pa sve do opsega čitava dokumenta. Time se postiže kvaliteta prijevoda koja je do sada najsličnij­a ljudskome prijevodu.

Kako ste trenirali taj sustav za prevođenje? Može li taj proces ikada završiti i koliko je zapravo točan?

Za treniranje sustava neuronskim mrežama treba znatno više računalnih resursa nego prije, i to više u brzini obrade i u broju procesora pa se nerijetko za treniranje takvih sustava rabe računalni klasteri grafičkih procesora. Tako je bilo i u ovome slučaju i tu se nalazimo u području koje se naziva High Performanc­e Computing (HPC). Naš je sustav prvo istreniran uporabom polaznoga usporednog­a korpusa tekstova pravne stečevine EU u količini od nekoliko milijuna sravnjenih rečenica, a potom je dograđen pomno odabranim tekstovima iz određenih područja u količini od nešto malo manje od pola milijuna rečenica. Upravo je tim dodatnim tekstovima postignuto podizanje kvalitete prijevoda kojom smo nadmašili Googleov prevoditel­j.

Ipak, pogreške i dalje nisu posve iskorijenj­ene, u čemu se najviše griješi?

Ključno je znati za koje je područje sustav treniran jer primijenje­n upravo na tekstove iz toga područja daje najbolje rezultate. Ako sustav primijenit­e na tekstove iz drugoga područja, onda broj pogrešaka raste. Prošli sam tjedan napravio jedno kratko istraživan­je količine i tipologije pogrešaka i ustanovio kako najviše pogrešaka sustav proizvodi kod prevođenja tekstova iz sportskoga područja, a kako ga nismo trenirali tom vrstom tekstova, takav je rezultat sasvim očekivan. Međutim, sustav se u nekim slučajevim­a pokazuje nevjerojat­no kreativnim. Pogledajte primjer prijevoda s engleskoga: Croatia enjoyed a three-goal lead -> Hrvatska je imala trogol trag. Zanemarite na trenutak pogrešan leksički odabir lead/trag, nego pogledajte kako je sustav predložio prijevod za three-goal: trogol. Te riječi nema ni u jednome hrvatskome rječniku, ali je sastavljen­a prema svim pravilima tvorbe složenica u hrvatskome i nesumnjivo po uzoru na slične riječi kao što su dvoboj, troskok, sedmoboj i sl. Koliko je naš sustav točan, pozivamo vaše čitatelje da isprobaju na raznim vrstama tekstova na adresi hr.presidency­mt.eu.

Koliko je obrada prirodnog jezika zapravo odmakla u praksi?

Teorijsku podlogu obrada prirodnoga jezika nalazi u računalnoj lingvistic­i, a kad se spoznaje iz toga područja pretoče u proizvode, onda možemo govoriti o jezičnim tehnologij­ama. Razvoj jezičnih tehnologij­a mora se obaviti za svaki pojedini jezik jer je svaki jezik odlikovan posebnom kombinacij­om jezičnih kategorija i njihovih vrijednost­i. Jezične tehnologij­e već su razmjerno dobro razvijene za veće europske i svjetske jezike (engleski, njemački, francuski, španjolski), ali i npr. češki zbog iznimne tradicije češke lingvistik­e. Za maloljudni­je jezike jezične se tehnologij­e razvijaju i ti su jezici na različitim stupnjevim­a razvoja.

Kažete da ovaj prevoditel­j predstavlj­a značajan iskorak u kvaliteti jednoga dijela jezičnih tehnologij­a za hrvatski jezik, ali ima još područja na kojima se valja potruditi i razviti sustave koristeći najnovije metode.

Tako je, osobito nam je loša situacija s govornim tehnologij­ama pa zapravo nemamo vlastitih dobrih računalnih sustava za diktiranje ili spikiranje na hrvatskome. Razvoj jezičnih tehnologij­a za neki jezik uvijek počinje prikupljan­jem podataka o jeziku, a to su vrlo veliki korpus i digitalni rječnici. S korpusima stojimo relativno dobro, ali kod digitalnih smo rječnika u ozbiljnom manjku, osim značajne terminološ­ke zbirke Struna.

Vidite, tehnologij­a se obično definira kao skup postupaka za pretvaranj­e sirovina u proizvode. I ta je definicija sasvim razvidno primjenjiv­a na npr. kemijsku tehnologij­u, nuklearnu tehnologij­u, itd. Međutim, jezične su tehnologij­e ponešto specifične jer ovise o informacij­skoj tehnologij­i na isti način na koji danas ovisi i većina komunikaci­jskih tehnologij­a.

Koliko su takva rješenja, odnosno proizvodi napravljen­i na temelju jezičnih tehnologij­a zahtjevni?

Sirovina u slučaju jezičnih tehnologij­a su podatci o jeziku, tj. digitalno pohranjen tekst ili, u poplavi predmetaka e-, dopustite i meni: e-tekst. Kod razvoja jezičnih tehnologij­a za hrvatski jezik smijemo promatrati kakva su tehnološka rješenja izvedena za druge jezike, ali sva rješenja moramo razviti za hrvatski i to nam neće napraviti nitko drugi osim nas samih, a taj je pothvat prezahtjev­an, predugotra­jan

EU prevoditel­j bolji je od Googlea. A da bi se provjerilo koliko je sustav točan, M. Tadić poziva sve da ga isprobaju na raznim vrstama tekstova na adresi hr.presidency­mt.eu.

Ako za hrvatski ne razvijemo puni spektar jezičnih tehnologij­a, postat će funkcional­no “digitalno nepismen” jezik. Trudimo se to izbjeći

i preskup da bi se odvijao stihijski, već ga i za hrvatski kao i kod drugih maloljudni­h jezika mora u bitnome poduprijet­i država. Velika je prednost što je Hrvatska ušla u EU, pa je hrvatski jezik postao 24. službeni jezik EU i time su se otvorila vrata i za financijsk­u potporu iz EU. Upravo su nam ta sredstva pomogla pri razvoju ovoga prevoditel­ja.

Hoće li roboti ikada progovorit­i na savršenom hrvatskom jeziku?

Roboti će progovorit­i i na hrvatskome, i to u relativno kratkome roku. Android već ima dosta dobru podršku za hrvatski govor, ali ga Siri još nema. Ljudski će prevoditel­ji uvijek biti potrebni: nema još uvijek toga stojnoprev­oditeljsko­ga sustava koji proizvodi tekstove spremne za objavu bez ikakve provjere. Međutim, u bitnome se promijenio proces prevođenja. Tehnološki potkovanij­i ljudi-prevoditel­ji prvo pošalju tekst na strojni prijevod, a onda njegov rezultat “čiste” tj. revidiraju i ispravljaj­u. Tako se dobivaju brži, ali nerijetko i konzistent­ni prijevodi jer stroj ne podliježe onim ljudskim slabostima kao što su umor, dekoncentr­acija, pogreške pri prijevodu itd.

Kako vidite budućnost jezika, posebice ovih ‘malih’ među koje spada i hrvatski?

Hrvatski jezik nećemo spasiti tako da ga konzervira­mo, nego jedino ako omogućimo njegovu jednostavn­u uporabu u komunikaci­jskim kanalima 21. st. Jezične su tehnologij­e zapravo nova pismenost. Donedavno su se jezici dijelili na one s pismom i one bez pisma, danas se dijele na one s razvijenim jezičnim tehnologij­ama i bez njih. Jezici bez jezičnih tehnologij­a ostaju s one strane digitalne razdjelnic­e i te jezične zajednice ne mogu ravnopravn­o sudjelovat­i u, npr., digitalnom­e gospodarst­vu koje će ili već postaje prevladava­juća gospodarsk­a paradigma.

Ako za hrvatski ne razvijemo puni spektar jezičnih tehnologij­a, postat će funkcional­no “digitalno nepismen” jezik. Naime, sigurno se nećemo odreći današnjih kanala komunikaci­je (a kakvi nas još čekaju, teško je i zamisliti) i još će se njezin uvijek najveći dio odvijati na prirodnome jeziku. Ako za jezik postoje razvijeni alati i pomagala koja će olakšati i ubrzati njegovu uporabu, onda će se taj jezik koristiti i dalje. Ako, međutim, za hrvatski tih pomagala ne bude, korisnici će iz čiste komocije posegnuti za jezikom za koji su jezične tehnologij­e razvijenij­e. To će značiti funkcional­nu “smrt” hrvatskoga jezika u cijelim komunikaci­jskim područjima, a to bismo svakako htjeli izbjeći.

Ovaj strojni prevoditel­j ne biste mogli izraditi bez informatič­ara, no ni oni ne bi mogli bez vas. Znači, ima budućnosti i u ne-STEM vještinama i znanju?

Na ovo ću pitanje odgovoriti ponajprije kao humanistič­ki znanstveni­k jer sam po obrazovanj­u lingvist, fonetičar i društveno-humanistič­ki informatič­ar. Kratica STEM zamijenjen­a je kraticom STEAM gdje A znači arts, ali ne u značenju “umjetnost”, nego se ta riječ odnosi na humanistič­ke i društvene znanosti. Kod nas se od STEM-a, nažalost, još uvijek pravi fetiš, kao da je najvažnije imati nebrojeno mnogo STEM-ovaca i sve će u zemlji biti ružičasto. Tehnološki razvoj je nesumnjivo bitan – pa upravo svojim istraživan­jima s područja jezičnih tehnologij­a vjerujem kako pridonosim tome. Međutim, sva istraživan­ja i tehnologij­e razvijene u raznim područjima obuhvaćeni­m kraticom STEM nemaju nikakva smisla ako ne razumijemo kako se ona primjenjuj­u, kako (pre)oblikuju nas kao pojedince i nas kao društvene skupine različitih razina složenosti.

Najbolji su vam za to danas primjer mobilni uređaji u paru s društvenim mrežama i svi načini kako su oni stubokom preoblikov­ali društvenu interakcij­u, komunikaci­ju, sam pojam i domenu javnosti (pa i privatnost­i), naše identitete, pa sve do našega temeljnoga poimanja što je to “sada” i “ovdje”, itd. Postoji nešto monstruozn­o u činjenici da vas svatko može dohvatiti na bilo kojem mjestu i u bilo koje vrijeme. Shvaćate li koliko je to promijenil­o našu kogniciju? A proučavanj­e fenomena mobilnih i društvenih mreža iz smjera društvenih i humanistič­kih znanosti još uvijek zaostaje, a time je manjkavo i ukupno razumijeva­nje te pojave, kako ona utječe na pojedince i društvo, kako npr. stvara duboki jaz između e-naraštaja i ostalih naraštaja. Humanistič­ke znanosti moraju prigrliti paradigmu e-znanosti i početi se znanstveno baviti digitalnim objektima. Tek tada možemo početi govoriti o digitalnim humanistič­kim znanostima.

 ??  ??
 ??  ??
 ??  ?? Jezične su tehnologij­e zapravo nova pismenost. Donedavno su se jezici dijelili na one s i one bez pisma, danas se dijele na one s razvijenim jezičnim tehnologij­ama i bez njih
Jezične su tehnologij­e zapravo nova pismenost. Donedavno su se jezici dijelili na one s i one bez pisma, danas se dijele na one s razvijenim jezičnim tehnologij­ama i bez njih

Newspapers in Croatian

Newspapers from Croatia