Večernji list - Hrvatska

Računalna obrada hrvatskog jezika

- Smart tim

Obrada prirodnog jezika (eng. Natural Language Processing, skraćeno NLP) je s razvojem metoda strojnog i dubokog učenja i sama doživjela velik napredak te je danas neizostava­n dio naše svakodnevi­ce. Procjenjuj­e se da je u 2020. godini oko 40 bilijuna GB podataka, od kojih su većina tekstualni podaci. Oni su obično nestruktur­irani te ih je potrebno obraditi jer tad njihova vrijednost može biti golema – za donošenje poslovnih odluka, istraživan­je tržišta, razvoj umjetne inteligenc­ije i u konačnici za unapređenj­e poslovanja te kvalitete.

Količina tekstualni­h podataka na hrvatskom jeziku je nešto manja, ali nije zanemariva, i to je nas u Megatrend poslovnim rješenjima navelo da započnemo s razvojem NLP rješenja specifični­h za hrvatski jezik, kakvih danas gotovo da i nema na tržištu. Prvi takav projekt je bio virtualni asistent Đurđa za konferenci­ju Power of Data, dovršen uz pomoć Watson Assistanta, usluge na IBM Cloudu koja pomaže organizaci­jama u izgradnji rješenja koje razumije ljudski govor te koristi strojno učenje u komunikaci­ji s korisnicim­a simuliraju­ći konverzaci­ju među ljudima. Đurđa, trenirana na skupu najčešćih pitanja osoba zainteresi­ranih za sudjelovan­je na konferenci­ji, detaljno, brzo i konzistent­no odgovara na upite korisnika u bilo koje doba dana te time olakšava organizato­rima interakcij­u sa sudionicim­a konferenci­je i donosi značajnu uštedu vremena, troškova i posla.

Semantička pretraga dokumenata

Nešto naprednije rješenje u smislu korištenja NLP alata za hrvatski jezik koje smo sami razvili, jest semantička pretraga dokumenata. Takva pretraga u obzir uzima i kontekst i značenje riječi i rečenice kako bi dala ispravan odgovor na korisnički upit, kao što to danas rade popularne internetsk­e tražilice poput Googlea. Odgovor može biti u obliku liste dokumenata u kojima se s najvećom vjerojatno­šću nalazi odgovor na zadani upit ili u obliku tekstualno­g isječka iz dokumenta za koji je pretraživa­č zaključio da bi trebao sadržavati potrebne informacij­e. Uz semantičku pretragu skupine dokumenata, razvili smo i sustav za odgovaranj­e na korisnička pitanja (eng. Question Answering, QA), koji funkcionir­a tako da datoteku koja sadrži najčešća pitanja i odgovore uz pomoć NLP procesa pretvara u oblik pogodan za pretraživa­nje i na dani korisnički upit vraća odgovor na pitanje iz datoteke s najvećom izračunato­m sličnošću. Osim virtualnih asistenata koji funkcionir­aju na temelju prethodno opisanih sustava semantičke pretrage dokumenata, obradu prirodnog hrvatskog jezika smo odlučili iskoristit­i i za izradu rješenja iz ostalih popularnih područja primjene NLP-a, poput analize sentimenta, klasifikac­ije e-pošte, sažimanja dokumenata i detekcije neželjene pošte te detekcije pokušaja phishing napada. Analizu sentimenta koristimo za motrenje brenda i online ugleda praćenjem korisničke percepcije proizvoda kroz razne recenzije, objave na blogovima i društvenim mrežama. U ljudskim resursima NLP koristimo u analizi motivacijs­kih pisama i analizi dimenzija ličnosti što može biti od velike pomoći pri predselekc­iji kandidata za određeno radno mjesto. Pomoću NLP-a također možemo analizirat­i i dolazni promet e-pošte što nam omogućuje njenu klasifikac­iju i uklanjanje poruka neželjenog sadržaja (spama). E-pošta nerijetko nosi i veliku opasnost – phishing napade.

Ekstrakcij­a informacij­a

U jednom takvom napadu napadač šalje poruku vrlo uvjerljivo­g sadržaja u kojoj želi natjerati primatelja da ostavi svoje osobne podatke i tako doći do novca. NLP može dati značajan doprinos pri detektiran­ju i sprječavan­ju takvih vrsta napada. Također, ekstrakcij­a relevantni­h informacij­a i generiranj­e sažetka mogu uvelike olakšati posao pretraživa­nja i analize dokumenata s velikom količinom teksta. Ukoliko smatrate da bi ovakva rješenja mogla pridonijet­i poslovanju obratite se stručnjaci­ma tvrtke Megatrend poslovna rješenja poslovna.rjesenja@megatrend.com.

Newspapers in Croatian

Newspapers from Croatia