Računalna obrada hrvatskog jezika

2020-11-25 - Smart tim

Obrada prirodnog jezika (eng. Natural Language Processing, skraćeno NLP) je s razvojem metoda strojnog i dubokog učenja i sama doživjela velik napredak te je danas neizostavan dio naše svakodnevice. Procjenjuje se da je u 2020. godini oko 40 bilijuna GB podataka, od kojih su većina tekstualni podaci. Oni su obično nestrukturirani te ih je potrebno obraditi jer tad njihova vrijednost može biti golema – za donošenje poslovnih odluka, istraživanje tržišta, razvoj umjetne inteligencije i u konačnici za unapređenje poslovanja te kvalitete.

Količina tekstualnih podataka na hrvatskom jeziku je nešto manja, ali nije zanemariva, i to je nas u Megatrend poslovnim rješenjima navelo da započnemo s razvojem NLP rješenja specifičnih za hrvatski jezik, kakvih danas gotovo da i nema na tržištu. Prvi takav projekt je bio virtualni asistent Đurđa za konferenciju Power of Data, dovršen uz pomoć Watson Assistanta, usluge na IBM Cloudu koja pomaže organizacijama u izgradnji rješenja koje razumije ljudski govor te koristi strojno učenje u komunikaciji s korisnicima simulirajući konverzaciju među ljudima. Đurđa, trenirana na skupu najčešćih pitanja osoba zainteresiranih za sudjelovanje na konferenciji, detaljno, brzo i konzistentno odgovara na upite korisnika u bilo koje doba dana te time olakšava organizatorima interakciju sa sudionicima konferencije i donosi značajnu uštedu vremena, troškova i posla.

Semantička pretraga dokumenata

Nešto naprednije rješenje u smislu korištenja NLP alata za hrvatski jezik koje smo sami razvili, jest semantička pretraga dokumenata. Takva pretraga u obzir uzima i kontekst i značenje riječi i rečenice kako bi dala ispravan odgovor na korisnički upit, kao što to danas rade popularne internetske tražilice poput Googlea. Odgovor može biti u obliku liste dokumenata u kojima se s najvećom vjerojatnošću nalazi odgovor na zadani upit ili u obliku tekstualnog isječka iz dokumenta za koji je pretraživač zaključio da bi trebao sadržavati potrebne informacije. Uz semantičku pretragu skupine dokumenata, razvili smo i sustav za odgovaranje na korisnička pitanja (eng. Question Answering, QA), koji funkcionira tako da datoteku koja sadrži najčešća pitanja i odgovore uz pomoć NLP procesa pretvara u oblik pogodan za pretraživanje i na dani korisnički upit vraća odgovor na pitanje iz datoteke s najvećom izračunatom sličnošću. Osim virtualnih asistenata koji funkcioniraju na temelju prethodno opisanih sustava semantičke pretrage dokumenata, obradu prirodnog hrvatskog jezika smo odlučili iskoristiti i za izradu rješenja iz ostalih popularnih područja primjene NLP-a, poput analize sentimenta, klasifikacije e-pošte, sažimanja dokumenata i detekcije neželjene pošte te detekcije pokušaja phishing napada. Analizu sentimenta koristimo za motrenje brenda i online ugleda praćenjem korisničke percepcije proizvoda kroz razne recenzije, objave na blogovima i društvenim mrežama. U ljudskim resursima NLP koristimo u analizi motivacijskih pisama i analizi dimenzija ličnosti što može biti od velike pomoći pri predselekciji kandidata za određeno radno mjesto. Pomoću NLP-a također možemo analizirati i dolazni promet e-pošte što nam omogućuje njenu klasifikaciju i uklanjanje poruka neželjenog sadržaja (spama). E-pošta nerijetko nosi i veliku opasnost – phishing napade.

Ekstrakcija informacija

U jednom takvom napadu napadač šalje poruku vrlo uvjerljivog sadržaja u kojoj želi natjerati primatelja da ostavi svoje osobne podatke i tako doći do novca. NLP može dati značajan doprinos pri detektiranju i sprječavanju takvih vrsta napada. Također, ekstrakcija relevantnih informacija i generiranje sažetka mogu uvelike olakšati posao pretraživanja i analize dokumenata s velikom količinom teksta. Ukoliko smatrate da bi ovakva rješenja mogla pridonijeti poslovanju obratite se stručnjacima tvrtke Megatrend poslovna rješenja poslovna.rjesenja@megatrend.com.

Računalna obrada hrvatskog jezika

Newspapers in Croatian

Newspapers from Croatia