Computer wekt dode taal tot leven
Dankzij kunstmatige intelligentie kunnen computers teksten vertalen zonder te weten wat de inhoud betekent. Met enkele trucs werkt dat zelfs bij dode talen. Door de vooruitgang op het gebied van machinelearning kunnen teksten tegenwoordig automatisch vertaald worden. Daar is wel een grote database met voorbeelden voor nodig, aan de hand waarvan een computer de structuur van een taal kan leren.
Technology Review bericht dat een team van wetenschappers rond Jiaming Luo van MIT hebben aangetoond dat de onderliggende principes ook zinvol kunnen worden toegepast als er veel minder bronmateriaal beschikbaar is. Met behulp van een computer kon het team teksten in twee talen ontsleutelen die al eeuwen niet meer gesproken worden. De eerste taal waar naar gekeken werd, is Lineair B, een archaïsche vorm van oudGrieks die in de 19e eeuw werd ontdekt in Kreta door archeoloog Arthur Evans. De taal werd uiteindelijk pas in 1953 door amateurlinguïst Michael Ventris ontcijferd. Wat hij heeft gepresteerd, is nu ook door een computer volbracht. Naast die taal ontcijferde het team met een computer ook de Ugaritische taal, een voorloper van het Arabisch, Aramees en Hebreeuws.
Bij normale machinegebaseerde vertalingen worden individuele woorden aan de hand van hun frequentie en positie ten opzichte van andere woorden als vectoren in een parameterruimte gedefinieerd. Het vertalen van zinnen verloopt vervolgens door overeenkomstige paden te zoeken die zich in de parameterruimte bevinden.
De wetenschappers omzeilden de noodzaak om eerst te trainen aan de hand van grote hoeveelheden tekst, door de informatie over een al wel bekende aanverwante taal te incorporeren, samen met taalevolutie in het algemeen.
Het grote voordeel aan machinegebaseerd vertalen is dat je snel met de ene na de andere taal kunt testen. Op die manier kan een taal met ‘brute force’ worden vergeleken met alle talen waar al machinevertalingen voor zijn. Mocht dat resultaat opleveren, dan zou dat opzienbarende inzichten kunnen opleveren.