Proyecto Rosetta
El origen de los sistemas de traducción automática se remonta a la guerra fría, cuando EE.UU. quiso descifrar mensajes soviéticos
Los sistemas de traducción automática, como el de Google, son el último capítulo de una serie de logros en investigación del procesamiento natural del lenguaje y la lingüística computacional que se iniciaron hace décadas. Las ansias por conseguir la versión universal de la piedra de Rosetta comenzaron con una motivación militar durante la guerra fría, cuando Estados Unidos estaba preocupado por entender los mensajes de la Unión Soviética.
En aquellos años, el gobierno estadounidense invirtió mucho dinero para conseguir traducciones automáticas del ruso al inglés, pero tuvieron poco éxito por la poca potencia computacional de la época. “Básicamente eran diccionarios”, comenta Toni Badia, del grupo de investigación de procesamiento de lenguaje natural de la Universitat Pompeu Fabra (UPF). El comité asesor de procesamiento automático del lenguaje de la Casa Blanca frenó las inversiones después de determinar que las traducciones automáticas aún estaban lejos de conseguirse.
También algunas grandes empresas tenían interés por la traducción automática al tratarse de un sector emergente que les podía abrir camino hacia nuevos mercados. Uno de los primeros sistemas que se comercializó fue el Systran, que establecía una equivalencia directa de un idioma a otro a partir de datos. Esta marca, nacida a finales de los años sesenta, es hoy una de las más veteranas de la traducción automática.
El lingüista Noam Chomsky, del Instituto de Tecnología de Massachusetts (MIT, por sus siglas en inglés), revolucionó el campo de los sistemas de traducción al introducir el concepto moderno de sintaxis, la parte de la gramática que analiza cómo se estructuran las palabras en las frases. Hasta entonces sólo se había tenido en cuenta la morfología y la semántica. “Eran sistemas muy costosos –relata Badia–. Visto ahora, todo era muy pedestre”. No obstante, el sistema de traducción automática basado en la sintaxis continúa siendo válido para traducir entre lenguas similares, como el castellano y el catalán.
La evolución de los sistemas de traducción automáticos ha ido en paralelo con la de los ordenadores e internet. De repente, las máquinas tuvieron acceso a una ingente cantidad de documentos y a sus equivalentes en otras lenguas, como las actas de parlamentos multilingües. Esta base de datos permitió que los investigadores crearan nuevos algoritmos y un sistema de probabilidades para mejorar las traducciones. Así, la era digital contribuyó al nacimiento de un nuevo método, basado en la estadística. Pero el gran salto de las traducciones automáticas llegaría en el 2014 con los nuevos sistemas basados en redes neuronales: unas máquinas con mucha capacidad computacional que aprenden de traducciones, gracias a nuevas técnicas matemáticas que comprimen los datos y hacen emerger relaciones entre palabras inéditas.
“El sistema traduce sin necesidad de tener la equivalencia, como nosotros traducimos sin necesidad del original”, compara José Adrián R. Fonollosa, investigador de la Universitat Politécnica de Catalunya (UPC), aunque añade que una máquina necesita muchos más datos que una persona para aprender al no tener un conocimiento sobre el mundo.
Por ejemplo, la máquina sabe que hay grupos de palabras que siempre aparecen en los mismos contextos, como los animales, los países o los políticos. “Parece que te entiendan, pero no te entienden. No saben lo que es el concepto de animal, lo saben porque aparece en un contexto”, remata Marta Ruiz Costa-Jussà, investigadora en la UPC.
El traductor de Google incorporó este sistema innovador de traducción hace dos años y se nota la diferencia con el anterior. No obstante, el sistema basado en redes neuronales también se alimenta de las potencialidades de los demás modelos, como el estadístico, para corregir algunos errores. “Piensa en los humanos, también consultamos el diccionario”, ejemplifica Fonollosa. En los próximos años, el gran reto será generalizar el aprendizaje automático de estos traductores. “Estamos en el inicio, seguro que habrá muchas más cosas que decir”, concluye Badia convencido sobre el futuro.
Las traducciones han mejorado por los avances en informática que permiten analizar gran cantidad de datos