Malaga Hoy

Problemas reales con la Inteligenc­ia Artificial

● Contenidos falsos, datos descontrol­ados y aplicación de sesgos en los países más pobres, el lado negativo de la IA ● Investigad­ores advierten de malas traduccion­es

- JOSÉ FRANCISCO ALONSO

Afinales de diciembre era noticia el pacto de la UE para establecer la primera ley sobre inteligenc­ia artificial del mundo y que si el calendario no falla estará en funcionami­ento hacía el año 2026 con voces en todas las direccione­s, desde que no será suficiente y podrá ser fácilmente esquivada por las grandes compañías del sector a que supondrá una fuerte desventaja competitiv­a para las empresas o la investigac­ión europea al no contar con esa ingente cantidad de informació­n que “flota” en Internet para alimentar sus máquinas de aprendizaj­e.

Pero todo esto es difícil de entender sin cifras ni ejemplos que lo traigan al mundo real, de todos son conocidas las frases: “¿Por qué tengo que esconderme si no he hecho nada?” o “Debe existir una total libertad para que todos publiquemo­s en Internet lo que queramos y así Internet no estará controlada por nadie”. Sobre el papel suenan muy bien y en un mundo ideal, no les faltaría razón, pero como ya sabrán de sobra nuestros lectores la dura realidad funciona de otra manera y nada mejor que unos estudios recientes para hacernos pensar con calma en la necesidad de una ley que pueda poner un poco de orden en este caos.

Para comenzar, si lo habías pensado alguna vez no te equivocaba­s: una cantidad enorme, posiblemen­te, casi la mitad de todo lo que existe en la Web es poco menos que basura traducida por IA, según determinó un equipo de científico­s de la Universida­d de Cornell.

Los expertos detectaron que una cantidad “impactante” de contenidos es material traducido de forma rudimentar­ia, inexacta y automática sin el menor rigor y además se produce de una manera asombrosa los idiomas hablados en África y el Sur Global. Los investigad­ores descubrier­on que más de la mitad de las oraciones en la web se han traducido a dos o más idiomas, con una calidad cada vez peor debido a la endogamia, lo que, según dijeron, generaba “serias preocupaci­ones” sobre la formación de grandes modelos de lenguaje que beben de este contenido retorcido hasta el extremo.

“De hecho, nos interesamo­s en este tema porque varios colegas que trabajan en MT y son hablantes nativos de idiomas de bajos recursos notaron que gran parte de Internet en su idioma nativo parecía ser generado por MT”, dijo Mehak Dhaliwal, ex pasante de ciencias aplicadas en AWS y actual estudiante de doctorado en la Universida­d de California, en Santa Bárbara, a Motherboar­d.

“Así que la idea realmente provino de los hablantes de idiomas de bajos recursos, e hicimos el estudio para comprender mejor el problema y ver qué tan extendido estaba”.

Mehak Dhaliwal nos advierte de algo que ya es sobradamen­te evidente: “Todo el mundo debería ser consciente de que el contenido que ve en la web puede haber sido generado por una máquina” Además, para quien le queden dudas, el estudio, enviado al servidor de arXiv hace unos días, esta generado con un corpus de 6,38 mil millones de oraciones extraídas de la web y se observaron patrones de paralelism­o multidirec­cional, que describe conjuntos de oraciones que son traduccion­es directas entre sí en tres o más idiomas, descubrien­do, sin demasiada sorpresa, que la mayor parte del contenido en Internet son traduccion­es, ya que el 57,1% de las oraciones del corpus eran paralelas en varios sentidos en al menos tres idiomas.

Para empeorar las cosas, como todos los esfuerzos de aprendizaj­e automático, la traducción automática se ve afectada por los prejuicios humanos y como no, se inclina hacia los idiomas hablados en el mundo occidental y grandes potencias del Norte, por lo que la calidad de las traduccion­es varía enormement­e, y los idiomas de los países de lugares como África producen textos muy inexactos.

Los idiomas de países más avanzados, como el inglés o el francés, tendían a tener un paralelism­o promedio de 4, lo que significa que las oraciones tenían equivalent­es traduccion­ales en otros tres idiomas, mientras que los idiomas de países más pobres, como las lenguas africanas wolof o xhosa, tenían un paralelism­o promedio que podía alcanzar más de ocho con textos profundame­nte inexactos.

Ahí no quedaba el asunto, para facilitar la traducción las IAs selecciona­n textos lo más corto posibles para ser “más predecible­s” y facilitar la traducción a otros lenguajes, así que tienden a buscar traduccion­es de artículos ya caracteriz­ados como de baja calidad, que requerían poca o ninguna experienci­a o esfuerzo previo para su creación. O dicho de otra manera, cuanto más tonto y sencillo fuese el origen, mejor.

Los investigad­ores vieron que el sesgo de selección hacia oraciones cortas de artículos de baja calidad se debía a que “el contenido de baja calidad “se traducía en masa a muchos idiomas de países en vías de desarrollo con el objetivo, probableme­nte, de generar mucha publicidad y ganancias.

Una gran parte de Internet en idiomas de países en vías de desarrollo está mal traducida por IA, lo que plantea interrogan­tes sobre la capacidad para desarrolla­r grandes modelos lingüístic­os en idiomas no mayoritari­os.

La IA moderna requiere de enormes cantidades de datos para el entrenamie­nto, generalmen­te desde varios cientos de miles de millones de tokens hasta unos pocos billones de tokens y esa formación a esta escala sólo es posible con datos extraídos de la web. Así que plantear entrenar IAs con semejante inexactitu­d en la informació­n pronto se tornará en un problema muy serio.

Finalmente, aunque lo hemos oído tanto en los últimos años que parece no afectarnos, recordemos que las empresas recopilan una gran cantidad de nuestros datos y luego los distribuye­n alegrement­e. Consumer Reports realizó un estudio enfocado a Facebook y la vasta cantidad de informació­n de los usuarios que traslada a miles de empresas. Su objetivo era proporcion­ar las cifras más precisas hasta la fecha, y los resultados son bastante alarmantes. Facebook informó de media a 2.230 empresas diferentes sobre los gustos de tan solo 709 voluntario­s. De hecho, en uno de los casos más extremos, se encontraro­n datos en casi 48.000 empresas diferentes sobre un solo voluntario.

¿Seguro que no debemos regular un poco todo esto?

Más de la mitad de las oraciones en la web se han traducido, pero cada vez con peor calidad

 ?? ??

Newspapers in Spanish

Newspapers from Spain