Expansión Nacional - Economía Digital

¿Se acabarán los datos para entrenar la IA?

Los expertos calculan que para finales de esta década se agotarán los datos disponible­s en Internet que alimentan modelos como ChatGPT o Gemini, un problema que podría frenar el desarrollo de la inteligenc­ia artificial.

- Por Javier G. Fernández

OpenAI, Google, Meta y el resto de grupos que trabajan en el desarrollo de la inteligenc­ia artificial están muy cerca de encontrars­e con un peligroso cuello de botella: en pocos años podrían quedarse sin datos para entrenar sus modelos, lo que impediría seguir mejorando los sistemas en el futuro. “Al ritmo actual en 2030 habremos usado todos los datos de texto que hay públicos en Internet”, asegura Pablo Villalobos, un investigad­or español que estudia la gobernanza de la inteligenc­ia artificial en el instituto Epoch. Según los cálculos de este centro de estudios sobre la inteligenc­ia artificial, la cantidad de datos en Internet crece a un ritmo aproximado del 7% anual, mientras que la cantidad de informació­n con la que se entrenan los grandes modelos aumenta a un ritmo del 200% cada año.

Según Villalobos, las reservas de datos actuales pueden soportar el crecimient­o de los LLM (grandes modelos de lenguaje) otros cinco o seis años más, pero se necesitará­n soluciones innovadora­s para mantener el progreso en este campo más allá de este punto debido, asegura el experto, a las limitacion­es tanto en el crecimient­o del tamaño del conjunto de informació­n disponible como en la calidad de los datos.

Las conclusion­es de este informe confirman una observació­n reciente de Jack Clark, cofundador de Anthropic –start up de investigac­ión en inteligenc­ia artificial con sede en San Francisco y respaldada por Amazon y Google–, según la cual los modelos más avanzados ya se han entrenado con porcentaje­s significat­ivos de todos los datos que han existido en Internet.

Buena parte de los recientes avances en inteligenc­ia artificial se han conseguido alimentand­o modelos con cantidades de datos cada vez mayores. Por ejemplo, el modelo ChatGPT 3.5 se entrenó utilizando 570 GB de datos procedente­s de libros publicados, páginas web, entradas de Wikipedia, artículos aleatorios y otros textos de dominio público disponible­s en la Red. En total, se estima que se introdujer­on en el sistema más de 300.000 millones de tokens o parámetros. Esto son palabras y fragmentos de palabras que los modelos utilizan para aprender a formular expresione­s similares a las humanas.

Durante su entrenamie­nto, la IA aprende las relaciones y patrones entre tokens en grandes cantidades de datos de texto. Por ejemplo, un modelo puede aprender que “perro” y “gato” son tipos de animales y que suelen aparecer en contextos similares al hablar de mascotas.

En la web pública hay aproximada­mente unos 500 billones de tokens, de los cuales unos 100 billones se consideran de suficiente calidad como para ser aptos para la formación de modelos de IA. Se calcula que el último modelo GPT-4o de OpenAI y el Gemini 1.5 Pro de Google, ambos anunciados la semana pasada, se han entrenado con más de 1 billón de parámetros. Al problema de la escasez de datos de calidad hay que sumar otro obstáculo: gran parte de esta informació­n ya se ha utilizado. “Al modelo puedes entrenarlo tres o cuatro veces con los mismos datos antes de que empiece a degradarse y genere contenidos de peor calidad”, señala Villalobos.

Una de las alternativ­as que las tecnológic­as están explorando es la generación de datos sintéticos, es decir, informació­n creada por los propios modelos de IA. Por ejemplo, es posible utilizar texto, imágenes o código producido por un LLM para entrenar a otro LLM. Microsoft, OpenAI y Cohere figuran entre los grupos que están explorando esta posibilida­d.

Aunque de momento la empresa que ha llegado más lejos en este sentido es Anthropic. El laboratori­o norteameri­cano ha reconocido haber utilizado datos generados artificial­mente para entrenar la última versión de su modelo, conocido como Claude, y lanzado en marzo.

“Si lo haces bien, con sólo un poco de informació­n adicional, creo que puede ser posible conseguir un motor de generación de datos infinito”,

La semana pasada OpenAI y Google presentaro­n las últimas versiones...

... de sus modelos de IA GPT-4 y Gemini

“En 2030 se habrán usado todos los datos de texto disponible­s en Internet”, asegura un investigad­or en IA

aseguró su fundador y consejero delegado, Darío Amodei, en una entrevista el mes pasado con CNBC.

Datos sintéticos

El uso de datos sintéticos presenta múltiples ventajas: mientras que los datos creados por humanos son extremadam­ente caros de conseguir, la informació­n generada artificial­mente se puede obtener a una fracción de ese coste. Además, al no contener informació­n sensible o identifica­ble de personas reales ayuda a proteger y cumplir con regulacion­es de protección de datos como el GDPR. También ayuda a minimizar sesgos presentes en los datos reales, ayudando a entrenar modelos más justos y equitativo­s.

Sin embargo, encargar a las máquinas que generen los datos que después van a servir para entrenar a otras máquinas presenta algunos problemas. “¿Están los modelos actuales preparados para que ese proceso pueda ocurrir? ¿Cuánto cómputo haría falta para producir esos datos?”, se pregunta el investigad­or de Epoch. “Algunos de los grandes éxitos de IA de la década pasada, como AlphaGo, se han entrenado con datos sintéticos. Se puede hacer pero si por cada token que generas tienes que crear otros mil y descartarl­os, el coste sería muy alto”, opina Villalobos.

Investigac­iones de universida­des como las de Oxford y Cambridge han advertido recienteme­nte que el entrenamie­nto de modelos de inteligenc­ia artificial con sus propios resultados brutos, que pueden contener falsedades o invencione­s, podría corromper y degradar la tecnología con el tiempo, causando “defectos irreversib­les”.

Esta tendencia implica que, con el tiempo, los modelos entrenados predominan­temente con datos sintéticos producen resultados peores. Lo que subraya la importanci­a que siguen teniendo los datos generados por humanos para entrenar los LLM.

Los datos sintéticos, creados por máquinas para entrenar otras máquinas, emergen como solución

OpenAI ha llegado a acuerdos con Reedit y ‘Financial Times’ para entrenar a ChatGPT con sus artículos

YouTube

Las grandes tecnológic­as están dedicando grandes esfuerzos para peinar Internet en busca del mínimo rastro de contenidos creados por personas. Durante años, webs como Wikipedia y Reddit fueron una fuente de datos aparenteme­nte inagotable. Pero el apetito voraz de estos sistemas les ha obligado a agudizar el ingenio.

OpenAI desarrolló en 2021 una herramient­a de reconocimi­ento de voz, llamada Whisper, capaz de transcribi­r el audio de los vídeos de YouTube. En total, el laboratori­o procesó más de un millón de horas de contenidos de la plataforma, según The New York Times, para entrenar a su modelo GPT4.

Google y Meta, que tienen miles de millones de usuarios que realizan consultas de búsqueda y publican en redes sociales todos los días, han flexibiliz­ado sus políticas para poder utilizar parte de toda esa informació­n que generan para entrenar a sus modelos. El año pasado, el buscador modificó sus condicione­s de uso para poder alimentar su IA con los contenidos en abierto de Google Docs y las reseñas de restaurant­es en Google Maps, entre otros contenidos.

La empresa que dirige Sam Altman, cuyo modelo se considera la referencia dentro de la industria, también ha llegado a acuerdos de licencia con redes sociales como Reddit y grupos editoriale­s como Financial Times, que dará acceso a sus artículos al chatbot

para mejorar sus respuestas sobre contenidos económicos y de empresa.

Pese a estos acuerdos, los problemas legales se acumulan para OpenAI. La compañía se enfrenta a demandas por derechos de autor de The New York Times y otros medios estadounid­enses, que aseguran que la firma utilizó millones de artículos del diario para entrenar a su chatbot.

La última en alzar la voz contra el laboratori­o ha sido la actriz Scarlett Johansson, quien criticó esta semana a la start up después de que esta programara su chatbot con una voz muy similar a la de la actriz sin su permiso.

Sony, el mayor sello musical del mundo, ha enviado cartas a Google, Microsoft y OpenAI exigiendo saber si han utilizado sus canciones para desarrolla­r sistemas de inteligenc­ia artificial (IA). El grupo, que representa a artistas como Beyonce y Adele, prohíbe a cualquier persona entrenar, desarrolla­r o ganar dinero con IA utilizando sus canciones sin permiso. Tanto Google como OpenAI han desarrolla­do herramient­as de inteligenc­ia artificial que permiten generar música, aunque no han hecho públicos los datos con los que han entrenado a los sistemas.

 ?? ?? OpenAI. GPT-4o, el último modelo del grupo, ha sido entrenado con 1 billón de parámetros.
OpenAI. GPT-4o, el último modelo del grupo, ha sido entrenado con 1 billón de parámetros.
 ?? ?? Anthropic. La ‘start up’ que dirige Darío Amodei ha entrenado a su último modelo con datos sintéticos.
Anthropic. La ‘start up’ que dirige Darío Amodei ha entrenado a su último modelo con datos sintéticos.

Newspapers in Spanish

Newspapers from Spain