¿Se acabarán los datos para entrenar la IA?

Los expertos calculan que para finales de esta década se agotarán los datos disponibles en Internet que alimentan modelos como ChatGPT o Gemini, un problema que podría frenar el desarrollo de la inteligencia artificial.

2024-05-23 - Por Javier G. Fernández

OpenAI, Google, Meta y el resto de grupos que trabajan en el desarrollo de la inteligencia artificial están muy cerca de encontrarse con un peligroso cuello de botella: en pocos años podrían quedarse sin datos para entrenar sus modelos, lo que impediría seguir mejorando los sistemas en el futuro. “Al ritmo actual en 2030 habremos usado todos los datos de texto que hay públicos en Internet”, asegura Pablo Villalobos, un investigador español que estudia la gobernanza de la inteligencia artificial en el instituto Epoch. Según los cálculos de este centro de estudios sobre la inteligencia artificial, la cantidad de datos en Internet crece a un ritmo aproximado del 7% anual, mientras que la cantidad de información con la que se entrenan los grandes modelos aumenta a un ritmo del 200% cada año.

Según Villalobos, las reservas de datos actuales pueden soportar el crecimiento de los LLM (grandes modelos de lenguaje) otros cinco o seis años más, pero se necesitarán soluciones innovadoras para mantener el progreso en este campo más allá de este punto debido, asegura el experto, a las limitaciones tanto en el crecimiento del tamaño del conjunto de información disponible como en la calidad de los datos.

Las conclusiones de este informe confirman una observación reciente de Jack Clark, cofundador de Anthropic –start up de investigación en inteligencia artificial con sede en San Francisco y respaldada por Amazon y Google–, según la cual los modelos más avanzados ya se han entrenado con porcentajes significativos de todos los datos que han existido en Internet.

Buena parte de los recientes avances en inteligencia artificial se han conseguido alimentando modelos con cantidades de datos cada vez mayores. Por ejemplo, el modelo ChatGPT 3.5 se entrenó utilizando 570 GB de datos procedentes de libros publicados, páginas web, entradas de Wikipedia, artículos aleatorios y otros textos de dominio público disponibles en la Red. En total, se estima que se introdujeron en el sistema más de 300.000 millones de tokens o parámetros. Esto son palabras y fragmentos de palabras que los modelos utilizan para aprender a formular expresiones similares a las humanas.

Durante su entrenamiento, la IA aprende las relaciones y patrones entre tokens en grandes cantidades de datos de texto. Por ejemplo, un modelo puede aprender que “perro” y “gato” son tipos de animales y que suelen aparecer en contextos similares al hablar de mascotas.

En la web pública hay aproximadamente unos 500 billones de tokens, de los cuales unos 100 billones se consideran de suficiente calidad como para ser aptos para la formación de modelos de IA. Se calcula que el último modelo GPT-4o de OpenAI y el Gemini 1.5 Pro de Google, ambos anunciados la semana pasada, se han entrenado con más de 1 billón de parámetros. Al problema de la escasez de datos de calidad hay que sumar otro obstáculo: gran parte de esta información ya se ha utilizado. “Al modelo puedes entrenarlo tres o cuatro veces con los mismos datos antes de que empiece a degradarse y genere contenidos de peor calidad”, señala Villalobos.

Una de las alternativas que las tecnológicas están explorando es la generación de datos sintéticos, es decir, información creada por los propios modelos de IA. Por ejemplo, es posible utilizar texto, imágenes o código producido por un LLM para entrenar a otro LLM. Microsoft, OpenAI y Cohere figuran entre los grupos que están explorando esta posibilidad.

Aunque de momento la empresa que ha llegado más lejos en este sentido es Anthropic. El laboratorio norteamericano ha reconocido haber utilizado datos generados artificialmente para entrenar la última versión de su modelo, conocido como Claude, y lanzado en marzo.

“Si lo haces bien, con sólo un poco de información adicional, creo que puede ser posible conseguir un motor de generación de datos infinito”,

La semana pasada OpenAI y Google presentaron las últimas versiones...

... de sus modelos de IA GPT-4 y Gemini

“En 2030 se habrán usado todos los datos de texto disponibles en Internet”, asegura un investigador en IA

aseguró su fundador y consejero delegado, Darío Amodei, en una entrevista el mes pasado con CNBC.

Datos sintéticos

El uso de datos sintéticos presenta múltiples ventajas: mientras que los datos creados por humanos son extremadamente caros de conseguir, la información generada artificialmente se puede obtener a una fracción de ese coste. Además, al no contener información sensible o identificable de personas reales ayuda a proteger y cumplir con regulaciones de protección de datos como el GDPR. También ayuda a minimizar sesgos presentes en los datos reales, ayudando a entrenar modelos más justos y equitativos.

Sin embargo, encargar a las máquinas que generen los datos que después van a servir para entrenar a otras máquinas presenta algunos problemas. “¿Están los modelos actuales preparados para que ese proceso pueda ocurrir? ¿Cuánto cómputo haría falta para producir esos datos?”, se pregunta el investigador de Epoch. “Algunos de los grandes éxitos de IA de la década pasada, como AlphaGo, se han entrenado con datos sintéticos. Se puede hacer pero si por cada token que generas tienes que crear otros mil y descartarlos, el coste sería muy alto”, opina Villalobos.

Investigaciones de universidades como las de Oxford y Cambridge han advertido recientemente que el entrenamiento de modelos de inteligencia artificial con sus propios resultados brutos, que pueden contener falsedades o invenciones, podría corromper y degradar la tecnología con el tiempo, causando “defectos irreversibles”.

Esta tendencia implica que, con el tiempo, los modelos entrenados predominantemente con datos sintéticos producen resultados peores. Lo que subraya la importancia que siguen teniendo los datos generados por humanos para entrenar los LLM.

Los datos sintéticos, creados por máquinas para entrenar otras máquinas, emergen como solución

OpenAI ha llegado a acuerdos con Reedit y ‘Financial Times’ para entrenar a ChatGPT con sus artículos

YouTube

Las grandes tecnológicas están dedicando grandes esfuerzos para peinar Internet en busca del mínimo rastro de contenidos creados por personas. Durante años, webs como Wikipedia y Reddit fueron una fuente de datos aparentemente inagotable. Pero el apetito voraz de estos sistemas les ha obligado a agudizar el ingenio.

OpenAI desarrolló en 2021 una herramienta de reconocimiento de voz, llamada Whisper, capaz de transcribir el audio de los vídeos de YouTube. En total, el laboratorio procesó más de un millón de horas de contenidos de la plataforma, según The New York Times, para entrenar a su modelo GPT4.

Google y Meta, que tienen miles de millones de usuarios que realizan consultas de búsqueda y publican en redes sociales todos los días, han flexibilizado sus políticas para poder utilizar parte de toda esa información que generan para entrenar a sus modelos. El año pasado, el buscador modificó sus condiciones de uso para poder alimentar su IA con los contenidos en abierto de Google Docs y las reseñas de restaurantes en Google Maps, entre otros contenidos.

La empresa que dirige Sam Altman, cuyo modelo se considera la referencia dentro de la industria, también ha llegado a acuerdos de licencia con redes sociales como Reddit y grupos editoriales como Financial Times, que dará acceso a sus artículos al chatbot

para mejorar sus respuestas sobre contenidos económicos y de empresa.

Pese a estos acuerdos, los problemas legales se acumulan para OpenAI. La compañía se enfrenta a demandas por derechos de autor de The New York Times y otros medios estadounidenses, que aseguran que la firma utilizó millones de artículos del diario para entrenar a su chatbot.

La última en alzar la voz contra el laboratorio ha sido la actriz Scarlett Johansson, quien criticó esta semana a la start up después de que esta programara su chatbot con una voz muy similar a la de la actriz sin su permiso.

Sony, el mayor sello musical del mundo, ha enviado cartas a Google, Microsoft y OpenAI exigiendo saber si han utilizado sus canciones para desarrollar sistemas de inteligencia artificial (IA). El grupo, que representa a artistas como Beyonce y Adele, prohíbe a cualquier persona entrenar, desarrollar o ganar dinero con IA utilizando sus canciones sin permiso. Tanto Google como OpenAI han desarrollado herramientas de inteligencia artificial que permiten generar música, aunque no han hecho públicos los datos con los que han entrenado a los sistemas.

?? ?? OpenAI. GPT-4o, el último modelo del grupo, ha sido entrenado con 1 billón de parámetros. — OpenAI. GPT-4o, el último modelo del grupo, ha sido entrenado con 1 billón de parámetros.

?? ?? Anthropic. La ‘start up’ que dirige Darío Amodei ha entrenado a su último modelo con datos sintéticos. — Anthropic. La ‘start up’ que dirige Darío Amodei ha entrenado a su último modelo con datos sintéticos.

¿Se acabarán los datos para entrenar la IA?

Los expertos calculan que para finales de esta década se agotarán los datos disponibles en Internet que alimentan modelos como ChatGPT o Gemini, un problema que podría frenar el desarrollo de la inteligencia artificial.

Datos sintéticos

YouTube

Newspapers in Spanish

Newspapers from Spain

¿Se acabarán los datos para entrenar la IA?

Los expertos calculan que para finales de esta década se agotarán los datos disponible­s en Internet que alimentan modelos como ChatGPT o Gemini, un problema que podría frenar el desarrollo de la inteligenc­ia artificial.

Datos sintéticos

YouTube

Newspapers in Spanish

Newspapers from Spain

Los expertos calculan que para finales de esta década se agotarán los datos disponibles en Internet que alimentan modelos como ChatGPT o Gemini, un problema que podría frenar el desarrollo de la inteligencia artificial.