La IA se está envenenando a sí misma y las tecnológicas no quieren hablar de ello
Albert Sanchis
Cuando Adobe lanzó su inteli‐ gencia artificial generativa de imágenes Firefly el año pasa‐ do, la compañía anunció que había sido entrenada con cien‐ tos de millones de imágenes licenciadas. Sin embargo, esta semana sorprendieron a sus clientes reconociendo que una cantidad relativamente alta de ellas eran imágenes que ha‐ bían sido creadas por otras IA como Midjourney. El sistema había estado actuando como un caníbal, comiéndose conte‐ nido "artificial". Si la empresa lo hizo premeditadamente o fue una pifia es un misterio. Esta noticia ilustra de manera muy clara que, por un lado, las tecnológicas necesitan ingen‐ tes cantidades de datos para entrenar a sus modelos de IA. Y, por otro lado, que los datos disponibles en internet se es‐ tán terminando, la carne "fres‐ ca" ya está toda vendida. Y so‐ lo queda alimentarse de otras cosas. Lo dice un informe del instituto de investigación Epoch, que indica que en 2026 ya se habrán agotado todos los datos de alta calidad en la red. La pregunta ahora es qué pasará cuando suceda. Y, so‐ bre todo, si los sistemas de IA corren el riesgo de envenenar‐ se.
Según el equipo responsable de Google Books, se estima que desde la invención de la imprenta los humanos hemos publicado más de 125 millo‐ nes de libros, recopilando le‐ yes, tratados, poemas, ensa‐ yos y novelas. De esos, entre 10 y 30 millones de títulos ya han sido digitalizados, lo que brinda a las IA un jugoso ban‐ quete de cientos de miles de millones de palabras, si no más de un billón. El problema es que esos datos ya han sido devorados ferozmente por las tecnológicas.
Cuando OpenAI presentó GPT3 en noviembre de 2020, se entrenó con la mayor cantidad de datos hasta la fecha: alre‐ dedor de 300.000 millones de tokens (palabras o fragmentos de palabras). En 2022, Deep‐ Mind de Google fue más allá y usó 1,4 billones para ser pron‐ to superado por la china Sky‐ work, que se preparó con 3,2 billones de tokens de textos en inglés y chino. Ahora ChatGPT-4 de OpenAI podría haber sido entrenado con na‐ da menos que 10 billones de palabras.
Las empresas de IA están comprando medio internet. Es una señal de lo que viene
Albert Sanchis Los gigantes tech, hambrientos de datos para entrenar a sus modelos de inteligencia artificial, se han lanzado a comprar medio internet. Reddit es sólo la pri‐ mera víctima
Durante años, Wikipedia y Reddit sirvieron como una fuente que parecía intermina‐ ble, pero cuando algunos gi‐ gantes arramplaron con ella no les quedo otra que empe‐ zar a buscar en otros lados. Hace unos meses, Sam Alt‐ man, director ejecutivo de OpenAI, ya reconocía que em‐ presas de IA como la suya consumirían todos los datos "muy pronto". Así que para li‐ derar la carrera contra sus ri‐ vales, había que intentar aca‐ parar cuantos más datos pu‐ dieran y lo más rápido posible: libros, vídeos, canciones, noti‐ cias e incluso datos que los estados almacenan de sus ciudadanos.
Algunas como OpenAI, Google y Meta lo han hecho tomando atajos, ignorado las políticas de copyright y los derechos de autor, por lo que se han en‐ frentado a decenas de deman‐ das. The New York Times, sin ir más lejos, demandó a Ope‐ nAI y Microsoft el año pasado por utilizar sus noticias sin permiso para entrenar chat‐ bots. Getty Images hizo lo mismo contra Stable Diffu‐ sion, por infringir de manera similar su copyright.
Los directivos, abogados e in‐ genieros de Meta se replan‐ tearon el año pasado comprar la editorial de libros Simon &
Schuster para conseguir obras escritas, incluso se pensaron pagar 10 dólares por libro para obtener los derechos de los nuevos títulos, aunque su de‐ cisión final fue que negociar li‐ cencias con editores, artistas, músicos y medios iba a llevar demasiado tiempo y dolores de cabeza.
Derya Matras, vicepresidenta de Meta en un evento sobre in‐ teligencia artificial.
En varias grabaciones de au‐ dio filtradas a la prensa esta‐ dounidense, Ahmad Al-Dahle, vicepresidente de IA de Meta, les dice a sus colegas que "Meta no podría igualar ChatGPT si no conseguían más datos que ellos" y recono‐ cía que ya habían utilizado ca‐ si todos los libros, ensayos, poemas y artículos de noticias disponibles en inglés en Inter‐ net para desarrollar su propio modelo de IA. En dicha con‐ versación se mencionaba la posibilidad de comprar star‐ tups que hubieran recopilado grandes cantidades de datos digitales e incluso contratar a trabajadores en África para re‐ sumir libros y contenido de ficción y no ficción para esqui‐ var el copyright.
La ruta que siguió OpenAI fue directamente crear una herra‐ mienta de reconocimiento de voz llamada Whisper. Una que pudiera transcribir el audio de vídeos de YouTube, generando texto conversacional. A los meses habían trascrito más de un millón de horas de vídeos, que se incluyeron a su modelo GPT-4. Igual que ellos, Google también recopiló texto de la plataforma de vídeos y el año pasado actualizó sus condi‐ ciones para acceder a Google Docs, reseñas de restaurantes en Google Maps y más conte‐ nido online disponible pública‐ mente para entrenar a su IA, Gemini.
Para Cristina Aranda, doctora en lingüística y experta en IA, los datos se siguen producien‐ do a una velocidad enorme: "Estamos continuamente ge‐ nerando datos todos los días: subiendo vídeos, fotos y texto cada minuto. La gente está en continua producción y vivimos en la era de la humanidad en la que más datos se crean. El problema es que las tecnológi‐ cas viven con una obsesión casi pornográfica por los da‐ tos. Han lanzado demasiado rápido sus modelos de IA y no han prestado demasiada aten‐ ción a la calidad de esos datos que se están usando para en‐ trenarlos". Intoxicación por datos sintéti‐ cos
Ante esta situación de urgen‐ cia y ansia, las tecnológicas han empezado a desarrollar lo que ellos llaman información "sintética", datos artificiales que no han sido creados por humanos, sino el propio texto, imágenes y códigos que los modelos de IA producen. Es decir, hacer que los sistemas aprendan de lo que los mis‐ mos generan. Altman y otros han argumentado que si un modelo puede producir texto similar al humano, también puede crear datos extra para mejorarse de sí mismos. Ope‐ nAI había pensado un escena‐ rio en el que un sistema pro‐ duce los datos, mientras que un segundo juzga la informa‐ ción para separar lo bueno de lo malo. "Mientras el modelo sea lo suficientemente inteli‐ gente como para generar bue‐ nos datos sintéticos, todo irá bien", dijo Altman. Esto tam‐ bién ayudaría reducir la depen‐ dencia de los datos protegidos por copyright.
Incendio en Google: tiene un problema con su IA (y su futu‐ ro), y le está costando millo‐ nes
Albert Sanchis Google atravie‐ sa un momento crítico en su giro hacia la IA para competir con OpenAI y Microsoft. A me‐ dida que los fallos se amonto‐ nan, ya se sienten las pérdidas económicas.
El problema de que estos mo‐ delos canibalicen sus datos es que acaben atrapados en un bucle. Cada vez más investi‐ gadores apoyan la idea de que una dieta de entrenamiento de texto generado por IA, incluso en pequeñas dosis, puede vol‐ verse "venenosa". Y existen pocos antídotos. "Al hacer eso, se corre el riesgo de que se refuercen y perpetúen los errores y sesgos que ya exis‐ ten en estos modelos. Quie‐ nes trabajamos en esto lo lla‐ mamos garbage in, garbage out. Si entrenamos a la máqui‐ na con una visión desigual del mundo a través de los sesgos, o con alucinaciones, se crea un efecto domino problemáti‐ co", explica Aranda. Como indica la experta, la evi‐ dencia sugiere que si varios modelos hacen esto, puede darse el caso en el que los que están a la cola empiecen a ge‐ nerar contenido totalmente impreciso. A cada iteración, los resultados irían acumulan‐ do todos los errores anterio‐ res.
Aunque recurriéramos al inter‐ net que había hace décadas antes de que la IA se populari‐ zara a través de servicios co‐ mo Internet Archive, los datos que conseguiríamos no po‐ drían satisfacer las grandes demandas de estos modelos. Y, claro, serían datos anclados al pasado.
Sam Altman, director ejecutivo de OpenAI, en el Foro Econó‐ mico Mundial, en Davos (Reuters)
Eso mismo nos lleva a otra cuestión: el hecho de que las IA puedan leer todos los libros del mundo no significa que puedan ponerse al día con to‐ do el contenido que los huma‐ nos producimos a diario. Cada año, miles de millones de per‐ sonas escriben frases que se almacenan en bases de datos de las grandes plataformas. Aunque todos esos datos no son tan sólidos para entrenar como lo son las entradas de Wikipedia, tal vez los algorit‐ mos puedan sacarle partido en el futuro a nuestros tuits, pies de foto en Instagram o comentarios en Facebook.
Y si nos ponemos a divagar, hay quien ha hablado de otras soluciones más estrambóti‐ cas, como que los humanos podríamos empezar a usar dispositivos alrededor del cue‐ llo que registren cada una de nuestras palabras mientras hablamos, que suelen ser alre‐ dedor de 10.000, y las convier‐ tan en texto para alimentar a las IA. Los empleados de las empresas también podrían co‐ locar en sus teclados senso‐ res para registrar las pulsacio‐ nes de los teclados y transfe‐ rirlo a bases de datos enor‐ mes. Eso aún está lejos y pue‐ de sonar demasiado utópico, pero también lo eran las inteli‐ gencias artificiales antes y mi‐ ra dónde estamos ahora.