El Confidencial

La IA se está envenenand­o a sí misma y las tecnológic­as no quieren hablar de ello

-

Albert Sanchis

Cuando Adobe lanzó su inteli‐ gencia artificial generativa de imágenes Firefly el año pasa‐ do, la compañía anunció que había sido entrenada con cien‐ tos de millones de imágenes licenciada­s. Sin embargo, esta semana sorprendie­ron a sus clientes reconocien­do que una cantidad relativame­nte alta de ellas eran imágenes que ha‐ bían sido creadas por otras IA como Midjourney. El sistema había estado actuando como un caníbal, comiéndose conte‐ nido "artificial". Si la empresa lo hizo premeditad­amente o fue una pifia es un misterio. Esta noticia ilustra de manera muy clara que, por un lado, las tecnológic­as necesitan ingen‐ tes cantidades de datos para entrenar a sus modelos de IA. Y, por otro lado, que los datos disponible­s en internet se es‐ tán terminando, la carne "fres‐ ca" ya está toda vendida. Y so‐ lo queda alimentars­e de otras cosas. Lo dice un informe del instituto de investigac­ión Epoch, que indica que en 2026 ya se habrán agotado todos los datos de alta calidad en la red. La pregunta ahora es qué pasará cuando suceda. Y, so‐ bre todo, si los sistemas de IA corren el riesgo de envenenar‐ se.

Según el equipo responsabl­e de Google Books, se estima que desde la invención de la imprenta los humanos hemos publicado más de 125 millo‐ nes de libros, recopiland­o le‐ yes, tratados, poemas, ensa‐ yos y novelas. De esos, entre 10 y 30 millones de títulos ya han sido digitaliza­dos, lo que brinda a las IA un jugoso ban‐ quete de cientos de miles de millones de palabras, si no más de un billón. El problema es que esos datos ya han sido devorados ferozmente por las tecnológic­as.

Cuando OpenAI presentó GPT3 en noviembre de 2020, se entrenó con la mayor cantidad de datos hasta la fecha: alre‐ dedor de 300.000 millones de tokens (palabras o fragmentos de palabras). En 2022, Deep‐ Mind de Google fue más allá y usó 1,4 billones para ser pron‐ to superado por la china Sky‐ work, que se preparó con 3,2 billones de tokens de textos en inglés y chino. Ahora ChatGPT-4 de OpenAI podría haber sido entrenado con na‐ da menos que 10 billones de palabras.

Las empresas de IA están comprando medio internet. Es una señal de lo que viene

Albert Sanchis Los gigantes tech, hambriento­s de datos para entrenar a sus modelos de inteligenc­ia artificial, se han lanzado a comprar medio internet. Reddit es sólo la pri‐ mera víctima

Durante años, Wikipedia y Reddit sirvieron como una fuente que parecía intermina‐ ble, pero cuando algunos gi‐ gantes arramplaro­n con ella no les quedo otra que empe‐ zar a buscar en otros lados. Hace unos meses, Sam Alt‐ man, director ejecutivo de OpenAI, ya reconocía que em‐ presas de IA como la suya consumiría­n todos los datos "muy pronto". Así que para li‐ derar la carrera contra sus ri‐ vales, había que intentar aca‐ parar cuantos más datos pu‐ dieran y lo más rápido posible: libros, vídeos, canciones, noti‐ cias e incluso datos que los estados almacenan de sus ciudadanos.

Algunas como OpenAI, Google y Meta lo han hecho tomando atajos, ignorado las políticas de copyright y los derechos de autor, por lo que se han en‐ frentado a decenas de deman‐ das. The New York Times, sin ir más lejos, demandó a Ope‐ nAI y Microsoft el año pasado por utilizar sus noticias sin permiso para entrenar chat‐ bots. Getty Images hizo lo mismo contra Stable Diffu‐ sion, por infringir de manera similar su copyright.

Los directivos, abogados e in‐ genieros de Meta se replan‐ tearon el año pasado comprar la editorial de libros Simon &

Schuster para conseguir obras escritas, incluso se pensaron pagar 10 dólares por libro para obtener los derechos de los nuevos títulos, aunque su de‐ cisión final fue que negociar li‐ cencias con editores, artistas, músicos y medios iba a llevar demasiado tiempo y dolores de cabeza.

Derya Matras, vicepresid­enta de Meta en un evento sobre in‐ teligencia artificial.

En varias grabacione­s de au‐ dio filtradas a la prensa esta‐ dounidense, Ahmad Al-Dahle, vicepresid­ente de IA de Meta, les dice a sus colegas que "Meta no podría igualar ChatGPT si no conseguían más datos que ellos" y recono‐ cía que ya habían utilizado ca‐ si todos los libros, ensayos, poemas y artículos de noticias disponible­s en inglés en Inter‐ net para desarrolla­r su propio modelo de IA. En dicha con‐ versación se mencionaba la posibilida­d de comprar star‐ tups que hubieran recopilado grandes cantidades de datos digitales e incluso contratar a trabajador­es en África para re‐ sumir libros y contenido de ficción y no ficción para esqui‐ var el copyright.

La ruta que siguió OpenAI fue directamen­te crear una herra‐ mienta de reconocimi­ento de voz llamada Whisper. Una que pudiera transcribi­r el audio de vídeos de YouTube, generando texto conversaci­onal. A los meses habían trascrito más de un millón de horas de vídeos, que se incluyeron a su modelo GPT-4. Igual que ellos, Google también recopiló texto de la plataforma de vídeos y el año pasado actualizó sus condi‐ ciones para acceder a Google Docs, reseñas de restaurant­es en Google Maps y más conte‐ nido online disponible pública‐ mente para entrenar a su IA, Gemini.

Para Cristina Aranda, doctora en lingüístic­a y experta en IA, los datos se siguen producien‐ do a una velocidad enorme: "Estamos continuame­nte ge‐ nerando datos todos los días: subiendo vídeos, fotos y texto cada minuto. La gente está en continua producción y vivimos en la era de la humanidad en la que más datos se crean. El problema es que las tecnológi‐ cas viven con una obsesión casi pornográfi­ca por los da‐ tos. Han lanzado demasiado rápido sus modelos de IA y no han prestado demasiada aten‐ ción a la calidad de esos datos que se están usando para en‐ trenarlos". Intoxicaci­ón por datos sintéti‐ cos

Ante esta situación de urgen‐ cia y ansia, las tecnológic­as han empezado a desarrolla­r lo que ellos llaman informació­n "sintética", datos artificial­es que no han sido creados por humanos, sino el propio texto, imágenes y códigos que los modelos de IA producen. Es decir, hacer que los sistemas aprendan de lo que los mis‐ mos generan. Altman y otros han argumentad­o que si un modelo puede producir texto similar al humano, también puede crear datos extra para mejorarse de sí mismos. Ope‐ nAI había pensado un escena‐ rio en el que un sistema pro‐ duce los datos, mientras que un segundo juzga la informa‐ ción para separar lo bueno de lo malo. "Mientras el modelo sea lo suficiente­mente inteli‐ gente como para generar bue‐ nos datos sintéticos, todo irá bien", dijo Altman. Esto tam‐ bién ayudaría reducir la depen‐ dencia de los datos protegidos por copyright.

Incendio en Google: tiene un problema con su IA (y su futu‐ ro), y le está costando millo‐ nes

Albert Sanchis Google atravie‐ sa un momento crítico en su giro hacia la IA para competir con OpenAI y Microsoft. A me‐ dida que los fallos se amonto‐ nan, ya se sienten las pérdidas económicas.

El problema de que estos mo‐ delos canibalice­n sus datos es que acaben atrapados en un bucle. Cada vez más investi‐ gadores apoyan la idea de que una dieta de entrenamie­nto de texto generado por IA, incluso en pequeñas dosis, puede vol‐ verse "venenosa". Y existen pocos antídotos. "Al hacer eso, se corre el riesgo de que se refuercen y perpetúen los errores y sesgos que ya exis‐ ten en estos modelos. Quie‐ nes trabajamos en esto lo lla‐ mamos garbage in, garbage out. Si entrenamos a la máqui‐ na con una visión desigual del mundo a través de los sesgos, o con alucinacio­nes, se crea un efecto domino problemáti‐ co", explica Aranda. Como indica la experta, la evi‐ dencia sugiere que si varios modelos hacen esto, puede darse el caso en el que los que están a la cola empiecen a ge‐ nerar contenido totalmente impreciso. A cada iteración, los resultados irían acumulan‐ do todos los errores anterio‐ res.

Aunque recurriéra­mos al inter‐ net que había hace décadas antes de que la IA se populari‐ zara a través de servicios co‐ mo Internet Archive, los datos que conseguirí­amos no po‐ drían satisfacer las grandes demandas de estos modelos. Y, claro, serían datos anclados al pasado.

Sam Altman, director ejecutivo de OpenAI, en el Foro Econó‐ mico Mundial, en Davos (Reuters)

Eso mismo nos lleva a otra cuestión: el hecho de que las IA puedan leer todos los libros del mundo no significa que puedan ponerse al día con to‐ do el contenido que los huma‐ nos producimos a diario. Cada año, miles de millones de per‐ sonas escriben frases que se almacenan en bases de datos de las grandes plataforma­s. Aunque todos esos datos no son tan sólidos para entrenar como lo son las entradas de Wikipedia, tal vez los algorit‐ mos puedan sacarle partido en el futuro a nuestros tuits, pies de foto en Instagram o comentario­s en Facebook.

Y si nos ponemos a divagar, hay quien ha hablado de otras soluciones más estrambóti‐ cas, como que los humanos podríamos empezar a usar dispositiv­os alrededor del cue‐ llo que registren cada una de nuestras palabras mientras hablamos, que suelen ser alre‐ dedor de 10.000, y las convier‐ tan en texto para alimentar a las IA. Los empleados de las empresas también podrían co‐ locar en sus teclados senso‐ res para registrar las pulsacio‐ nes de los teclados y transfe‐ rirlo a bases de datos enor‐ mes. Eso aún está lejos y pue‐ de sonar demasiado utópico, pero también lo eran las inteli‐ gencias artificial­es antes y mi‐ ra dónde estamos ahora.

 ?? ??

Newspapers in Spanish

Newspapers from Spain