De onstilbare datahonger van AI
Haast elke tekst op het internet is gebruikt om de grootste AI-systemen, zoals GPT-4 en Gemini Ultra, te trainen. En om GPT-5 nog beter te maken, moet OpenAI nog meer data vinden. Maar mag OpenAI zomaar alle data die het op het internet aantreft, gebruiken om zijn AI te trainen? Dat is de vraag van – ja, van hoeveel? Honderd miljard? Tien biljoen?
OpenAI vindt dat het inderdaad alle data mag gebruiken. Zelfs materiaal dat beschermd wordt door het auteursrecht. Het zou immers gaan om ‘fair use’, gerechtvaardigd gebruik dat het auteursrecht niet schendt. GPT-4 is zeker getraind op talloze boeken en artikels waarvoor OpenAI hoopt niet te moeten betalen – een aantal rechtszaken zoals die van The New York Times zal bepalen of die vlieger opgaat. De inzet van die rechtszaken is gigantisch.
Tegelijk gaat OpenAI ervan uit dat eigenaars van websites mogen vragen om hun data niet voor de training van AI te laten gebruiken. Maar wat win je daarmee? Waarschijnlijk niks, al geeft het je misschien een illusie van controle. Maar als je beschikt over zeer, zeer veel data van zeer hoge kwaliteit (massa’s teksten die goed geschreven zijn en waarvan de feiten gecheckt zijn, bijvoorbeeld), dan wordt het een ander verhaal. Dan kan er worden onderhandeld. Zoals OpenAI al deed met Associated Press en Politico, en probeerde te doen met The New York Times (maar die denkt nu via de rechtbank meer te kunnen loskrijgen).
Ook heel waardevol: video. Heel wat experts denken dat video de essentiële grondstof is voor de volgende generatie AI-systemen, nu de tekst op het internet ongeveer is uitgeput. Wie heeft er veruit het meeste videomateriaal? Youtube natuurlijk – en dus Google. En dat kan wel eens bepalen wie de grootste zal worden in AI: Google of het partnership van OpenAI en Microsoft. OpenAI heeft ongeveer een jaar voorsprong in technologie. Maar Google heeft Youtube en andere gigantische dataverzamelingen, zoals Gmail.
De strijd om video is al begonnen. Naast de GPT-taalmodellen ontwikkelt OpenAI ook de nieuwe (en verontrustend goede) videogenerator Sora. Een journalist vroeg aan Mira Murati, een topvrouw van OpenAI, of Sora getraind is op video’s van Youtube. Murati viel stil. Zij beweerde geen enkel idee, nee echt geen enkel idee te hebben waar haar bedrijf die miljoen uren aan video heeft gevonden waarop het Sora heeft getraind. Google reageerde deze week met een strenge waarschuwing: niemand mag AI trainen op videomateriaal van Youtube – behalve, jawel, Google zelf.
Google beroept zich weliswaar niet op het auteursrecht, zoals The New York Times, maar op de gebruiksregels van Youtube. Het is niet duidelijk wat OpenAI riskeert als het die heeft geschonden (en als dat kan worden aangetoond).
Wat zou het beste zijn voor ons allemaal? Dat de AI-bedrijven alle data die ze aantreffen mogen gebruiken? Of niet? In het ene geval kan OpenAI zijn voorsprong misschien vasthouden. In het andere geval zullen de bedrijven die vandaag al het meeste van onze data hebben – zoals Google, Meta en Tiktok – ook in AI domineren. Oh, en mocht u nog dromen dat u zelf grote sommen zult krijgen voor uw data: dat mag u in beide gevallen vergeten.
Heel wat experts denken dat video de essentiële grondstof is voor de volgende generatie AI-systemen