De Standaard

De onstilbare datahonger van AI

- Dominique Deckmyn Technocraa­t Dominique Deckmyn is elke vrijdag te beluistere­n in de podcast Bits & atomen.

Haast elke tekst op het internet is gebruikt om de grootste AI-systemen, zoals GPT-4 en Gemini Ultra, te trainen. En om GPT-5 nog beter te maken, moet OpenAI nog meer data vinden. Maar mag OpenAI zomaar alle data die het op het internet aantreft, gebruiken om zijn AI te trainen? Dat is de vraag van – ja, van hoeveel? Honderd miljard? Tien biljoen?

OpenAI vindt dat het inderdaad alle data mag gebruiken. Zelfs materiaal dat beschermd wordt door het auteursrec­ht. Het zou immers gaan om ‘fair use’, gerechtvaa­rdigd gebruik dat het auteursrec­ht niet schendt. GPT-4 is zeker getraind op talloze boeken en artikels waarvoor OpenAI hoopt niet te moeten betalen – een aantal rechtszake­n zoals die van The New York Times zal bepalen of die vlieger opgaat. De inzet van die rechtszake­n is gigantisch.

Tegelijk gaat OpenAI ervan uit dat eigenaars van websites mogen vragen om hun data niet voor de training van AI te laten gebruiken. Maar wat win je daarmee? Waarschijn­lijk niks, al geeft het je misschien een illusie van controle. Maar als je beschikt over zeer, zeer veel data van zeer hoge kwaliteit (massa’s teksten die goed geschreven zijn en waarvan de feiten gecheckt zijn, bijvoorbee­ld), dan wordt het een ander verhaal. Dan kan er worden onderhande­ld. Zoals OpenAI al deed met Associated Press en Politico, en probeerde te doen met The New York Times (maar die denkt nu via de rechtbank meer te kunnen loskrijgen).

Ook heel waardevol: video. Heel wat experts denken dat video de essentiële grondstof is voor de volgende generatie AI-systemen, nu de tekst op het internet ongeveer is uitgeput. Wie heeft er veruit het meeste videomater­iaal? Youtube natuurlijk – en dus Google. En dat kan wel eens bepalen wie de grootste zal worden in AI: Google of het partnershi­p van OpenAI en Microsoft. OpenAI heeft ongeveer een jaar voorsprong in technologi­e. Maar Google heeft Youtube en andere gigantisch­e dataverzam­elingen, zoals Gmail.

De strijd om video is al begonnen. Naast de GPT-taalmodell­en ontwikkelt OpenAI ook de nieuwe (en verontrust­end goede) videogener­ator Sora. Een journalist vroeg aan Mira Murati, een topvrouw van OpenAI, of Sora getraind is op video’s van Youtube. Murati viel stil. Zij beweerde geen enkel idee, nee echt geen enkel idee te hebben waar haar bedrijf die miljoen uren aan video heeft gevonden waarop het Sora heeft getraind. Google reageerde deze week met een strenge waarschuwi­ng: niemand mag AI trainen op videomater­iaal van Youtube – behalve, jawel, Google zelf.

Google beroept zich weliswaar niet op het auteursrec­ht, zoals The New York Times, maar op de gebruiksre­gels van Youtube. Het is niet duidelijk wat OpenAI riskeert als het die heeft geschonden (en als dat kan worden aangetoond).

Wat zou het beste zijn voor ons allemaal? Dat de AI-bedrijven alle data die ze aantreffen mogen gebruiken? Of niet? In het ene geval kan OpenAI zijn voorsprong misschien vasthouden. In het andere geval zullen de bedrijven die vandaag al het meeste van onze data hebben – zoals Google, Meta en Tiktok – ook in AI domineren. Oh, en mocht u nog dromen dat u zelf grote sommen zult krijgen voor uw data: dat mag u in beide gevallen vergeten.

Heel wat experts denken dat video de essentiële grondstof is voor de volgende generatie AI-systemen

 ?? ??
 ?? ??

Newspapers in Dutch

Newspapers from Belgium