Kunstmatige intelligentie speelt iedereen onder tafel
Het computerprogramma Alphazero leert zichzelf in een paar uur op kampioensniveau schaak, go en shogi te spelen. Menselijke programmateurs komen er niet meer aan te pas.
Toen Deep Blue in 1997 wereldkampioen Garri Kasparov bij het schaken versloeg, was al duidelijk: ooit zou de dag komen waarop intelligente software de mens in ál zijn favoriete bordspellen zou verslaan. Sindsdien zijn computerprogramma’s geschreven die de mens ook bij het aartsmoeilijke go en shogi, het Japanse schaak, onder tafel spelen.
De enige troost was dat de programma’s waarmee die computers werken nog steeds door mensen werden geschreven. Bovendien had de computer voor elk bordspel een apart programma nodig – om het even welk spel goed leren spelen, zoals een mens, was er niet nog niet bij.
Maar ook die illusie van menselijke superioriteit mogen we opbergen nu Alphazero, een computer van het Londense Google Deepmind, zichzelf binnen de paar uur op hoog niveau schaak, shogi en go kan leren spelen, zonder enige andere voorkennis dan de regels van het spel. Steeds weer tegen zichzelf spelend en lerend van zijn fouten verfijnt het programma zijn kennis, melden David Silver en collega’s van Deepmind vandaag in Science.
In slechts een paar uur speelt het programma meer partijen schaak tegen zichzelf dan er ooit op schaaktoernooien onder mensen werden betwist. Die zelfstudie volstaat om het met succes op te nemen tegen een van ’s werelds beste schaakcomputers, Stockfish. Stockfish’ geheugen zit vol met openingszetten en eindspelkennis en menselijke stellingsbeoordelingen – kennis die Alphazero ontbeert. Maar gewapend met enkel de spelregels en wat hij zich
In slechts een paar uur speelt het programma meer partijen schaak tegen zichzelf dan er ooit op schaaktoernooien onder mensen werden betwist
zelf had geleerd, won Alphazero 28 van de 100 partijen tegen Stockfish en speelde het 72 keer remise – geen enkele partij ging verloren. Om beter dan de beste shogicomputer te worden, had Alphazero amper twee uur oefenen nodig. Go bleek het moeilijkst: om de beste gocomputer eronder te krijgen, was acht uur zelfstudie nodig.
Nu het gelukt is om Alphazero in drie klassieke bordspellen op eenzame hoogte te brengen, richt Google Deepmind zich op de volgende uitdaging. Op arXiv, een server voor ongepubliceerde manuscripten, licht David Silver een tipje van de sluier op: Google is bezig om de computer de videogame Starcraft te leren spelen.