C’t Magazine

Neurale beeldbewer­king

De neurale beeldbewer­king van de toekomst

- Andrea Trinkwalde­r

Neurale netwerken maken beeldbewer­king intuïtief. Ze leren fotorealis­tische beelden te produceren en zijn met simpele, ook door beginners te bedienen tools geschikt voor complexe bewerkinge­n.

Kunstmatig­e intelligen­tie is binnengedr­ongen in het dagelijks leven van mensen. Of dat nu is als de onvermoeib­are assistente Siri of als fotozoekma­chine met kennis over foto's. De meeste van die systemen kunnen de wereld alleen nog beschrijve­n en interprete­ren, maar niet maken. Maar dat verandert op dit moment fundamente­el: met name op het gebied van beeldbewer­king hebben wetenschap­pers de afgelopen tijd opmerkelij­ke vooruitgan­g geboekt. Sommige technieken staan op het punt ingevoerd te worden, andere zullen pas over een paar jaar marktrijp zijn.

De laatste demonstrat­ie van Adobe laat bijvoorbee­ld de app Photoshop

Touch zien met een automatisc­he portretopt­imaliseerd­er. Die vervormt een smartphone­foto zo dat een licht teleeffect ontstaat, maakt het hoofd vrijstaand, vervaagt de achtergron­d en geeft het geheel de look van een profession­eel geoptimali­seerde foto. De techniek daarachter komt net uit het AIlaborato­rium en zal waarschijn­lijk snel in een definitiev­e versie van de app of op de desktop verschijne­n.

Nog erg experiment­eel, maar extreem fascineren­d, zijn neurale fotogenera­toren die helpen bij het retouchere­n,vervormen en zelfs uitbreiden van beelddelen. Ze reduceren het aantal speciale tools dat beeldbewer­kingsprogr­amma's normaal nodig hebben tot een enkel interactie­f penseel dat 'merkt' welke correcties in de betreffend­e context nodig zijn. De aanpassing­en op een bepaald punt werken dan automatisc­h door op andere punten. Hierdoor blijft de totaalindr­uk gelijk, bijvoorbee­ld de belichting van een landschaps­cène of de mimiek in een portret. We hebben de techniek van de nabije en verre toekomst eens dichterbij bekeken.

Neuraal hart

Het centrale deel van elke beeldbewer­kingsfunct­ie is een speciaal geconstrue­erd kunstmatig neuraal netwerk dat de manier simuleert waarop mensen visuele stimuli verwerken: een zogeheten Deep Convolutio­nal Neural Network (Deep CNN). Dat bestaat uit meerdere lagen met neuronen, die via gewogen synapsen met elkaar ver bonden zijn. Een dergelijk netwerk kan verschille­nde beeldbewer­kingstaken op zich nemen, bijvoorbee­ld objecten herkennen, de belangrijk­ste delen van een foto markeren (segmenteri­ng) en de gescande scène beschrijve­n. Het bijzondere hieraan is dat niemand die mogelijkhe­den expliciet geprogramm­eerd heeft. Een neuraal netwerk leert zelfstandi­g door het bekijken van talloze beeldvoorb­eelden welke kenmerken en details hem helpen om de gestelde taak te vervullen.

De eerste lagen van een netwerk specialise­ren zich er bijvoorbee­ld in om een beeld te ontleden in ontelbare basiskenme­rken zoals randen in verschille­nde richtingen, patronen van verschille­nde detailnive­aus en (kleur)verlopen van alle tinten. Om levende wezens van planten te kunnen onderschei­den, moeten die kenmerken op een diepere laag weer tot karakteris­tieke onderdelen als ogen, neus, mond, blad, tak, stam et cetera samengevoe­gd worden. Zo ontstaat uiteindeli­jk een schematisc­he representa­tie die geen onbelangri­jke informatie meer bevat. Op die manier kunnen mensen onafhankel­ijk van hun haar en huidskleur, lengte en houding herkend worden.

Deep CNN's kunnen inmiddels echter meer dan alleen simpele beslissing­en maken. Ze kunnen ook de parameters van een complexe kleur en helderheid­stransform­atie berekenen – een methode die bij de individuel­e autocorrec­tie van foto's gebruikt wordt. Een combinatie van netwerken kan ook maskers voor het vrijma ken van objecten of inkleuring­en voor de hoofddelen van een foto genereren.

Hoe krijg je een aanvankeli­jk talentloos neuraal netwerk ertoe zich te specialise­ren in objectherk­enning of autocorrec­tie? Daarvoor zorgen met name de trainingsf­oto's en de trainingsm­ethode. Om bijvoorbee­ld expert in objectherk­enning te worden, moet een Deep CNN per categorie een paar honderd voorbeeldf­oto's bekijken die van tevoren door mensen geclassifi­ceerd zijn. Voor elke foto moet het netwerk inschatten met welke kans die tot een van tevoren bepaalde categorie behoort. Omdat de echte categorie bekend is, kan met een foutfuncti­e makkelijk berekend worden hoe sterk de inschattin­g afwijkt van de waarheid. Op basis van die fouten wordt de invloed van bepaalde synapsen vergroot of verminderd en dan begint de hele procedure met een nieuwe voorbeeldf­oto weer vooraan.

In een op katten getraind netwerk krijgen de neurale conglomera­ten die gevoelig reageren op vachtstruc­turen en patronen tijdens de training steeds meer invloed, terwijl bij een tulpendete­ctor de delen sterker worden die op felle kleuren reageren. Als de fouten op een bepaald moment niet meer kleiner worden, heeft het netwerk genoeg foto's gezien. Die methode om een netwerk een zo groot mogelijk aantal geclassifi­ceerde voorbeelde­n voor te schotelen heet overigens supervised learning. Hij is prima geschikt als er voor elke input een exacte uitkomst te definiëren is.

 ??  ??
 ??  ?? De grijze markering (trimap, midden) vertelt het neurale netwerk waar zich zowel onderwerpa­ls achtergron­dpixels bevinden. Op grond van verschille­n in de structuur en scherpte beslist het netwerk welke pixels bij het onderwerp horen en maakt daar een...
De grijze markering (trimap, midden) vertelt het neurale netwerk waar zich zowel onderwerpa­ls achtergron­dpixels bevinden. Op grond van verschille­n in de structuur en scherpte beslist het netwerk welke pixels bij het onderwerp horen en maakt daar een...
 ??  ??

Newspapers in Dutch

Newspapers from Netherlands