Apps voor beeldbewerking met AI
AI-toepassingen voor beeldbewerking
De praktische toepassingen voor kunstmatige intelligentie staan nog in de kinderschoenen. Computers herkennen gezichten en objecten, en maken abstracte creaties van realistische elementen – en ze doen dat steeds beter. Nu al kunnen ze op basis van gescande meesterwerken de schildertechniek van beroemde kunstenaars aanleren en imiteren. E r zijn tot nu toe geen grote doorbraken geweest in kunstmatige intelligentie bij beeldbewerking. Het leerproces en de omzetting naar praktische toepassingen kun je eerder vergelijken met de eerste stapjes van een kind. Eerst was er het herkennen van objecten. Dit werkt inmiddels zo goed, dat het al bij talloze programma's is ingebouwd. De jongste generatie programma's kan de stijl van beroemde kunstenaars imiteren en deze op foto's toepassen.
Begin 2015 baarde Google opzien met de introductie van zijn objectherkenning via neurale netwerken in de Google Foto'sapp. Sindsdien classificeert het systeem objecten zoals honden, bergen, strand en zonnebrillen.
Een neuraal net bestaat over het algemeen uit tien tot dertig lagen van kunstmatige neuronen. Die worden aan de hand van een grote verzameling afbeeldingen getraind op diverse beeldmotieven. De ontwikkelaars documenteren op welke begrippen ze het netwerk trainen. Een afbeelding doorloopt daarbij de eerste laag, wordt vervolgens door de tweede laag verwerkt, en ga zo maar door, tot hij uiteindelijk de resultaat-laag bereikt. Het antwoord is dan bijvoorbeeld een 1000-dimensionale vector met waarschijnlijkheden voor 1000 objecten.
De automatische classificatie helpt Google Foto's bij zoekopdrachten. Wanneer je het woord 'palmboom' als zoekopdracht geeft, toont de app afbeeldingen die hieraan voldoen. Bij een algemener
begrip als 'tempel' is de AI van Google wat minder trefzeker. Desondanks werkt de classificatie behoorlijk goed.
Er is een onderzoeksproject dat laat zien wat ons in de toekomst te wachten staat. Google-onderzoeker Tobias Weyand en zijn team hebben begin 2016 een neuraal netwerk geïntroduceerd dat afbeeldingen op plaatsen indeelt. De onderzoekers hebben de wereld in vierkanten ingedeeld en een neuraal netwerk getraind aan de hand van 91 miljoen foto's die van geodata waren voorzien. Het resultaat was PlaNet, dat de plek waar een foto genomen was beter kon bepalen dan een testpanel.
Van a tot z
In de zomer van 2016 verschenen twee andere grote aanbieders op het toneel. Apple introduceerde samen met iOS 10 een objectherkenningsfunctie. De Foto's-app herkent inmiddels 4432 verschillende objecten en scènes. Afgelopen oktober heeft Adobe objectherkenning in de organizer van Photoshop Elements 15 ingebouwd. Deze maakt bovendien deel uit van de fotodienst Adobe Stock en verschillende andere toepassingen (zie interview op pagina 49).
Het bedrijf Pattern Recognition Company (PRC) uit Lübeck in Duitsland biedt de plug-in Excire Search voor Lightroom aan. Deze plug-in herkent objecten en scènes in foto's. De software van PRC bestaat uit drie modules: EX zoekt op basis van een voorbeeldfoto, CT vindt foto's op basis van steekwoorden en FA analyseert gezichten en ziet of mensen lachen, of het mannen of vrouwen zijn en wat hun leeftijd ongeveer is. De drie modules zijn als bundel te krijgen voor 99 euro.
In onze test deed Excire Search er ongeveer drie uur over om 17.000 foto's te analyseren. De zoektocht verliep daarna bijzonder vlot. De plug-in herkent en deelt foto's in zo'n 150 verschillende categorieën in, zoals architectuur, voertuigen, mensen, natuur en dieren. Hij kan verrassend goed kerken en moskeeën onderscheiden. Bij honden en beren lukte dit minder goed. Naar verluidt zou de volgende versie een kleine 500 categorieën kunnen onderscheiden.
Inzet met understatement
Adobe werkt aan een autocorrectie met AI-ondersteuning. Hiervoor heeft een onderzoeksteam 5000 foto's geselecteerd en deze door professionele fotografen laten bewerken. Hun correcties heeft Adobe vervolgens op 2500 foto's toegepast en geevalueerd. De autocorrectie weerspiegelt de stijl van de fotografen en de resultaten zijn contrastrijk met een gebalanceerde belichting. Het algoritme is in staat om van de gebruikersinvoer te leren. Wanneer deze de foto's bewerkt om ze helderder te maken of ze met minder contrast instelt, dan stelt het algoritme zich daarop in.
Photoshop gebruikt kunstmatige intelligentie voor de autocorrectie bij Curven, Niveaus en Helderheid/contrast. In die gevallen toont Photoshop de knop Auto. Met name het contrast wordt vergroot en de helderheid wordt verbeterd. Schaduwen die te donker zijn worden echter niet heel mooi bijgewerkt.
Van aangezicht tot aangezicht
De AI-ondersteuning van Photoshop werkt met name goed bij het bewerken van portretten in de dialoog Uitvloeien. Deze herkent automatisch portretten, mits het gezicht duidelijk en volledig zichtbaar is. Foto's waarop een gezicht en profil staat of waarin iemand omlaag kijkt, herkent Photoshop niet.
De dialoog ziet ogen, neus, mond en gelaatstrekken zonder moeite. Regelaars
stellen de hoogte, breedte en positie in. Ze verkleinen de afstand tussen de ogen of en passen zelfs de mond aan zodat deze lacht. Dit laatste ziet er wat gekunsteld uit, maar de grootte van de ogen of lippen wijzigt de autofunctie van Photoshop opmerkelijk subtiel en realistisch.
Inhoudsgestuurde correctie
Het beeldbewerkingsprogramma Photolemur werkt zonder regelaars, tools en paletten, want alles gebeurt hier via AI. Dit programma kost momenteel drie dollar per maand en draait onder MacOS en Windows 10. Als je een foto naar het werkblad sleept, vertelt Lemur alleen maar dat het magische handelingen gaat verrichten. Even later zie je het resultaat: een uitgewogen belichte versie met veel contrast en heldere kleuren. Bij onze test waren de groentinten echter enigszins oververzadigd. Net als Photoshop was het programma niet in staat donkere schaduwen voldoende helder te maken.
De ontwikkelaars passen meerdere algoritmes toe om foto's te categoriseren en problemen te vinden. In eerste instantie deelt Photolemur foto's in op types zoals landschappen en portretten. Andere logaritmes analyseren zaken als beeldruis en de hemel in foto's, of herkennen verschillende gezichtstypes en zoeken naar bladeren en ander groen. Het team van ontwikkelaars evalueert de output van allerlei verschillende foto's om het procedé verder te optimaliseren. De foto's van gebruikers worden daar volgens de maker niet voor gebruikt, tenzij ze die optie zelf activeren.
De elektrische droom
Kunstmatige neurale netwerken kunnen meer dan alleen categoriseren en corrigeren. Ze zijn getraind om objecten op vergelijkbare manier te herkennen zoals mensen dat doen. Ze simuleren de activiteitspatronen van het menselijke brein bij het zien van een foto. De mate waarin deze patronen overeenkomen, is aangetoond door het AI-team van Google, waar onder andere Alexander Mordvintsev, Christopher Olah en Mike Tyka werken. Zij voerden een foto aan hun neurale netwerk en maakten een feedback-lus met de aanwijzing: "Alles wat je vindt, daar willen wij meer van." Dit resulteerde in foto's die het midden hielden tussen een LSD-trip en een scène uit Blade Runner. Horizons werden gevuld met pagodes en wolkenkrabbers, foto's van bladeren werden helemaal opgevuld met insecten. En overal verschenen honden en katten, omdat het neurale net daar in eerste instantie uitgebreid mee werd getraind. Wij zien allemaal de dingen die we van huis uit kennen, en de computer is daar geen uitzondering op. De onderzoekers van Google noemden deze stijl het Inceptionisme, gebaseerd op de naam die ze oorspronkelijk aan het neurale netwerk gegeven hadden.
Tekenende algoritmes
Van het speels ontdekte Inceptionisme was het een relatief kleine stap naar het bewust vervreemden van afbeeldingen. Het procedé moest alleen nog in geordende banen worden geleid. Bij de stijloverdracht blijft een foto herkenbaar, maar wordt dusdanig bewerkt dat hij de stijl van een schilderij aanneemt. Daarbij maakt het niet uit of je een kunstwerk van da Vinci, Mondriaan, Kandinsky, Munch of Van Gogh als voorbeeld neemt.
De natuurkundige Leon Gatys heeft aan de universiteit van Tübingen pionierswerk verricht met deze vorm van stijloverdracht. Een tastbaar resultaat van zijn werk is de app Deepart.io. De app Prisma bouwt voort op het onderzoek van Gatys, net als
de minder bekende variant Malevich. Alle drie de apps zijn zowel voor Android als voor iOS beschikbaar.
Wanneer je Leon Gatys over zijn methode hoort vertellen, klinkt het allemaal eenvoudig: "We tonen een schilderij aan het neurale netwerk en kijken naar het activiteitenpatroon dat optreedt. Dan laten we het een foto zien, combineren deze met de informatie die we uit het patroon gewonnen hebben en maken een afbeelding die de globale structuur van de foto behoudt en deze combineert met structuurinformatie van het schilderij, zoals de penseelstreken."
Momenteel werkt Gatys eraan om meer invloed te krijgen op welke aspecten van een stijl worden overgedragen. "Omdat we proberen kleur en helderheidsstructuur van elkaar los te koppelen of op verschillende gebieden verschillende stijlen over te dragen." Een andere variant van de selectieve stijloverdracht zou zijn om meerdere stijlen op verschillende dimensies van de doelafbeelding toe te passen. De selectieve stijloverdracht zie je vooralsnog niet terug in de verschillende apps.
Het enthousiasme waarmee de Prisma-app is ontvangen, zie je ook terug in de populariteit van FaceApp. Met die app van de Russische ontwikkelaar Yaroslav Goncharov kun je gezichten kunstmatig ouder maken, ze zuur laten glimlachen of van geslacht laten wisselen. De resultaten zijn fascinerend omdat FaceApp het gezicht volledig nieuw opbouwt en daarbij probeert alle gelaatstrekken dermate te veranderen dat de algehele indruk realistisch is. De neurale netwerken achter de filters zijn getraind aan de hand van voorbeelden die aangeven welke attributen van een gezicht veranderen als het lacht of ouder wordt, en welke elementen een gezicht mannelijk of vrouwelijk maken.
De FaceApp gebruikt nieuwe AI-technieken (generatieve netwerken) die nog in de kinderschoenen staan. Deze filters leveren nog duidelijk zichtbare fouten op, zoals artefacten of een overdreven softfocus bij het jonger maken, en dat al bij een resolutie van nog geen 1000 × 1000 pixels.
Conclusie
Het aanbod van reëel bruikbare functies met AI-ondersteuning blijft vooralsnog beperkt. De paar beschikbare technieken rondom objectherkenning, autocorrectie en stijloverdracht zijn echter nu al stukken beter dan oudere methodes ooit waren. En het aanbod aan nieuwe toepassingen blijft continu groeien. (ddu)