Fotoherkenning
Zelflerende fotoarchieven: foto's laten zoeken en beoordelen
Fotograferen is leuk, maar het uitzoeken en ordenen van massa's foto's is dat zeker niet. Als je het goed ordenen van je fotoverzameling nog steeds op je lijstje met goede voornemens hebt staan, kun je nu wellicht opgelucht adem halen. Machinaal getrainde zoekmachines herkennen duizenden onderwerpen, wijzen automatisch trefwoorden toe en helpen bij het zoeken naar de beste opnames.
Wanneer een fotograaf met propvolle geheugenkaarten van een fotoshoot terugkomt, begint het echte werk pas. Hij moet de overweldigende hoeveelheid opnames reduceren tot de beste tien procent, deze van de juiste trefwoorden voorzien en ze ook nog eens bewerken. Veel fotografen ontwikkelen daarvoor wel een routine en hebben een kennersblik voor het snel uitfilteren van de gelukte foto's, maar dat betekent nog niet dat ze plezier beleven aan dit monotone klusje. Het gevolg is dat het fotoarchief al snel een chaos wordt. In dit geval zou een alwetende sorteerassistent uit een AI-lab goed van pas komen. Een assistent die goede foto's van mislukte kan onderscheiden en zelfs na een lange werkdag nog onvermoeibaar geschikte trefwoorden kan verzinnen voor duizenden foto's.
En het ziet er naar uit dat er zoiets komt. Sinds Google vier jaar geleden met een neuraal netwerk (deep learning) een revolutie ontketende in de fotoherkenning, verschenen er doorlopend nieuwe systemen voor de automatische beeldanalyse. Dit plotselinge succes gaf het bijna in vergetelheid geraakte AI-onderzoek een nieuwe impuls. Sindsdien werken de ontwikkelaars aan steeds geraffineerdere
architecturen met steeds meer lagen. Tegenwoordig herkennen zulke systemen niet alleen de belangrijkste objecten in een foto, maar maken ze op basis daarvan ook beschrijvingen, proberen ze de sfeer te peilen en beoordelen ze zelfs de kwaliteit en de schoonheid van de foto's. Adobe, dat de artistieke scene al tientallen jaren domineert, behoort overigens niet echt tot de AI-pioniers, maar stort zich wel volop in het gevecht. Met Sensei introduceerde deze softwarefabrikant op zijn eigen beurs Adobe MAX een framework dat machinaal leren voor de Creative Cloud, marketing en documentenverwerking combineert. En met de Marketing Cloud heeft het bedrijf de laatste jaren een perfecte derde pijler gebouwd, web analytics.
We hebben de interessantste systemen voor professionals en amateurfotografen eens onder de loep genomen. 'Foto's' van AI-pionier Google wordt ondersteund door browsers, apps en de cloud. Deze service optimaliseert foto's afhankelijk van het onderwerp en geeft ze trefwoorden mee. Apple Foto's voor iOS en macOS en het fotobewerkingsprogramma Photoshop Elements combineren object- en gezichtsherkenning. Excire voorziet gebruikers van Lightroom van een intelligente zoekfunctie voor trefwoorden en overeenkomsten. Voor het consequent sorteren van foto's zijn Picturio en EyeEM Vision handig. Beide kunnen de visuele en technische kwaliteit van foto's beoordelen en kunnen fotografen helpen hun beste shots uit te zoeken.
Zo fascinerend en ingewikkeld als de techniek is, zo bescheiden doet hij meestal zijn werk. Bij het importeren van foto's analyseren de systemen ze automatisch en voorzien ze iedere foto van trefwoorden. Bij Photoshop Elements kun je dit uitzetten. Via een eenvoudig zoekveld typ je vervolgens begrippen in, of je dicteert ze zoals bij Apple en Google. Als resultaat krijg je alle foto's uit je archief waarin de software het gezochte object heeft gevonden. Photoshop Elements en EyeEm Vision verraden welke trefwoorden ze allemaal toegewezen hebben, de andere systemen houden zich op de vlakte. Te algemene benamingen of fouten kun je zo niet zien en evenmin corrigeren. Vooral voor professionele fotografen opereren deze slimme hulpjes nog te veel in het geheim. Vooral aangezien ze hun trefwoordenverzameling niet in de metadata van JPEG's, TIFF's en PNG's schrijven.
Geïntegreerde netwerken
Kunstmatige neurale netwerken (KNN) lossen een lastig probleem in de mensmachinecommunicatie op. Als mens verwerken en interpreteren we namelijk continu spraak en beelden, ook abstracte content zoals hun sfeer. Maar we lopen vast op het feit dat we computers met behulp van regels en instructies dit type waarneming moet 'leren'. Het hersenonderzoek is nog niet zover dat we de werking van de hersenen in regels kunnen gieten. Daartegenover kun je heel goed bestuderen hoe mensen zich cognitieve vaardigheden eigen maken. Dat doe je namelijk door trainen aan de hand van voorbeelden, trial and error, en bevestiging en beloning. Op basis van deze inzichten bouwen de onderzoekers kunstmatige neurale netwerken om het samenspel van de menselijke zenuwcellen te simuleren, die bij het kijken of spreken geactiveerd worden.
Zo'n netwerk bestaat uit miljoenen aan elkaar gekoppelde, zeer simpele basisfuncties en gewichten, die het gedrag van neuronen nabootsen. Dankzij het netwerk kunnen deze eenvoudige bouwstenen zich aaneenkoppelen tot willekeurig complexe functies. Voordat zo'n netwerk zich tot een systeem voor fotoclassificatie kan ontwikkelen heb je heel veel getagde foto's nodig. Voer je het systeem bijvoorbeeld met een paar honderd foto's van honden, dan leert het fotobewerkingsfilters die zulke motieven tot universele structuren, lijnen en kleurpatronen reduceren en daaruit karakteristieke onderdelen – bijvoorbeeld vacht, ogen, neus, bek, gezicht – isoleren. Train je het systeem verder op landschapsfoto's, dan komen concepten als bergen, meren, weilanden en bossen naar boven. De netwerken kunnen ook abstracte begrippen als lente, zomer, herfst en winter leren. Daarbij zorgt iedere voorbeeldfoto ervoor, dat de parameters steeds een beetje verder worden verfijnd. De training is voltooid wanneer de herkenningsratio niet meer hoger kan worden. Dan heeft het netwerk zijn vak geleerd waarmee het objecten in foto's kan herkennen. Train je een netwerk daarentegen met foto's die op hun beeldkwaliteit gecatalogiseerd zijn, dan leert het iets andere filters, die harmonische beeldverdeling, fijne scherpte-onscherpteverdelingen, geslaagde kleurcombinaties enzovoort kunnen ontdekken.
Correcte data
Een neuraal netwerk is zo goed als zijn trainingsdata. En als je bij de bron zit heb je een voorsprong. Google, Flickr en Instagram bijvoorbeeld hebben al miljoenen foto's via hun platformen verzameld, EyeEm kan op 80 miljoen foto's terugvallen. Een zeer ambitieus project op dit gebied is ImageNet. Dit is een fotodatabase die alleen voor niet-commerciële en onderzoeksdoeleinden gebruikt mag worden. Op dit moment bevat hij vijftien miljoen foto's in een hiërarchisch opbouwde boom van categorieën. Uiteindelijk moet hij vijftig miljoen foto's omvatten met vijfhonderd tot duizend foto's per categorie.
In een artikel waarin onderzoekers van de universiteit van Princeton het concept van ImageNet gedetailleerd beschrijven kun je lezen hoeveel werk en nauwgezette planning er achter een hoogwaardige dataverzameling zit. Iedere categorie moet een
voorbeeldverzameling bevatten, die het object in zijn volledige veelvoud, vanuit zoveel mogelijk gezichtshoeken en ook in veel verschillende uitsnedes laat zien. Alleen zo kun je garanderen dat de neurale netwerken het concept achter iedere categorie begrijpen – en een mens bijvoorbeeld onafhankelijk van huid- en haarkleur, kleding, hoofdbedekking en lichaamsomvang kunnen herkennen. Picturio en EyeEm hebben vastgesteld dat ze het netwerk met de kennis van experts moeten voeden om gefundeerde fotobeoordelingen te krijgen. Appu Shaji, hoofd van de onderzoeks- en ontwikkelingsafdeling (R&D) bij EyeEm, vertelt aan c't: "We hebben geëxperimenteerd met community ratings, maar moesten vaststellen, dat het systeem alleen menselijke voorkeuren leert – bijvoorbeeld voor grappige memes." Maar EyEm wil foto's eruit lichten die een duidelijk verhaal vertellen. Daarom heeft het bedrijf professionele fotografen en fotoredacteuren in de arm genomen en op basis van hun oordeel een trainingsverzameling van honderdduizend foto's opgebouwd.
Beveiligde gebieden
Google verzamelt alles van het neurale netwerk en de metadata tot de foto's op zijn cloudservers. De foto's worden onder andere beoordeeld om persoonlijke reclame te kunnen aansturen. Excire daarentegen is een plug-in voor Lightroom en werkt uitsluitend lokaal. Apple Foto's analyseert gezichten en objecten eveneens lokaal en slaat de metadata op het betreffende apparaat op. Maar de fabrikant behoudt zich in het kader van zijn differential privacy-concept het recht voor om geanonimiseerde data ter analyse naar Cupertino te sturen. Met differential privacy worden methoden aangeduid die een dataset zo veranderen dat je de identiteit van de persoon er niet meer uit kunt halen, maar dat er nog wel een statistische analyse mee mogelijk is. Je neemt bijvoorbeeld een steekproef en maakt de data onleesbaar. Hoe Apple de data precies anonimiseert, welke apps data doorsturen en welke data er worden gestuurd, blijft echter onduidelijk. Picturio extraheert volgens de producent de kenmerken lokaal en stuurt ze als hash-waarden naar de server, die ze beoordeelt, groepeert en bij het inzoomen via objectherkenning synchroniseert. EyeEM stuurt een verkleinde preview van de foto naar de server van het bedrijf, waar hij alleen in de cache wordt bewaard en na rating en tagging weer wordt verwijderd.
Toekomstmuziek
Objectherkenning in foto's werkt verbazingwekkend goed. Vooral Google demonstreert op indrukwekkende wijze hoe goed en volledig een machine foto's kan lezen. Dit doel bereikt het databedrijf niet alleen met neurale netwerken. Het gebruikt met name zijn totale kennisnetwerk om uit direct herkende objecten belangrijke extra informatie af te leiden. Wanneer Google zijn netwerk bijvoorbeeld op de Eiffeltoren traint, kan het 'Parijs' en 'Bezienswaardigheid' simpelweg via zijn Knowledge Graph aanvullen. De fabrikanten gebruiken ook (synoniemen-)woordenboeken om hun scores te verhogen. Aesthetic ranking werkt niet perfect, maar helpt wel bij het maken van keuzes. Vooral EyeEM beoordeelt foto's verbazingwekkend gedifferentieerd en neutraal.
In al je enthousiasme over wat de netwerken zelfstandig kunnen ontdekken, mag je één ding niet vergeten, het is minstens net zo belangrijk wat ze niet vinden – en dat kun je op het moment alleen bij Photoshop Elements en EyeEM Vision enigszins uitproberen. Alle systemen wijzen nog genoeg onverenigbare en foute tags of gewoon te weinig tags toe. Vooral in het professionele segment zal daarom niet per se de aanbieder met het grootste en diepste netwerk winnen, maar degene die efficiëntie weet te combineren met betrouwbaarheid en controle.
Excire werkt daarom aan een uitgebreidere categorieboom en een pro-versie die de gebruiker meer invloed geeft. Voor de doorsnee gebruikers lijken de fabrikanten de voorkeur te geven aan een blackbox-oplossing – zoals Apple en Google Foto's laten zien. Daar zit vermoedelijk de overtuiging achter dat op AI gebaseerd zoeken binnenkort zo perfect werkt, dat een handmatige correctie sowieso overbodig is. (jmu)