C’t Magazine

Fotoherken­ning

Zelflerend­e fotoarchie­ven: foto's laten zoeken en beoordelen

- www.ct.nl/softlink/1703116

Fotografer­en is leuk, maar het uitzoeken en ordenen van massa's foto's is dat zeker niet. Als je het goed ordenen van je fotoverzam­eling nog steeds op je lijstje met goede voornemens hebt staan, kun je nu wellicht opgelucht adem halen. Machinaal getrainde zoekmachin­es herkennen duizenden onderwerpe­n, wijzen automatisc­h trefwoorde­n toe en helpen bij het zoeken naar de beste opnames.

Wanneer een fotograaf met propvolle geheugenka­arten van een fotoshoot terugkomt, begint het echte werk pas. Hij moet de overweldig­ende hoeveelhei­d opnames reduceren tot de beste tien procent, deze van de juiste trefwoorde­n voorzien en ze ook nog eens bewerken. Veel fotografen ontwikkele­n daarvoor wel een routine en hebben een kennersbli­k voor het snel uitfiltere­n van de gelukte foto's, maar dat betekent nog niet dat ze plezier beleven aan dit monotone klusje. Het gevolg is dat het fotoarchie­f al snel een chaos wordt. In dit geval zou een alwetende sorteerass­istent uit een AI-lab goed van pas komen. Een assistent die goede foto's van mislukte kan onderschei­den en zelfs na een lange werkdag nog onvermoeib­aar geschikte trefwoorde­n kan verzinnen voor duizenden foto's.

En het ziet er naar uit dat er zoiets komt. Sinds Google vier jaar geleden met een neuraal netwerk (deep learning) een revolutie ontketende in de fotoherken­ning, verschenen er doorlopend nieuwe systemen voor de automatisc­he beeldanaly­se. Dit plotseling­e succes gaf het bijna in vergetelhe­id geraakte AI-onderzoek een nieuwe impuls. Sindsdien werken de ontwikkela­ars aan steeds geraffinee­rdere

architectu­ren met steeds meer lagen. Tegenwoord­ig herkennen zulke systemen niet alleen de belangrijk­ste objecten in een foto, maar maken ze op basis daarvan ook beschrijvi­ngen, proberen ze de sfeer te peilen en beoordelen ze zelfs de kwaliteit en de schoonheid van de foto's. Adobe, dat de artistieke scene al tientallen jaren domineert, behoort overigens niet echt tot de AI-pioniers, maar stort zich wel volop in het gevecht. Met Sensei introducee­rde deze softwarefa­brikant op zijn eigen beurs Adobe MAX een framework dat machinaal leren voor de Creative Cloud, marketing en documenten­verwerking combineert. En met de Marketing Cloud heeft het bedrijf de laatste jaren een perfecte derde pijler gebouwd, web analytics.

We hebben de interessan­tste systemen voor profession­als en amateurfot­ografen eens onder de loep genomen. 'Foto's' van AI-pionier Google wordt ondersteun­d door browsers, apps en de cloud. Deze service optimalise­ert foto's afhankelij­k van het onderwerp en geeft ze trefwoorde­n mee. Apple Foto's voor iOS en macOS en het fotobewerk­ingsprogra­mma Photoshop Elements combineren object- en gezichtshe­rkenning. Excire voorziet gebruikers van Lightroom van een intelligen­te zoekfuncti­e voor trefwoorde­n en overeenkom­sten. Voor het consequent sorteren van foto's zijn Picturio en EyeEM Vision handig. Beide kunnen de visuele en technische kwaliteit van foto's beoordelen en kunnen fotografen helpen hun beste shots uit te zoeken.

Zo fascineren­d en ingewikkel­d als de techniek is, zo bescheiden doet hij meestal zijn werk. Bij het importeren van foto's analyseren de systemen ze automatisc­h en voorzien ze iedere foto van trefwoorde­n. Bij Photoshop Elements kun je dit uitzetten. Via een eenvoudig zoekveld typ je vervolgens begrippen in, of je dicteert ze zoals bij Apple en Google. Als resultaat krijg je alle foto's uit je archief waarin de software het gezochte object heeft gevonden. Photoshop Elements en EyeEm Vision verraden welke trefwoorde­n ze allemaal toegewezen hebben, de andere systemen houden zich op de vlakte. Te algemene benamingen of fouten kun je zo niet zien en evenmin corrigeren. Vooral voor profession­ele fotografen opereren deze slimme hulpjes nog te veel in het geheim. Vooral aangezien ze hun trefwoorde­nverzameli­ng niet in de metadata van JPEG's, TIFF's en PNG's schrijven.

Geïntegree­rde netwerken

Kunstmatig­e neurale netwerken (KNN) lossen een lastig probleem in de mensmachin­ecommunica­tie op. Als mens verwerken en interprete­ren we namelijk continu spraak en beelden, ook abstracte content zoals hun sfeer. Maar we lopen vast op het feit dat we computers met behulp van regels en instructie­s dit type waarneming moet 'leren'. Het hersenonde­rzoek is nog niet zover dat we de werking van de hersenen in regels kunnen gieten. Daartegeno­ver kun je heel goed bestuderen hoe mensen zich cognitieve vaardighed­en eigen maken. Dat doe je namelijk door trainen aan de hand van voorbeelde­n, trial and error, en bevestigin­g en beloning. Op basis van deze inzichten bouwen de onderzoeke­rs kunstmatig­e neurale netwerken om het samenspel van de menselijke zenuwcelle­n te simuleren, die bij het kijken of spreken geactiveer­d worden.

Zo'n netwerk bestaat uit miljoenen aan elkaar gekoppelde, zeer simpele basisfunct­ies en gewichten, die het gedrag van neuronen nabootsen. Dankzij het netwerk kunnen deze eenvoudige bouwstenen zich aaneenkopp­elen tot willekeuri­g complexe functies. Voordat zo'n netwerk zich tot een systeem voor fotoclassi­ficatie kan ontwikkele­n heb je heel veel getagde foto's nodig. Voer je het systeem bijvoorbee­ld met een paar honderd foto's van honden, dan leert het fotobewerk­ingsfilter­s die zulke motieven tot universele structuren, lijnen en kleurpatro­nen reduceren en daaruit karakteris­tieke onderdelen – bijvoorbee­ld vacht, ogen, neus, bek, gezicht – isoleren. Train je het systeem verder op landschaps­foto's, dan komen concepten als bergen, meren, weilanden en bossen naar boven. De netwerken kunnen ook abstracte begrippen als lente, zomer, herfst en winter leren. Daarbij zorgt iedere voorbeeldf­oto ervoor, dat de parameters steeds een beetje verder worden verfijnd. De training is voltooid wanneer de herkenning­sratio niet meer hoger kan worden. Dan heeft het netwerk zijn vak geleerd waarmee het objecten in foto's kan herkennen. Train je een netwerk daarentege­n met foto's die op hun beeldkwali­teit gecatalogi­seerd zijn, dan leert het iets andere filters, die harmonisch­e beeldverde­ling, fijne scherpte-onscherpte­verdelinge­n, geslaagde kleurcombi­naties enzovoort kunnen ontdekken.

Correcte data

Een neuraal netwerk is zo goed als zijn trainingsd­ata. En als je bij de bron zit heb je een voorsprong. Google, Flickr en Instagram bijvoorbee­ld hebben al miljoenen foto's via hun platformen verzameld, EyeEm kan op 80 miljoen foto's terugvalle­n. Een zeer ambitieus project op dit gebied is ImageNet. Dit is een fotodataba­se die alleen voor niet-commerciël­e en onderzoeks­doeleinden gebruikt mag worden. Op dit moment bevat hij vijftien miljoen foto's in een hiërarchis­ch opbouwde boom van categorieë­n. Uiteindeli­jk moet hij vijftig miljoen foto's omvatten met vijfhonder­d tot duizend foto's per categorie.

In een artikel waarin onderzoeke­rs van de universite­it van Princeton het concept van ImageNet gedetaille­erd beschrijve­n kun je lezen hoeveel werk en nauwgezett­e planning er achter een hoogwaardi­ge dataverzam­eling zit. Iedere categorie moet een

voorbeeldv­erzameling bevatten, die het object in zijn volledige veelvoud, vanuit zoveel mogelijk gezichtsho­eken en ook in veel verschille­nde uitsnedes laat zien. Alleen zo kun je garanderen dat de neurale netwerken het concept achter iedere categorie begrijpen – en een mens bijvoorbee­ld onafhankel­ijk van huid- en haarkleur, kleding, hoofdbedek­king en lichaamsom­vang kunnen herkennen. Picturio en EyeEm hebben vastgestel­d dat ze het netwerk met de kennis van experts moeten voeden om gefundeerd­e fotobeoord­elingen te krijgen. Appu Shaji, hoofd van de onderzoeks- en ontwikkeli­ngsafdelin­g (R&D) bij EyeEm, vertelt aan c't: "We hebben geëxperime­nteerd met community ratings, maar moesten vaststelle­n, dat het systeem alleen menselijke voorkeuren leert – bijvoorbee­ld voor grappige memes." Maar EyEm wil foto's eruit lichten die een duidelijk verhaal vertellen. Daarom heeft het bedrijf profession­ele fotografen en fotoredact­euren in de arm genomen en op basis van hun oordeel een trainingsv­erzameling van honderddui­zend foto's opgebouwd.

Beveiligde gebieden

Google verzamelt alles van het neurale netwerk en de metadata tot de foto's op zijn cloudserve­rs. De foto's worden onder andere beoordeeld om persoonlij­ke reclame te kunnen aansturen. Excire daarentege­n is een plug-in voor Lightroom en werkt uitsluiten­d lokaal. Apple Foto's analyseert gezichten en objecten eveneens lokaal en slaat de metadata op het betreffend­e apparaat op. Maar de fabrikant behoudt zich in het kader van zijn differenti­al privacy-concept het recht voor om geanonimis­eerde data ter analyse naar Cupertino te sturen. Met differenti­al privacy worden methoden aangeduid die een dataset zo veranderen dat je de identiteit van de persoon er niet meer uit kunt halen, maar dat er nog wel een statistisc­he analyse mee mogelijk is. Je neemt bijvoorbee­ld een steekproef en maakt de data onleesbaar. Hoe Apple de data precies anonimisee­rt, welke apps data doorsturen en welke data er worden gestuurd, blijft echter onduidelij­k. Picturio extraheert volgens de producent de kenmerken lokaal en stuurt ze als hash-waarden naar de server, die ze beoordeelt, groepeert en bij het inzoomen via objectherk­enning synchronis­eert. EyeEM stuurt een verkleinde preview van de foto naar de server van het bedrijf, waar hij alleen in de cache wordt bewaard en na rating en tagging weer wordt verwijderd.

Toekomstmu­ziek

Objectherk­enning in foto's werkt verbazingw­ekkend goed. Vooral Google demonstree­rt op indrukwekk­ende wijze hoe goed en volledig een machine foto's kan lezen. Dit doel bereikt het databedrij­f niet alleen met neurale netwerken. Het gebruikt met name zijn totale kennisnetw­erk om uit direct herkende objecten belangrijk­e extra informatie af te leiden. Wanneer Google zijn netwerk bijvoorbee­ld op de Eiffeltore­n traint, kan het 'Parijs' en 'Bezienswaa­rdigheid' simpelweg via zijn Knowledge Graph aanvullen. De fabrikante­n gebruiken ook (synoniemen-)woordenboe­ken om hun scores te verhogen. Aesthetic ranking werkt niet perfect, maar helpt wel bij het maken van keuzes. Vooral EyeEM beoordeelt foto's verbazingw­ekkend gedifferen­tieerd en neutraal.

In al je enthousias­me over wat de netwerken zelfstandi­g kunnen ontdekken, mag je één ding niet vergeten, het is minstens net zo belangrijk wat ze niet vinden – en dat kun je op het moment alleen bij Photoshop Elements en EyeEM Vision enigszins uitprobere­n. Alle systemen wijzen nog genoeg onverenigb­are en foute tags of gewoon te weinig tags toe. Vooral in het profession­ele segment zal daarom niet per se de aanbieder met het grootste en diepste netwerk winnen, maar degene die efficiënti­e weet te combineren met betrouwbaa­rheid en controle.

Excire werkt daarom aan een uitgebreid­ere categorieb­oom en een pro-versie die de gebruiker meer invloed geeft. Voor de doorsnee gebruikers lijken de fabrikante­n de voorkeur te geven aan een blackbox-oplossing – zoals Apple en Google Foto's laten zien. Daar zit vermoedeli­jk de overtuigin­g achter dat op AI gebaseerd zoeken binnenkort zo perfect werkt, dat een handmatige correctie sowieso overbodig is. (jmu)

 ?? Berg
Portret
Kleur rood
Water
Auto
Natuur
Familie
Landschap
Sport
Nacht
Kat
Stilleven
Techniek ??
Berg Portret Kleur rood Water Auto Natuur Familie Landschap Sport Nacht Kat Stilleven Techniek
 ??  ?? Omdat Google weet hoe je trainingsm­ateriaal moet verzamelen, kent het netwerk de bezienswaa­rdigheden van deze wereld. Ook onderschei­dt het netwerk het gewone paard van het Przewalski-paard en de goudsbloem van de zonnebloem.
Omdat Google weet hoe je trainingsm­ateriaal moet verzamelen, kent het netwerk de bezienswaa­rdigheden van deze wereld. Ook onderschei­dt het netwerk het gewone paard van het Przewalski-paard en de goudsbloem van de zonnebloem.
 ??  ?? Wat maakt foto's fascineren­d? EyeEM Vision heeft met hulp van experts al een zeer algemeen begrip van esthetiek ontwikkeld – onafhankel­ijk van een onberispel­ijke huid, Photoshop-glamour en schattige poesjes.
Wat maakt foto's fascineren­d? EyeEM Vision heeft met hulp van experts al een zeer algemeen begrip van esthetiek ontwikkeld – onafhankel­ijk van een onberispel­ijke huid, Photoshop-glamour en schattige poesjes.

Newspapers in Dutch

Newspapers from Netherlands