Künstliche Intelligenz Eine neue Technologie generiert mithilfe neuronaler Netzwerke hochwertige Lowlight-Aufnahmen.
Künstliche Intelligenz in der Fotografie. Ein auf künstlicher Intelligenz basierendes Software-System ist in der Lage, automatisch Bilder mit einer viel höheren Qualität aufzuhellen als herkömmliche Verarbeitungsoptionen.
Dass gute Bilder bei schwachem Licht wegen der niedrigen Photonenzahl eine echte Herausforderung sind, ist eine Binsenweisheit. Das war schon zu Zeiten des Silberfilms so, und auch im digitalen Zeitalter ist das niedrige Signal-Rausch-Verhältnis (Signalto-Noise Ratio, SNR) problematisch. Fotos mit kurzer Belichtungszeit leiden unter Bildrauschen, während eine lange Belichtungszeit Unschärfe verursacht und oft schlicht unpraktisch ist.
Verschiedene Technologien im Einsatz
Seit die Digitalfotografie ihren Siegeszug angetreten hat, sind viele Rauschunterdrückungsund EnhancementTechniken entwickelt worden. Während die normale JPEG-Verarbeitung schnell passen muss, existieren durchaus Algorithmen, die mit Restlicht zum Teil akzeptable Ergebnisse liefern. Dazu gehört der L3-Algorithmus (Local Linear Learned), der zugleich demosaiken, entrauschen und Farben konvertieren kann (Abbildung auf Seite 52). Dazu werden die einzelnen Pixel kategorisiert, dann linear transformiert und schließlich über eine gewichtete Sum- menformel wieder zusammengesetzt. Der L3-Algorithmus kann sowohl an den Filter des Sensors (hier Bayer Pattern oder Trans-X) als auch an den gewünschten Ausgabefarbraum angepasst werden. Alternative Ansätze bestehen z.B. darin, eine Reihe von Bildern sehr schnell nacheinander aufzunehmen und daraus ein neues Bild zu berechnen (BurstAlignment-Algorithmen). Unter Extrembedingungen (z. B. Lichtwerte unter 1Lux) stoßen aber auch diese spezialisierten Technologien schnell an Grenzen, und Burst-Alignement ist zudem nicht für Videoaufnahmen geeignet.
Lernende Bildpaare
Forscher der University of Illinois und des Chipherstellers Intel haben jetzt ein Lösung entwickelt, die Aufnahmen mit extrem wenig Licht aufhellt, ohne Rauschen und andere Artefakte hinzuzufügen. Dabei hilft ihnen künstliche Intelligenz (KI) in einem konvolutionalen neuronalen Netzwerk. Das Team verwendete Fotos, die mit einer Fujifilm X-T2 mit APS-C X-TransSensor und einer Sony Alpha 7S II mit Vollformat-Bayer-Sensor aufgenommen wurden. Sie testeten außerdem Smartphone-Bilder aus dem iPhone X und dem Google Pixel 2. Das System wurde mit den RAW-Daten von 5094 Bildpaaren gefüttert, die einmal mit extrem wenig Licht (Lowlight) und einmal mit Normalbelichtung aufgenommen wurden: Der See-in-the-Dark (SID)-Datensatz enthält also unformatierte Kurzbelichtungsbilder mit jeweils einem entsprechenden Referenzbild. Zum kompletten Datensatz gehören Innenund Außenaufnahmen. Letztere sind in der Regel nachts bei Mondlicht oder bei Straßenbeleuchtung entstanden. Die Helligkeit lag dabei zwischen 0,2 und 5 Lux. Die Innenaufnahmen sind noch dunkler, die Beleuchtungsstärke lag zwischen 0,03 und 0,3 Lux. Wie lernt das System? Im konvolutionalen neuronalen Netzwerk wird eine Faltung (Konvolution) der Bildinformationen durchgeführt. In der Mathematik beschreibt die Faltung einen Operator, der aus den zwei Funktionen f und g eine dritte Funktion f g generiert. „Die Faltung kann als ein Produkt von Funktionen verstanden werden“, schreibt Wikipedia. Bei Bayer-Arrays werden die Eingangsdaten in vier Ka-
näle separiert, was die räumliche Auflösung in jeder Dimension um den Faktor zwei reduziert. Danach werden die Schwarzpegel abgezogen und die erhaltenen Daten im gewünschten Verstärkungsverhältnis (z. B. x100 oder x300) skaliert und in ein 12-Kanal-Bild mit der halben räumlichen Auflösung überführt. Diese Ausgabe in halber Größe wird von einer Subpixelschicht verarbeitet, um die ursprüngliche Auflösung wiederherzustellen. Während des Trainings im Konvertierungsnetzwerk (ConvNet) bestehen die „Eingaben“aus den Rohdaten des kurz belichteten Bilds, und die „Grundwahrheit“ist das entsprechende Langzeitbelichtungsbild im sRGB-Raum. Die aufgrund der Eingabe vom Netzwerk berechnete Ausgabe wird mit der Grundwahrheit verglichen und die Steigung der Fehlerfunktion bestimmt. Idealerweise gibt es eine Richtung, in die man optimieren kann, sodass die Fehlerfunktion minimiert wird. Das Verstärkungsverhältnis schließlich bestimmt die Helligkeit des Ausgangs. In diesem Verfahren wird das Verstärkungsverhältnis extern festgelegt und als Eingabe bereitgestellt, ähnlich wie bei der ISO-Einstellung in der Kamera. Der Benutzer kann die Helligkeit des Ausgabebilds einstellen, indem er verschiedene Verstärkungsfaktoren wählt.
Grenzen des Systems und Blick in die Zukunft
Das vorgestellte System benötigt 0,38 bzw. 0,66s, um die hochauflösenden Fotos aus der Sony- und der FujifilmKamera zu verarbeiten. Das ist noch nicht schnell genug für die Echtzeitverarbeitung bei voller Auflösung, obwohl eine Vorschau mit niedriger Auflösung in Echtzeit erzeugt werden kann. Der SID-Datensatz ist außerdem insofern begrenzt, als er keine Lebewesen oder dynamischen Objekte enthält. Eine weitere Einschränkung besteht darin, dass man das Verstärkungsverhältnis aktuell noch extern wählen muss. Hier wäre ein automatisches Verstärkungsverhältnis wünschenswert, das ähnlich funktioniert wie bei Auto-ISO. Trotz dieser aktuellen Beschränkungen zeigt das Beispiel eindrucksvoll, wie man Künstliche Intelligenz in Zukunft für die automatische Verbesserung von Fotos verwenden kann – und dabei die Grenzen der Fotografie verschieben wird. Idealerweise wird dies nicht nur die Nachbearbeitung von Aufnahmen
schneller und besser machen, sondern erfordert auch weniger manuelle Eingriffe durch den Benutzer. Die Forscher gehen davon aus, dass man, um ein optimales Ergebnis zu erhalten, ein dediziertes Netzwerk für einen bestimmten Kamerasensor trainieren muss. Die Wissenschaftler konnten auch zeigen, dass viele Ergebnisse übertragbar sind. So haben sie die SID-Daten des auf Sony geschulten Netzwerks auch auf Bilder angewendet, die mit einem iPhone aufgenommen worden waren, das ebenfalls über ein Bayer-Filter-Array und 14-Bit-RAWs verfügt. Im Vergleich mit den Standardbildern, die unter starkem Rauschen und Farbverschiebungen leiden, zeigen die Ergebnisse des Netzwerks einen guten Kontrast, wenig Rauschen und bessere Farben.