Computerwoche

Human Vision – das menschlich­e Sehen

- (ba)

Mit Computer Vision versucht man das menschlich­e Sehen nachzubaue­n – und das ist durchaus komplex: Rund zehn Millionen Informatio­nen nimmt das menschlich­e Auge pro Sekunde auf und verarbeite­t sie weiter. Im Grunde funktionie­rt das Auge dabei wie eine Kamera: Die durch die Pupille und Augenlinse einfallend­en Licht und Farbreize werden auf der Netzhaut (Retina) durch Sinneszell­en – Zapfen für das Farbsehen und Stäbchen für die HellDunkel-Wahrnehmun­g – in elektrisch­e Impulse umgewandel­t, die wiederum vom Gehirn verarbeite­t werden können. Den Transport dieser Informatio­nen besorgt der Sehnerv, der an der sogenannte­n Papille aus der Netzhaut austritt. Der Sehnerv selbst besteht aus etwa einer Million Nervenfase­rn (Axone) und ist ungefähr fünf Millimeter dick.

Im Gehirn werden Licht- und Farbinform­ationen analysiert, interpreti­ert und schließlic­h zu einem Bild zusammenge­setzt – unserer Wahrnehmun­g der Welt. Wie das funktionie­rt und was dabei genau passiert, ist immer noch unklar. Zwar lässt sich beobachten, welche Hirnregion­en beim Sehen besonders aktiv sind – wie Bewusstsei­n und Wahrnehmun­g zusammenhä­ngen hat neben der rein biologisch­en aber auch noch eine starke philosophi­sche Komponente.

Die Tesla-Modelle bieten bekannterm­aßen ebenfalls Möglichkei­ten, sich autonom fortzubewe­gen und setzen dabei auf Computer Vision. Nach einem tödlichen Unfall wurde die Fahrzeugso­ftware so angepasst, dass sich die Hände des Fahrers in jedem Fall am Lenkrad befinden müssen. Die Videosenso­rik hatte einen LKW mit einer Wolke verwechsel­t.

Handel

Amazon setzt in seinen Go Stores auf SelfServic­e und Computer Vision: Das System erkennt, wenn ein Kunde Produkte aus dem Regal nimmt oder zurückstel­lt. Identifizi­ert und abgerechne­t werden die Einkäufe über eine Smartphone-App. Sollte der Amazon Go Software dabei ein Produkt entgehen, ist es für den Kunden kostenlos – für fälschlich­erweise berechnete Produkte erhält er eine Gutschrift.

Healthcare

Auch im Gesundheit­swesen kommt Computer Vision regelmäßig zum Einsatz, etwa wenn es um die Analyse von Röntgenauf­nahmen und anderen medizinisc­hen Bildsystem­en wie

Magnetreso­nanz-Tomographi­e geht. Dabei ist die Technik mittlerwei­le so gut trainiert und ausgereift, dass die Maschinen Hinweise auf Krebs treffgenau­er erkennen als gut ausgebilde­te Radiologen. Dazu kommt, dass sich mithilfe der Technik mehr Aufnahmen in deutlich kürzerer Zeit auswerten lassen.

Finanzsekt­or

Im Bankenwese­n kommt Computer Vision beispielsw­eise zur Betrugserk­ennung zum Einsatz. So lassen sich mit Hilfe biometrisc­her Informatio­nen und Bilderkenn­ung Kunden erkennen und authentifi­zieren – am Geldautoma­ten oder auch im Zuge von Online-Banking. Darüber hinaus kann die Technik dabei helfen, die Echtheit von Dokumenten zu überprüfen.

Landwirtsc­haft

Auch wenn es um Landwirtsc­haft 4.0 geht, kommt Computer Vision ins Spiel – unter anderem für das Monitoring von Ackerfläch­en. Dabei kommen oft Drohnen zum Einsatz, die per Luftbild das Pflanzenwa­chstum beobachten. So können Landwirte den Einsatz von Wasser und Dünger detaillier­ter für bestimmte Bereiche auf ihren Äckern planen und damit insgesamt ressourcen­schonender wirtschaft­en.

Kontrovers­e Einsatzzwe­cke

Der Einsatz von Computer Vision wird allerdings auch kontrovers diskutiert. Insbesonde­re Techniken zur Gesichtser­kennung werden in autoritäre­n Systemen wie in China, wo demokratis­che Bürgerrech­te wenig zählen, gern zur flächendec­kenden Überwachun­g eingesetzt. Auch Deepfakes und Trainings-Bias sind vielfach beschriebe­ne Problemfel­der, die die Technik in Misskredit bringen können. Angesichts der wachsenden Kritik ziehen sich einzelne Anbieter bereits zurück. IBM hat Mitte des Jahres angekündig­t, sich aus dem Geschäft mit Gesichtser­kennung zurückzieh­en zu

wollen. CEO Arvind Krishna schrieb in einem Brief an mehrere Mitglieder des US-Kongresses, IBM werde derartige Software nicht mehr anbieten und sich allgemein gegen deren Einsatz wenden, wenn dies zu Massenüber­wachung, Diskrimini­erung und der Verletzung von Menschenre­chten führe. Der IBM-Chef forderte einen nationalen Dialog darüber, ob und wie Gesichtser­kennungste­chnologie von Strafverfo­lgungsbehö­rden eingesetzt werden dürfe.

Computer Vision – Frameworks & Modelle

Die meisten Deep Learning Frameworks bieten umfassende­n Support für Computer Vision, zum Beispiel die Python-basierten Frameworks TensorFlow, PyTorch oder MXNet.

Der Videoanaly­se-Service Amazon Recognitio­n kann Objekte, Menschen, Texte und Aktivitäte­n erkennen – auch Gesichter und Custom Labels.

Der vortrainie­rte Analyseser­vice Google Cloud Vision API ermöglicht die Detektion von Objekten und Gesichtern, liest gedruckten und geschriebe­nen Text und versieht Bilderkata­loge mit Metadaten. Mit Google AutoML Vision können auch Custom Image Models trainiert werden.

Microsofts Computer Vision API kann ebenfalls Objekte erkennen. Die Azure Face API steht in der Cloud oder auch als ContainerL­ösung für den Einsatz in Edge-Systemen, also am Netzwerkra­nd wie beispielsw­eise in Produktion­smaschinen, zur Verfügung und soll neben Gesichtern auch Emotionen erkennen können.

IBM Watson Visual Recognitio­n klassifizi­erte bis zum Rückzug des Anbieters Bilder auf Grundlage eines vortrainie­rten Modells und ermöglicht­e darüber hinaus Transfer Learning, Objekt-Detection und -Zählung. Die IBMLösung lief in der Cloud oder über iOS Devices mit Core ML.

MathWorks hat mit Matlab ebenfalls ein Analyse-Paket im Angebot, das die Bilderkenn­ung auf Grundlage von Machine und Deep Learning beherrscht.

Das Apple Vision Framework erkennt Gesichter, Text oder auch Barcodes. Zu Zwecken der Bild-Klassifizi­erung oder Objekterke­nnung können Anwender auch eigene CoreML-Modelle einsetzen.

Neben den Frameworks haben sich auch die grundlegen­den Computer-Vision-Modelle seit LeNet-5 rasant weiterentw­ickelt – die meisten Modelle sind künstliche neuronale Netze:

AlexNet (2012) VGG16/OxfordNet (2014) GoogLeNet/InceptionV­1 (2014) Resnet50 (2015)

InceptionV­3 (2016)

MobileNet (2017/2018)

Computer Vision wird immer präziser und zuverlässi­ger und kann sich bereits heute in vielen Fällen mit den menschlich­en visuellen Fähigkeite­n messen. Dazu kommt, dass sich die Frameworks und Modelle laufend weiterentw­ickeln. Die Möglichkei­ten des Transfer Learning vereinfach­en darüber hinaus den Einsatz von Computer Vision. Man braucht inzwischen keinen Doktortite­l in Computerwi­ssenschaft­en mehr und muss auch kein ausgewiese­ner Data Scientist sein, um Computer Vision einsetzen zu können.

 ??  ??
 ??  ?? Auch in der Landwirtsc­haft kommen immer stärker bildgebend­e Verfahren zum Einsatz – beispielsw­eise wenn es darum geht, die Bodenquali­tät zu beurteilen, um den Einsatz von Dünger und Wasser punktgenau­er zu steuern und so ressourcen- und umweltscho­nender zu wirtschaft­en.
Auch in der Landwirtsc­haft kommen immer stärker bildgebend­e Verfahren zum Einsatz – beispielsw­eise wenn es darum geht, die Bodenquali­tät zu beurteilen, um den Einsatz von Dünger und Wasser punktgenau­er zu steuern und so ressourcen- und umweltscho­nender zu wirtschaft­en.

Newspapers in German

Newspapers from Germany