Human Vision – das menschliche Sehen
Mit Computer Vision versucht man das menschliche Sehen nachzubauen – und das ist durchaus komplex: Rund zehn Millionen Informationen nimmt das menschliche Auge pro Sekunde auf und verarbeitet sie weiter. Im Grunde funktioniert das Auge dabei wie eine Kamera: Die durch die Pupille und Augenlinse einfallenden Licht und Farbreize werden auf der Netzhaut (Retina) durch Sinneszellen – Zapfen für das Farbsehen und Stäbchen für die HellDunkel-Wahrnehmung – in elektrische Impulse umgewandelt, die wiederum vom Gehirn verarbeitet werden können. Den Transport dieser Informationen besorgt der Sehnerv, der an der sogenannten Papille aus der Netzhaut austritt. Der Sehnerv selbst besteht aus etwa einer Million Nervenfasern (Axone) und ist ungefähr fünf Millimeter dick.
Im Gehirn werden Licht- und Farbinformationen analysiert, interpretiert und schließlich zu einem Bild zusammengesetzt – unserer Wahrnehmung der Welt. Wie das funktioniert und was dabei genau passiert, ist immer noch unklar. Zwar lässt sich beobachten, welche Hirnregionen beim Sehen besonders aktiv sind – wie Bewusstsein und Wahrnehmung zusammenhängen hat neben der rein biologischen aber auch noch eine starke philosophische Komponente.
Die Tesla-Modelle bieten bekanntermaßen ebenfalls Möglichkeiten, sich autonom fortzubewegen und setzen dabei auf Computer Vision. Nach einem tödlichen Unfall wurde die Fahrzeugsoftware so angepasst, dass sich die Hände des Fahrers in jedem Fall am Lenkrad befinden müssen. Die Videosensorik hatte einen LKW mit einer Wolke verwechselt.
Handel
Amazon setzt in seinen Go Stores auf SelfService und Computer Vision: Das System erkennt, wenn ein Kunde Produkte aus dem Regal nimmt oder zurückstellt. Identifiziert und abgerechnet werden die Einkäufe über eine Smartphone-App. Sollte der Amazon Go Software dabei ein Produkt entgehen, ist es für den Kunden kostenlos – für fälschlicherweise berechnete Produkte erhält er eine Gutschrift.
Healthcare
Auch im Gesundheitswesen kommt Computer Vision regelmäßig zum Einsatz, etwa wenn es um die Analyse von Röntgenaufnahmen und anderen medizinischen Bildsystemen wie
Magnetresonanz-Tomographie geht. Dabei ist die Technik mittlerweile so gut trainiert und ausgereift, dass die Maschinen Hinweise auf Krebs treffgenauer erkennen als gut ausgebildete Radiologen. Dazu kommt, dass sich mithilfe der Technik mehr Aufnahmen in deutlich kürzerer Zeit auswerten lassen.
Finanzsektor
Im Bankenwesen kommt Computer Vision beispielsweise zur Betrugserkennung zum Einsatz. So lassen sich mit Hilfe biometrischer Informationen und Bilderkennung Kunden erkennen und authentifizieren – am Geldautomaten oder auch im Zuge von Online-Banking. Darüber hinaus kann die Technik dabei helfen, die Echtheit von Dokumenten zu überprüfen.
Landwirtschaft
Auch wenn es um Landwirtschaft 4.0 geht, kommt Computer Vision ins Spiel – unter anderem für das Monitoring von Ackerflächen. Dabei kommen oft Drohnen zum Einsatz, die per Luftbild das Pflanzenwachstum beobachten. So können Landwirte den Einsatz von Wasser und Dünger detaillierter für bestimmte Bereiche auf ihren Äckern planen und damit insgesamt ressourcenschonender wirtschaften.
Kontroverse Einsatzzwecke
Der Einsatz von Computer Vision wird allerdings auch kontrovers diskutiert. Insbesondere Techniken zur Gesichtserkennung werden in autoritären Systemen wie in China, wo demokratische Bürgerrechte wenig zählen, gern zur flächendeckenden Überwachung eingesetzt. Auch Deepfakes und Trainings-Bias sind vielfach beschriebene Problemfelder, die die Technik in Misskredit bringen können. Angesichts der wachsenden Kritik ziehen sich einzelne Anbieter bereits zurück. IBM hat Mitte des Jahres angekündigt, sich aus dem Geschäft mit Gesichtserkennung zurückziehen zu
wollen. CEO Arvind Krishna schrieb in einem Brief an mehrere Mitglieder des US-Kongresses, IBM werde derartige Software nicht mehr anbieten und sich allgemein gegen deren Einsatz wenden, wenn dies zu Massenüberwachung, Diskriminierung und der Verletzung von Menschenrechten führe. Der IBM-Chef forderte einen nationalen Dialog darüber, ob und wie Gesichtserkennungstechnologie von Strafverfolgungsbehörden eingesetzt werden dürfe.
Computer Vision – Frameworks & Modelle
Die meisten Deep Learning Frameworks bieten umfassenden Support für Computer Vision, zum Beispiel die Python-basierten Frameworks TensorFlow, PyTorch oder MXNet.
Der Videoanalyse-Service Amazon Recognition kann Objekte, Menschen, Texte und Aktivitäten erkennen – auch Gesichter und Custom Labels.
Der vortrainierte Analyseservice Google Cloud Vision API ermöglicht die Detektion von Objekten und Gesichtern, liest gedruckten und geschriebenen Text und versieht Bilderkataloge mit Metadaten. Mit Google AutoML Vision können auch Custom Image Models trainiert werden.
Microsofts Computer Vision API kann ebenfalls Objekte erkennen. Die Azure Face API steht in der Cloud oder auch als ContainerLösung für den Einsatz in Edge-Systemen, also am Netzwerkrand wie beispielsweise in Produktionsmaschinen, zur Verfügung und soll neben Gesichtern auch Emotionen erkennen können.
IBM Watson Visual Recognition klassifizierte bis zum Rückzug des Anbieters Bilder auf Grundlage eines vortrainierten Modells und ermöglichte darüber hinaus Transfer Learning, Objekt-Detection und -Zählung. Die IBMLösung lief in der Cloud oder über iOS Devices mit Core ML.
MathWorks hat mit Matlab ebenfalls ein Analyse-Paket im Angebot, das die Bilderkennung auf Grundlage von Machine und Deep Learning beherrscht.
Das Apple Vision Framework erkennt Gesichter, Text oder auch Barcodes. Zu Zwecken der Bild-Klassifizierung oder Objekterkennung können Anwender auch eigene CoreML-Modelle einsetzen.
Neben den Frameworks haben sich auch die grundlegenden Computer-Vision-Modelle seit LeNet-5 rasant weiterentwickelt – die meisten Modelle sind künstliche neuronale Netze:
AlexNet (2012) VGG16/OxfordNet (2014) GoogLeNet/InceptionV1 (2014) Resnet50 (2015)
InceptionV3 (2016)
MobileNet (2017/2018)
Computer Vision wird immer präziser und zuverlässiger und kann sich bereits heute in vielen Fällen mit den menschlichen visuellen Fähigkeiten messen. Dazu kommt, dass sich die Frameworks und Modelle laufend weiterentwickeln. Die Möglichkeiten des Transfer Learning vereinfachen darüber hinaus den Einsatz von Computer Vision. Man braucht inzwischen keinen Doktortitel in Computerwissenschaften mehr und muss auch kein ausgewiesener Data Scientist sein, um Computer Vision einsetzen zu können.