Megatrend Computer Vision
Unternehmen machen große Fortschritte mit Bilderkennung
Autonomes Fahren, die Auswertung von MRT-Aufnahmen oder die Analyse der Bodenqualität auf dem Kartoffelacker – es gibt immer mehr Bereiche, in denen Bilderkennung wichtig wird. Maßgeblich für den erfolgreichen Einsatz von Computer Vision sind die Fortschritte rund um künstliche Intelligenz. Neuronale Netze helfen, die Modelle so zu trainieren, dass die Erkennungsraten immer besser werden.
Autonomes Fahren, Virtual-, Augmented und Mixed-Reality, Gesichtserkennung und noch viele weitere Einsatzszenarien – die Anwendungsgebiete von Computer Vision werden immer vielfältiger.
Computer Vision – Definition
Computer Vision, am ehesten zu übersetzen mit „computerbasiertes Sehen“, bezeichnet Systeme, die Objekte in digitalem Videomaterial erkennen und verarbeiten – egal ob Standoder Bewegtbild. Im Kern geht es darum, einem Computer mit angeschlossener Kamera beizubringen, Bilder zu analysieren und deren Inhalt zu verstehen. Das Feld der Computer Vision umfasst dafür verschiedene Disziplinen: Neben Bildverarbeitung und Computergrafik kommen Methoden der projektiven Geometrie, statistische Modelle sowie seit einigen Jahren auch verstärkt Funktionen rund um künstliche Intelligenz und Machine Learning zum Einsatz. Die Technik hat sich im Laufe der vergangenen zwanzig Jahre entscheidend weiterentwickelt: Heutige Computer-Vision-Systeme erreichen eine Genauigkeit von 99 Prozent und laufen inzwischen auch auf mobilen Devices.
Um die Bildverarbeitung durch den visuellen Kortex zu abstrahieren, setzen Forscher in Sachen Computer Vision insbesondere auf künstliche neurale Netze. Mit Yann LeCuns LeNet-5 (einem siebenstufigen Convolutional Neural Network, das handgeschriebene Zahlen in digitalisierten Bildern mit einer Auflösung von 32 mal 32 Pixeln erkennt) gelang im Jahr 1998 der Durchbruch. Dieses Modell wurde zielstrebig erweitert: Heutige Image-Classification-Systeme erkennen ganze Objektkataloge in HD-Auflösung und in Farbe.
Neben neuronalen Netzen bauen die Experten in Sachen Computer Vision auch auf HybridVision-Modelle, die Deep Learning mit klassischen Machine-Learning-Algorithmen kombinieren.
Computer Vision – Trainingsdaten
Um Computer-Vision-Modelle anzulernen, braucht es Training. Dafür stehen mittlerweile diverse öffentliche Bilddatenbanken im Netz zur Verfügung:
MNIST ist eine der simpelsten und ältesten Datenbanken und enthält zirka 70.000 hand
geschriebene Zahlen in zehn verschiedenen Klassen – 60.000 Trainings-Sets und 10.000 Testsätze. Das MNIST-Datenset, dessen Anfänge auf den bereits erwähnten Yann LeCun zurückgehen, lässt sich ohne Probleme in ein Modell überführen – selbst mit einem Laptop ohne Hardwarebeschleunigung. Die Datenbank adressiert Entwickler, die Lerntechniken und Methoden der Mustererkennung an realen Daten ausprobieren wollen, dafür aber nur minimalen Aufwand für die Vorverarbeitung und Formatierung betreiben möchten.
COCO bietet ein großes Datenset – beispielsweise zur Objekterkennung und Bildsegmentierung. Mehr als 330.000 Bilder in 80 Objektkategorien stehen den Nutzern zur Verfügung, davon über 200.000 bereits mit den entsprechenden Labels. Neben den eigentlichen Bildern lassen sich auch andere Werkzeuge sowie Anmerkungen zu den Daten herunterladen. Außerdem bildet sich bereits eine Art Ökosystem rund um COCO heraus. Zudem lassen sich auch externe Datensets mit anschließen.
ImageNet enthält circa 1,5 Millionen Bilder inklusive Labels. Diese werden nach unterschiedlichen Kategorien geordnet. Für den Überbegriff Tier gibt es beispielsweise 3.822 Unterkategorien – im Durchschnitt mit jeweils 732 Bildern. Insgesamt gibt es damit fast 2,8 Millionen Tierbilder im ImageNet.
Open Images bietet Zugriff auf Webadressen mit zirka neun Millionen Bildern – ebenfalls inklusive Labels. Das Ganze firmiert unter dem zu Microsoft gehörenden Entwickler- und Code-Portal Github. Neben den eigentlichen Bilddateien finden sich hier auch Tools und APIs.
Die Hyperscaler Google, Microsoft (Azure) und Amazon Web Services (AWS) bauen an eigenen Computer-Vision-Modellen für ihre Cloud-Infrastrukturen, die mit großen Datensets trainiert wurden. Diese können Kunden entweder als Service buchen und direkt einsetzen beziehungsweise auch per Transfer Learning mit eigenen Bilddatensätzen trainieren. Das spart im Vergleich zum grundlegenden Neuaufbau eines Modells extrem viel Zeit.
Computer Vision – Use Cases
Computer Vision ist längst noch nicht perfekt, aber die Systeme sind mittlerweile in einzelnen Bereichen so gut trainiert und damit auch genau genug, um in verschiedenen Branchen zum praktischen Einsatz zu kommen.
Automotive
Waymo – ehemals Googles Vorzeigeprojekt in Sachen autonomes Fahren – hat seine Fahrzeugsoftware nach eigener Aussage mit Daten aus sieben Millionen zurückgelegten Kilometern trainiert. Bisher ist mindestens ein Unfall eines Waymo-Vans bekannt, allerdings soll dafür nicht die Software verantwortlich gewesen sein.