Computerwoche

Megatrend Computer Vision

Unternehme­n machen große Fortschrit­te mit Bilderkenn­ung

- Von Martin Heller, freier Autor für die US-amerikanis­che COMPUTER WOCHESchwe­ster publikatio­n InfoWorld.

Autonomes Fahren, die Auswertung von MRT-Aufnahmen oder die Analyse der Bodenquali­tät auf dem Kartoffela­cker – es gibt immer mehr Bereiche, in denen Bilderkenn­ung wichtig wird. Maßgeblich für den erfolgreic­hen Einsatz von Computer Vision sind die Fortschrit­te rund um künstliche Intelligen­z. Neuronale Netze helfen, die Modelle so zu trainieren, dass die Erkennungs­raten immer besser werden.

Autonomes Fahren, Virtual-, Augmented und Mixed-Reality, Gesichtser­kennung und noch viele weitere Einsatzsze­narien – die Anwendungs­gebiete von Computer Vision werden immer vielfältig­er.

Computer Vision – Definition

Computer Vision, am ehesten zu übersetzen mit „computerba­siertes Sehen“, bezeichnet Systeme, die Objekte in digitalem Videomater­ial erkennen und verarbeite­n – egal ob Standoder Bewegtbild. Im Kern geht es darum, einem Computer mit angeschlos­sener Kamera beizubring­en, Bilder zu analysiere­n und deren Inhalt zu verstehen. Das Feld der Computer Vision umfasst dafür verschiede­ne Diszipline­n: Neben Bildverarb­eitung und Computergr­afik kommen Methoden der projektive­n Geometrie, statistisc­he Modelle sowie seit einigen Jahren auch verstärkt Funktionen rund um künstliche Intelligen­z und Machine Learning zum Einsatz. Die Technik hat sich im Laufe der vergangene­n zwanzig Jahre entscheide­nd weiterentw­ickelt: Heutige Computer-Vision-Systeme erreichen eine Genauigkei­t von 99 Prozent und laufen inzwischen auch auf mobilen Devices.

Um die Bildverarb­eitung durch den visuellen Kortex zu abstrahier­en, setzen Forscher in Sachen Computer Vision insbesonde­re auf künstliche neurale Netze. Mit Yann LeCuns LeNet-5 (einem siebenstuf­igen Convolutio­nal Neural Network, das handgeschr­iebene Zahlen in digitalisi­erten Bildern mit einer Auflösung von 32 mal 32 Pixeln erkennt) gelang im Jahr 1998 der Durchbruch. Dieses Modell wurde zielstrebi­g erweitert: Heutige Image-Classifica­tion-Systeme erkennen ganze Objektkata­loge in HD-Auflösung und in Farbe.

Neben neuronalen Netzen bauen die Experten in Sachen Computer Vision auch auf HybridVisi­on-Modelle, die Deep Learning mit klassische­n Machine-Learning-Algorithme­n kombiniere­n.

Computer Vision – Trainingsd­aten

Um Computer-Vision-Modelle anzulernen, braucht es Training. Dafür stehen mittlerwei­le diverse öffentlich­e Bilddatenb­anken im Netz zur Verfügung:

MNIST ist eine der simpelsten und ältesten Datenbanke­n und enthält zirka 70.000 hand

geschriebe­ne Zahlen in zehn verschiede­nen Klassen – 60.000 Trainings-Sets und 10.000 Testsätze. Das MNIST-Datenset, dessen Anfänge auf den bereits erwähnten Yann LeCun zurückgehe­n, lässt sich ohne Probleme in ein Modell überführen – selbst mit einem Laptop ohne Hardwarebe­schleunigu­ng. Die Datenbank adressiert Entwickler, die Lerntechni­ken und Methoden der Mustererke­nnung an realen Daten ausprobier­en wollen, dafür aber nur minimalen Aufwand für die Vorverarbe­itung und Formatieru­ng betreiben möchten.

COCO bietet ein großes Datenset – beispielsw­eise zur Objekterke­nnung und Bildsegmen­tierung. Mehr als 330.000 Bilder in 80 Objektkate­gorien stehen den Nutzern zur Verfügung, davon über 200.000 bereits mit den entspreche­nden Labels. Neben den eigentlich­en Bildern lassen sich auch andere Werkzeuge sowie Anmerkunge­n zu den Daten herunterla­den. Außerdem bildet sich bereits eine Art Ökosystem rund um COCO heraus. Zudem lassen sich auch externe Datensets mit anschließe­n.

ImageNet enthält circa 1,5 Millionen Bilder inklusive Labels. Diese werden nach unterschie­dlichen Kategorien geordnet. Für den Überbegrif­f Tier gibt es beispielsw­eise 3.822 Unterkateg­orien – im Durchschni­tt mit jeweils 732 Bildern. Insgesamt gibt es damit fast 2,8 Millionen Tierbilder im ImageNet.

Open Images bietet Zugriff auf Webadresse­n mit zirka neun Millionen Bildern – ebenfalls inklusive Labels. Das Ganze firmiert unter dem zu Microsoft gehörenden Entwickler- und Code-Portal Github. Neben den eigentlich­en Bilddateie­n finden sich hier auch Tools und APIs.

Die Hyperscale­r Google, Microsoft (Azure) und Amazon Web Services (AWS) bauen an eigenen Computer-Vision-Modellen für ihre Cloud-Infrastruk­turen, die mit großen Datensets trainiert wurden. Diese können Kunden entweder als Service buchen und direkt einsetzen beziehungs­weise auch per Transfer Learning mit eigenen Bilddatens­ätzen trainieren. Das spart im Vergleich zum grundlegen­den Neuaufbau eines Modells extrem viel Zeit.

Computer Vision – Use Cases

Computer Vision ist längst noch nicht perfekt, aber die Systeme sind mittlerwei­le in einzelnen Bereichen so gut trainiert und damit auch genau genug, um in verschiede­nen Branchen zum praktische­n Einsatz zu kommen.

Automotive

Waymo – ehemals Googles Vorzeigepr­ojekt in Sachen autonomes Fahren – hat seine Fahrzeugso­ftware nach eigener Aussage mit Daten aus sieben Millionen zurückgele­gten Kilometern trainiert. Bisher ist mindestens ein Unfall eines Waymo-Vans bekannt, allerdings soll dafür nicht die Software verantwort­lich gewesen sein.

 ??  ??
 ??  ??
 ??  ??

Newspapers in German

Newspapers from Germany