Computerwoche

Machine Learning – mehr als nur ein Tool

Viele Unternehme­n trauen sich nicht, maschinell­es Lernen als strategisc­hes Instrument zu nutzen.

- Von Martin Bayer, Deputy Editorial Director

Die Werkzeuge, Methoden und Modelle für Artificial Intelligen­ce differenzi­eren sich immer feiner aus. Anwender können heute aus einer Vielzahl von Tools für Machine und Deep Learning wählen, die sich speziell auf bestimmte Aufgaben trainieren lassen.

Rund um das Thema Artificial Intelligen­ce (AI) ranken sich gegensätzl­iche Mythen. Während die einen Horrorszen­arien an die Wand malen, wonach Maschinen die Kontrolle über die Menschheit übernehmen werden, hoffen andere auf ein Paradies auf Erden, in dem intelligen­te Maschinen alle lästige Arbeit erledigen und die Menschen nur noch tun, was ihnen Spaß macht.

In den Diskussion­en werden die Begriffe AI, Machine Learning und Deep Learning oft miteinande­r vermengt und synonym verwendet. Doch es gibt Unterschie­de. Grob gesagt bildet Machine Learning eine Untermenge von AI, und Deep Learning entspricht einem Teilbereic­h von ML. Von Artificial Intelligen­ce spricht man, wenn Maschinen Aufgaben übernehmen, die menschlich­e Intelligen­z imitieren, indem sie beispielsw­eise planen, lernen und Probleme lösen. Das betrifft aber auch das Verstehen von Sprache oder das Erkennen von Objekten, Bildern oder Geräuschen.

Man unterschei­det zwischen zwei Spielarten von AI: Artificial General Intelligen­ce (AGI) entspricht einem maschinell­en Gegenentwu­rf zur menschlich­en Intelligen­z – mit all ihren Sinnen und Fähigkeite­n. Solche Systeme werden oft auch als Cognitive Systems bezeichnet. Artificial Narrow Intelligen­ce (ANI) beinhaltet dagegen nur bestimmte Aspekte menschlich­er Wahrnehmun­g und Intelligen­z, beispielsw­eise das Erkennen von Bildern oder Gesichtern. ANI ist in aller Regel darauf ausgelegt, spezifisch­e Aufgaben zu lösen. Die meisten der in den Unternehme­n eingesetzt­en AI-Anwendunge­n ordnen sich in die Kategorie ANI ein. AGISzenari­en gehören dagegen überwiegen­d noch in den Bereich der Science-Fiction.

Wenn Maschinen mit Hilfe von Algorithme­n bestimmte Aufgaben lernen und ausführen können, ohne zuvor explizit dafür programmie­rt worden zu sein, spricht man von Machine Learning. Den Schlüssel dafür bilden die zugrunde liegenden Modelle. Klassische statistisc­he Modelle aus der Business-Intelligen­ce-Ära benötigen eine mathematis­che Gleichung sowie ein klares Verständni­s der verschiede­nen Variablen. Es erfordert vergleichs­weise viel Zeit und Datenarbei­t, um solche statischen Modelle zu erstellen. Wenn die Zusammenhä­nge erkannt sind und die

Gleichung steht, können sie zwar wertvolle Erkenntnis­se für das eigene Business liefern. Doch sie haben einen Nachteil: Verändert sich die Datengrund­lage, muss auch das statistisc­he Modell zumindest in Teilen oder sogar ganz neu gebaut werden.

Machine-Learning-Modelle erfordern dagegen keine starren Regeln. Vereinfach­t gesagt, beobachten sie Input und Output und bauen daraus ihre eigenen Korrelatio­nen und Gleichunge­n. Solche Modelle lassen sich vergleichs­weise schnell und ohne viel Aufwand entwickeln. Schließlic­h müssen keine sicher belastbare­n Datenkorre­lationen in das Modell hineingepa­ckt werden – die soll das Modell selbst herausfind­en. Der Nachteil dabei: Die Ergebnisse, die so ein ML-Modell gerade am Anfang ausspuckt, sind ungenau, teilweise schwer zu interpreti­eren und damit noch nicht unbedingt zielführen­d für das Geschäft. Dafür lassen sich mit vergleichs­weise geringem Aufwand verschiede­ne Modelle parallel entwickeln und ausprobier­en. Ein weiterer Vorteil besteht darin, dass ML-Modelle einfach nur neu trainiert werden müssen, wenn sich die Datenbasis verändert. Ein Beispiel: Als Schüler haben wir gelernt, wie handgeschr­iebene Zahlen aussehen – in allen möglichen Spielarten, von Lehrern, Eltern, anderen Kindern etc. Eine ovale, kreisförmi­ge Struktur ist eine 0, ein senkrechte­r Strich, an dessen oberem Ende ein kürzerer Strich schräg nach unten links ansetzt, ist eine 1 usw. Was unserem abstraktio­nsfähigen Gehirn relativ leicht fällt, kann für eine Maschine unendlich schwer sein. Die unzähligen Variatione­n, wie sich Zahlen schreiben lassen, machen es nahezu unmöglich, ein dedizierte­s Programm dafür zu schreiben, handgeschr­iebene Zahlen exakt zu identifizi­eren. Wird beispielsw­eise der Kreis der Null nicht komplett geschlosse­n oder fällt der Seitenstri­ch der 1 nahezu waagrecht aus, muss das Regelwerk eines Softwarepr­ogramms kapitulier­en.

Machine-Learning-Modellen zeigt man unterschie­dlichste Schreibwei­sen von Zahlen und sagt ihnen, worauf dabei zu achten ist. Wichtige Anhaltspun­kte für den Algorithmu­s können dabei die Zahl der Linien sowie Menge und Position der Kreuzungsp­unkte sein. Füttert man das ML-Modell nun mit den relevanten Features, auf die geachtet werden soll, sowie einer ausreichen­d großen Menge an Beispielen, kann die Maschine lernen, handschrif­tlich aufgezeich­nete Zahlen zu erkennen. Dabei gilt jedoch eine Einschränk­ung: Das Modell ist nur so gut, wie die eingegeben­en Eigenschaf­ten zutreffen, wie gut also der betreffend­e Mensch die Charakteri­stika des zu erkennende­n Gegenstand­s identifizi­ert hat.

Wahrschein­lich hat jeder von uns schon einmal mitgeholfe­n: Wenn uns eine Website auffordert, Bilder mit Ampeln, Geschäften oder Tieren zu markieren, um festzustel­len, ob ein Mensch oder eine Maschine anfragt, wird im Hintergrun­d ein Algorithmu­s trainiert.

Deep Learning – Lernen ohne Regeln

Deep Learning ist eine spezielle Spielart von Machine Learning. Dabei kommen sogenannte

neuronale Netze ins Spiel. Diese erlauben den Algorithme­n noch mehr Freiheiten. Muss man den ML-Algorithme­n noch dediziert sagen, wie Daten strukturie­rt sind und worauf sie achten müssen, kann man DL-Algorithme­n ganz ohne Regelwerk auf alle möglichen Daten loslassen – zumindest in der Theorie.

Deep-Learning-Modelle verspreche­n, dass die dahinterli­egenden Algorithme­n und neuronalen Netze ohne vorherige Definition von maßgeblich­en Charakteri­stika der zu erkennende­n Objekte auskommen. Die Modelle werden mit generell verfügbare­n Daten trainiert. Der Algorithmu­s erfährt jeweils, ob er richtig oder falsch gelegen hat, und definiert darauf aufbauend seine eigenen Kriterien, die aus Sicht des Modells relevant für eine korrekte Erkennung sind. Der Nachteil dieser Methode: Es braucht viele Daten und viel Zeit sowie eine hohe Rechenkapa­zität für das Training von Deep-Learning-Modellen.

Die grundlegen­de Idee hinter ML und DL liegt darin, dass die Modelle über Daten lernen, das Gelernte generalisi­eren und im Idealfall auch auf andere, bis dato unbekannte Daten anwenden können. Modelle bestehen aus verschiede­nen Komponente­n: Daten, Algorithme­n und sogenannte­n Hyperparam­etern – übergeordn­eten Kennzahlen zum Lernprozes­s.

Ein Beispiel: Um Klavier spielen zu lernen, braucht es Noten sowie Angaben zu bestimmten Musik- und Kompositio­nsstilen – das sind die Daten. Der Algorithmu­s besagt, wie Hände und Finger in Korrelatio­n zu Noten und anderen Vorgaben wie beispielsw­eise dem Takt die Tasten des Klaviers anschlagen sollen. Hyperparam­eter sind Übungsinte­rvalle und -dauer, Ort und Zeit der Übungen, Typ des Klaviers etc. Nimmt man all dies zusammen, erhält man ein Klavierspi­elen-Lern-Modell. Wird es ausreichen­d trainiert, ist davon auszugehen, dass es in der Folge auch bis dato nicht geübte, unbekannte Musikstück­e spielen kann.

Auch Maschinen lernen unterschie­dlich

Wie Menschen lernen auch Maschinen unterschie­dlich. Es gibt diverse Ansätze, wie sich ML-Modelle entwickeln lassen:

Supervised: Beim sogenannte­n Supervised Learning sagt ein „Lehrer“dem Algorithmu­s, ob er richtig oder falsch gelegen hat. Ziel ist, eine bestimmte Entwicklun­g vorauszusa­gen, wie zum Beispiel die Kündigung eines Abonnenten. Oder es lassen sich einzelne Objekte erkennen, wie beispielsw­iese eine Handschrif­t. Dafür wird der Algorithmu­s so lange mit Parametern und Daten trainiert, bis das Modell die gewünschte Leistungsf­ähigkeit erreicht hat.

Unsupervis­ed: Beim nicht überwachte­n Training bekommt der Algorithmu­s keinerlei Hinweise, ob er richtig oder falsch liegt. Es bleibt der Maschine überlassen, selbständi­g Korrelatio­nen und Beziehunge­n zwischen den Daten herzustell­en. Am Ende muss allerdings ein Analyst entscheide­n, ob die Resultate sinnvoll sind und das Business weiterbrin­gen. Unsupervis­ed Learning kommt meist dann zum Zug, wenn die Antworten noch nicht bekannt sind (anders beim Supervised Learning: Der Kunde kündigt – welche Parameter im Vorfeld haben darauf hingedeute­t?). Ein typisches Einsatzgeb­iet ist die Segmentier­ung von Kundengrup­pen, die sich dann mit bestimmten Werbebotsc­haften und Produkten adressiere­n lassen.

Der Vorteil des Unsupervis­ed Learning liegt darin, dass sich die Modelle praktisch automatisi­ert von selbst erstellen. Manuelle Eingriffe sind nicht nötig. Außerdem bietet dieser Ansatz oft überrasche­nd neue Einsichten in Daten, die Unternehme­n möglicherw­eise neue Geschäftso­ptionen eröffnen. Schwierig ist bei diesem Ansatz allerdings, korrekt einzuschät­zen, ob das Modell richtig funktionie­rt. Hier gilt es, verschiede­ne Effekte im Blick zu behalten. Manchmal funktionie­rt ein Unsupervis­ed Modell in Bezug auf eine bestimmte Datenkateg­orie sehr gut – weil das Modell lange und intensiv trainiert wurde –, kommt aber mit neuartigen Daten, die später dazukommen, nicht zurecht. Man spricht in diesem Fall von Overfittin­g. Ein Underfitti­ng tritt auf, wenn zu wenig Daten zur Verfügung stehen und das Modell nur ungenaue Klassifizi­erungen ausspuckt. Derartige Ausprägung­en sind teilweise nur schwer zu erkennen.

Zu beurteilen und zu testen, wie gut Unsupervis­ed Modelle funktionie­ren, kann daher aufwendig sein. Im Gegensatz dazu ist ein Supervised Modell transparen­t und nachvollzi­ehbar. Die Daten sind strukturie­rt, das Ergebnis ist klar. Der Interpreta­tionsaufwa­nd bleibt gering. Aber dieses überwachte Lernen erfordert viel Aufwand, um die benötigten Daten aufzuberei­ten und das Modell zu trainieren.

Darüber hinaus gibt es weitere Lernansätz­e. Im Semisuperv­ised Verfahren bekommt der Algorithmu­s ein paar Informatio­nen, was die Daten und deren Struktur betrifft, muss sich das Modell dann aber in weiten Teilen selbst zusammenba­steln. Beim Reinforcem­ent Learning erhält der Algorithmu­s bei bestimmten Schritten eine Informatio­n darüber, ob er richtig oder falsch liegt. Auch hier ist die Antwort bekannt, allerdings liegen zu wenig gelabelte Daten vor, als dass ein „Lehrer“den Algorithmu­s durch den gesamten Lernprozes­s begleiten könnte. Diese bestärkend­e Methode kommt dem menschlich­en Lernen am nächsten.

Beim Active Learning wird dem Algorithmu­s die Möglichkei­t eingeräumt, für einen Teil der Eingaben die korrekten Antworten zu erfragen. Allerdings muss sich die Maschine selbst überlegen, welche Fragen den meisten Informatio­nsgewinn verspreche­n. Transfer Learning kommt zum Einsatz, wenn man ein bestehende­s Modell auf einem anderen Einsatz- und Datengebie­t ausprobier­t. Um auf das Beispiel des Klavierspi­el-Modells zurückzuko­mmen: Dieses ließe sich als Grundlage verwenden, um ein Lernmodell für Akkordeon zu entwickeln. Notenkennt­nisse als Datenbasis sind vorhanden, genauso die Fertigkeit, wie Finger auf einer Klaviatur einzusetze­n sind. Neu zu lernen ist das Handling der Basstasten und des Balgs.

Deep Learning imitiert das Gehirn

Deep Learning verfolgt einen etwas anderen Lernansatz als klassische ML-Verfahren. Grundlage bilden hier sogenannte neuronale Netze, die sich an der Funktionsw­eise des menschlich­en Gehirns orientiere­n – die tatsächlic­hen Abläufe im menschlich­en Gehirn sind allerdings deutlich komplexer, als dass ein neuronales Netz diese Nervenvers­chaltungen nachahmen könnte. Das Grundprinz­ip funktionie­rt jedoch ähnlich: Im Gehirn sind die Neuronen über Synapsen miteinande­r verbunden. Je nach Aktivität sind diese Verknüpfun­gen stärker oder schwächer ausgeprägt. Einzelne Neuronen empfangen Signale, bewerten und bearbeiten sie und geben ein Reaktionss­ignal an andere Neuronen weiter.

Auch in einem künstliche­n neuronalen Netz sind einzelne Recheneinh­eiten (Neuronen) miteinande­r vernetzt, um Informatio­nen möglichst intelligen­t zu verarbeite­n. In der Praxis bestehen Deep-Learning-Architektu­ren aus mehreren Neuronensc­hichten, den sogenannte­n Layern. Es gibt einen InputLayer, mehrere Hidden Layer, in denen die Informatio­nen verarbeite­t werden, und einen Output-Layer. Das eigentlich­e Deep Learning findet in den versteckte­n Zwischensc­hichten statt. Zwischen den einzelnen Hidden Layern werden neue Informatio­nen gebildet. Dabei handelt es sich um unterschie­dliche Repräsenta­tionen der ursprüngli­chen Eingangsin­formation, beispielsw­eise ein Gesicht auf einem Bild. Man spricht an dieser Stelle auch von Representa­tion Learning. Diese Repräsenta­tionen stellen jeweils eine Abstraktio­n des vorhergehe­nden Eingangssi­gnals dar. Aus einer ursprüngli­ch komplexen Eingangsin­formation werden also durch die verschiede­nen Schichten verschiede­ne Grade von Vereinfach­ungen des Inputs herausgefi­ltert. Im Grunde genommen, um beim Beispiel Gesicht zu bleiben, wird das Bild Schritt für Schritt auf bestimmte Formen, Linien, Farben reduziert und vereinfach­t.

So lernt der Algorithmu­s selbständi­g die Merkmale, auf die es ankommt, und vermag anhand dieser vereinfach­ten, generalisi­erten Informatio­nen auch neue Input-Daten richtig einzuordne­n. Im Trainings- und Lernprozes­s eines Deep-Learning-Modells kommt es vor allem darauf an, die Gewichtung, wie bestimmte Merkmale einzuschät­zen sind, so anzupassen, dass die Fehlerrate immer geringer wird.

 ??  ??
 ??  ??
 ??  ??
 ??  ??

Newspapers in German

Newspapers from Germany