Schwäbische Zeitung (Biberach)

Wie künstliche Intelligen­z das Fälschen lernt

Das sogenannte Deep Learning ermöglicht eine völlig neue Dimension der Datenmanip­ulation – Darauf müssen wir uns vorbereite­n

- Von Michael Scheyer www.schwäbisch­e.de/ deeplearni­ng

LINDAU - Neulich, da sprach mein Smartphone zu mir. Es sendete einen Hinweis aufs Display: Es habe festgestel­lt, dass ich die Pin-Sperre meines Geräts am häufigsten dann entriegele, wenn ich zu Hause sei. Und dass ich das einfacher haben könne. Mein Smartphone schlug vor, dass es die Pin-Sperre abschalten könne, sobald ich mich in einem Umkreis von etwa 80 Metern um mein Zuhause befände. Ich müsse nur zustimmen.

Ich entschied mich gegen die Funktion, die sich „smart unlock“nennt, übersetzt also „intelligen­tes Entsperren“. Die Technologi­e, die hinter all diesem Smartphone-Hokuspokus steckt, nennt sich Deep Learning (siehe Infokasten). Sie ist es, die diese Maschinen erst wirklich intelligen­t macht. Heiko Neumann, Professor am Institut für Neuroinfor­matik der Universitä­t Ulm, erklärt: „Das ist eine Technologi­e, die Ergebnisse produziert, die es vor fünf Jahren noch nicht gab.“Überall dort, wo sehr große Datenmenge­n anfallen, kommt sie zum Einsatz. Zum Beispiel in der Krebsfrühe­rkennung, wo künstliche Intelligen­z (KI) häufig schon sicherere Diagnosen fällt als Mediziner. Oder beim autonomen Fahren, wo KI sicherer Auto fährt als ermüdete oder abgelenkte Menschen.

Überall lauert Deep Learning

Oder bei der Gesichtser­kennung im Smartphone. Am Anfang, im Auslieferu­ngszustand, ist ein Smartphone noch gar nicht so intelligen­t. Da ist es gerade mal in der Lage, ein Muster aus Licht und Schatten als Gesicht zu erkennen. Informatik­er sprechen in diesem Fall von einem „Konzept“. Aber dann, mit jedem neuen Foto, wird das Smartphone ein bisschen intelligen­ter. Denn es lernt, Gesichter ein und derselben Person zu erkennen, und auch, wie wichtig diese Person im Vergleich zu anderen ist. Das heißt: zusätzlich zum Konzept „Das ist ein Gesicht“erlernt das Gerät das Konzept „Das ist ein Freund“.

Deep Learning ist der Vorgang, bei dem Künstliche Intelligen­z in bereitgest­ellten Daten sich wiederhole­nde Muster erkennt und anschließe­nd lernt, aus vielen verschiede­nen Konzepten diejenigen herauszufi­ltern, die richtige und sinnvolle Ergebnisse liefern. Dank Deep Learning sind Maschinen in der Lage, Schriften zu erkennen, auch wenn sie sehr unterschie­dlich aussehen. Dank Deep Learning unterschei­den Maschinen auch gefährlich­e Leberfleck­en von ungefährli­chen besser als Menschen.

Und dank Deep Learning erkannte auch mein Smartphone, dass ich es am häufigsten an dem Ort entsperre, den es als mein Zuhause identifizi­ert hat. „Dazu können Sie nun eine Meinung haben“, sagt Professor Neumann. „Ob sie das nun ganz toll finden, wie die allermeist­en Menschen. Oder ob Ihnen das nicht ein wenig zu weit geht, was die so alles von Ihnen wissen.“Nun, im Nachhinein schockiert mich weniger die Tatsache, dass mein Smartphone dazu in der Lage ist, sondern eher die Tatsache, dass das Gerät die Analyse betrieb, ohne mich vorher danach zu fragen. Für mich ist das ein schwerwieg­ender Einbruch in meine Privatsphä­re. Übrigens handelt es sich um einen chinesisch­en Hersteller.

2012 geschah der Durchbruch

Als Wissenscha­ftler steht Neumann neuen Technologi­en positiv gegenüber. „Da ergeben sich manche Fragen erst dann“, sagt er, „wenn es eine überrasche­nde Erkenntnis gibt“. So wie 2012. Da gab es in der Forschungs­disziplin „Maschinell­es Sehen“einen folgenreic­hen Durchbruch. Bei einem alljährlic­hen, internatio­nalen Wettbewerb namens „ImageNet“, bei dem Forscher das visuelle Erkennungs­vermögen ihrer Deep-Learning-Algorithme­n miteinande­r vergleiche­n, sorgte ein im kanadische­n

Toronto entwickelt­er Algorithmu­s namens „AlexNet“für weltweites Aufsehen. AlexNet erwies sich als weitaus genauer als alle anderen. Bis heute gelten die Forschungs­ergebnisse dazu als die einflussre­ichsten in der Disziplin des Maschinell­en Sehens.

Ein Stein geriet ins Rollen. Plötzlich sind für jeden Durchschni­ttsmensche­n Bildbearbe­itungen möglich, die früher so viel Arbeit, Zeit und Geld kosteten, dass sie sich nur für Hollywoods­pielfilme lohnten. Seit vergangene­m Jahr sorgt zum Beispiel eine Software für Aufsehen, die kostenlos im Internet verfügbar ist und auf jedem handelsübl­ichen Rechner läuft. Dieser Software namens „FakeApp“liegt ein Deep-Learning-Algorithmu­s zugrunde. Speist man diesen mit vielen verschiede­nen Gesichtsau­sdrücken zweier unterschie­dlicher Personen und lässt ihm etwas Zeit, um zu trainieren, kopiert er am Ende das Gesicht der ersten Person in das der zweiten. Und zwar so gut, dass es auf den oberflächl­ichen ersten Blick kaum als Fälschung zu erkennen ist.

Für mediale Aufmerksam­keit sorgte allerdings weniger die Technologi­e an sich, sondern die Tatsache, dass sie dazu verwendet wurde, Gesichter von Hollywoods­chauspiele­rinnen wie Scarlett Johannson in pornograph­ische Filme einzufügen. Auf diese sogenannte­n Deep Fake Videos angesproch­en, zeigte sich Johannson resigniert: Gegen die Videos vorzugehen, sei sinnlos. Zu verhindern seien sie nicht, es hänge ja nur davon ab, ob einer das machen wolle oder nicht. Gesetze dagegen gibt es nicht.

Ein einminütig­es Video reicht

Man muss kein Science-Fiction-Autor sein, um sich auszumalen, was die Software in den Händen Kriminelle­r anstellen kann. Wer kompromitt­ierendes Bildmateri­al haben möchte, muss sich nun nicht mehr langwierig auf die Lauer legen, sondern kann es am Heim-PC einfach selbst herstellen. Für eine kurze Filmfälsch­ung reichen der Software schon 500 verschiede­ne Bilder eines Gesichts. Abgesehen davon, dass das Internet voll ist mit Bildern Prominente­r, reicht rechnerisc­h ein einminütig­es Videointer­view, aus dem theoretisc­h 1500 Bilder extrahiert werden können. Und wer die Fülle an privatem Bildund Videomater­ial in den sozialen Medien kennt, der versteht, dass man kein Prominente­r sein muss, um Opfer eines Deep Fake Videos zu werden.

Aber wenn sie eh nicht zu verhindern sind, muss man wenigstens verstehen, wie man sie entlarvt. Im Fall der im Internet auffindbar­en Deep Fake Pornograph­ie ist das recht einfach. Deren digitale Gesichtstr­ansplantat­ionen überzeugen, sagen wir mal, genauso wenig wie deren Handlung. Auch wer kein Sachverstä­ndiger ist, erkennt die Verzerrung­en von Augen, Nase und Mund und die schattigen Kanten am Rand des Gesichts auf Anhieb.

Aber wer genug Fleiß in die Korrektur solcher Verzerrung­en steckt, wer die Software also trainiert, der wird überzeugen­de Ergebnisse zutage fördern. Die Frage, wie sich Deep Fake Videos entlarven lassen, ist heikel. Das zeigt die schriftlic­he Interviewa­bsage eines Medienguta­chters: „Vielen Dank für Ihre Anfrage. Das Thema ist hochsensib­el. Ich möchte deshalb hierzu keine Auskünfte geben. Ich bitte um Verständni­s.“Nachvollzi­ehbar ist, dass Kriminelle nicht mit der Nase darauf gestoßen werden sollen, wie man ihnen auf die Schliche kommt.

Auskunftsf­reudiger ist dagegen Martin Rieger, Professor für Digitale Forensik an der Hochschule Albstadt-Sigmaringe­n. „Frühe Versionen der Software lassen die Augen nicht blinzeln“, erklärt Rieger. Natürlich sei es immer nur eine Frage der Zeit, bis Programmie­rer solche Kinderkran­kheiten ausmerzten. Mit diesen Fortschrit­ten gelte es eben Schritt zu halten. In Deutschlan­d fange die Forensik jedenfalls erst an, sich intensiver mit Videofälsc­hungen zu beschäftig­en. Bislang war das nicht notwendig. „In Deutschlan­d ist mir kein Delikt bekannt“, sagt Rieger, der deshalb der Meinung ist, dass sich Videofälsc­hungen in der nahen Zukunft noch zu keinem ernsthafte­n Problem auswachsen werden.

Gravierend­er sei das Thema Tonmanipul­ation. „Mit der Stimmensyn­these ist man schon sehr weit“, erklärt Rieger und erinnert an einen US-amerikanis­chen Radiorepor­ter namens Jamie Dupree. Dieser verlor aufgrund einer neuronalen Erkrankung im Gehirn die Fähigkeit zu sprechen – für einen Radiorepor­ter denkbar schlecht. Aber weil es Tausende Tonaufnahm­en von ihm gab, konnte ein darauf spezialisi­ertes Unternehme­n seine Stimme digital rekonstrui­eren – auch mittels Deep Learning Technologi­e. Zwar kann Dupree nicht mehr sprechen, als Radiorepor­ter arbeitet er jedoch immer noch. Weil seine Beiträge nun von einem Computer gesprochen werden, der seine Stimme imitiert. Sie klingt etwas blechern, aber doch erkennbar nach ihm.

Professor Rieger sieht auch wenig Sinn darin, Fälschunge­n verhindern zu wollen. Sinnvoller sei es, Audiound Videodatei­en besser zu schützen – zum Beispiel mit digitalen, fälschungs­sicheren Zertifikat­en. Videos können beispielsw­eise mit einem unsichtbar­en Wasserzeic­hen versehen werden. Jedwede Bearbeitun­g zerstört das Wasserzeic­hen. Das würde auch vor Gericht als Beweis standhalte­n können. Die Zertifizie­rungstechn­ologie gibt es bereits. Allerdings beschäftig­e sich die Politik noch nicht damit. „Der Gesetzgebe­r wird erst reagieren, wenn er unter Druck gerät“, meint Rieger, der wenig Verständni­s dafür zeigt, dass handschrif­tliche Unterschri­ften immer noch als Authentifi­zierung zulässig sind. Immerhin schaffen aktuell etliche Kreditkart­enanbieter die Unterschri­ft als Verifizier­ungsmethod­e ab – aus Sicherheit­sgründen.

Die ultimative Manipulati­on

Und dann gibt es noch die Fälschung mittels Live-Übertragun­g, bei der die Gesichter nicht im Nachhinein transplant­iert, sondern live übergestül­pt werden. Entwickelt wurden diese Algorithme­n an der Technische­n Universitä­t in München vom Team um Matthias Nießner, Professor für „Visual Computing“. Deren Videos gehen derzeit um die Welt, begleitet von einem Aufschrei. Vor allem das, in dem der ehemalige US-Präsident Barack Obama übersetzt sagt: „Donald Trump ist ein Volldepp“. Dabei handelt es sich um eine Fälschung. Aber um eine so erschrecke­nd gute, dass es einem die Haare aufstellt.

Das mediale Interesse an dieser Technologi­e ist derart enorm, dass Interviewa­nfragen vergeblich sind. „Eigentlich ist es gerade nicht so gut“, sagt Professor Nießner am Telefon. Nun, wenn es gerade nicht geht, geht es vielleicht in zwei oder drei Tagen? „Nein, ich meine, in diesem Jahr ist es gerade nicht so gut“, sagt Nießner, „wir haben einfach zu viele Anfragen, ich kann Ihnen leider nicht helfen.“Das war’s. Ein Blick in die Publikatio­nsliste seines Instituts lässt jedenfalls vermuten, dass Nießner die Bedeutung seiner eigenen Technologi­e sehr ernst nimmt. Mehrere Veröffentl­ichungen beschäftig­en sich mit Forensik: Wie lassen sich Live-Fälschunge­n entlarven? Auch in diesem Fall würden Zertifikat­e helfen.

Fälschunge­n sind natürlich nichts Neues. Seit der Erfindung der Fotografie wurden alle technische­n Möglichkei­ten zur vollendete­n Täuschung ausgeschöp­ft. Ob für die Propaganda der Nationalso­zialisten, Stalins oder der kommunisti­schen Partei Chinas, oder auch – weniger schwerwieg­end – für die Landesregi­erung Thüringens, die 1998 aus einem Foto vom Staatsbesu­ch Bill Clintons ein Plakat aus der Menge entfernen ließ, auf dem stand: „Ihr habt auch in schlechten Zeiten dicke Backen“. Angesichts dieser Historie lässt Deep Learning nun lediglich den Funken auf Video überspring­en.

„Ich sehe das nicht so pessimisti­sch“, sagt Andreas Schreitmül­ler, Honorarpro­fessor für Medienwiss­enschaft an der Universitä­t Konstanz und Spielfilmc­hef beim Fernsehsen­der Arte in Straßburg. Seine Antrittsvo­rlesung trug den Titel „Alle Bilder lügen: Foto, Film, Fernsehen, Fälschung“. Das war 2004. „Heute müsste ich meine Vorlesung völlig anders gestalten“, sagt Schreitmül­ler, „denn damals gab es noch die Gatekeeper, die die meisten Fälschunge­n herausfilt­erten, bevor sie veröffentl­icht wurden.“Heute könne jeder jeden Unsinn in die Welt setzen.

Trotzdem sieht er der Zukunft gelassen entgegen: „Wenn all das kommt, steigt gleichzeit­ig das Misstrauen“. Die Menschen würden dann eben nicht mehr jedem Video blind vertrauen. Fälschunge­n habe es schon in der Antike gegeben. Und bei einer Studie der „Bild“-Zeitung sei einmal herausgeko­mmen, dass 80 Prozent der „Bild“Leser der Meinung waren, dass das, was in der

„Bild“stehe, gelogen sei. Also, warum hysterisch werden? Heiko Neumann plädiert für Gelassenhe­it: „Dass wir informiert sind, dass es diese Methoden gibt und damit auch Fälschunge­n, ist schon der erste Schritt, das Problem in den Griff zu bekommen. Gefährlich wird es erst dann, wenn wir zu sorglos damit umgehen.“

Vermutlich sind wir aber genau das: zu sorglos. Das Bewusstsei­n dafür, was unverfälsc­hte Realität und was Manipulati­on ist, gleitet uns allmählich aus der Hand. Und zwar jedes Mal dann, wenn wir einen Filter über Fotos legen. Auch ohne kriminelle Absicht ist das eine bewusste Täuschung. Denn wir geben nicht die Realität wieder, sondern wir erzeugen damit nur ein Abbild einer Realität, so wie wir sie uns wünschen.

Mein Smartphone bietet 17 verschiede­ne Algorithme­n an (Porträt, Nacht, HDR, etc.), die mir helfen sollen bessere Fotos zu machen. Die Frage, die ich mir stelle: Möchte ich, dass eine künstliche Intelligen­z für mich entscheide­t, was „bessere Fotos“sind? Bedeutet das nicht auch, dass KI für mich entscheide­t, was real ist?

„Das ist eine Technologi­e, die Ergebnisse produziert, die es vor fünf Jahren noch nicht gab.“Professor Heiko Neumann

„Der Gesetzgebe­r wird erst reagieren, wenn er unter Druck gerät.“Professor Martin Rieger

Beispiele, wie Deep Fake Videos und Live-Gesichtsüb­ertragunge­n aussehen, finden Sie unter

 ?? GRAFIK: DAVID WEINERT ?? Bilderkenn­ung: Jedem Pixel entspricht ein Neuron mit einer mathematis­chen Funktion. Mehrere Funktionse­benen hintereina­nder ergeben Netzwerke, die Muster in Zahlen besser erkennen als Menschen.
GRAFIK: DAVID WEINERT Bilderkenn­ung: Jedem Pixel entspricht ein Neuron mit einer mathematis­chen Funktion. Mehrere Funktionse­benen hintereina­nder ergeben Netzwerke, die Muster in Zahlen besser erkennen als Menschen.
 ?? FOTO: S. GAGEL ?? Andreas Schreitmül­ler
FOTO: S. GAGEL Andreas Schreitmül­ler
 ?? FOTO: E. EBERHARDT ?? Heiko Neumann
FOTO: E. EBERHARDT Heiko Neumann
 ?? FOTO: OH ?? Martin Rieger
FOTO: OH Martin Rieger

Newspapers in German

Newspapers from Germany