Schwäbische Zeitung (Biberach)
Wie künstliche Intelligenz das Fälschen lernt
Das sogenannte Deep Learning ermöglicht eine völlig neue Dimension der Datenmanipulation – Darauf müssen wir uns vorbereiten
LINDAU - Neulich, da sprach mein Smartphone zu mir. Es sendete einen Hinweis aufs Display: Es habe festgestellt, dass ich die Pin-Sperre meines Geräts am häufigsten dann entriegele, wenn ich zu Hause sei. Und dass ich das einfacher haben könne. Mein Smartphone schlug vor, dass es die Pin-Sperre abschalten könne, sobald ich mich in einem Umkreis von etwa 80 Metern um mein Zuhause befände. Ich müsse nur zustimmen.
Ich entschied mich gegen die Funktion, die sich „smart unlock“nennt, übersetzt also „intelligentes Entsperren“. Die Technologie, die hinter all diesem Smartphone-Hokuspokus steckt, nennt sich Deep Learning (siehe Infokasten). Sie ist es, die diese Maschinen erst wirklich intelligent macht. Heiko Neumann, Professor am Institut für Neuroinformatik der Universität Ulm, erklärt: „Das ist eine Technologie, die Ergebnisse produziert, die es vor fünf Jahren noch nicht gab.“Überall dort, wo sehr große Datenmengen anfallen, kommt sie zum Einsatz. Zum Beispiel in der Krebsfrüherkennung, wo künstliche Intelligenz (KI) häufig schon sicherere Diagnosen fällt als Mediziner. Oder beim autonomen Fahren, wo KI sicherer Auto fährt als ermüdete oder abgelenkte Menschen.
Überall lauert Deep Learning
Oder bei der Gesichtserkennung im Smartphone. Am Anfang, im Auslieferungszustand, ist ein Smartphone noch gar nicht so intelligent. Da ist es gerade mal in der Lage, ein Muster aus Licht und Schatten als Gesicht zu erkennen. Informatiker sprechen in diesem Fall von einem „Konzept“. Aber dann, mit jedem neuen Foto, wird das Smartphone ein bisschen intelligenter. Denn es lernt, Gesichter ein und derselben Person zu erkennen, und auch, wie wichtig diese Person im Vergleich zu anderen ist. Das heißt: zusätzlich zum Konzept „Das ist ein Gesicht“erlernt das Gerät das Konzept „Das ist ein Freund“.
Deep Learning ist der Vorgang, bei dem Künstliche Intelligenz in bereitgestellten Daten sich wiederholende Muster erkennt und anschließend lernt, aus vielen verschiedenen Konzepten diejenigen herauszufiltern, die richtige und sinnvolle Ergebnisse liefern. Dank Deep Learning sind Maschinen in der Lage, Schriften zu erkennen, auch wenn sie sehr unterschiedlich aussehen. Dank Deep Learning unterscheiden Maschinen auch gefährliche Leberflecken von ungefährlichen besser als Menschen.
Und dank Deep Learning erkannte auch mein Smartphone, dass ich es am häufigsten an dem Ort entsperre, den es als mein Zuhause identifiziert hat. „Dazu können Sie nun eine Meinung haben“, sagt Professor Neumann. „Ob sie das nun ganz toll finden, wie die allermeisten Menschen. Oder ob Ihnen das nicht ein wenig zu weit geht, was die so alles von Ihnen wissen.“Nun, im Nachhinein schockiert mich weniger die Tatsache, dass mein Smartphone dazu in der Lage ist, sondern eher die Tatsache, dass das Gerät die Analyse betrieb, ohne mich vorher danach zu fragen. Für mich ist das ein schwerwiegender Einbruch in meine Privatsphäre. Übrigens handelt es sich um einen chinesischen Hersteller.
2012 geschah der Durchbruch
Als Wissenschaftler steht Neumann neuen Technologien positiv gegenüber. „Da ergeben sich manche Fragen erst dann“, sagt er, „wenn es eine überraschende Erkenntnis gibt“. So wie 2012. Da gab es in der Forschungsdisziplin „Maschinelles Sehen“einen folgenreichen Durchbruch. Bei einem alljährlichen, internationalen Wettbewerb namens „ImageNet“, bei dem Forscher das visuelle Erkennungsvermögen ihrer Deep-Learning-Algorithmen miteinander vergleichen, sorgte ein im kanadischen
Toronto entwickelter Algorithmus namens „AlexNet“für weltweites Aufsehen. AlexNet erwies sich als weitaus genauer als alle anderen. Bis heute gelten die Forschungsergebnisse dazu als die einflussreichsten in der Disziplin des Maschinellen Sehens.
Ein Stein geriet ins Rollen. Plötzlich sind für jeden Durchschnittsmenschen Bildbearbeitungen möglich, die früher so viel Arbeit, Zeit und Geld kosteten, dass sie sich nur für Hollywoodspielfilme lohnten. Seit vergangenem Jahr sorgt zum Beispiel eine Software für Aufsehen, die kostenlos im Internet verfügbar ist und auf jedem handelsüblichen Rechner läuft. Dieser Software namens „FakeApp“liegt ein Deep-Learning-Algorithmus zugrunde. Speist man diesen mit vielen verschiedenen Gesichtsausdrücken zweier unterschiedlicher Personen und lässt ihm etwas Zeit, um zu trainieren, kopiert er am Ende das Gesicht der ersten Person in das der zweiten. Und zwar so gut, dass es auf den oberflächlichen ersten Blick kaum als Fälschung zu erkennen ist.
Für mediale Aufmerksamkeit sorgte allerdings weniger die Technologie an sich, sondern die Tatsache, dass sie dazu verwendet wurde, Gesichter von Hollywoodschauspielerinnen wie Scarlett Johannson in pornographische Filme einzufügen. Auf diese sogenannten Deep Fake Videos angesprochen, zeigte sich Johannson resigniert: Gegen die Videos vorzugehen, sei sinnlos. Zu verhindern seien sie nicht, es hänge ja nur davon ab, ob einer das machen wolle oder nicht. Gesetze dagegen gibt es nicht.
Ein einminütiges Video reicht
Man muss kein Science-Fiction-Autor sein, um sich auszumalen, was die Software in den Händen Krimineller anstellen kann. Wer kompromittierendes Bildmaterial haben möchte, muss sich nun nicht mehr langwierig auf die Lauer legen, sondern kann es am Heim-PC einfach selbst herstellen. Für eine kurze Filmfälschung reichen der Software schon 500 verschiedene Bilder eines Gesichts. Abgesehen davon, dass das Internet voll ist mit Bildern Prominenter, reicht rechnerisch ein einminütiges Videointerview, aus dem theoretisch 1500 Bilder extrahiert werden können. Und wer die Fülle an privatem Bildund Videomaterial in den sozialen Medien kennt, der versteht, dass man kein Prominenter sein muss, um Opfer eines Deep Fake Videos zu werden.
Aber wenn sie eh nicht zu verhindern sind, muss man wenigstens verstehen, wie man sie entlarvt. Im Fall der im Internet auffindbaren Deep Fake Pornographie ist das recht einfach. Deren digitale Gesichtstransplantationen überzeugen, sagen wir mal, genauso wenig wie deren Handlung. Auch wer kein Sachverständiger ist, erkennt die Verzerrungen von Augen, Nase und Mund und die schattigen Kanten am Rand des Gesichts auf Anhieb.
Aber wer genug Fleiß in die Korrektur solcher Verzerrungen steckt, wer die Software also trainiert, der wird überzeugende Ergebnisse zutage fördern. Die Frage, wie sich Deep Fake Videos entlarven lassen, ist heikel. Das zeigt die schriftliche Interviewabsage eines Mediengutachters: „Vielen Dank für Ihre Anfrage. Das Thema ist hochsensibel. Ich möchte deshalb hierzu keine Auskünfte geben. Ich bitte um Verständnis.“Nachvollziehbar ist, dass Kriminelle nicht mit der Nase darauf gestoßen werden sollen, wie man ihnen auf die Schliche kommt.
Auskunftsfreudiger ist dagegen Martin Rieger, Professor für Digitale Forensik an der Hochschule Albstadt-Sigmaringen. „Frühe Versionen der Software lassen die Augen nicht blinzeln“, erklärt Rieger. Natürlich sei es immer nur eine Frage der Zeit, bis Programmierer solche Kinderkrankheiten ausmerzten. Mit diesen Fortschritten gelte es eben Schritt zu halten. In Deutschland fange die Forensik jedenfalls erst an, sich intensiver mit Videofälschungen zu beschäftigen. Bislang war das nicht notwendig. „In Deutschland ist mir kein Delikt bekannt“, sagt Rieger, der deshalb der Meinung ist, dass sich Videofälschungen in der nahen Zukunft noch zu keinem ernsthaften Problem auswachsen werden.
Gravierender sei das Thema Tonmanipulation. „Mit der Stimmensynthese ist man schon sehr weit“, erklärt Rieger und erinnert an einen US-amerikanischen Radioreporter namens Jamie Dupree. Dieser verlor aufgrund einer neuronalen Erkrankung im Gehirn die Fähigkeit zu sprechen – für einen Radioreporter denkbar schlecht. Aber weil es Tausende Tonaufnahmen von ihm gab, konnte ein darauf spezialisiertes Unternehmen seine Stimme digital rekonstruieren – auch mittels Deep Learning Technologie. Zwar kann Dupree nicht mehr sprechen, als Radioreporter arbeitet er jedoch immer noch. Weil seine Beiträge nun von einem Computer gesprochen werden, der seine Stimme imitiert. Sie klingt etwas blechern, aber doch erkennbar nach ihm.
Professor Rieger sieht auch wenig Sinn darin, Fälschungen verhindern zu wollen. Sinnvoller sei es, Audiound Videodateien besser zu schützen – zum Beispiel mit digitalen, fälschungssicheren Zertifikaten. Videos können beispielsweise mit einem unsichtbaren Wasserzeichen versehen werden. Jedwede Bearbeitung zerstört das Wasserzeichen. Das würde auch vor Gericht als Beweis standhalten können. Die Zertifizierungstechnologie gibt es bereits. Allerdings beschäftige sich die Politik noch nicht damit. „Der Gesetzgeber wird erst reagieren, wenn er unter Druck gerät“, meint Rieger, der wenig Verständnis dafür zeigt, dass handschriftliche Unterschriften immer noch als Authentifizierung zulässig sind. Immerhin schaffen aktuell etliche Kreditkartenanbieter die Unterschrift als Verifizierungsmethode ab – aus Sicherheitsgründen.
Die ultimative Manipulation
Und dann gibt es noch die Fälschung mittels Live-Übertragung, bei der die Gesichter nicht im Nachhinein transplantiert, sondern live übergestülpt werden. Entwickelt wurden diese Algorithmen an der Technischen Universität in München vom Team um Matthias Nießner, Professor für „Visual Computing“. Deren Videos gehen derzeit um die Welt, begleitet von einem Aufschrei. Vor allem das, in dem der ehemalige US-Präsident Barack Obama übersetzt sagt: „Donald Trump ist ein Volldepp“. Dabei handelt es sich um eine Fälschung. Aber um eine so erschreckend gute, dass es einem die Haare aufstellt.
Das mediale Interesse an dieser Technologie ist derart enorm, dass Interviewanfragen vergeblich sind. „Eigentlich ist es gerade nicht so gut“, sagt Professor Nießner am Telefon. Nun, wenn es gerade nicht geht, geht es vielleicht in zwei oder drei Tagen? „Nein, ich meine, in diesem Jahr ist es gerade nicht so gut“, sagt Nießner, „wir haben einfach zu viele Anfragen, ich kann Ihnen leider nicht helfen.“Das war’s. Ein Blick in die Publikationsliste seines Instituts lässt jedenfalls vermuten, dass Nießner die Bedeutung seiner eigenen Technologie sehr ernst nimmt. Mehrere Veröffentlichungen beschäftigen sich mit Forensik: Wie lassen sich Live-Fälschungen entlarven? Auch in diesem Fall würden Zertifikate helfen.
Fälschungen sind natürlich nichts Neues. Seit der Erfindung der Fotografie wurden alle technischen Möglichkeiten zur vollendeten Täuschung ausgeschöpft. Ob für die Propaganda der Nationalsozialisten, Stalins oder der kommunistischen Partei Chinas, oder auch – weniger schwerwiegend – für die Landesregierung Thüringens, die 1998 aus einem Foto vom Staatsbesuch Bill Clintons ein Plakat aus der Menge entfernen ließ, auf dem stand: „Ihr habt auch in schlechten Zeiten dicke Backen“. Angesichts dieser Historie lässt Deep Learning nun lediglich den Funken auf Video überspringen.
„Ich sehe das nicht so pessimistisch“, sagt Andreas Schreitmüller, Honorarprofessor für Medienwissenschaft an der Universität Konstanz und Spielfilmchef beim Fernsehsender Arte in Straßburg. Seine Antrittsvorlesung trug den Titel „Alle Bilder lügen: Foto, Film, Fernsehen, Fälschung“. Das war 2004. „Heute müsste ich meine Vorlesung völlig anders gestalten“, sagt Schreitmüller, „denn damals gab es noch die Gatekeeper, die die meisten Fälschungen herausfilterten, bevor sie veröffentlicht wurden.“Heute könne jeder jeden Unsinn in die Welt setzen.
Trotzdem sieht er der Zukunft gelassen entgegen: „Wenn all das kommt, steigt gleichzeitig das Misstrauen“. Die Menschen würden dann eben nicht mehr jedem Video blind vertrauen. Fälschungen habe es schon in der Antike gegeben. Und bei einer Studie der „Bild“-Zeitung sei einmal herausgekommen, dass 80 Prozent der „Bild“Leser der Meinung waren, dass das, was in der
„Bild“stehe, gelogen sei. Also, warum hysterisch werden? Heiko Neumann plädiert für Gelassenheit: „Dass wir informiert sind, dass es diese Methoden gibt und damit auch Fälschungen, ist schon der erste Schritt, das Problem in den Griff zu bekommen. Gefährlich wird es erst dann, wenn wir zu sorglos damit umgehen.“
Vermutlich sind wir aber genau das: zu sorglos. Das Bewusstsein dafür, was unverfälschte Realität und was Manipulation ist, gleitet uns allmählich aus der Hand. Und zwar jedes Mal dann, wenn wir einen Filter über Fotos legen. Auch ohne kriminelle Absicht ist das eine bewusste Täuschung. Denn wir geben nicht die Realität wieder, sondern wir erzeugen damit nur ein Abbild einer Realität, so wie wir sie uns wünschen.
Mein Smartphone bietet 17 verschiedene Algorithmen an (Porträt, Nacht, HDR, etc.), die mir helfen sollen bessere Fotos zu machen. Die Frage, die ich mir stelle: Möchte ich, dass eine künstliche Intelligenz für mich entscheidet, was „bessere Fotos“sind? Bedeutet das nicht auch, dass KI für mich entscheidet, was real ist?
„Das ist eine Technologie, die Ergebnisse produziert, die es vor fünf Jahren noch nicht gab.“Professor Heiko Neumann
„Der Gesetzgeber wird erst reagieren, wenn er unter Druck gerät.“Professor Martin Rieger
Beispiele, wie Deep Fake Videos und Live-Gesichtsübertragungen aussehen, finden Sie unter