Deepfakes
Manipulierte Video- und Audiodateien bereiten Sicherheitsexperten Sorge.
Künstliche Intelligenz und Machine Learning ermöglichen täuschend echt wirkende Bild- und Tonfälschungen. Mit diesen Deepfakes stehen die bislang sicher scheinenden biometrischen Authentifizierungsverfahren in Frage. Um die richtigen Tools für Deepfakes zu finden, muss man nicht in die Untiefen des Darknet hinabsteigen.
Biometrische Authentifizierung findet gerade bei jungen Menschen immer mehr Anklang. Das besagt die aktuelle Studie „Future of Identity“von IBM. Demnach sind drei Viertel der Millennials unter den insgesamt 4000 befragten Erwachsenen aus den USA, dem asiatisch-pazifischen Raum und Europa überwiegend mit biometrischen Verfahren vertraut.
Mit der Ankunft der Millennials in den Unternehmen wird Absicherung via Biometrie auch im Berufsleben verstärkt Anwendung finden. Das scheint vordergründig eine gute Idee zu
„Hinter Deepfakes steht die Möglichkeit, Bild-, Video- oder Audiodateien so zu manipulieren, dass biometrische Merkmale wie das Aussehen oder die Stimme von Personen täuschend echt imitiert werden.“
sein, gelten doch Merkmale wie der Fingerabdruck, die Iris, das Gesicht oder die Stimme als einzigartige Identifikationsmerkmale, die schwieriger zu entschlüsseln sind als etwa Passwörter.
Doch die Realität sieht anders aus. So demonstrierte der White-Hat-Hacker Starbug, Mitglied des Chaos Computer Clubs, kürzlich in einer ARD-Reportage, wie Fingerabdruck- und Iris-Scanner mit einfachen Mitteln überlistet werden können. Des Weiteren zeigte sich, dass die via Biometrie gewonnenen persönlichen Daten keineswegs sicher sind. So übertragen derzeit handelsübliche Fingerabdruck-Scanner, die beispielsweise in Behörden verwendet werden, die eingelesenen Bilddaten unverschlüsselt vom Lesegerät an einen PC. Erst dort werden die Informationen verschlüsselt. Diese Daten könnten also während der Übertragung abgefangen und für die Täuschung biometrischer Authentifizierungsmechanismen missbraucht oder manipuliert werden.
Ein neuer Angriffsvektor
Mit sogenannten Deepfakes, abgeleitet von den Begriffen Deep Learning und Fake, eröffnen sich Cyber-Kriminellen noch weitere Möglichkeiten, Unternehmen zu schaden. Prinzipiell steht dahinter die Möglichkeit, Bild-, Video- oder Audiodateien so zu manipulieren, dass biometrische Merkmale wie das Aussehen oder die Stimme von Personen täuschend echt imitiert werden. Bekannt geworden ist beispielsweise ein Fake-Video, in dem scheinbar der amerikanische Ex-Präsident Barack Obama seinen Nachfolger Donald Trump übel beschimpft (siehe Seite 20).
So etwas ist natürlich auch im Unternehmenskontext denkbar. „Die möglichen Angriffsszenarien reichen von der Übernahme von Identitäten bis zur Erpressung von Unternehmen“, bewertet David Wollmann, Executive Consultant bei NTT Security, die Lage.
Laut dem auf Sicherheit spezialisierten Unternehmen der NTT Group muss sich die Wirtschaft auf drei Angriffsszenarien einstellen:
C-Level-Fraud: eine Weiterentwicklung des E-Mail-Phishings. Hierbei könnten Betrüger die Stimmen von Topmanagern imitieren und so deren Identität übernehmen. Sie könnten beispielsweise Mitarbeiter anweisen, Geld auf ein bestimmtes Konto zu überweisen oder sensible Informationen preiszugeben.
Erpressung von Unternehmen oder Einzelpersonen: Ein gefaktes Video zeigt zum Beispiel den CEO, der bekannt gibt, dass sein Unternehmen alle Kundendaten verloren hat oder kurz vor der Insolvenz steht. Mit der Drohung, das Video an Presseagenturen zu schicken oder es in sozialen Netzen zu posten, könnte ein Angreifer die betreffende Firma erpressen.
Manipulation von Authentisierungsverfahren: Kamera- oder sprachbasierte Authentifizierungsmechanismen werden mit Hilfe manipulierter Bilder und Videos ausgehebelt, so dass sich Angreifer Zugang oder Zugriff verschaffen können. Auch das scheinbar sichere Postident-Verfahren könnte so ausgetrickst werden, mit der Folge, dass ein Identitätsdiebstahl machbar wird.
Um solche Angriffe umzusetzen, müssen Hacker laut NTT Security keinen allzu großen Aufwand mehr betreiben. Video-Deepfakes seien mit im Internet frei verfügbaren Tools und zu überschaubaren technischen Kosten realisierbar. Benötigt werde lediglich eine Webcam für rund 80 Euro, ein Greenscreen für rund 90 Euro und eine Grafikkarte für rund 1000 Euro.
Nicht besser steht es um die Manipulierbarkeit von Audiodateien. In der Vergangenheit musste ein Modell noch anhand von Sprachdaten mit mindestens fünf Stunden Länge erstellt werden. Heute stehen Tools zur Verfügung, die das Synthetisieren von neuen Stimmen auf Basis eines vorhandenen Modells mit nur einer Minute Audiomaterial ermöglichen, so NTT.
Dieser Trend ist übrigens in Deutschland bereits angekommen. Einschlägige deutsche Web-Portale bieten Deepfake-Apps zum Download an.
Menschen glauben, was sie sehen
Daniel Cohen, Director Fraud & Risk Intelligence Unit bei RSA Security, stellt fest: „Menschen tendieren instinktiv dazu, das zu glauben was sie sehen.“Er schlussfolgert: „Diese persuasive Eigenschaft von Videos macht Deepfakes so gefährlich.“
Für Social-Engineering-Angriffe seien Deepfakes längst ein probates Mittel, so Cohen. Der Betrachter interessiere sich für die Inhalte eines Videos und klicke auf den dort platzierten Phishing-Link. Darüber hinaus hätten Deepfakes aber auch das Potenzial, die Wahrnehmung der Menschen zu beeinflussen. Das geschehe, indem gezielt falsche Informationen platziert oder Führungskräfte absichtlich in Verleumdungskampagnen hineingezogen würden.
Das Gefahrenpotenzial von Deepfakes ist auch über Betrug und Erpressung hinaus beachtlich. Theoretisch können sich Hacker in einem Unternehmen einnisten und es gezielt „moralisch“von innen heraus destabilisieren. Durch permanente Fehlinformationen könnten sie die Arbeitsmoral der Mitarbeiter zersetzen und dafür sorgen, dass die Kündigungszahl in die Höhe schnellt.
Um Deepfakes zu erstellen, benötigen die Angreifer zunächst einmal eine Datengrundlage aus Bild-, Video- oder Audiobeispielen derjenigen Person, die imitiert werden soll. Dabei wird man, je nach Präsenz des Opfers in den Unternehmenskanälen sowie in den Medien und sozialen Netzen, auch relativ schnell fündig.
Stimmen und Videos im Netz als Datengrundlage für Fakes
Für gesprochenen Input können die Betrüger die Tonspuren von Internet-Videos nutzen. Laut der TU Darmstadt spielt aber auch der vermehrte Einsatz von Sprachassistenten wie Amazon Alexa, Apple Siri, Google Assistant oder Microsoft Cortana sowie Smart-HomeGeräten wie Amazon Echo, Apple HomePod oder Google Home eine Rolle. Diese digitalen Assistenten würden nämlich auch im Unternehmensumfeld erprobt. Das Risiko liege darin, dass zwecks Spracherkennung kontinuierlich Audioaufzeichnungen in die Cloud übertragen würden. Diese Aufnahmen enthielten sensible biometrische Daten und oft auch potenziell vertrauliche Informationen. Gerieten diese in die falschen Hände, drohe neben dem Verlust von sensiblen Unternehmensinformationen auch die Gefahr durch „Fake Recordings“. Das sind authentisch wirkende, jedoch künstlich erzeugte Sprachaufnahmen mit kompromittierendem Inhalt.
Erste Lösungsansätze
Die Wissenschaftler der TU Darmstadt arbeiten gemeinsam mit Sprachexperten der Hochschule Rosenheim an einer Softwarearchitektur namens „VoiceGuard“. Diese nutzt die Intel Software Guard Extensions (SGX), um die Sprachverarbeitungsprozesse von den Systemen des Dienstanbieters oder alternativ des Nutzers vollständig zu isolieren und sämtliche Daten zu schützen. Ein erster Prototyp soll bereits eine die Privatsphäre schützende Spracherkennung in Echtzeit ermöglichen. RSA-Security-Director Cohen ist der Meinung, dass Schutzmaßnahmen gegen direkte Deepfake-Angriffe immer reaktiv sein werden. „Deshalb ist ein Prozess wichtig, der es ermöglicht, schnell zu reagieren.“Darüber hinaus sollten Unternehmen proaktiv verschiedene Quellen wie Websites oder Social-Media-Kanäle nach Deepfakes durchsuchen, um Gefahren rund um das Geschäftsfeld oder den Kundenstamm absehen zu können.
Würden bei der Analyse Fälschungen identifiziert, gehe es darum, schnellstmöglich deren Gefährdungspotenzial einzuschätzen und, wenn möglich, den gefälschten Inhalt zu melden oder zu entfernen. Außerdem sollte das Unternehmen zu den Fälschungen Stellung beziehen, um bereits entstandene Missverständnisse aufzulösen oder negative Kommentare zu entkräften.
Deepfakes identifizieren
Aufgrund der immer höheren Qualität der Deepfakes stellt sich die Frage, wie man sie eindeutig identifizieren soll. Einen Lösungsansatz dazu präsentierte kürzlich die Albany University in New York. Die Forscher haben eine KI-Software entwickelt, die anhand der Lidschläge von gefilmten Personen in Videos Fälschungen erkennen kann. Das funktioniert folgendermaßen: Da der Deepfake-Algorithmus meist mit Fotos der Opfer trainiert wird und nur wenige Fotos von Menschen mit geschlossenen Augen existieren, blinzeln Fake-Personen in Videos entweder ungewöhnlich selten im Vergleich zu wirklichen Menschen oder überhaupt nicht.
Bei NTT arbeitet man ebenfalls an technischen Sicherheitslösungen gegen Deepfakes, die teilweise bereits kurz vor der Marktreife stehen sollen. Bis es so weit ist, verweist NTT-Consultant Wollmann auf die Wichtigkeit guter Security-Awareness: „Man kann ein Bewusstsein im Unternehmen schaffen, dass solche Angriffe möglich sind.“Dies bedeute auch, sich von vertrauten Wahrheiten zu verabschieden. Bis-
lang habe zum Beispiel am Telefon gegolten, dass sich am anderen Ende der Leitung auch diejenige Person befindet, der diese Stimme gehört. Nur wenn jemand wisse, dass dies unter Umständen nicht mehr zutrifft, könne er möglichen Angriffen aus dem Weg gehen.
Artefakte im Sprachsignal
Geht es nach Nils Lenke, Senior Director Innovation Management bei Nuance, könnten Stimmfälschungen durchaus bereits technisch identifiziert werden: „Sowohl synthetische Verfahren zur Stimmerzeugung als auch Methoden der Stimmaufzeichnung hinterlassen Artefakte im Sprachsignal.“Diese könnten automatisiert aufgespürt werden.
Menschliche Imitatoren haben Lenke zufolge kaum Chancen, eine gute Stimmbiometrie zu überlisten. Beim Abgleich eines Stimmabdrucks könnten mehr als 100 Merkmale verglichen werden, die einzigartig für einen Sprecher seien. Darunter fielen etwa Größe und Form des Kehlkopfs oder der Nasenhöhle sowie Verhaltensmerkmale wie Sprachrhythmus, Intonation oder der Akzent.
Droht allgemeine Verunsicherung?
Lenke räumt jedoch ein, dass es bei biometrischen Verfahren niemals eine absolute Sicherheit vor Manipulation gebe, aber das gelte auch für alle anderen Verfahren wie PINs oder Passwörter. Deshalb sei es so wichtig, im Rahmen einer Multi-Faktor-Authentifizierung immer mindestens zwei Faktoren zu kombinieren. Zudem pocht auch der Nuance-Director auf die Sensibilisierung der Mitarbeiter, da das erste Opfer von Deepfakes nicht die Biometrie sei, sondern der Mensch: „Menschen lassen sich viel einfacher überlisten als Technologien – und hier liegt auch das größte Gefahrenpotenzial für Unternehmen.“
Es stellt sich die Frage, welche Auswirkungen das Aufkommen von Deepfakes langfristig auf die Prozesse in Unternehmen haben wird. Sind Telefon- und Videokonferenzen noch vertrauenswürdig? Müssen sämtliche Transaktionen durch eine zweite Person verifiziert werden? Denkt man das Szenario noch weiter, könnten sogar sämtliche Kommunikationskanäle potenziell kompromittiert werden und allein das persönliche Treffen wäre noch sicher.
Ganz so apokalyptisch wird die Zukunft wohl nicht werden. Schließlich arbeiten Forschung und Unternehmen bereits an Lösungen, die zur Abwehr teils dieselben hochentwickelten Technologien nutzen wie die Manipulatoren. Es lohnt sich aber, das Thema auf dem Schirm zu behalten und es in den Trainings und Schulungen der Mitarbeiter schon einmal anzusprechen.
Des Weiteren sollten Unternehmen trotz des Trends zu biometrischer Authentifizierung weiterhin auf Multi-Faktor-Methoden setzen. Starke Passwörter und physische Tokens bieten bewährte Sicherheitsstufen, die Angreifer erst einmal überwinden müssen. Zudem können sie ersetzt und erneuert werden – im Gegensatz zu biometrischen Merkmalen. Sind diese erste einmal gehackt worden, sind sie für immer kompromittiert.
„Sowohl synthetische Verfahren zur Stimmerzeugung als auch Methoden der Stimmaufzeichnung hinterlassen Artefakte im Sprachsignal.“Nils Lenke, Nuance