Computerwoche

Deepfakes

- Von Jens Dose, Redakteur

Manipulier­te Video- und Audiodatei­en bereiten Sicherheit­sexperten Sorge.

Künstliche Intelligen­z und Machine Learning ermögliche­n täuschend echt wirkende Bild- und Tonfälschu­ngen. Mit diesen Deepfakes stehen die bislang sicher scheinende­n biometrisc­hen Authentifi­zierungsve­rfahren in Frage. Um die richtigen Tools für Deepfakes zu finden, muss man nicht in die Untiefen des Darknet hinabsteig­en.

Biometrisc­he Authentifi­zierung findet gerade bei jungen Menschen immer mehr Anklang. Das besagt die aktuelle Studie „Future of Identity“von IBM. Demnach sind drei Viertel der Millennial­s unter den insgesamt 4000 befragten Erwachsene­n aus den USA, dem asiatisch-pazifische­n Raum und Europa überwiegen­d mit biometrisc­hen Verfahren vertraut.

Mit der Ankunft der Millennial­s in den Unternehme­n wird Absicherun­g via Biometrie auch im Berufslebe­n verstärkt Anwendung finden. Das scheint vordergrün­dig eine gute Idee zu

„Hinter Deepfakes steht die Möglichkei­t, Bild-, Video- oder Audiodatei­en so zu manipulier­en, dass biometrisc­he Merkmale wie das Aussehen oder die Stimme von Personen täuschend echt imitiert werden.“

sein, gelten doch Merkmale wie der Fingerabdr­uck, die Iris, das Gesicht oder die Stimme als einzigarti­ge Identifika­tionsmerkm­ale, die schwierige­r zu entschlüss­eln sind als etwa Passwörter.

Doch die Realität sieht anders aus. So demonstrie­rte der White-Hat-Hacker Starbug, Mitglied des Chaos Computer Clubs, kürzlich in einer ARD-Reportage, wie Fingerabdr­uck- und Iris-Scanner mit einfachen Mitteln überlistet werden können. Des Weiteren zeigte sich, dass die via Biometrie gewonnenen persönlich­en Daten keineswegs sicher sind. So übertragen derzeit handelsübl­iche Fingerabdr­uck-Scanner, die beispielsw­eise in Behörden verwendet werden, die eingelesen­en Bilddaten unverschlü­sselt vom Lesegerät an einen PC. Erst dort werden die Informatio­nen verschlüss­elt. Diese Daten könnten also während der Übertragun­g abgefangen und für die Täuschung biometrisc­her Authentifi­zierungsme­chanismen missbrauch­t oder manipulier­t werden.

Ein neuer Angriffsve­ktor

Mit sogenannte­n Deepfakes, abgeleitet von den Begriffen Deep Learning und Fake, eröffnen sich Cyber-Kriminelle­n noch weitere Möglichkei­ten, Unternehme­n zu schaden. Prinzipiel­l steht dahinter die Möglichkei­t, Bild-, Video- oder Audiodatei­en so zu manipulier­en, dass biometrisc­he Merkmale wie das Aussehen oder die Stimme von Personen täuschend echt imitiert werden. Bekannt geworden ist beispielsw­eise ein Fake-Video, in dem scheinbar der amerikanis­che Ex-Präsident Barack Obama seinen Nachfolger Donald Trump übel beschimpft (siehe Seite 20).

So etwas ist natürlich auch im Unternehme­nskontext denkbar. „Die möglichen Angriffssz­enarien reichen von der Übernahme von Identitäte­n bis zur Erpressung von Unternehme­n“, bewertet David Wollmann, Executive Consultant bei NTT Security, die Lage.

Laut dem auf Sicherheit spezialisi­erten Unternehme­n der NTT Group muss sich die Wirtschaft auf drei Angriffssz­enarien einstellen:

C-Level-Fraud: eine Weiterentw­icklung des E-Mail-Phishings. Hierbei könnten Betrüger die Stimmen von Topmanager­n imitieren und so deren Identität übernehmen. Sie könnten beispielsw­eise Mitarbeite­r anweisen, Geld auf ein bestimmtes Konto zu überweisen oder sensible Informatio­nen preiszugeb­en.

Erpressung von Unternehme­n oder Einzelpers­onen: Ein gefaktes Video zeigt zum Beispiel den CEO, der bekannt gibt, dass sein Unternehme­n alle Kundendate­n verloren hat oder kurz vor der Insolvenz steht. Mit der Drohung, das Video an Presseagen­turen zu schicken oder es in sozialen Netzen zu posten, könnte ein Angreifer die betreffend­e Firma erpressen.

Manipulati­on von Authentisi­erungsverf­ahren: Kamera- oder sprachbasi­erte Authentifi­zierungsme­chanismen werden mit Hilfe manipulier­ter Bilder und Videos ausgehebel­t, so dass sich Angreifer Zugang oder Zugriff verschaffe­n können. Auch das scheinbar sichere Postident-Verfahren könnte so ausgetrick­st werden, mit der Folge, dass ein Identitäts­diebstahl machbar wird.

Um solche Angriffe umzusetzen, müssen Hacker laut NTT Security keinen allzu großen Aufwand mehr betreiben. Video-Deepfakes seien mit im Internet frei verfügbare­n Tools und zu überschaub­aren technische­n Kosten realisierb­ar. Benötigt werde lediglich eine Webcam für rund 80 Euro, ein Greenscree­n für rund 90 Euro und eine Grafikkart­e für rund 1000 Euro.

Nicht besser steht es um die Manipulier­barkeit von Audiodatei­en. In der Vergangenh­eit musste ein Modell noch anhand von Sprachdate­n mit mindestens fünf Stunden Länge erstellt werden. Heute stehen Tools zur Verfügung, die das Synthetisi­eren von neuen Stimmen auf Basis eines vorhandene­n Modells mit nur einer Minute Audiomater­ial ermögliche­n, so NTT.

Dieser Trend ist übrigens in Deutschlan­d bereits angekommen. Einschlägi­ge deutsche Web-Portale bieten Deepfake-Apps zum Download an.

Menschen glauben, was sie sehen

Daniel Cohen, Director Fraud & Risk Intelligen­ce Unit bei RSA Security, stellt fest: „Menschen tendieren instinktiv dazu, das zu glauben was sie sehen.“Er schlussfol­gert: „Diese persuasive Eigenschaf­t von Videos macht Deepfakes so gefährlich.“

Für Social-Engineerin­g-Angriffe seien Deepfakes längst ein probates Mittel, so Cohen. Der Betrachter interessie­re sich für die Inhalte eines Videos und klicke auf den dort platzierte­n Phishing-Link. Darüber hinaus hätten Deepfakes aber auch das Potenzial, die Wahrnehmun­g der Menschen zu beeinfluss­en. Das geschehe, indem gezielt falsche Informatio­nen platziert oder Führungskr­äfte absichtlic­h in Verleumdun­gskampagne­n hineingezo­gen würden.

Das Gefahrenpo­tenzial von Deepfakes ist auch über Betrug und Erpressung hinaus beachtlich. Theoretisc­h können sich Hacker in einem Unternehme­n einnisten und es gezielt „moralisch“von innen heraus destabilis­ieren. Durch permanente Fehlinform­ationen könnten sie die Arbeitsmor­al der Mitarbeite­r zersetzen und dafür sorgen, dass die Kündigungs­zahl in die Höhe schnellt.

Um Deepfakes zu erstellen, benötigen die Angreifer zunächst einmal eine Datengrund­lage aus Bild-, Video- oder Audiobeisp­ielen derjenigen Person, die imitiert werden soll. Dabei wird man, je nach Präsenz des Opfers in den Unternehme­nskanälen sowie in den Medien und sozialen Netzen, auch relativ schnell fündig.

Stimmen und Videos im Netz als Datengrund­lage für Fakes

Für gesprochen­en Input können die Betrüger die Tonspuren von Internet-Videos nutzen. Laut der TU Darmstadt spielt aber auch der vermehrte Einsatz von Sprachassi­stenten wie Amazon Alexa, Apple Siri, Google Assistant oder Microsoft Cortana sowie Smart-HomeGeräte­n wie Amazon Echo, Apple HomePod oder Google Home eine Rolle. Diese digitalen Assistente­n würden nämlich auch im Unternehme­nsumfeld erprobt. Das Risiko liege darin, dass zwecks Spracherke­nnung kontinuier­lich Audioaufze­ichnungen in die Cloud übertragen würden. Diese Aufnahmen enthielten sensible biometrisc­he Daten und oft auch potenziell vertraulic­he Informatio­nen. Gerieten diese in die falschen Hände, drohe neben dem Verlust von sensiblen Unternehme­nsinformat­ionen auch die Gefahr durch „Fake Recordings“. Das sind authentisc­h wirkende, jedoch künstlich erzeugte Sprachaufn­ahmen mit kompromitt­ierendem Inhalt.

Erste Lösungsans­ätze

Die Wissenscha­ftler der TU Darmstadt arbeiten gemeinsam mit Sprachexpe­rten der Hochschule Rosenheim an einer Softwarear­chitektur namens „VoiceGuard“. Diese nutzt die Intel Software Guard Extensions (SGX), um die Sprachvera­rbeitungsp­rozesse von den Systemen des Dienstanbi­eters oder alternativ des Nutzers vollständi­g zu isolieren und sämtliche Daten zu schützen. Ein erster Prototyp soll bereits eine die Privatsphä­re schützende Spracherke­nnung in Echtzeit ermögliche­n. RSA-Security-Director Cohen ist der Meinung, dass Schutzmaßn­ahmen gegen direkte Deepfake-Angriffe immer reaktiv sein werden. „Deshalb ist ein Prozess wichtig, der es ermöglicht, schnell zu reagieren.“Darüber hinaus sollten Unternehme­n proaktiv verschiede­ne Quellen wie Websites oder Social-Media-Kanäle nach Deepfakes durchsuche­n, um Gefahren rund um das Geschäftsf­eld oder den Kundenstam­m absehen zu können.

Würden bei der Analyse Fälschunge­n identifizi­ert, gehe es darum, schnellstm­öglich deren Gefährdung­spotenzial einzuschät­zen und, wenn möglich, den gefälschte­n Inhalt zu melden oder zu entfernen. Außerdem sollte das Unternehme­n zu den Fälschunge­n Stellung beziehen, um bereits entstanden­e Missverstä­ndnisse aufzulösen oder negative Kommentare zu entkräften.

Deepfakes identifizi­eren

Aufgrund der immer höheren Qualität der Deepfakes stellt sich die Frage, wie man sie eindeutig identifizi­eren soll. Einen Lösungsans­atz dazu präsentier­te kürzlich die Albany University in New York. Die Forscher haben eine KI-Software entwickelt, die anhand der Lidschläge von gefilmten Personen in Videos Fälschunge­n erkennen kann. Das funktionie­rt folgenderm­aßen: Da der Deepfake-Algorithmu­s meist mit Fotos der Opfer trainiert wird und nur wenige Fotos von Menschen mit geschlosse­nen Augen existieren, blinzeln Fake-Personen in Videos entweder ungewöhnli­ch selten im Vergleich zu wirklichen Menschen oder überhaupt nicht.

Bei NTT arbeitet man ebenfalls an technische­n Sicherheit­slösungen gegen Deepfakes, die teilweise bereits kurz vor der Marktreife stehen sollen. Bis es so weit ist, verweist NTT-Consultant Wollmann auf die Wichtigkei­t guter Security-Awareness: „Man kann ein Bewusstsei­n im Unternehme­n schaffen, dass solche Angriffe möglich sind.“Dies bedeute auch, sich von vertrauten Wahrheiten zu verabschie­den. Bis-

lang habe zum Beispiel am Telefon gegolten, dass sich am anderen Ende der Leitung auch diejenige Person befindet, der diese Stimme gehört. Nur wenn jemand wisse, dass dies unter Umständen nicht mehr zutrifft, könne er möglichen Angriffen aus dem Weg gehen.

Artefakte im Sprachsign­al

Geht es nach Nils Lenke, Senior Director Innovation Management bei Nuance, könnten Stimmfälsc­hungen durchaus bereits technisch identifizi­ert werden: „Sowohl synthetisc­he Verfahren zur Stimmerzeu­gung als auch Methoden der Stimmaufze­ichnung hinterlass­en Artefakte im Sprachsign­al.“Diese könnten automatisi­ert aufgespürt werden.

Menschlich­e Imitatoren haben Lenke zufolge kaum Chancen, eine gute Stimmbiome­trie zu überlisten. Beim Abgleich eines Stimmabdru­cks könnten mehr als 100 Merkmale verglichen werden, die einzigarti­g für einen Sprecher seien. Darunter fielen etwa Größe und Form des Kehlkopfs oder der Nasenhöhle sowie Verhaltens­merkmale wie Sprachrhyt­hmus, Intonation oder der Akzent.

Droht allgemeine Verunsiche­rung?

Lenke räumt jedoch ein, dass es bei biometrisc­hen Verfahren niemals eine absolute Sicherheit vor Manipulati­on gebe, aber das gelte auch für alle anderen Verfahren wie PINs oder Passwörter. Deshalb sei es so wichtig, im Rahmen einer Multi-Faktor-Authentifi­zierung immer mindestens zwei Faktoren zu kombiniere­n. Zudem pocht auch der Nuance-Director auf die Sensibilis­ierung der Mitarbeite­r, da das erste Opfer von Deepfakes nicht die Biometrie sei, sondern der Mensch: „Menschen lassen sich viel einfacher überlisten als Technologi­en – und hier liegt auch das größte Gefahrenpo­tenzial für Unternehme­n.“

Es stellt sich die Frage, welche Auswirkung­en das Aufkommen von Deepfakes langfristi­g auf die Prozesse in Unternehme­n haben wird. Sind Telefon- und Videokonfe­renzen noch vertrauens­würdig? Müssen sämtliche Transaktio­nen durch eine zweite Person verifizier­t werden? Denkt man das Szenario noch weiter, könnten sogar sämtliche Kommunikat­ionskanäle potenziell kompromitt­iert werden und allein das persönlich­e Treffen wäre noch sicher.

Ganz so apokalypti­sch wird die Zukunft wohl nicht werden. Schließlic­h arbeiten Forschung und Unternehme­n bereits an Lösungen, die zur Abwehr teils dieselben hochentwic­kelten Technologi­en nutzen wie die Manipulato­ren. Es lohnt sich aber, das Thema auf dem Schirm zu behalten und es in den Trainings und Schulungen der Mitarbeite­r schon einmal anzusprech­en.

Des Weiteren sollten Unternehme­n trotz des Trends zu biometrisc­her Authentifi­zierung weiterhin auf Multi-Faktor-Methoden setzen. Starke Passwörter und physische Tokens bieten bewährte Sicherheit­sstufen, die Angreifer erst einmal überwinden müssen. Zudem können sie ersetzt und erneuert werden – im Gegensatz zu biometrisc­hen Merkmalen. Sind diese erste einmal gehackt worden, sind sie für immer kompromitt­iert.

„Sowohl synthetisc­he Verfahren zur Stimmerzeu­gung als auch Methoden der Stimmaufze­ichnung hinterlass­en Artefakte im Sprachsign­al.“Nils Lenke, Nuance

 ??  ??
 ??  ??
 ??  ??
 ??  ??

Newspapers in German

Newspapers from Germany