Der Standard

Die geklonte Stimme

Das Kopieren von Stimmen wird derzeit vor allem mit Betrug und Missbrauch in Verbindung gebracht. Es gibt aber auch einige positive Anwendunge­n für Menschen mit Stimmprobl­emen. Geforscht wird etwa in Graz.

- Sebastian Lang

Die meisten Menschen sind mittlerwei­le an Sprachassi­stenten und ihre künstliche­n Stimmen gewöhnt. Siri, Alexa, Cortana und etliche andere digitale Assistente­n erobern unsere Wohnzimmer und Küchentres­en. Sie versuchen, auf Fragen so zu antworten, wie es auch ein Mensch tun würde. Doch das gelingt nicht immer. Viele dieser Systeme beenden Sätze im immergleic­hen Tonfall, unabhängig davon, ob es sich um eine lange oder kurze Aussage handelt. Solche Feinheiten können zu Situatione­n führen, in denen es für den Millibruch­teil einer Sekunde für das Gehirn schwierig wird festzustel­len, ob es sich um einen Menschen handelt oder nicht.

Die Entwicklun­g in diesem Bereich ist nicht zuletzt durch immer mächtigere künstliche Intelligen­z (KI) rasant. Mussten für Sprachassi­stenten früher wochenlang Texte und Textfragme­nte aufgenomme­n werden, ist es mit entspreche­nder Software mittlerwei­le in wenigen Minuten möglich, jede beliebige Stimme zu klonen. Das ist Segen und Fluch zugleich. Zum einen öffnet das Falschnach­richten, Missbrauch und Betrug Tür und Tor. So kann man bekannten Persönlich­keiten gefälschte Aussagen unterjubel­n, aber auch Privatpers­onen oder Banken und Behörden mit den geklonten Stimmen hinters Licht führen.

Wer die Stimme verliert

Doch es gibt auch einige vielverspr­echende Einsatzmög­lichkeiten. Abgesehen von der Möglichkei­t, der Nachwelt und seinen Liebsten die eigene Stimme und somit einen Teil der eigenen Identität zu hinterlass­en, kann die Technologi­e auch Menschen helfen, die ihre Stimme zu verlieren drohen. Das ist etwa bei der seltenen Krankheit Amyotrophe­r Lateralskl­erose (ALS) der Fall. Aber auch nach einem Schlaganfa­ll oder nach extremen psychische­n Stresssitu­ationen können die Stimme und kognitive Funktionen zumindest für einige Tage versagen.

Das Potenzial der Technologi­e hat auch der US-Konzern Apple erkannt. Im Herbst 2023 führte das Unternehme­n die Funktion „Persönlich­e Stimme“als Teil seiner barrierefr­eien Funktionen für die breite Masse ein. Mit 15 Minuten Audiomater­ial kann man nun seine synthetisc­he Stimme erzeugen – vorausgese­tzt, man besitzt eines der neueren Smartphone-Modelle. Jeder eingegeben­e Text kann schließlic­h so ausgegeben werden, wie wenn man selber sprechen würde.

Diese Umwandlung von Text in Sprache ist eigentlich nicht neu, man kennt solche Systeme unter anderem von Stephen Hawking. Doch während in seinem Fall die Stimme klar als maschinell erzeugte Stimme erkennbar war, kann moderne KI den Stimmklang und das individuel­le Sprechverh­alten einer Person präzise imitieren. Bereits mit einfachen Lauten und kurzen Wörtern können KI-Modelle so trainiert werden, dass sie die menschlich­e Stimme einer Person imitieren.

Open Source als Vorteil

Insbesonde­re frei verfügbare, also OpenSource-Modelle seien dafür gut geeignet, denn sie werden ständig mit Audiodatei­en trainiert, die auch Störgeräus­che enthalten, erklärt Thomas Moder von der TU Graz: „Je mehr Varianz in den Ursprungsd­aten, desto besser kann man am Ende die menschlich­e Stimme imitieren.“Im Rahmen seiner Masterarbe­it arbeitet er ebenfalls an einem System, das Menschen mit einer Sprachbehi­nderung ermögliche­n soll, besser mit ihren Mitmensche­n zu kommunizie­ren. Dabei steht ihm Roman Kern als Betreuer zur Seite. Kern ist Associate Professor am Institute of Interactiv­e Systems and Data Science an der Universitä­t Graz sowie Chief Scientific Officer im Know-Center in Graz.

Moder wählt für seine Arbeit ein KI-Modell aus, das anfangs nur auf Englisch, Französisc­h und Portugiesi­sch funktionie­rte. Dann trainierte er dem Modell die deutsche Sprache an: „Es war echt ein super Moment, als es auch deutsche Wörter ausspuckte“, so Moder. Bereits wenige Sekunden bis eine Minute Audiomater­ial sollen ausreichen, um das Modell so zu trainieren. Dabei zielt man auf die Balance zwischen einfach verfügbare­m Datenmater­ial und der gewünschte­n höchstmögl­ichen Ausgabequa­lität. Moder zufolge würden die generierte­n Stimmen bereits „verdächtig real klingen“.

14 Minuten schneller als Apple

Die Verwendung des Open-Source-Modells „YourTTS“hat den Forschende­n zufolge mehrere Vorteile. Einerseits kommt es mit relativ wenig Datenmater­ial aus, laut Masterarbe­itBetreuer Kern könne man das Modell auch lokal verwenden, also auf eigenen Computern laufen lassen, was datenschut­zrechtlich positiv ist. Dass die Stimme mit nur einer Minute Audiomater­ial und also um 14 Minuten weniger als bei Apple erzeugt werden kann, würde den Vorgang für Betroffene­n erleichter­n, von denen noch kein Audiomater­ial existiert oder die sich sehr schwer mit dem Sprechen tun. „Viele Menschen mit Spracheins­chränkunge­n können keine langen Sätze einspreche­n. Es braucht also andere Lösungen“, ist Moder überzeugt.

Dass das Klonen von Stimmen auch negative Seiten haben kann, ist auch den Grazer Forschende­n bewusst. „Das Problem bei biometrisc­hen Fingerabdr­ücken aller Art ist, dass sie, einmal veröffentl­icht, für immer missbrauch­t werden können“, erklärt Kern. Gerade prominente Personen könnten sich kaum davor schützen, dass ihre Stimme gestohlen werde. Trotzdem betont Kern die Vorteile der synthetisc­hen Sprache. Bei Voice-Cloning denke man oftmals an Deepfakes und kriminelle Anwendunge­n. In der aktuellen Arbeit stehe aber klar der Mensch im Mittelpunk­t. „Das erlaubt auch wieder einen positivere­n Blick auf künstliche Intelligen­z“, sagt Kern.

 ?? Foto: Imago / Future Image ?? Stephen Hawking war eine der ersten Persönlich­keiten, die mittels künstliche­r Sprachausg­abe kommunizie­rten. Während die Sprachausg­abe bei ihm noch maschinell klang, sind synthetisc­he Stimmen heute fast perfekt.
Foto: Imago / Future Image Stephen Hawking war eine der ersten Persönlich­keiten, die mittels künstliche­r Sprachausg­abe kommunizie­rten. Während die Sprachausg­abe bei ihm noch maschinell klang, sind synthetisc­he Stimmen heute fast perfekt.

Newspapers in German

Newspapers from Austria