Das DFKI übersetzt für Europa
Informatiker des Deutschen Forschungsinstituts für Künstliche Intelligenz und der Saar-Uni haben einen maschinellen Übersetzer entwickelt. Er soll bei der EU-Präsidentschaft Deutschlands den neuesten Stand der KI demonstrieren.
Zum Beginn dieses Monats hat Deutschland für ein halbes Jahr die Ratspräsidentschaft der Europäischen Union übernommen. Und die Bundesregierung hat sich da einiges vorgenommen. Corona, Klimaschutz und die digitale Souveränität der EU stehen auf der Agenda. Die EU-Präsidentschaft ist aber auch ein politisches Prestigeprojekt, ein Schaufenster, in dem die jeweiligen Staaten demonstrieren können, was sie können – merke: Wer präsidiert, darf präsentieren. Und Deutschland kann KI. Das soll das Deutsche Forschungszentrum für Künstliche Intelligenz (DFKI) für die Bundesrepublik in den kommenden Monaten auf den Internet-Seiten der EU mit dem „EU Council Presidency Translator“demonstrieren, ein Übersetzungsprogramm für die 24 Amtssprachen der Europäischen Union. Dieses vom Auswärtigen Amt finanzierte Programm ist für jedermann im Internet frei zugänglich und soll zeigen, was in Europa auf dem Gebiet des Maschinellen Lernens heute möglich ist, einem Forschungsfeld, auf dem DFKI-Chef Professor Antonio Krüger mehr EU-Initiative fordert, um künftig nicht von der Konkurrenz aus den USA und China abhängig zu werden.
Seit April hat ein halbes Dutzend Informatiker des DFKI und der Saar-Universität unter Leitung von Professor Josef van Genabith am neuen EU-Übersetzungsprogramm gearbeitet. Es kombiniert Module für Deutsch, Französisch und Spanisch, die am Saarbrücker Informatikinstitut entwickelt wurden, mit Programmen, die von E-Translate, dem maschinellen Übersetzer der EU-Kommission stammen; dazu kommen die Übersetzungsmaschinen des Kölner KI-Unternehmens DeepL und Tilde, seinem Pendant in der lettischen Hauptstadt Riga.
Die Übersetzerbranche steckt in einem tiefgreifenden Wandel. Mitte des Jahrzehnts seien die Techniken des Maschinellen Übersetzens so gut geworden, sagt der Computerlinguist, dass selbst Fachleute bei den Weltsprachen nicht mehr in jedem Fall unterscheiden könnten, ob ein Text aus der Feder eines Menschen oder aus dem Speicher einer Maschine stammt. Das zeigten die Ergebnisse des Workshop on Machine Translation, ein internationaler Wettbewerb, der als inoffizielle Olympiade der Branche gilt. Dabei treten die großen Forschungsinstitute und Übersetzungsunternehmen gegeneinander an.
Bei den weniger häufig gesprochenen Sprachen sieht die Sache allerdings anders aus. Wer Finnisch übersetzen will, muss sich zum Beispiel mit einer komplexen Grammatik und fünfzehn verschiedenen Fällen herumschlagen. Das führt zu einer Vielzahl von Wortformen und Ausdrucksmöglichkeiten, die jeden Übersetzer überfordern können. Beliebige Übersetzungen aus einer EU-Sprache in jede andere liefert daher auch der neue Presidency Translator nicht. Wer zum Beispiel einen finnischen Text ins Kroatische übertragen will, muss den Umweg über Englisch nehmen.
Wie bringen IT-Wissenschaftler einem Computer das Übersetzen bei? „Eigentlich funktioniert das ganz ähnlich, wie bei einem Menschen“, sagt Josef van Genabith. „Übung macht den Meister.“Und beim Üben sind Maschinen dem Menschen nun einmal unbestreitbar überlegen. Sie können 24 Stunden am Tag trainieren, sieben Tage in der Woche.
Übersetzungscomputer werden heute nicht mehr mit Grammatikregeln und Wortlisten gefüttert. Die sogenannten Neuronalen Netze, die beim Maschinellen Übersetzen eingesetzt werden, funktionieren nach dem Vorbild des menschlichen Gehirns. Anders formuliert: Sie lernen ähnlich wie ein Kind. Beim Übersetzungstraining werden Maschinen mit Millionen Textzeilen und deren korrekten Übersetzungen gefüttert. Die stammen in der Regel von menschlichen Übersetzern. Aufgabe des Neuronalen Netzes ist es nun in der Trainingsphase, in diesen Input-Texten Muster zu suchen, die mit großer Wahrscheinlichkeit zur korrekten Übersetzung führen. Dafür braucht es in tausenden Beispielen gewonnene Erfahrungen. Deshalb ist für die KI-Spezialisten die Zusammenarbeit mit menschlichen Übersetzern beim Training und der Evaluation der Systeme so wichtig, erklärt Josef van Genabith. Um diesen Teil des Trainings kümmern sich am DFKI Dr. Cristina España i Bonet und Dr. Jingyi Zhang. Auch nachdem ein Übersetzungsprogramm veröffentlicht ist, gibt es laufend Updates, um Fehler zu korrigieren. „Wir aktualisieren unser Programm ständig“, erklärt der DFKI-Wissenschaftler.
Die Übersetzungen werden dabei umso besser, je enger das Themengebiet gefasst ist, in dem sich das Übersetzungsprogramm tummelt. Das DFKI-Programm für die deutsche EU-Ratspräsidentschaft sei zum Beispiel auf Bedürfnisse der EU-Verwaltung abgestimmt und kenne sich auch sehr gut mit Corona aus. „Eine Maschine, die Harry Potter und den Wetterbericht gleichermaßen gut übersetzen kann, die wird es so schnell nicht geben“, sagt der DFKI-Wissenschaftler. Einen Übersetzungscomputer auf ein Thema loszulassen, in dem er nicht trainiert wurde, führe zwangsläufig zu „Heulern“. Mit diesem Terminus beschreibt der Computerlinguist die lustigen Übersetzungsfehler, über die sich Benutzer der digitalen Sprachdienste amüsieren, die deren Betreiber aber zur Verzweiflung treiben.
Den Beruf des Übersetzers, davon ist Josef van Genabith überzeugt, wird der Übersetzungscomputer nicht gefährden. „Er wird ihn allerdings in den kommenden Jahren deutlich verändern. Übersetzer werden künftig vor allem maschinelle Übersetzungen zu prüfen und zu korrigieren haben. Und wenn dann am Ende alles stimmt, kann ein Übersetzer den Text als korrekt beglaubigen.“Wer nun wissen möchte, wie gut die Maschinelle Übersetzung heute ist, kann sich das DFKI-Programm auf den Seiten der EU-Ratspräsidentschaft anschauen: https://www.presidencymt.eu
„Übersetzer werden
künftig vor allem maschinelle Übersetzungen zu prüfen und zu korrigieren haben.“
Professor Josef van Genabith
Deutsches Forschungszentrum
für Künstliche Intelligenz