Ein Roboter, der auch am Wortschatz arbeitet
Ein Wiener Forscherteam aus Linguisten und Elektrotechnikern will Roboter zum richtigen Deuten von menschlicher Sprache verhelfen. Erste Erfolge dabei gibt es schon.
Sie klettern schwindelfrei durch mehrgeschossige Fabrikhallen oder sammeln behände wild verstreute Spielsachen in Kinderzimmern ein. Eine Kamera versetzt sie in die Lage, räumlich zu sehen. Sogar einfachere Gesten des Menschen interpretieren manche der an der TU Wien entwickelten Roboter nach einiger Zeit fehlerfrei. Und dennoch haftet der Servicerobotik noch ein Makel an, meint der Wiener Forscher Markus Vincze. Denn die gängige Praxis sei es, Robotern Handlungen „per Joystick, durch Führen des Roboterarms per Hand oder die manuelle Programmierung der Bewegungspfade zu vermitteln“, erläutert Vincze.
Was aber, wenn der Roboter durch eine Kombination aus bloßem Hinsehen und dem richtigen Deuten von Sprachkommandos Aktionen erlernen könnte? Hier kommt die Linguistin Stephanie Gross vom Österreichischen Forschungsinstitut für Künstliche Intelligenz, kurz Ofai, ins Spiel: Noch bis Ende 2019 feilt die Leiterin des Projekts Ralli mit Kollegen der TU Wien an der Umsetzung einer solchen Interaktionslösung. Fördermittel kommen vom Wiener Wissenschaftsfonds WWTF. An Bord ist eine auf kognitive Modellierung spezialisierte Arbeitsgruppe der US-Universität Tufts.
Gross formuliert das Ziel so: „Zuerst muss der Roboter Wörter und eine einfache sprachliche Struktur beherrschen.“Ähnlich wie Kinder lernt er im ersten Schritt also Aktionen, dann Begriffe dafür. „Schließlich schafft er es, mit einer immer komplexeren Sprache umzugehen.“Im Versuchsaufbau des TU-Instituts für Automatisierungs- und Regelungstechnik demonstriert der humanoide Roboter namens Pepper Ende November bereits, was er kann: Die drei Aktionen Schieben, Nehmen und Stellen werden im Sichtfeld des Roboters an drei Objekten – einer Chipsdose, einer Schachtel und einer Ketchupflasche – in mehreren Durchgängen durchgespielt. Gleichzeitig spricht Clara Haider aus dem Forscherteam der TU alle Aktionen in ein Mikrofon. Digital verarbeitbar wird das Gesprochene per GoogleSpracherkennungstool, der Roboter nimmt neues Vokabular in sein Lexikon auf. Nach vier, fünf Durchgängen irrt er noch und identifiziert das Wortpaar „Flasche zur“als Objekt. Ein paar Augenblicke später ist die Aufgabe aber richtig gelöst. „Eine Herausforderung war, die Informationen aus Wort und Bild zeitlich exakt zusammenzuführen“, erklärt Forscherin Stephanie Gross.
Eine andere Schwierigkeit: Den Text – er gelangt in einer Wortkolonne in die Textverarbeitungssoftware – in Segmente zu zerlegen, die konkrete Aktionen beschreiben. „Per Algorithmus identifizieren wir schon Pausen und Fügewörter wie ,und‘ oder ,dann‘“, berichtet Gross. Und der Roboter muss sich an die sprachlichen Eigenheiten seiner Umwelt anpassen. „Er muss sich zurechtfinden, wenn derselbe Gegenstand einmal als Ketchup und dann wieder als Flasche bezeichnet wird“, so die Forscherin.
Im September füllten Besucher beim Wiener Forschungsfest den Sprachspeicher des Roboters. Bei Projektende soll der Roboter zweisprachig sein: Neben Hochdeutsch soll er dann auch bestes OxfordEnglisch enträtseln können.
Diese Forschungen sind für die Praxis hoch relevant: 2016 wurden weltweit 4,7 Millionen Serviceroboter für häusliche Aufgaben wie Staubsaugen oder Rasenmähen verkauft – und zudem 59.700 Roboter für professionelle Serviceautomatisierung etwa in Medizin oder Landwirtschaft.