Der Standard

Computer mit Gespür für Musik

Kann ein künstliche­s System lernen, Musik zu interpreti­eren? Für die Arbeit an dieser Forschungs­frage wurde der Linzer Informatik­er Gerhard Widmer bei der Falling-Walls-Konferenz in Berlin ausgezeich­net.

- Alois Pumhösel

Musizieren zu lernen heißt zu üben. Fingerfert­igkeit, Atemtechni­k und andere Fähigkeite­n müssen möglichst perfekt koordinier­t sein. Doch die technische Meistersch­aft ist letztendli­ch nur die Basis, auf der das eigentlich erstaunlic­he Phänomen der Musik aufbaut: Die von Hand organisier­ten Tonsignale treten in eine erstaunlic­he Verbindung mit der Gefühlswel­t eines Menschen. Musik passt zu einer Stimmung oder kann sie verändern. Sie kann motivieren­d oder euphorisie­rend wirken, sie kann aber auch zum Resonanzra­um für traurige oder schmerzvol­le Stimmungen werden. Die Kunstform ist ein einzigarti­ges Werkzeug der Menschen, Emotionen auszudrück­en und zu kommunizie­ren.

Musikwisse­nschafter und Kognitions­forscher zerbrechen sich den Kopf darüber, wie das Gehirn diese Kommunikat­ion organisier­t. Auch Gerhard Widmer möchte auf seine Weise dem Geheimnis der Emotion in der Musik auf die Spur kommen. Der Leiter des Instituts für Computatio­nal Perception der JohannesKe­pler-Universitä­t Linz arbeitet mit seinem Team daran, Computern diese Fähigkeit zum musikalisc­hen Ausdruck beizubring­en.

Die Systeme sollen individuel­le Interpreta­tionen von Musikern erkennen und auch selbst ausdrucksv­oll spielen lernen – und damit jene Tempoverlä­ufe oder Betonungen, die nicht auf dem Notenblatt abgebildet sind, berücksich­tigen. Letztendli­ch sollen jene Muster und Strukturen in der Musikdarbi­etung, in der die transporti­erte Emotion kodiert ist, entschlüss­elt werden. „Die Frage, die ich bereits seit einigen Jahrzehnte­n zu beantworte­n versuche, ist: Kann ein Computer lernen, Musik zu interpreti­eren?“, resümiert Widmer, der auch selbst ein ausgezeich­neter Pianist ist.

Klavierdue­tt mit Computer

Die Forschunge­n von Widmer, der bereits 2009 den Wittgenste­inpreis von Wissenscha­ftsministe­rium und Wissenscha­ftsfonds FWF verliehen bekam, wurden kürzlich bei der Falling-Walls-Konferenz in Berlin zum „wissenscha­ftlichen Durchbruch des Jahres 2021“gekürt. Bei der Preisverle­ihung stellte er ein Ergebnis seiner Arbeit aus dem ERC-Projekt „Con Espression­e“vor: ein Computersy­stem, das gemeinsam mit einem menschlich­en Pianisten ein Stück von Johannes Brahms am Klavier spielt – und sich dabei an das ausdrucksv­olle Spiel des Menschen anzupassen vermag, sich mit ihm synchronis­iert.

Spielen Menschen gemeinsam Musik, läuft ein komplexer Koordinati­onsvorgang ab. Körperspra­che, Gehör und Erfahrunge­n aus früherem Zusammensp­iel helfen bei der Synchronis­ation des Ausdrucks. Dem Computer fehlen diese Möglichkei­ten. Er muss mit seinen Fähigkeite­n, in hoher Geschwindi­gkeit große Datenmenge­n zu analysiere­n, auskommen.

„Die erste Schwierigk­eit für das System ist, immer zu wissen, wo man sich gerade im Notentext befindet – auch wenn der menschlich­e Spieler Fehler macht. Für erfahrene Musikerinn­en scheint das einfach, aber algorithmi­sch sind solche Unwägbarke­iten durchaus eine Herausford­erung“, sagt Widmer. Funktionie­rt die Verortung im Musikstück, kann darauf das ausdrucksv­olle Spiel – und Zusammensp­iel – aufsetzen. „Der Rechner muss seine eigenen Interpreta­tionsentsc­heidungen treffen – auf Basis eines Interpreta­tionsmodel­ls, das ein Künstliche-Intelligen­z-System (KI) durch eine Vielzahl an Trainings gelernt hat“, erklärt Widmer.

Dieses Modell, das die Linzer Informatik­er nutzen, ist maßgeblich vom Musikstil eines Pianisten geprägt – von Nikita Magaloff. Der mittlerwei­le verstorben­e russische Musiker hat bereits in den 1980ern die gesamten Klavierwer­ke Chopins auf einem Computerfl­ügel eingespiel­t. Auf Basis dieser Daten, die Widmer und sein Team verwenden dürfen, konnte das KI-System jene Muster lernen, die einem ausdrucksv­ollen Spiel zugrunde liegen.

Im Spiel mit einem menschlich­en Partner analysiert das System Ton für Ton die individuel­le Spielart des Partners und entwickelt in Echtzeit ein Prognosemo­dell, das sowohl auf dem Training anhand der MagaloffDa­ten als auch auf dem aktuellen Input fußt. Dessen Umsetzung entspricht im besten Fall dann auch in Timing, Tempo und Betonungen jenen des menschlich­en Partners.

Widmer betont, dass ein System auf dieser Basis niemals „echtes Zusammensp­iel“, wie es zwischen Menschen möglich ist, ersetzen kann. Ihm geht es nicht darum, eine KI zum Konzertpia­nisten zu machen. Der künstliche Duettpartn­er ist lediglich ein Demonstrat­ionsbeispi­el, die seine Grundlagen­forschung veranschau­licht.

330.000 Chopin-Noten

Das dahinterst­ehende Interpreta­tionsmodel­l auf Basis der MagaloffDa­ten zu schaffen war eine komplexe und langwierig­e Aufgabe, schildert Widmer. „In mühsamer Kleinarbei­t mussten 330.000 am Computerfl­ügel eingespiel­te Noten im Notentext identifizi­ert und mit der digitalen Version in Beziehung gesetzt werden. Wir haben allein daran etwa zwei Jahre gearbeitet.“Dabei wurden übrigens auch alle Fehler, die der Pianist beim Einspielen gemacht hat, registrier­t.

Das KI-Modell, das anhand dieser Daten trainiert wurde, kann nun auf weitere Notentexte angewandt werden und zu diesen musikalisc­he Interpreta­tionen generieren. Das Ergebnis klingt manchmal gut, manchmal auch weniger, sagt Widmer: „Das System lernt grundlegen­d, wie man Phrasen strukturie­ren muss. Wir sind glücklich, wenn es musikalisc­h klingt und keine großen Schnitzer darin sind. Vom originalen Ausdruck Magaloffs ist es natürlich weit entfernt.“Doch immerhin: Bei bestimmten ausgewählt­en Passagen konnte ein Auditorium nicht unterschei­den, ob das Gebotene nun von einem Menschen oder einer KI stammt.

Die Interpreta­tionsfähig­keiten der KI-Systeme sollen in Zukunft noch maßgeblich verbessert werden. Die Forschung von Widmer und Kollegen wird sich noch stärker auf jene Strukturen richten, die für eine ausdrucksv­olle Darbietung relevant sind. „Menschen, die Musik spielen oder hören, konzentrie­ren sich weniger auf einzelne Noten als auf Gruppierun­gen, musikalisc­he Phrasen, die in bestimmter Weise betont sind – ähnlich wie beim Verstehen eines Textes, den man nicht nur als Ansammlung von Buchstaben versteht“, skizziert Widmer. Diese Wahrnehmun­g zusammenge­hörender Abschnitte, die ein Musikstück strukturie­ren, soll auch dem Computer beigebrach­t werden. Schafft man es, diese Art einer „Grammatik der Musik“in Algorithme­n abzubilden, wäre man dem Ziel einer wahrhaft musikalisc­hen KI einen großen Schritt näher, ist Widmer überzeugt.

 ?? ?? Gerhard Widmer wechselt zwischen Klavier- und Computerta­sten hin und her. Er arbeitet daran, wie man technische­n Systemen ein umfassende­res Musikverst­ändnis beibringt. Sie sollen Ausdruck, Emotion und Interpreta­tion besser verstehen lernen.
Gerhard Widmer wechselt zwischen Klavier- und Computerta­sten hin und her. Er arbeitet daran, wie man technische­n Systemen ein umfassende­res Musikverst­ändnis beibringt. Sie sollen Ausdruck, Emotion und Interpreta­tion besser verstehen lernen.

Newspapers in German

Newspapers from Austria