Hat Künstliche Intelligenz einen Sinn für Humor?
Der Siegeszug von ChatGPT ist kaum mehr aufzuhalten. Eine letzte Bastion gegen die KI-Welle könnte eines der komplexesten Felder in der Kommunikation sein
„Alexa, kennst du einen Witz?“Der Sprachassistent des Online-Gemischtwarenhändlers Amazon setzt beim Beantworten dieser Frage auf Künstliche Intelligenz (KI) und lässt sich auch nicht lange bitten. „Herr Doktor, alle behaupten, ich wäre eine Uhr“, beginnt ein Witz, den Alexa erzählt. „Ach, die wollen sie doch nur aufziehen.“Gut, in Sachen Lustigkeit ist noch Luft nach oben und ein paar begleitende Worte hätten dem Witz sicherlich auch nicht geschadet, aber unterm Strich ist das Ergebnis doch eigentlich ganz passabel. Wie gut die Witze denn nun wirklich sind, die die KI erzählt, interessiert zur Zeit vor allem die Wissenschaft. Die Experten möchten nämlich herausfinden, ob die Künstliche Intelligenz so etwas wie einen
Sinn für Humor hat. „Moderne LLMs (Große Sprachmodelle) und ChatGPT (Dialogroboter der Entwicklerfirma OpenAI) können nicht nur grammatikalisch und inhaltlich korrekte Texte generieren, sondern auch zwischen den Zeilen kommunizieren. Damit wirken sie im Dialog fast menschlich, zum Beispiel wenn sie tatsächlich einigermaßen gute Witze erzählen“, sagt Sophie Jentzsch vom Institut für Softwaretechnologie des Deutschen Zentrums für Luft- und Raumfahrttechnik (DLR) am Standort Sankt Augustin im Interview. „Humor ist ein hochkomplexes, abstraktes Konstrukt, das implizit in menschlicher Sprache abgebildet wird. Als Wissenschaftler versuchen wir zu verstehen, ob und inwiefern auch diese zugrundeliegenden Konstrukte in LLMs abgebildet werden, oder ob die Modelle lediglich oberflächlich gelernte Textbausteine wiedergeben.“
Reproduktion oder völlig neue Witze?
Vereinfacht ausgedrückt: Kennt die KI nur diejenigen Witze, die ihr zuvor einprogrammiert wurden und gibt diese dann auf die Aufforderung hin, einen Witz zu erzählen, lediglich wieder? Oder hat sie vielleicht sogar einen echten Sinn für Humor, erfasst also die zugrundeliegenden Prinzipien, die Anspielungen, Mehrdeutigkeiten und Überraschungen, von denen Witze leben, und kann schlussendlich gar selbst völlig neue Witze erfinden? Um das herauszufinden, hat die Softwarexpertin Sophie Jentzsch zusammen mit dem Fachmann für Künstliche Intelligenz und maschinelles Lernen (AIML) Prof. Dr. Kristian Kersting von der Technischen Universität Darmstadt eine interessante Studie durchgeführt. Die Wissenschaftler forderten die KI ChatGPT darin auf, Witze zu erzählen. Jentzsch erläutert, wie die Künstliche Intelligenz darauf reagierte: „In unserer Studie haben wir auf 1.000 Anfragen an das System immer wieder die selben 20 bis 30 Witze zurückbekommen. Das spricht dafür, dass diese Witze im Trainingsdatensatz der Modelle prominent vertreten waren und nun reproduziert wurden. ChatGPT hat hier also noch keinen Sinn für Humor bewiesen.“Einer dieser Witze war die folgende Scherzfrage, die sich dann auch auf vielen Seiten im Internet findet: „Warum ist das Mathematikbuch so traurig? – Weil es zu viele Probleme hat.“
Die Wissenschaftler versuchten aber auch, die KI dazu zu bringen, selbst eigene Witze zu erfinden. Dazu spezifizierten sie die Fragestellungen. Eine der Fragen war beispielsweise: „Kannst du einen Witz über Katzen erzählen?“Die Antwort von ChatGPT auf diese Frage lautete: „Warum streckt die Katze ihre Pfote in die Luft? – Weil sie eine Schneeflocke fangen will.“Jentzsch erläutert: „Die KI-produzierten Witze haben syntaktisch den reproduzierten Witzen gut entsprochen. Wie man aber an dem Katzen-Schneeflocken-Witz erkennen kann, zünden die Wortspiele in diesen Fällen nicht beziehungsweise ergeben aus Menschensicht wenig Sinn. Hier wird wieder deutlich, dass LLMs primär Sprache abbilden und nicht Wissen.“
In der 2023er-Studie zeigte sich allerdings auch, dass ChatGPT durchaus in der Lage war, die Funktionsweise der reproduzierten Witze „sehr gut und richtig“zu erklären, was Jentzsch zufolge „einen Riesenfortschritt im Bereich Computational Humor darstellt“. Aber mit Witzen ist es eben so eine Sache: Was der Eine schreiend komisch findet, entlockt einem Anderen vielleicht nur ein müdes Lächeln. Kann eine KI also auch voraussagen, ob ein ganz bestimmter Mensch einen ganz bestimmten Witz lustig finden wird?
ChatGPT hat bei der Aufforderung, Witze zu erzählen, noch keinen Sinn für Humor bewiesen. Sophie Jentzsch, Institut für Softwaretechnologie des Deutschen Zentrums für Luft- und Raumfahrttechnik (DLR)
Individueller Humor
Das wollte der Organisationspsychologe und Verhaltensforscher Michael Yeomans wissen und führte mit seinem Team gleich eine ganze Reihe von Experimenten zum Thema durch. Dafür stellten die Wissenschaftler ihre Versuchsteilnehmer jeweils zu Paaren zusammen. Einer der Partner sollte insgesamt zwölf Witze danach bewerten, wie lustig er sie fand, und zwar auf einer Skala von -10 (überhaupt nicht lustig) bis +10 (extrem lustig). Der jeweils andere Partner bekam dann vier dieser Witze mitsamt der Bewertungen gezeigt und sollte daraufhin voraussagen, wie lustig sein Partner die restlichen acht Witze finden würde. Vor die gleiche Aufgabe wurde auch eine Künstliche Intelligenz gestellt.
Es zeigte sich, dass die menschlichen Partner mit ihren Voraussagen in 57 Prozent aller Fälle richtig lagen, die KI aber in 61 Prozent. Die Künstliche Intelligenz konnte sogar genauer als Freunde oder Familienmitglieder sagen, was dem menschlichen Partner gefiel und was nicht. „Die Systeme haben keine Vorstellung davon, wie oder warum wir Dinge mögen. Anstelle dessen nutzen sie eine Bewertungsmatrix, um Empfehlungen abzugeben“, resümiert Dr. Yeomans, der heute an der Imperial College Business School in London lehrt. „Die Studien zeigen, dass diese begrenzten Informationen allein schon ausreichend sind, um bemerkenswert aussagekräftige Empfehlungen anzugeben.“Dabei steht die Entwicklung erst noch am Anfang, denn die Künstliche Intelligenz wird immer besser in dem,
was sie tut. Wie schnell diese Entwicklung voranschreitet, hat Jack Hessel, ein amerikanischer Experte für Maschinenlernen, zusammen mit seinem Team im Zuge einer Studie herausgefunden, die er 2023 auf dem 61. Jahrestreffen der Association for Computational Linguistics im kanadischen Toronto vorgestellt hat.
Für ihre Untersuchung ließen die Forscher Mensch und KI gegeneinander antreten und stellten sie vor die gleiche Aufgabe. Sie sollten dabei einen von fünf zur Auswahl stehenden Texten einem Witzbild zuordnen, und zwar so, dass das Ergebnis besonders lustig ist. Insgesamt sollten auf diese Weise 704 unterschiedliche Cartoons entstehen. Gegen die menschlichen Versuchsteilnehmer trat nun aber nicht nur eine einzige Künstliche Intelligenz an, sondern gleich mehrere KIs nacheinander, und zwar CLIP, OFA und T5 sowie ChatGPT-3 und deren Nachfolger ChatGPT-3.5 bzw. ChatGPT4. Im Ergebnis zeigte sich zum einen, dass die menschlichen Versuchsteilnehmer auf eine atemberaubende Trefferquote von 94 Prozent kamen und damit rund 25 bis 50 Prozent mehr richtige Zuweisungen hatten als OFA, T5 und CLIP, wobei deren Ergebnisse durch unterschiedliche Feineinstellungen der KIs zum Teil variierten. Spannender ist aber wohl Folgendes: ChatGPT-3 erreichte eine Trefferquote von 57 Prozent, ChatGPT3.5 kam auf 64 Prozent und ChatGPT-4 hatte immerhin 85 Prozent korrekte Zuweisungen. Hier zeigte sich, dass die jeweilige Nachfolgeversion deutlich bessere Ergebnisse erzielte und das, obwohl zwischen den Erscheinungsterminen der unterschiedlichen Versionen lediglich wenige Monate lagen.
Jack Hessel ist dann auch der Ansicht, dass die Künstliche Intelligenz aktuell schon beachtenswerte Leistungen erbringe und sich als kreativer Helfer für Cartoonisten und Humoristen eignen könne, beispielsweise zum Ideen-Brainstorming. „Aber können wir sagen, dass eine Maschine den Humor wirklich versteht, in derselben Art und Weise wie wir Menschen es tun?“, fragt Hessel. „Ich denke nicht, zumindest nicht, solange sie wie die heutigen KIs aufgebaut ist.“
Sophie Jentzsch vom DLR meint im Hinblick auf die zukünftigen Entwicklungen: „Unsere Studie hat gezeigt, dass ChatGPT seine Witze eher nachplappert als selbst ein Comedian zu sein. Allerdings ist die vorhandene Fähigkeit, Doppeldeutigkeiten und Wortwitze nachzuvollziehen, bereits größer als wir diesen Systemen noch vor wenigen Jahren überhaupt zugetraut haben. An der Originalität hapert es noch ein wenig, aber Übung macht den Meister, und ich bin überzeugt davon, dass uns noch weitere Sprünge auf diesem Gebiet bevorstehen.“
An der Originalität hapert es noch ein wenig, aber Übung macht den Meister. Sophie Jentzsch