Martin Koch
Studien: Einmal messen reicht nicht
Lässt man eine Metallkugel im luftleeren Raum frei fallen, beschreibt sie eine exakt vorhersagbare Bahn. So oft man den Versuch auch wiederholt, das Ergebnis ist das gleiche. Denn die Bewegung der Kugel folgt den Fallgesetzen, die so oft bestätigt wurden, dass niemand an ihnen zweifelt.
Tatsächlich besitzt die Reproduzierbarkeit oder auch Replizierbarkeit von Versuchsergebnissen einen hohen Stellenwert in der Wissenschaft. Das heißt, jeder Forscher, der ein bereits durchgeführtes Experiment unter gleichen Bedingungen wiederholt, muss – von unvermeidlichen Messfehlern abgesehen – auf das gleiche Resultat kommen wie seine Vorgänger. Darin unterscheidet sich die Wissenschaft von den meisten nichtwissenschaftlichen Formen des Denkens, deren Verfechter sich gewöhnlich mit anekdotischen Belegen für aufgestellte Behauptungen begnügen.
Man sollte also annehmen, dass das harte Kriterium der Reproduzierbarkeit Wissenschaftler zur Vorsicht mahnt, denn gefälschte oder schlecht gesicherte Daten können bei einer Wiederholung der betreffenden Versuche rasch als solche erkannt werden. Allerdings sind namentlich in den Naturwissenschaften die Experimente heute derart kompliziert und aufwendig, dass eine Replikation ihrer Ergebnisse einen hohen Aufwand verlangen würde, den viele Forscher scheuen. Hinzu kommt, dass Replikationsstudien keinen zusätzlichen Erkenntnisgewinn und damit keine sonderliche akademische Anerkennung versprechen.
Und so geraten auch Naturwissenschaftler in Versuchung, nicht gesicherte Erkenntnisse vorschnell zu publizieren. Zumal sie wissen, dass man mit schrillen Hypothesen eine gewisse öffentliche Bekanntheit erlangen und gegebenenfalls satte Fördergelder eintreiben kann. Der vielleicht spektakulärste Fall dieser Art ereignete sich am 23. März 1989: Auf einer Pressekonferenz gaben die Chemiker Martin Fleischmann und Stanley Pons von der University of Utah (USA) bekannt, dass es ihnen erstmals gelungen sei, eine Kernfusion bei Zimmertemperatur auszulösen. Die Stromversorgung der Menschheit schien gesichert, denn die Kernfusion gilt als unerschöpfliche und saubere Energiequelle. Aufgrund der Brisanz des Experiments machten sich zahlreiche Forscherteams daran, es zu wiederholen. Anscheinend mit Erfolg. »Kernfusion auf kaltem Wege an der Technischen Universität Dresden gelungen!« titelte »Neues Deutschland« am 20. April 1989. Und ein Berliner Physikprofessor jubelte: »Der rasche Nachvollzug beweist: Die Physik der DDR ist auf der Höhe der Zeit.«
Auch aus Japan, der Sowjetunion, Ungarn und Italien kamen ähnliche Erfolgsmeldungen. Fleischmann und Pons wurden bereits als künftige Nobelpreisträger gehandelt; der US-Bundesstaat Utah gewährte ihnen eine finanzielle Soforthilfe von fünf Millionen Dollar. Dennoch blieben viele Wissenschaftler skeptisch, hielten die Verlautbarungen der beiden Chemiker für nicht glaubhaft. Als deren Forschungsergebnisse schließlich in einer Fachzeitschrift veröffentlicht wurden, brachte der kanadische Physiker David Baily das Unbehagen der Kritiker auf den Punkt: »Erhielte ich solch eine Arbeit von einem Vordiplomstudenten, gäbe ich ihm eine Sechs.«
Das Ende ist bekannt: Was Fleischmann und Pons auch immer gemessen hatten, eine kalte Kernfusion war es nicht. Die akademische Welt ging auf Distanz zu den beiden Wissenschaftlern und bescheinigte ihnen, ihr Experiment schlecht vorbereitet und schlampig durchgeführt zu haben. Und was war mit den Forschern, die den Versuch zunächst mühelos nachvollzogen hatten? Sie schickten nun eilig Dementis: Die erneute Wiederholung des Experiments habe keine Bestätigung der Ergebnisse aus Utah erbracht.
Auch die Behauptung, Physiker hätten im Experiment eine überlichtschnelle Signalübertragung gemessen, hielt einer kritischen Überprüfung nicht stand. Das gilt auch für die These, dass Wasser eine Art Gedächtnis besitze und Informationen langfristig speichern könne, was gelegentlich zur Erklärung der Homöopathie herangezogen wurde. All die genannten Untersuchungen hätten, wenn ihre Ergebnisse korrekt gewesen wären, zu fundamentalen Veränderungen in den Grundlagen der Naturwissenschaften geführt. Viele veröffentlichte Arbeiten behandeln jedoch Detailprobleme, die kein übermäßiges Interesse in der Fachwelt hervorrufen. Wenn hierin fehlerhafte oder gar gefälschte Daten entdeckt werden, geschieht dies eher durch Zufall. Das lässt vermuten, dass die Zahl der unentdeckten mangelhaften Studien höher ist als gemeinhin angenommen.
Was für die Naturwissenschaften gilt, gilt in noch stärkerem Maße für die Sozialwissenschaften, zumal hier der subjektive Faktor die Reproduzierbarkeit von Ergebnissen zusätzlich erschwert. So können Unterschiede in der Tagesform der Probanden und des Versuchsleiters sowie kleine Veränderungen des Versuchsaufbaus die Ergebnisse einer Studie erheblich beeinflussen. Vor drei Jahren untersuchte ein Wissenschaftlerteam 100 psychologische Studien, die allesamt in Fachzeitschriften erschienen waren und für Aufsehen gesorgt hatten. Nur 39 hielten einer nachträglichen Überprüfung stand. Bei den anderen ließen sich die Ergebnisse nicht replizieren. Häufig waren zufällig gemessene Effekte von den Autoren zu allgemein gültigen Aussagen erhöht worden.
In einer aktuellen Untersuchung hat eine internationale Forschergruppe um Brian Nosek von der University of Virginia (USA) 21 experimentelle sozialwissenschaftliche Studien analysiert, die zwischen 2010 und 2015 in den Top-Fachzeitschriften »Nature« und »Science« erschienen sind. In einer der Studien, die von Will Gervais an der University of British Columbia in Vancouver (Kanada) durchgeführt wurde, ging es um die Frage: Verändert sich die selbst bekundete Religiosität von Menschen, wenn diese die Skulptur »Der Denker« von Auguste Rodin betrachten? Aus seinen Daten glaubte Gervais folgern zu können, dass seine Probanden allein durch die Konfrontation mit der Statue zu einem schärferen Denken angeregt wurden. Denn die meisten hegten danach mehr religiöse Zweifel als zuvor.
Um diese und die anderen Studien erfolgreich replizieren sowie ihre experimentelle Durchführung so nah wie möglich am Original ausrichten zu können, erhielten Nosek und seine Kollegen Zugang zu allen vormals verwendeten Materialen und erstellten Protokollen. Außerdem erhöhten sie in den Wiederholungsstudien die Zahl der Probanden gegenüber den Originalstudien um das Fünffache.
Über die Resultate ihrer Untersuchung berichten die Forscher im Fachblatt »Nature Human Behaviour« (Bd. 2, S. 637): In 13 Fällen (62 Prozent) erbrachten die wiederholten Studien das gleiche signifikante Ergebnis wie das Original, obwohl die Größe der beobachteten Effekte im Schnitt 50 Prozent kleiner war als in den ursprünglichen Untersuchungen. Bei acht Studien (38 Prozent) konnten die Ergebnisse nicht repliziert werden. Sie künden folglich von sozialwissenschaftlichen Effekten, die es gar nicht gibt. Das trifft auch auf die Studie von Gervais zu. Die von ihm beschriebene Veränderung religiöser Überzeugungen nach dem Betrachten von Rodins »Der Denker« gehört ins Reich der Fiktionen, auch wenn sie verschiedentlich das Material für eine Schlagzeile lieferte.
»Unsere Ergebnisse verdeutlichen, dass statistisch signifikante wissenschaftliche Erkenntnisse mit Vorsicht interpretiert werden sollten, solange sie nicht unabhängig reproduziert werden konnten. Und das auch dann, wenn sie in den renommiertesten Fachzeitschriften veröffentlicht werden«, sagt Michael Kirchler von der Universität Innsbruck, der ebenfalls an dem Projekt beteiligt war.
Gleichwohl wäre es falsch, die Ergebnisse der Wiederholungsstudie so zu deuten, als gehe die Wissenschaft in die fal- sche Richtung, ergänzt Nosek. »Die größte Stärke der Wissenschaft ist ihre ständige Selbstkontrolle, um Probleme zu erkennen und zu korrigieren.« Mit anderen Worten: Forschungsergebnisse, die sich bei späterer Betrachtung als unzutreffend erweisen, gehören notwendig zur wissenschaftlichen Erkenntnisfindung. Denn in der Wissenschaft geht es nicht darum, unter allen Umständen Recht zu behalten. »Der Grund, warum man der Wissenschaft vertrauen kann, ist, dass die Wissenschaft sich selbst nicht traut. Wir hinterfragen ständig die Grundlage unserer Behauptungen und die Methoden, mit denen wir diese Behauptungen testen«, so Nosek.
Dem pflichteten auch die Autoren der überprüften Studien bei. Sie reagierten nicht gereizt wie in solchen Fällen oft üblich:
»Wollt ihr uns etwa kontrollieren? Misstraut ihr uns?« Vielmehr unterstützten sie das Vorhaben, und manche fühlten sich durch die misslungene Wiederholung ihrer
Studie veranlasst, ihre Methoden zu prüfen. »Unser Experiment war rückblickend betrachtet einfach töricht«, räumte auch Gervais ein. »Wir hatten eine winzige Stichprobe und das Ergebnis war kaum signifikant.
Ich denke, eine solche Geschichte würde heute nicht mehr so einfach publiziert werden.« Darauf wetten möchte er allerdings nicht.