Ein Thermometer ersetzt keine ärztliche Diagnose
Der Erziehungswissenschaftler Hans Brügelmann lehnt Vergleichstests in der Schule nicht ab, hält sie für das Messen des Lernerfolgs aber für ungeeignet.
Herr Brügelmann, aus dem schlechten Abschneiden deutscher Schüler bei der PISA-Studie vor eineinhalb Jahrzehnten zogen viele Bildungspolitiker den Schluss, man müsse mit Hilfe von Vergleichstests die Qualität der Bildung regelmäßig überprüfen. Sie kritisieren das als »Testeritis«. Was haben Sie gegen derlei Bemühungen um Qualitätssicherung? Durch Leistungstests die Qualität von Schule sichern? Eine kühne These! Solche Tests erfassen doch nur den sogenannten »Output« und davon wiederum nur einen kleinen Teil, schon vom Ansatz her eingeschränkt auf wenige Fächer und von diesen wiederum nur Ausschnitte – und das auch noch in sehr oberflächlicher Form. Wo bleiben die Wirkungen der Schule auf das soziale und das ästhetische Lernen oder gar auf die Persönlichkeitsentwicklung der Kinder und Jugendlichen? Und was ist mit der Qualität des pädagogischen Umgangs: Respekt füreinander, Offenheit für die besonderen Bedürfnisse und Interessen einzelner Kinder, Bemühen um die Überwindung ihrer Schwächen, demokratische Entscheidungsverfahren? Ich finde, die Fixierung auf Punktwerte in Leistungstests führt zu einer Verarmung der Qualitätsdiskussion. Warum schießen solche Tests dennoch seit Jahren wie Pilze aus dem Boden nach einem warmen Sommerregen? Es ist die Faszination durch scheinbar objektive Zahlen. Das ist mit den Quartalszahlen in der Wirtschaft nicht anders als mit den Liege-Tagen im Krankenhaus. Man hofft, das ja immer fehleranfällige Urteil beteiligter Menschen ausschalten zu können. Denken Sie nur an die Diskussion über Schulnoten. Aber das Problem kriegt man mit Tests nicht weg. Der Preis für »Objektivität« ist Standardisierung. Menschliche Verhaltensweisen, also auch Leistungen in Tests, sind allerdings stets mehrdeutig. Standardisierung bedeutet daher den Verzicht darauf, unter die Oberfläche zu gucken. Denn eben das würde auch eine Interpretation des Sichtbaren erforderlich machen. Man käme um ein persönliches Urteil gar nicht herum. Lehnen Sie Vergleichstests rundum ab? An sich können Tests ja durchaus hilfreich sein, als Warnlampe: Hier muss man genauer hinschauen, da noch was tun. Ähnlich wie in der Medizin eine erhöhte Temperatur Anlass zu einer differenzierteren Diagnose ist – aber eben nicht die Diagnose selbst. Schließlich käme niemand auf die Idee, das professionelle Urteil des Arztes durch ein Thermometer zu ersetzen. Genau das aber droht in der Pädagogik. Und wenn dann noch auf den Test hin geübt wird, verliert der letztlich sogar noch seine Aussagekraft als Warnlampe. Der aktuelle Testboom stellt also nur ein »oberflächliches Messen« dar? Ja. Das Grundproblem ist doch: Es zählt nur die »richtige« Antwort, das heißt, die von den Testautoren vorgegebene Lösung. Die persönliche Lesart eines Textes, die individuelle Deutung einer Aufgabe, untypische Lösungswege bringen keine Punkte. Damit werden Tests zum »heimlichen Lehrplan« – angesichts der genannten Schwächen und aktuellen gesellschaftlichen Entwicklungen eine echte Gefahr. Worin bestehen Ihrer Ansicht nach die größten Schwächen dieser Tests? Eine Schwäche von Tests ist stets die Künstlichkeit der Aufgabe. Zum Beispiel müssen mathematische oder naturwissenschaftliche Probleme als Text dargeboten werden. Insofern wird indirekt auch die Lesefähigkeit mit geprüft. Bei der Beantwortung von Fragen zu Texten wiederum spielen auch Wortschatz, Weltwissen und Kombinationsfähigkeit eine Rolle. Auch die Vorgabe von Auswahlantworten oder die Begrenzung der Zeit engen den Lösungsraum künstlich ein. Man kann seine Antworten nicht mehr erläutern, das heißt, die Deutungshoheit für die richtige Lesart der Aufgabe und für die Bewertung der Lösung geht verloren. Sie wird sozusagen an den Test beziehungsweise dessen Macher überstellt. Zielen Sie mit Ihrer Kritik auch auf die sogenannte »Hattie-Studie«, ei- ne gigantische Metaanalyse, die von konservativen Bildungspolitikern als Beleg dafür herangezogen wird, dass es angeblich den unwiderlegbaren wissenschaftlichen Beweis dafür gebe, dass Lernerfolge unabhängig von der Klassengröße zustande kämen? Ja, Metaanalysen, in denen die Kennwerte vieler Studien zu einem einzigen Thema miteinander verrechnet werden, stellen ein ganz besonderes Problem dar: Bei der Verdichtung von Ergebnissen auf immer höheren Abstraktionsebenen verlieren die bewerteten Phänomene wie »Hausaufgaben« oder »offener Unterricht« immer mehr an inhaltlicher Bedeutung, weil in den zusammengefassten Teilstudien jeweils ganz unterschiedliche Realisierungen untersucht wurden. In Pauschalurteilen, wie sie bei Hattie herauskommen, geht das verloren. Was vielleicht noch für Allgemeinentscheidungen hilfreich ist, zum Beispiel für die Politik, also Häufigkeiten und Durchschnitte, wird dem Einzelfall nicht gerecht. Kontextbedingte Abweichungen und das individuell Bedeutsame werden forschungsmethodisch zum »Schmutzeffekt«, zum »Ausreißer« erklärt.
Die Fixierung auf Punktwerte in Leistungstests führt zu einer Verarmung der Qualitätsdiskussion.
Wie sollten Schüler, Lehrer und Eltern mit Vergleichstests umgehen? Wir können das persönliche Urteil nicht ausschalten. Das ist auch nicht schlimm, solange es nicht mit zu viel Macht verbunden ist. Nötig ist eine soziale Kontrolle von Bewertungen statt technisch immer perfekterer Methoden. Wie im Gerichtswesen mit unterschiedlich definierten Rollen. Wahrnehmungen müssen ausgetauscht, Deutungen ausgehandelt werden: zwischen Lehrerinnen und Lehrern, Schülerinnen und Schülern und ihren Eltern. Statt Standardisierung brauchen wir Mehrperspektivität. Auch bei der Beurteilung von Schulen und auf der Systemebene.