Im Zuge der Neuen Steuerung im Bildungswesen kommt der Generierung von empirischer Evidenz auf den verschiedenen Ebenen des Bildungssystems eine immer größer werdende Bedeutung zu (Campbell und Levin 2009; Coe 2009; Schildkamp et al. 2012; Slavin 2008; Wiseman 2010). Im Kern geht es darum, ob und wie es gelingt, Evidenz hinsichtlich der Wirksamkeit pädagogischer und bildungspolitischer Maßnahmen zur Verfügung zu stellen, um diese in datengestützte Entwicklungskreisläufe der Unterrichts-, Schul- und Bildungsqualität einspeisen zu können. Jede evidenzbasierte Entscheidung für eine bestimmte Maßnahme muss ihrerseits auf ihre Effekte hin überprüft werden und das Evaluationsergebnis in den Entwicklungskreislauf einfließen. Soll eine Lehrkraft ihren Unterricht stärker auf individuelle Förderung umstellen, um die Leistungsschwächeren an das Niveau der Lerngruppe heranzuführen? Welche erprobten Ansätze und Programme der Förderung stehen zur Verfügung? Trägt Schulinspektion dazu bei, dass Failing Schools (d. h. Schulen mit wiederholt weit unterdurchschnittlichen Leistungen) wieder den Anschluss finden? Welches Sprachförderkonzept soll eine Landesregierung flächendeckend implementieren, um soziale und zuwanderungsbezogene Disparitäten schulischer Leistungen zu reduzieren?

1 Evidenzbasierung: Grundlagen- oder Anwendungsforschung?

Um solche konkreten Fragen beantworten zu können, benötigt man Wissen darüber, was wirkt oder funktioniert („What works?“, Ruthven 2011; Slavin 2008). Die What-works-Frage weist dabei jedoch unterschiedliche Aspekte auf. Unter einem eher grundlagenforschungsorientierten Aspekt sollen die kausal zurechenbaren Effekte von pädagogischen Maßnahmen oder bildungspolitischen Programmen auf definierte Zielgrößen, wie beispielsweise die schulische Leistungsentwicklung, identifiziert werden. Maßgeblich hierfür ist ein expliziter Theoriebezug („Wie ist der kausale Wirkmechanismus einer Intervention oder eines Programms theoretisch begründet?“) und der Rekurs auf empirische Studien, die möglichst rigorosen methodischen Standards für intern und extern valide Wirksamkeitsnachweise genügen.Footnote 1 Für den Bereich der pädagogischen Psychologie geben Winne und Nesbit (2010) einen umfassenden Überblick darüber, welche belastbaren psychologisch-theoriegeleiteten Befunde zu den kognitiven, meta-kognitiven und motivationalen Wirkfaktoren auf Schulleistungen vorliegen. Unter anwendungsorientierter Perspektive geht es hingegen stärker um die Frage, ob sich neue Maßnahmen oder Programme auch in komplexen pädagogischen und bildungspolitischen Handlungsfeldern mit ihren je spezifischen Konstellationen von Kontextfaktoren als wirksam erweisen und ob sich die Implementation einer Innovation vor dem Hintergrund der bestehenden Praxis „lohnt“. Es geht also um die Gewichtung und Nuancierung der drei „klassischen E’s“ der Evaluationsforschung: Efficacy (Wirksamkeit), Effectiveness (Wirkung), Efficiency (Effizienz) (Wortman 1983). Während der Nachweis der Wirksamkeit einer Maßnahme unter hochgradig kontrollierten und standardisierten Bedingungen erfolgt, zeigen sich die Wirkungen erst unter typischen Realbedingungen (z. B. in Unterrichtssituationen; Wortman 1983, S. 230). Effizienz schließlich bezieht als Evaluationskriterium die Kosten-Nutzen-Bilanz einer Intervention oder eines Programms bei gegebener Wirkung ein.

Für den Bereich medizinischer Maßnahmen und Therapien hat sich eine Hierarchie der Evidenzquellen, quasi ein Stufenmodell des Wirksamkeitsnachweises, etabliert. Ganz oben in dieser Hierarchie stehen Studien mit randomisiertem Kontrollgruppendesign und, sozusagen als Krönung, die systematische Befundintegration solcher und anderer methodisch hochwertiger Studien in Form von Metaanalysen. Evidenzbasierung im Sinne grundlagenforschungsorientierter Qualitätskriterien ist also primär an Befunden zur Wirksamkeit einer Intervention interessiert; soll Evidenz dagegen Aspekte des Anwendungsnutzens mitberücksichtigen, dann sind Informationen zu den Wirkungen und u. U. zur Effizienz mindestens gleichrangige Ziele einer wissenschaftlichen Forschungsbefundintegration.

Während im medizinischen Bereich die Orientierung an einem Evidenzverständnis, das auf Wirksamkeitsnachweise abzielt, noch als plausibel gelten kannFootnote 2, wird dies für den pädagogischen Bereich teilweise vehement in Zweifel gezogen (z. B. Bellmann und Müller 2011). Berliner (2002) benennt drei grundsätzliche Charakteristika des Bildungsbereichs, die eine Übernahme des medizinischen Konzepts der Evidenzbasierung erschweren: die Wirkung multipler Kontexteinflüsse in realen Lehr-Lernsituationen (Power of Contexts), die Allgegenwart von Wechselwirkungen (Ubiquity of Interactions)und die geringe „Halbwertszeit“ der Befunde empirischer Bildungsforschung (Decade x Findings Interactions). Unter den ersten beiden Charakteristika versteht Berliner das nach seiner Ansicht unentwirrbare und experimentell unkontrollierbare Mehrebenengefüge von Wirkfaktoren und Interaktionen in institutionellen Lehr-Lern-Kontexten, wie z. B. dem Klassenzimmer. Auf welche Konstellation von sozialer und ethnischer Schülerzusammensetzung, Lehrerkompetenz, Schulleitungshandeln, materieller Ausstattung der Schule, administrativem Unterstützungssystem etc. trifft die Implementation einer konkreten Interventionsmaßnahme? Was genau wirkt dann noch bzw. verhindert das Wirksamwerden einer Maßnahme? Mit geringer „Halbwertszeit“ der Befunde in der Bildungsforschung meint Berliner (2002), dass selbst solide gewonnene empirische Evidenz aus der Bildungsforschung mitunter allein schon aufgrund des raschen sozialen Wandels der Kontextbedingungen von Bildungserwerb obsolet werden kann. So hat möglicherweise empirische Evidenz zu den Effekten von integrativer vs. nicht-integrativer Beschulung von Kindern mit sonderpädagogischem Förderbedarf auf deren Kompetenzerwerb in zehn Jahren kaum noch Gültigkeit, da sich das Ausmaß und die Konzepte integrativer Unterrichtsformen in naher Zukunft deutlich verändern.

Die Komplexität des Kontexts und der kontextbezogenen Interaktionen machen es nach Berliner nahezu unmöglich, den Effekt einzelner interessierender Faktoren, z. B. den eines bestimmten Sprachförderprogramms, zu isolieren und soweit generalisierbar zu machen, dass Effekte für eine konkrete Schule bzw. eine angebbare Konstellation von konkreten Kontextmerkmalen abschätzbar sind.

Nach Berliners (2002) Argumentation ist sowohl die interne als auch die externe Validität von randomisierten Kontrollgruppenansätzen angesichts dieser Barrieren bedroht; Evidenz-basierte Bildungspolitik nach dem Muster und den Standards der Evidenz-basierten Medizin wäre somit ein kaum einlösbares Versprechen (vgl. auch Chatterji 2007; Davies et al. 2008; Ong-Dean et al. 2011; Song und Herman 2010).

In der aktuellen Diskussion um die Qualitätsstandards von sozial- und verhaltenswissenschaftlicher Forschung im deutschsprachigen Raum wird versucht, die Dichotomie und den anscheinenden Widerspruch zwischen Erkenntnis- und Nutzeninteresse bei der Generierung von Evidenz abzuschwächen. So schlagen Brüggemann und Bromme (2006) als Ergebnis einer Diskussion der Begutachtungskriterien von DFG-Forschungsanträgen vor, zwischen den Polen der „reinen“ Grundlagenforschung und der Anwendungsforschung eine „Anwendungsorientierte Grundlagenforschung“ zu platzieren. Die Anwendungsorientierte Grundlagenforschung bleibt nach Brüggemann und Bromme (2006) zwar den grundlagenforschungsorientierten Kriterien der Generalisierbarkeit und einer stringenten Theorieanbindung verpflichtet, intendiert aber zugleich „dezidiert praktische Effekte bzw. praktischen Nutzen und zieht sie auch zur Begründung und Beschreibung ihrer Fragestellungen heran“ (S. 113). Die Autoren konzedieren, dass im Rahmen Anwendungsorientierter Grundlagenforschung einer (experimentellen) Kontrollierbarkeit Grenzen gesetzt sind und dass die experimentelle Isolation einzelner Variablen sogar ein unangemessenes Zielkriterium zur Erforschung komplexer Zusammenhänge darstellen könne. Weiterhin plädieren Brüggemann und Bromme (2006) dafür, dass in der Anwendungsorientierten Grundlagenforschung auch das zweite Qualitätskriterium der „reinen“ Grundlagenforschung, die „stilreine“ Bezugnahme auf möglichst nur eine Theorie, gelockert werden müsse. Bei anwendungsorientierten Fragestellungen dürften auch gleichzeitig Theorieelemente und entsprechende Konstrukte aus verschiedenen „(…) Diskursen herangezogen werden, um dem jeweiligen Problem gerecht zu werden“ (S. 115).

Damit zeichnet sich im deutschsprachigen Raum eine etwas andere Stoßrichtung in der Frage der Evidenzbasierung in pädagogischen und bildungspolitischen Handlungsfeldern ab als in den USA (Fischer et al. 2005). Dort dominiert nach den Empfehlungen des U.S. Department of Education im Zuge der No Child Left Behind-Gesetzgebung (U.S. Department of Education 2002) eine klare Orientierung am strengen Wirksamkeitsmodell von Evidenz, verbunden mit der Präferenz für randomisierte Kontrollgruppenstudien (U.S. Department of Education 2005) und entsprechend darauf aufbauenden systematischen Reviewverfahren. So wurden im Auftrag des US Department of Education zahlreiche Metaanalysen durchgeführt, um die Effekte der Sonderbudgetierung von Schulen mit einer sozial benachteiligten Schülerschaft auf die Leistungsentwicklung zu überprüfen (Zimmer et al. 2007). Auf Initiative des US Department of Education wurde zudem 2002 das What Works Clearinghouse (WWC) eingerichtet. Das WWC ist eine zentrale Datenbasis, die Politik, Wissenschaft und vor allem pädagogischer Praxis über Metaanalysen und andere systematische Reviewverfahren abgesicherte Informationen bereitstellen soll, welche Maßnahmen und Programme im Bildungsbereich effektiv sind (What Works Clearinghouse 2011).

Welche Implikationen hat nun die aufgezeigte Diskussion für die Nutzung und Bewertung von Metaanalysen als methodischem Instrument der Evidenzerzeugung im Bildungsbereich? Im folgenden Abschnitt wird zunächst der Ansatz der Metaanalyse in seinen Grundzügen skizziert. Dabei wird auf diejenigen Aspekte im Prozess einer Metaanalyse fokussiert, die auf der statistisch-methodischen Ebene eine Präferenz für Wirksamkeits- vs. Wirkungs-Kriterien von Evidenz reflektieren. Vor diesem Hintergrund wird anschließend die gegenwärtig wohl einflussreichste Forschungsbefundsynthese im Bildungsbereich, Visible Learning von John Hattie (2009; 2012), kurz vorgestellt und kritisch diskutiert. Der Schlussabschnitt bilanziert Nützlichkeit und Begrenztheit metaanalytischer Ansätze für die Evidenzgenerierung in pädagogischen und bildungspolitischen Handlungsfeldern.

2 Metaanalytisches Vorgehen: Spielraum für Entscheidungen

Beelmann und Bliesener (1994, S. 211) definieren den metanalytischen Ansatz wie folgt: „Die Metaanalyse kann als Sammlung konzeptioneller und methodischer Verfahren verstanden werden, mit deren Hilfe empirische Daten zu einer festgelegten Fragestellung in einer quantitativ orientierten Weise zusammengefasst werden“.

Metaanalysen sind ein Spezialfall systematischer Übersichtsarbeiten. Diese sind dadurch gekennzeichnet, dass sie im Unterschied zu sogenannten narrativen Übersichtsarbeiten versuchen, sämtliche für einen interessierenden Effekt existierenden Untersuchungen (Primärstudien) zu berücksichtigen und relevante Merkmale und Befunde der Studien (z. B. theoretischer Ansatz, Untersuchungspopulation, Interventionstyp, Zielkriterien, Studiendesign) systematisch zu erfassen. Darüber hinaus werden die Suchstrategie in Literaturdatenbanken und anderen Quellen sowie die Ausschlusskriterien für Primärstudien protokolliert, so dass die Datenbasis eines systematischen Reviews für Dritte überprüfbar wird.

Als zentrales differenzierendes Merkmal von Metaanalysen gegenüber anderen Formen systematischer Literaturübersichten gilt die quantifizierende Integration bzw. Aggregation von Primärstudienergebnissen (Cooper et al. 2009). Ziel der Aggregation ist es, am Ende eine Maßzahl zu haben, die eine hohe Verdichtung der vorgefundenen empirischen Evidenz zur Wirksamkeit bzw. Wirkung von Interventionen, Maßnahmen oder Programmen darstellt. Dazu müssen zunächst die Befunde aller Primärstudien (z. B. zur Wirksamkeit von Sprachförderprogrammen auf Lesekompetenz), die in der Regel mit unterschiedlichen Messinstrumenten gewonnen wurden, auf ein einheitliches quantitatives Maß gebracht werden: die Effektgröße (auch: Effektstärke, abgek. ES). Als Effektgrößen bezeichnet man definierte Maße des Zusammenhangs zwischen zwei interessierenden Merkmalen bzw. Maße des Effektes einer unabhängigen auf eine abhängige Variable. Der d-Index als bekanntestes Effektgrößenmaß (Cohen 1988) ermittelt die Mittelwertsdifferenz zwischen zwei betrachteten Gruppen (z. B. Interventions- und Kontrollgruppe), relativiert an der gepoolten Standardabweichung beider Gruppen oder der Streuung der Kontrollgruppe. Diese Maße drücken hinsichtlich der abhängigen Variablen (z. B. Lesekompetenz) den Verteilungsabstand von Interventions- und Kontrollgruppe (z. B. Teilnehmer vs. Nichtteilnehmer an einer Sprachfördermaßnahme) in Einheiten der Standardabweichung aus. Die meisten Effektgrößenmaße, wie die d-Indizes, r-Korrelationsmaße, bivariaten Regressionskoeffizienten b, lassen sich leicht ineinander überführen, so dass sich z. B. Befunde aus Studien mit Kontrollgruppendesigns (d-Maße), Korrelationsstudien (r-Maße) oder einfachen Regressionsdesigns (b-Maße) in einer Metaanalyse zu einer gemittelten Effektgröße verrechnen lassen.

2.1 Evidenz für Efficacy oder Effectiveness: Weichenstellungen im metaanalytischen Prozess

Wenn Beelmann und Bliesener (1994, S. 211) von Metaanalysen als einer „Sammlung konzeptioneller und methodischer Verfahren“ sprechen, so ist damit angedeutet, dass von der Forscherin bzw. dem Forscher an etlichen Stellen des metaanalytischen Prozesses Entscheidungen gefordert werden.

Im Folgenden sollen einige dieser Entscheidungen als Weichenstellungen beschrieben werden. Je nach Entscheidungsrichtung orientiert sich eine Metaanalyse eher am Ziel eines Wirksamkeitsnachweises, d. h. an Standards der Grundlagenforschung mit dem Ziel inferenzstatistischer Hypothesen- und Theorietestung. Anders verlaufende Entscheidungen kennzeichnen dagegen einen primär explorativen Anspruch an das Verfahren und seine Befunde. Dieser Anspruch kann als Wirkungs-orientiert bezeichnet werden, da – in Berliners (2002) Sinn – versucht wird, die moderierenden Einflüsse von Kontextbedingungen in komplexen Handlungsfeldern nicht zu kontrollieren, sondern sie zu modellieren.

Aus Platzgründen können hier nicht alle Entscheidungspunkte im Metaanalyseprozess beschrieben werden (vgl. hierzu ausführlich Cooper et al. 2009). Daher konzentriert sich die Darstellung auf Weichenstellungen an zwei Stellen: a) die Such- und Auswahlstrategie der Primärstudien (d. h. der ursprünglichen Untersuchungen) und b) die Frage, wie die Effektgrößen der Primärstudien statistisch aggregiert werden. Die methodischen Ausführungen werden anhand von Beispielen publizierter Metaanalysen aus dem Bereich der Schul- und Unterrichtsforschung illustriert.

2.2 Entscheidungen bei der Such- und Auswahlstrategie von Primärstudien

Durch die Such- und Auswahlstrategie wird gleich zu Beginn des metaanalytischen Prozesses festgelegt, welcher Typus von Studien überhaupt zur Befundintegration „zugelassen“ wird, insbesondere, wie homogen hinsichtlich inhaltsbezogener und methodischer Kriterien die Primärstudien sein sollen (Valentine 2009). Als die beiden hauptsächlichen Kontroversen gelten das Uniformitätsproblem („Äpfel-und-Birnen-Problem“) und das Problem der Artefaktkontrolle („Garbage-in-Garbage-out-Problem“). Das Äpfel-und-Birnen-Problem bezieht sich auf die Frage, ob es überhaupt sinnvoll ist, heterogene Konstrukte als „gleichwertig“ zu betrachten und deren Effekte quantitativ in einer aggregierten Effektgröße auszudrücken. So kritisierten beispielsweise McGee und Lomax (1990) die Metaanalyse von Stahl und Miller (1989). Diese hatten verschiedene Instruktionsmethoden des Erstleseunterrichts miteinander verglichen. Dabei integrierten sie die Ergebnisse von 117 Vergleichen, die jeweils den Effekt einer traditionellen analytischen Leselernmethode (Laut- und Buchstaben-bzw. Fibellernen) dem einer ganzheitlichen oder auf Spracherfahrungsansätzen beruhenden, synthetischen Methode gegenüberstellten. Bei letztgenannter Methode sollen Kinder das Lesen eigenaktiv anhand selbst gesprochener und (auch orthografisch falsch) hingeschriebener ganzer Wörter und Sätze erlernen. Eine gemittelte Effektgröße von d = 0,09 ließ die Autoren resümieren, „[…] [W]hole language/language experience approaches were not reliably different from basal reader approaches in their effects“ (Stahl und Miller 1989, S. 94).

Die „Äpfel-und-Birnen“-Kritik von McGee und Lomax (1990) lautet im Kern, dass mit dem Etikett „whole language/language experience approaches“ sowohl in historischer als auch theoretischer Sicht vollkommen unterschiedliche Konzepte als homogener Ansatz betrachtet wurden; dies hätte die mögliche Überlegenheit neuerer synthetischer Erstleselernmethoden maskiert. Zudem seien wichtige potenzielle Einflussgrößen, wie die Dauer der Lesezeit der Kinder, nicht beachtet worden, die bei den analytischen Methoden höher sei. Kritisiert wird also der Verlust an Spezifität, der dadurch entstehe, dass unterschiedlichste Interventionsansätze unter einem gemeinsamen Label (hier: Ganzheitliche Erstlesemethode) aggregiert würden, was die theoretische Relevanz der Analyse in Frage stelle (Eysenck 1995).

Wie oben ausgeführt, kennzeichnet „Strenge“ hinsichtlich der theoretischen Bezugnahme und der Konstruktdefinition einen eher der Grundlagenforschung nahestehenden Wirksamkeits-Ansatz metanalytischer Evidenz. Wie etliche Autoren betonen, beschneidet jedoch eine rigorose Auswahlstrategie die Möglichkeit, Moderatoren der Wirksamkeit einer Maßnahme, wie zum Beispiel die theoretische Ausrichtung des Interventionsansatzes oder etwaige Umsetzungsvarianten bei der Implementation, zu identifizieren und hinsichtlich ihres differenziellen Effektes zu quantifizieren (zusammenfassend Cortina 2003).

Technisch betrachtet erfordern Moderatorenanalysen zunächst die Identifikation bestehender Unterschiede in den Effektgrößen der Primärstudien (Zwischenstudienvarianz). Ist diese Varianz substanziell, so kann der moderierende Effekt relevanter Randbedingungen entweder durch Bildung homogener Gruppen von Studien oder regressionsanalytisch bestimmt werden (Cortina und Pant 2009). Auf diese Weise können in Metaanalysen im Sinne der Cook-Campbell’schen Validitätskriterien (Shadish et al. 2002) sowohl wichtige Bausteine des Prozessverständnisses eines Interventionseffektes (interne Validität) als auch dessen Abhängigkeit von Operationalisierungsmerkmalen (Inhaltsvalidität) sowie den situativen und raum-zeitlichen Gegebenheiten einer Untersuchung (externe Validität) konkretisiert werden.

Analog zum Äpfel-und-Birnen-Problem wird darüber gestritten, ob man methodisch „schlechte“ Studien von vornherein aus einer Metaanalyse ausschließen solle oder nicht, da diese die Qualität der Metaanalyse selbst kompromittieren könnten (Eysenck 1984; Oswald und Plonsky 2010). Um Ausschlusskriterien zu erhalten, werden z. B. Qualitätsscores pro Studie kodiert, die validitätseinschränkende Studienmerkmale erfassen sollen (Matt und Cook 2009). Ab einem willkürlichen Schwellenwert werden Studien mangels hinreichender methodischer Qualität aus der Metaanalyse ausgeschlossen (Schmidt et al. 2009a). Aus Sicht einer auf Wirkungs-Evidenz ausgerichteten Verwendung von Metanalysen ist, ähnlich wie beim Äpfel-und-Birnen-Problem, jedoch eher eine systematische Kodierung von validitätsrelevanten methodischen Studienmerkmalen vorzunehmen und deren moderierende Wirkung statistisch zu überprüfen.

So rücken beispielsweise Seidel und Shavelson (2007) Moderatorenanalysen ins Zentrum ihrer Metaanalysen zu den Effekten unterschiedlicher Faktoren des schulischen Lernens (wie z. B. Art der Klassenführung oder Kooperatives Lernen) auf den Lernerfolg von Schülerinnen und Schülern. Dabei möchten sie u. a. klären, ob sich methodische Faktoren, wie die Art des Studiendesigns (korrelativ vs. quasi-experimentell vs. experimentell), die Art der Operationalisierung der Einflussfaktoren (z. B. Messung von Klassenklima über Lehrerfragebogen, Schülerfragebogen oder Videobeobachtung) und die Definition des Lernerfolgs (Status- vs. Veränderungsmessung), auf die feststellbaren Effektgrößen systematisch auswirken. Seidel und Shavelson (2007) finden erhebliche Unterschiede in den mittleren Effektgrößen in Abhängigkeit von derartigen methodischen Faktoren und raten dazu, die Sensitivität der Befunde von Primärstudien und von Metaanalysen, die dies nicht explizit betrachten, in der Scientific Community zu diskutieren.

2.3 Entscheidungen bei der Aggregation der Primärstudienergebnisse

Historisch hat sich die Metaanalyse als Befundintegration bivariater Zusammenhänge entwickelt (Beelmann und Bliesener 1994). Mit fortschreitendem Entwicklungsstand einer wissenschaftlichen Teildisziplin, wie z. B. der empirischen Schulleistungsforschung, werden aber bereits auf Primärstudienebene multivariate, prozesshafte, durch Wechselwirkungs-, Mediatoren- oder Mehrebeneneffekte gekennzeichnete Wirkmodelle entwickelt und geprüft. Deren differenzierende Aussagen lassen sich jedoch prinzipiell nicht in einer einzigen Effektstärke verdichten. Es entsteht das statistische Problem, dass bei allen Verfahren, die Partialkoeffizienten als Ergebnisstatistik verwenden (z. B. multiple Regressionsanalysen, Pfadmodelle, Faktorenanalysen), nur bei (möglichst exakter) Replikation des Variablensets eine Datenaggregierung sinnvoll ist. Anderenfalls würden Kennwerte zusammengefasst, die je nach Partialisierungsvariablen verschiedene Bedeutungen aufwiesen und damit inhaltlich unterschiedliche Zielgrößen schätzten (Becker 2009). Viele Primärstudien untersuchen zudem die Effekte einer pädagogischen Intervention nicht nur auf eine, sondern auf mehrere Zielgrößen (z. B. Wirksamkeit einer Maßnahme der Sprachförderung auf Verbesserung von Lesefähigkeit, Wortschatz und Orthografie), die dann zunächst multivariat zu einer Effektgröße verarbeitet werden müssen.

Metaanalysen sehen sich daher häufig gezwungen, hinter den empirischen Differenzierungsgrad methodisch ausgefeilter Primärstudien zurückzugehen, um eine Ergebnisaggregation durchführen zu können. So können im ungünstigen Fall die „besten“ Veröffentlichungen z. B. zur Wirkung von zwei- vs. mehrgliedrigen Schulsystemen auf die Leistungsentwicklung nicht in eine Metaanalyse einbezogen werden, weil jene nur adjustierte (d. h. um den Einfluss bestimmter Kontextmerkmale, wie z. B. den sozialen Hintergrund der Schülerschaft bereinigte) Zusammenhänge berichten.

Ein Beispiel dafür, wie diese statistisch „erzwungene“ Simplifizierung in Metaanalysen zu problematischen, weil verkürzten inhaltlichen Schlussfolgerungen führen kann, sind die Studien zur Wirkung von Hausaufgaben auf Schulleistung. Cooper et al. (2006) fanden in ihrer sehr aufwändigen Metaanalyse den über viele Studien konsistenten Befund, dass die Menge der Hausaufgaben und die Dauer der Hausaufgabenbeschäftigung signifikant positiv mit Leistungsindikatoren assoziiert waren, wenngleich auch schwächer im Primar- als im Sekundarbereich. Trautwein et al. (2009) greifen die Ergebnisse dieser Metaanalyse auf. Sie zeigen in einer längsschnittlichen und spezifisch auf Hausaufgabeneffekte angelegten Mehrebenenanalyse, dass die Effekte von Hausaufgaben je nach Analyseebene unterschiedlich ausfallen bzw. kausal verschieden interpretiert werden müssen. Auf der Klassenebene verschwand beispielsweise der signifikant positive Effekt von Hausaufgabenmenge auf Leistung, wenn als Moderatorvariable die Schulart berücksichtigt wird. Schülerinnen und Schüler im untersten von zwei (bzw. drei) Bildungsgängen (Schweizer Schulsystem) erhielten systematisch weniger Hausaufgaben, so dass sich der Zusammenhang zur Leistung eher auf das Merkmal Schulart als auf die Hausaufgabenmenge an sich zurückführen lässt. Auf der Schülerebene ergab sich ein umgekehrter Zusammenhang zwischen Hausaufgabenzeit und nachfolgender Leistung, wenn das zuvor bestehende Leistungsniveau in die Analyse einbezogen wurde. Schwächere Schüler benötigten mehr Zeit für ihre Hausaufgaben und erzielten dennoch geringere Zugewinne. Grundsätzlich ist es möglich, Mehrebenenstrukturen im Rahmen von Metaanalysen zu berücksichtigen und statistisch zu modellieren. Schmid et al. (2013) geben einen Überblick über entsprechende Ansätze und Softwareoptionen.

Diese und andere Differenzierungen unterstreichen die Notwendigkeit, Befunde aus Metaanalysen mit denen aus methodisch anspruchsvollen Einzelstudien abzugleichen, um kausale Fehlschlüsse zu vermeiden.

Prinzipiell ist zwar auch die Aggregation komplexerer Variablenzusammenhänge – etwa von Kovarianzstrukturen mehrerer Strukturgleichungsmodelle –metaanalytisch zu bewerkstelligen. Dies hat jedoch fast immer den Nachteil, dass automatisch die Menge der auffindbaren Primärstudien drastisch reduziert wird, da nur Studien mit (zumindest fast) exakt identischen Variablensets aggregiert werden können. Damit aber fiele einer der Hauptvorteile des quantifizierenden Ansatzes der Metaanalyse, die Aggregierung großer Mengen von Einzelergebnissen, weg. Ein möglicher Ausweg besteht im Nachschalten komplexer Analyseverfahren. Zunächst werden bivariate Primärbefunde metanalytisch aggregiert und anschließend die aggregierten Statistiken (z. B. gemittelte Korrelationen) in multivariaten Modellen (z. B. Pfadmodellen) auf Studienebene weiter analysiert (für ein Anwendungsbeispiel aus dem Bildungsbereich s. Robbins et al. 2009). Spätestens bei einem solchen Vorgehen ließe sich jedoch diskutieren, ob statistische Analysen auf der Studienebene inhaltlich das Gleiche aussagen wie die Daten auf der Primärstudienebene. Sohn (1995) formuliert dieses Unbehagen wie folgt: „Meta-analysts have acted as if there is no difference, as if conclusions based on the study of the literature have the same epistemological standing as those based on the direct study of nature. Are meta-analysts correct in this regard? Is it proper to treat the research literature as a proxy for nature?“ (S. 109).

Ein weiterer Aspekt betrifft die Wahl des statistischen Modells der Aggregation von Effektgrößen aus Primärstudien, d. h. die Berechnung der mittleren Effektstärke entweder nach einem Modell mit festen Effekten (Fixed Effects Model) oder nach einem Modell mit zufälligen Effekten (Random Effects Model). Bei dieser Unterscheidung geht es allgemein formuliert um die Frage, in welchem Verhältnis die Stichprobe von Studien zur Grundgesamtheit aller Primärstudien steht, die den interessierenden Effekt untersucht haben. Inhaltlich bedeutet die Verwendung eines Fixed-Effects-Modells, dass man davon ausgeht, bei den betrachteten Einzelstudien handelt es sich quasi um Replikationsuntersuchungen aus derselben Population. Dies mag für den Bereich medizinisch-experimen-teller Forschung mit randomisierten Kontrollgruppendesigns noch plausibel erscheinen; für naturalistische Studien im Bildungsbereich dagegen kaum, da hier eine Vielzahl von z. T. unkontrollierbaren Kontext- und Moderatoreneinflüssen die Regel darstellt.

Das Random-Effects-Modell hebt die restriktiven Annahmen des Fixed-Effects-Modells insofern auf, als es nicht mehr davon ausgeht, dass alle Studien denselben Populationsparameter („wahren Effekt“) schätzen. Vielmehr wird die Studienstichprobe einer Metaanalyse buchstäblich als das Resultat einer Stichprobenziehung aus einer Grundgesamtheit von Studienrealisationen zu dem beobachteten Zusammenhang bzw. dem Interventionseffekt betrachtet. In diesem Studien-Universum existiert nicht notwendig nur eine einzige „wahre“ Effektstärke, sondern eine Verteilung von mehreren „wahren“ Effektstärken. Die Annahme einer Verteilung von „wahren“ Effektstärken reflektiert die Auffassung, dass mögliche Einflussgrößen (Moderatoren) beim Zustandekommen einer Effektstärke einerseits zu zahlreich und andererseits aus dem Datenmaterial (Veröffentlichungen) gar nicht rekonstruierbar sind, um sie explizit kontrollieren zu können. Die Bevorzugung eines Fixed- bzw. Random-Ansatzes im Rahmen von Metaanalysen ist damit sowohl eine Frage theoretischer Überlegungen, ob man metaanalytische Befunde im Sinne des oben dargestellten Verständnisses als Wirksamkeits- oder Wirkungs-Nachweis begreift, als auch eine empirisch vor dem Schritt der Datenaggregation zu klärende Angelegenheit. Denn im Falle empirisch feststellbarer substanzieller Heterogenität in den Effektstärken wird es inhaltlich immer unwahrscheinlicher, dass diese allein durch den Umstand verschiedener Personenstichproben (d. h. den Stichprobenfehler) und damit im Rahmen eines Fixed-Effects-Modells erklärbar sind. Methodisch differenzierte Metaanalysen kontrastieren häufig die Ergebnisse beider Aggregationsverfahren (z. B. Cooper et al. 2009; Tamim et al. 2011).

Als Zwischenfazit der Diskussion von Problemen der Studienauswahl und der Ergebnisaggregation zeichnen sich drei Empfehlungen für die Nutzung von Metaanalysen als Instrument der Evidenzgenerierung in der Schul- und Bildungsforschung ab.

  1. 1.

    Für das „Äpfel-und-Birnen-Problem“ gilt: Unter den von Berliner (2002) benannten Komplexitätsstrukturen von Bildungsprozessen sind Metaanalysen in erster Linie dann ein nützliches Instrument, wenn sie im Sinne eines Wirkungs-orientierten Verständnisses (vgl. Abschn. 1) zur Klärung der Bedingungen erfolgreicher Interventionen und Programme in realen Kontexten beitragen. Wie Seidel und Shavelson (2007, S. 485) formulieren: „Instead of estimating and searching for the true effect of teaching on learning, the role of meta-analysis primarily would be to capture context and outcome variation in reporting nuanced findings of teaching effectiveness.“ Die Sichtweise, Metaanalysen im Bildungsbereich würden definitive Wirksamkeitsnachweise von Interventionen und Programmen liefern, die sich beliebig generalisieren ließen, ist daher durch eine explizite und transparente Kommunikation gegenüber Bildungspolitik und -praxis zu relativieren.

  2. 2.

    Hinsichtlich des Problems der Artefaktkontrolle ist festzuhalten: Das Potenzial von Metaanalysen, den Effekt von methodischen Merkmalen der Primärstudien auf deren Ergebnisse zu identifizieren, sollte in erster Linie innerhalb der Scientific Community genutzt werden, um zukünftige Wirkungsstudien so zu gestalten, dass vorhandene Effekte sichtbar werden können.

  3. 3.

    Metanalysen greifen in der Regel auf unterkomplexe, bivariate Ergebnisdarstellungen in den Primärstudien zurück. Die metaanalytischen Befunde sollten daher mit den Ergebnissen besonders valider Einzelstudien, die aufgrund ihrer komplexen Analyseverfahren nicht in die Metanalyse eingehen konnten, abgeglichen werden (vgl. auch Best Evidence Synthesis, Slavin 2008).

In Tab. 1 werden ausgewählte Phasen des metaanalytischen Prozesses mit zentralen Entscheidungsproblemen sowie Strategien zur Überprüfung der Sensitivität der Befunde in der Übersicht dargestellt. Sie dienen im folgenden Abschnitt auch als Kriterienraster, um die einflussreichen Metaanalysen von John Hattie einzuordnen.

Tab. 1 Ausgewählte Phasen und Hauptprobleme des metaanalytischen Prozesses

3 Die Meta-Metaanalysen von John Hattie

Während Evidenzbasierung und insbesondere Metaanalysen im bio-medizinischen Anwendungsbereich inzwischen als unverzichtbar gelten (Volmink et al. 2004) – sowohl gesundheitspolitisch für die Populationsebene also auch für individuelle ärztliche Entscheidungsprozesse – hatten sie diesen Status in pädagogischen und bildungspolitischen Handlungsfeldern bis vor kurzem auch nicht annähernd. Die Meta-Metanalysen von John Hattie (2009; 2012) zur Frage, welche Bedingungen und Merkmale auf Seiten von Schülerinnen und Schülern, Lehrkräften, der Unterrichtsgestaltung sowie der schulischen Rahmenbedingungen mit schulischer Leistung in Zusammenhang stehen, haben diese Situation verändert. Sein Buch Visible Learning: A Synthesis of over 800 Meta-Analyses Relating to Achievement (Hattie 2009) wurde der wissenschaftlichen Suchmaschine Google Scholar zufolge nach Erscheinen fast zweitausend Mal zitiert; daneben wurden seine Hauptbefunde in zahlreichen bildungspolitischen Debatten aufgenommen und z. T. äußerst kontrovers diskutiert (Hattie 2010; Terhart 2011). Vor dem Hintergrund der hier interessierenden Frage, welchen Stellenwert quantitative Forschungsbefundsynthesen für die Evidenzerzeugung im Bildungsbereich haben, erscheint es daher sinnvoll, den Aspekt des strategischen Stellenwerts von Hatties Analysen vom methodischen zu trennen. Der strategische Nutzen erscheint auf den ersten Blick unbestreitbar: Visible Learning hat im internationalen Maßstab als „Weckruf“ für eine Evidenzdebatte im Bildungsbereich funktioniert und damit eines von Hatties Hauptzielen erreicht, die Fragen nach Wirksamkeit, Wirkung und Effizienz von Bildungsmaßnahmen zu Schlüsselfragen zu machen: „[W]e spend millions, if not trillions, of dollars investing in innovations, changes, and policies in education without a lot of evidence that this investment is making a difference to student outcomes“ (Hattie 2009, S. 255). Im Folgenden werden zunächst in sehr knapper Form Hatties (2009) Studienanlage und Kernbefunde beschrieben, um dann auf einige methodische Aspekte unter Bezugnahme auf die oben dargestellten Entscheidungen im metaanalytischen Prozess einzugehen.

3.1 Studienanlage und Hauptbefunde von Visible Learning

Hatties Forschungsbefundsynthese betrachtet die Effekte von Schüler-, Unterrichts- und Schulvariablen auf Schulleistungen. In seine Analyse gehen ausschließlich bereits durchgeführte Metaanalysen ein, d. h. in Visible Learning werden keine Primärstudien betrachtet (Hattie 2009, S. 255). In diese Meta-Metaanalyse (oder „Megaanalyse“, Terhart 2011) von mehr als 800 publizierten Metaanalysen anderer Forscherinnen und Forscher fließen indirekt die Daten und Ergebnisse von über 52 000 Primärstudien mit insgesamt mehr als 200 Mio. untersuchten Schülerinnen und Schülern ein. Aus diesen Studien extrahiert Hattie 138 (potenzielle) Einflussfaktoren der Schulleistung, die er in sechs Faktorengruppen zusammenfasst: Merkmale der Lernenden (z. B. Besuch vorschulischer Angebote, Vorleistung, Interesse am Fach), Merkmale des Elternhauses (z. B. sozioökonomischer Status der Eltern, elterliches Interesse an Schule), Merkmale der Schule (z. B. durchschnittliche Klassengröße, jahrgangsgemischtes Lernen), Merkmale der Lehrkraft (z. B. Ausbildung, Fachwissen), Merkmale des Curriculums (z. B. bilinguale Klassen, schulische Zusatzangebote) und die größte Faktorengruppe, Merkmale des Unterrichts selbst (z. B. Feedback-Kultur, Förderung meta-kognitiver Strategien).

Tabelle 2 zeigt, dass die durchschnittlich stärksten Effekte im Bereich der Lehrermerkmale sowie bei Faktoren der Lehr-Lernsituation (Teaching, Curricula) zu verzeichnen sind und Merkmale der Schülerinnen und Schüler erst danach folgen.

Tab. 2 Aggregierte Effektstärken d für den Zusammenhang von sechs untersuchten Faktorengruppen mit Schulleistung (gekürzt und übersetzt aus Hattie 2009, S. 18)

Die schnelle und breite Rezeption von Hatties Befundsynthese ist sicherlich zum einen dem Respekt vor der schieren Masse an wissenschaftlich fundierter Information geschuldet, die in seiner Studie verdichtet wird; zum anderen dürften dazu aber auch folgende Faktoren beigetragen haben: 1) eine explizite theoretische Konzeption von „gutem“, leistungswirksamem Unterricht, 2) eine eingängige, für alle Teilanalysen einheitliche grafische Darstellungsform und Bewertung der Befunde mithilfe eines von ihm so bezeichneten „Einflussbarometers“ (s. u., Abb. 1) und 3) die Präsentation aller 138 potenziellen Wirkfaktoren in Form von Rankings gemäß der durchschnittlichen Effektstärke.

Abb. 1
figure 1

Typisches Einflussbarometer zur Darstellung der aus Metaanalysen aggregierten mittleren Effektgröße für den Zusammenhang eines Faktors mit Schulleistung. (Copyright: Hattie (2009), S. 205)

Hatties theoretischer Ansatz des „Visible teaching – Visible learning“ geht – stark verkürzt – davon aus, dass Lehr-Lernprozesse dann erfolgreich verlaufen, wenn zwischen Lehrern und Schülern eine reziproke Perspektivübernahme gelingt: Lehrkräfte müssen die jeweils anstehenden Lernprozesse mit den Augen ihrer Schülerinnen und Schüler sehen können und Schülerinnen und Schüler müssen die Verantwortung für das eigene Lernen erkennen und dadurch temporär zu ihren eigenen Lehrern werden (Hattie 2009, S. 238). Für beide Prozesse sei Feedback ein entscheidender Faktor. Diese Grundfigur dient Hattie als Folie, um die Masse an Meta-Metanalysebefunden zu ordnen und zu interpretieren. Am Ende stehen zwei Kontrastierungen von Wirkfaktorengruppen, zum einen zweier unterschiedlicher Lehrerverhaltensweisen (nicht notwendig Lehrertypen!) und zum anderen von unterrichtsnahen Merkmalen vs. äußeren Bedingungen des Lehr-Lernkontexts. Demzufolge sind Lehrkräfte empirisch deutlich lernwirksamer, wenn sie eine aktivierende, direkt involvierende und involvierte Rolle einnehmen (Teacher as Activator) anstatt sich primär als Lernbegleiter bzw. „Anbieter“ von Lerngelegenheiten (Teacher as Facilitator) zu verhalten (vgl. Tab. 3)Footnote 3. Die zweite Kontrastierung belegt nach Hatties (2009, S. 244) Interpretation, dass Merkmale „guten“ Unterrichts wesentlich entscheidender für den Lernerfolg sind als äußere Struktur- und Organisationsmerkmale, wie z. B. reduzierte Klassengröße, jahrgangsübergreifendes Lernen oder externe Differenzierung (vgl. Tab. 4).

Tab. 3 Unterschiedliche Lehrerverhaltensweisen (aktivierend vs. lernbegleitend) in ihrer Wirksamkeit auf Lernerfolge (übersetzt aus Hattie 2009, S. 243)
Tab. 4 Unterrichtsfaktoren und Rahmenbedingungen schulischen Arbeitens in ihrer Wirksamkeit auf Lernerfolge (aus Hattie 2009, S. 244; übersetzt nach Köller 2012)

Diese beiden Gegenüberstellungen wirksamer und weniger wirksamer Schul- und Unterrichtsfaktoren stehen ganz am Schluss von Hatties (2009) Buch. Zuvor wird für jeden einzelnen der betrachteten Faktoren ein „Einflussbarometer“ präsentiert (vgl. Abb. 1). In dieser Darstellung mittelt Hattie jeweils die durchschnittlichen Effektstärken d aus mehreren publizierten Metaanalysen, bildet also den Durchschnitt von Durchschnittsangaben. Dieser zweifach aggregierte d-Wert wird dann im Barometer visuell in einer von vier inhaltlich beschriebenen „Zonen“ lokalisiert. Die für Hattie wichtigste „Zonengrenze“ liegt bei d = 0.4, dem Durchschnittswert der Effektgrößen aller mehr als 800 Metaanalysen seiner Synthese. Oberhalb dieser Benchmark liegen, so Hattie (2009, S. 18), die Effekte von pädagogischen Maßnahmen und Programmen, die nicht nur irgendeinen trivialen, von Null verschiedenen Lernerfolg bei den Schülerinnen und Schülern bewirken („What works?“), sondern den anzustrebenden Effekt („What works best?“). In der „Zone“ d < 0 befinden sich solche Faktoren, die lernhinderlich wirken (z. B. viel Zeit mit Fernsehkonsum, Klassenwiederholung), zwischen d = 0 und d = 0,15 liegen Faktoren, die nicht über das hinaus wirksam sind, was normale kognitive und soziale Reifungsprozesse auch ohne Beschulung hervorbringen würden, die also unter Lernerfolgsgesichtspunkten bereits als potenziell schädlich gelten müssten (z. B. offene vs. traditionelle Lernformen, jahrgangsübergreifendes Lernen). Im Bereich 0,15 < d < 0,4 schließlich ordnet Hattie (2009, S. 20) den Lernfortschritt ein, den Lehrkräfte typischerweise innerhalb eines Schuljahres bewirkten.

Die sechs Wirkfaktorengruppen (vgl. Tab. 2 oben) werden nach inhaltlichen Aspekten nochmals zweifach untergliedert: im Bereich Schule u. a. in Effekte des Schultyps, Effekte von Klassenkompositionsmerkmalen und diese weiter in Effekte von Charter Schools, konfessionellen Schulen etc. bzw. von Klassengröße, Leistungsdifferenzierung, Jahrgangsmischung etc. Für die entstehenden Untergruppen von thematisch relativ homogenen Metaanalysen führt Hattie jeweils seine Meta-Metaanalyse durch, deren Ergebnisse in den beschriebenen Barometer-Darstellungen verdichtet werden. Mit dieser Untergliederung definiert Hattie a priori inhaltliche Moderatoren der Wirkung auf Schulleistung.

Alle 138 Einzelfaktoren werden schließlich im Anhang des Bandes nach ihrer Effektstärke in ein Ranking gebracht (vgl. Tab. 5).

Tab. 5 Ranking ausgewählter effektstarker bzw. -schwacher Faktoren in Hatties (2009) Meta-Metaanalyse (Faktorenbezeichnungen teilweise übersetzt nach Köller 2012)

3.2 Methodische und methodologische Vorbehalte gegen Hatties Vorgehen

In Abschn. 2.1 wurden zwei Stationen im metaanalytischen Prozess als Weichenstellungen hinsichtlich der Frage charakterisiert, ob das Instrument Metaanalyse eher im Sinne eines an Wirksamkeits- oder an Wirkungsnachweisen orientierten Verständnisses von Evidenz begriffen wird: die Auswahlstrategie der Primärstudien und die Methode der Effektstärkenaggregation. In Bezug auf die beiden Kardinalprobleme bei der Auswahl, das Äpfel-und-Birnen- und das Garbage-in-Garbage-out-Problem, votiert Hattie eindeutig für ein inklusives Vorgehen (Hattie 2009, S. 10 f.). Er plädiert dafür, a priori möglichst keine Studie (in seinem Fall: Metaanalyse) wegen theoretischer oder methodischer Qualitätsbedenken auszuschließen. Sein Standpunkt ist, dass eine mögliche Heterogenität der Ergebnisse empirisch auf Moderatoreneinflüsse hin untersucht werden müsse.

Zwischen dieser Grundhaltung und seinem eigenen methodischen Vorgehen bei der Aggregation der Effektstärken tut sich allerdings eine Kluft auf. Zwar benennt Hattie in den einzelnen Kapiteln gelegentlich Befunde zu Moderatorenanalysen, die die Autoren der ursprünglichen Metaanalysen berichtet haben; er versäumt es jedoch, die von ihm auf der Meta-Metaebene aggregierten Befunde hinsichtlich deren eigener Homo- bzw. Heterogenität kenntlich zu machen und ggf. Moderatoren zu identifizieren. So wird ein Vergleich der Effekte von Studien aus den 1980er Jahren mit aktuelleren Untersuchungen an keiner Stelle vorgenommen, obwohl methodische Standards sich zwischenzeitlich erheblich verändert haben. Insgesamt unterscheiden sich die einbezogenen Metaanalysen mitunter ganz erheblich in ihren Befunden zu dem jeweils betrachteten Wirkfaktor. Hierdurch blendet Hattie de facto eine Ebene seiner mehrfach geschachtelten Datenstruktur aus. Indem er als finale Effektgröße im Einflussbarometer jeweils nur den gemittelten Mittelwert anderer Metaanalysen und eine nicht näher erklärte Angabe zum StandardfehlerFootnote 4 (Standard Error, vgl. oben, Abb. 1) darstellt, wird suggeriert, dass diese „finale“ Effektgröße den „wahren“ Effekt des betrachteten Schul- oder Unterrichtsfaktors wiedergibt.

Dies wird auch durch Hatties Entscheidung für das Fixed-Effects-Modell als statistisches Modell der Datenaggregation unterstrichen. Er begründet diese Entscheidung rein technisch damit, dass fast alle der von ihm aggregierten Metaanalysen ihrerseits ein Fixed-Effects-Modell zugrunde gelegt hätten (Hattie 2009, S. 12). Seit ungefähr einem Jahrzehnt werden jedoch Random-Effects-Modellen bevorzugt (Cafri et al. 2010; Schmidt et al. 2009b), gerade weil sich in komplexen sozialwissenschaftlichen Handlungsfeldern die Annahme einer „wahren“ Effektgröße angesichts vielfältiger Interaktionszusammenhänge (Berliner 2002) nicht plausibel vertreten lässt. Zudem existieren inzwischen statistische Anwendungsvarianten, die eine hierarchische Modellierung von Meta-Metaanalysedaten ermöglichen (z. B. Sterne et al. 2002). Hierbei wird dem Umstand Rechnung getragen, dass sowohl Varianz innerhalb als auch zwischen Metaanalysen modelliert werden kann.

Darüber hinaus aggregiert Hattie (2009) die mittleren Effektstärken der ursprünglichen Metaanalysen, ohne sie durch die Zahl der jeweils eingegangenen Studien zu gewichten. Metaanalysen, die auf vielen hundert Einzelstudien beruhen, gehen dabei mit dem gleichen Gewicht in das d- Barometer ein, wie Metaanalysen mit nur fünf Primärstudien. Welche Folgen dieses Vorgehen für die inhaltlichen Schlussfolgerungen haben kann, soll kurz an einem Zahlenbeispiel aus Hatties (2009) Daten demonstriert werden. Der aus vier Metaanalysen ermittelte Effekt der Unterrichtsmethode der Direkten Instruktion (Direct Instruction) beträgt nach Hattie (2009, S. 205; vgl. oben Abb. 1) d = 0,59 und fällt damit in die „erwünschte Zone“ (d > 0,4). Direkte Instruktion stellt eine keinesfalls unumstrittene, hochstrukturierte und lehrerzentrierte Unterrichtsmethode dar. Schaut man sich die verarbeiteten Metaanalysen einzeln an, so fällt auf, dass die mit 232 Primärstudien bei weitem größte Analyse (Borman et al. 2003) gleichzeitig diejenige mit der geringsten Effektstärke (d = 0,21) ist. Würde man die drei Metaanalysen, für die Informationen zum Standardfehler vorlagen, nach ihrer Primärstudienanzahl gewichtet mitteln (Hill et al 2007; Shadish und Haddock 2009), so läge die resultierende Effektstärke bei d = 0,39 und damit nicht mehr in der von Hattie definierten „erwünschten“ Wirkungszone.

Dieses Beispiel soll nicht dazu dienen, Hatties Befunde kategorisch in Frage zu stellen. Dazu bedürfte es einer detaillierten Re-Analyse aller seiner Effektstärkenaggregierungen. Allerdings wäre zu diskutieren, ob die Sensitivität solcher datenreichen Analysen ausreichend transparent gemacht wird, um die Ergebnisse unter Evidenzgesichtspunkten angemessen bewerten zu können. Hattie nämlich verwendet das positive Resultat für die Methode der Direkten Instruktion später weiter, um sein theoretisches Erklärungsmodell der erfolgreichen Lehrkraft als „Aktivator“ zu stützen (vgl. oben, Tab. 3). Insbesondere aber die Präsentation möglicherweise sehr sensitiver Effektstärkenschätzungen in Form von Rankings sollte daher nicht unkommentiert an potenzielle Nutzer in Bildungspolitik und pädagogischer Praxis vermittelt werden. Wie Snook et al. (2009, S. 104 f.) resümieren: „We are concerned, however, that: i) Despite his own frequent warnings, politicians may use his work to justify policies which he does not endorse and his research does not sanction; ii) Teachers and teacher educators might try to use the findings in a simplistic way and not, as Hattie wants, as a source for ‚hypotheses for intelligent problem solving‘.“

4 Schlussbemerkung

In diesem Beitrag wurde versucht zu zeigen, wie das Verständnis von Evidenz hinsichtlich der Wirksamkeit pädagogischer und bildungspolitischer Maßnahmen sich in der Art und Weise niederschlägt, wie Metaanalysen gesehen, durchgeführt und genutzt werden. Erfolgen Suche und Auswahl der Primärstudien für eine Metaanalyse nach strengen methodischen Standards, z. B. dem Einschluss nur randomisierter Kontrollstudien, dann liegt der Fokus auf dem Nachweis der Wirksamkeit (Efficacy) von Maßnahmen und Programmen. Die Kontext- und Realweltbedingungen werden als grundsätzlich kontrollierbar angenommen. Eine solche Konzeption von empirischen Wirksamkeitsnachweisen mag bestenfalls für sehr genau beschreibbare, eng definierte Maßnahmen im pädagogischen Bereich angemessen sein, wie z. B. Studien zur Wirksamkeit eines klar definierten Leseförderprogramms für dyslektische Kinder, das auch „in der Fläche“ unter immer gleich standardisierten Bedingungen administriert wird. Der Regelfall interessierender Maßnahmen und Programme ist nach Berliner (2002) jedoch gekennzeichnet durch die Wirkung multipler Kontexteinflüsse in realen Lehr-Lernsituationen, die Allgegenwart von Wechselwirkungen zwischen eben solchen Kontextbedingungen und dem interessierenden Wirkfaktor und die geringe „Halbwertszeit“ von Evidenz empirischer Bildungsforschung.

In dieser Perspektive sind es vor allem die deskriptiven und explorativen Potenziale der Metaanalyse, die wertvolle Hinweise für eine Verbesserung von Studiendesigns und Konstruktoperationalisierungen sowie Erkenntnisse über moderierende Kontextfaktoren ermöglichen und damit zur Steigerung der Validität von Untersuchungen mit notwendigerweise nicht-experimentellem Design geben können. Im Einzelfall können durch metaanalytische Befunde auch politisch motivierte Mythen entzaubert werden, wie z. B. die Vorstellung, dass die Reduzierung der Klassengröße an sich leistungsförderlich wirken müsse.

Weiterhin wurde versucht zu argumentieren, dass die bisher umfangreichste Forschungsbefundsynthese im Bildungsbereich, John Hatties Meta-Metaanalyse Visible Learning (2009), zwar an vielen Stellen ein Bekenntnis zur Wichtigkeit von differenzierenden Betrachtungen der Befunde von Metaanalysen abgibt, dass seine eigene methodische Vorgehensweise dies allerdings eher wie ein Lippenbekenntnis erscheinen lässt. Hatties Beispiel zeigt, dass es wichtig und an der Zeit wäre, sich über Standards der quantitativen Befundintegration zu verständigen, auf Seiten der Abnehmer metaanalytischer Befunde ein Verständnis über Möglichkeiten und Grenzen des Verfahrens zu fördern und mögliche Hegemonialansprüche hinsichtlich der Generierung von Evidenz in pädagogischen und bildungspolitischen Handlungsfeldern zu relativieren. Andernfalls droht eine neue Runde in der Dialektik von Versachlichung und Verdinglichung, dieses Mal auf der Meta-Metaebene.