Content uploaded by Andreas Hetmanek
Author content
All content in this area was uploaded by Andreas Hetmanek on Oct 09, 2017
Content may be subject to copyright.
ALLGEMEINER TEIL
DOI 10.1007/s11618-016-0696-0
Z Erziehungswiss
Visionär und imposant – aber auch belastbar?
Eine Kritik der Methodik von Hatties „Visible Learning“
Christof Wecker · Freydis Vogel · Andreas Hetmanek
© Springer Fachmedien Wiesbaden 2016
Zusammenfassung Das Buch „Visible Learning“ von John Hattie hat im deutsch-
sprachigen Raum breite Resonanz bis in die öffentlichen Medien hinein ausge-
löst. Die bildungswissenschaftliche Diskussion darüber hat sich bislang vorrangig
mit inhaltlichen und eher globalen methodischen Fragen befasst, eine kritische Be-
trachtung der Methodik im Detail steht dagegen noch aus. Im vorliegenden Beitrag
explizieren wir die methodischen Anforderungen des von Hattie gewählten meta-
analytischen Ansatzes und messen daran die verwendete Datengrundlage sowie sein
konkretes Vorgehen. Darüber hinaus setzen wir uns kritisch mit der prinzipiellen An-
gemessenheit von Hatties Ansatz auseinander. Sein Ansatz einer umfassenden Inte-
gration empirischer bildungswissenschaftlicher Forschung erweist sich als visionär,
aber unter den gegenwärtigen Publikationsbedingungen wissenschaftlich solide nicht
durchführbar. Als Konsequenz schlagen wir vor, Methodik und Ergebnisse empiri-
scher Untersuchungen unabhängig von Zeitschriftenpublikationen in einer zentralen
Datenbank standardisiert und in metaanalytisch verwertbarer Form zu sammeln und
zugänglich zu machen.
PD Dr. C. Wecker ()
Empirische Pädagogik und Pädagogische Psychologie, Ludwig-Maximilians-Universität München,
Leopoldstraße 13, 80802 München, Deutschland
E-Mail: christof.wecker@psy.lmu.de
Dr. F. Vogel
School of Education, Technische Universität München, Arcissstraße 21, 80333 München,
Deutschland
E-Mail: freydis.vogel@tum.de
Dr. A. Hetmanek
Empirische Pädagogik und Pädagogische Psychologie, Ludwig-Maximilians-Universität München,
Leopoldstraße 13, 80802 München, Deutschland
E-Mail: andreas.hetmanek@psy.lmu.de
K
C. Wecker et al.
Schlüsselwörter Evidenzbasierte Praxis · Evidenzdatenbank · Hattie ·
Metaanalyse · Metasynthese
Visionary and impressive – but also reliable?
A critique of the methodology of Hattie’s “Visible Learning”
Abstract In German-speaking countries, the book “Visible Learning” by John
Hattie has generated broad resonance even in the public media. The discussion
in educational research so far has mainly dealt with substantive and rather global
methodological issues, whereas a critical appraisal of the methodology in detail is
still lacking. In this article, we explicate the methodological requirements of the
meta-analytic approach chosen by Hattie and use them to evaluate the underlying
database as well as his concrete procedures. In addition, we critically discuss the
appropriateness of Hattie’s approach in principle. It turns out that his approach of
a comprehensive integration of empirical educational research, albeit visionary, is
not feasible in a scientifically sound manner, given current publication practices. As
a consequence we propose to collect the methods and results of empirical studies –
irrespective of journal publications – and make them available in a central database
in a standardized and meta-analytically usable format.
Keywords Evidence-based practice · Evidence database · Hattie · Meta-analysis ·
Meta-synthesis
1 Die Diskussion um „die Hattie-Studie“
Das Buch „Visible Learning“ von John Hattie hat im deutschsprachigen Raum breite
Resonanz bis in die öffentlichen Medien hinein ausgelöst. Mit einem innovativen
Ansatz wurden darin die Ergebnisse aus über 800 Metaanalysen zu 138 Einfluss-
faktoren auf kognitive Lernergebnisse in einer Metaanalyse „zweiter Stufe“ zu-
sammengefasst. Die bildungswissenschaftliche Diskussion darüber hat sich bislang
neben inhaltlichen Fragen vorrangig mit eher globalen methodischen Aspekten der
Arbeit befasst.
Die dabei geäußerte Kritik ist insbesondere vor dem Hintergrund wissenschafts-
theoretisch orientierter Debatten um den Status und die Eignung von Metaanalysen
für die Erkenntnisgewinnung zu sehen: So wird etwa bezweifelt, dass Metaanalysen
„auf der Grundlage des Studiums der Literatur“ ähnlich viel zur Erkenntnisgewin-
nung beitragen können wie Primärstudien „auf der Grundlage des Studiums der
Natur“ (Sohn 1995, S. 109). Dem wird entgegengehalten, dass jede Metaanalyse le-
diglich eine große Menge an über viele Primärstudien zum selben Thema verteilter
Evidenz zusammenträgt und zusammenfasst (Lipsey und Wilson 1995, S. 113 f.),
sich damit jedoch in keiner Weise „auf eine andere Ebene“ begibt und vom Er-
kenntnisgegenstand selbst entfernt. Einige der gegen Hatties Arbeit vorgebrachten
Einwände gehören demnach zum Standardrepertoire der Kritik an Metaanalysen: So
wird kritisiert, die Überblicksarbeit gliche einer „Weitwinkelaufnahme [...] aus der
Luft“, bei der Details nicht mehr zu erkennen seien (Brügelmann 2014, S. 48; siehe
K
Visionär und imposant – aber auch belastbar?
auch Terhart 2011, S. 436). Es würden Effektstärken von Maßnahmen, unter denen
in verschiedenen Untersuchungen Unterschiedliches verstanden werde und die von
verschiedenen Lehrkräften unterschiedlich umgesetzt würden, auf Maße des Lern-
erfolgs, die zwischen verschiedenen Untersuchungen variieren, zusammengefasst
(Brügelmann 2014, S. 42 f.; Snook et al. 2009, S. 96 ff.). Auch würden die Effekte
von Maßnahmen, die unter verschiedenen Gegebenheiten unterschiedlich wirksam
sein können, auf eine durchschnittliche Effektstärke reduziert (Snook et al. 2009,
S. 96; Brügelmann 2014, S. 39 ff.). Außerdem fänden sich bei Hattie keine Angaben
zur Qualität der einbezogenen Metaanalysen und der Primärstudien, die diesen zu
Grunde liegen; obendrein variierten die Qualitätsstandards zwischen den einbezoge-
nen Metaanalysen (Snook et al. 2009, S. 94 ff.; Terhart 2011, S. 429; Brügelmann
2014, S. 41; Pant 2014a, S. 93 f., 2014b, S. 142; Beywl und Zierer 2015b, S. XIII).
Kritisiert wird auch die mangelnde Abdeckung existierender Primärstudien: Zum
einen würden Studien ohne signifikante Ergebnisse oder mit kleinen Effektstärken
seltener publiziert (Snook et al. 2009, S. 97; Brügelmann 2014,S.41f.;Beywl
und Zierer 2015b, S. XIII), zum anderen werde qualitative Forschung grundsätzlich
nicht berücksichtigt (Terhart 2011, S. 426; Brügelmann 2014, S. 42; Beywl und
Zierer 2015b, S. XII). Für Metaanalysen erster Stufe lassen sich die meisten dieser
Kritikpunkte zwar entkräften (Borenstein et al. 2009, S. 378 ff.). Dies bedeutet aber
nicht, dass sich derartige Probleme auf der Ebene einer Metaanalyse zweiter Stufe
nicht in zum Teil neuer Form stellen, etwa wenn Einschlusskriterien noch weiter als
in Metaanalysen erster Stufe gefasst werden müssen, um eine ausreichende Anzahl
derartiger Metaanalysen zusammenfassen zu können, und damit der „Weitwinkel“-
Charakter noch verstärkt wird, oder wenn nicht nur die Operationalisierung von
Maßnahmen zwischen implementierenden Primärstudien variiert, sondern auch die
Definition von Maßnahmentypen zwischen Metaanalysen.
Spezifischere Kritik an Hatties Arbeit bemängelt etwa eine veraltete Literatur-
basis (Terhart 2011, S. 428; Brügelmann 2014, S. 45; Beywl und Zierer 2015b,
S. XIV), oder dass der Umfang der Primärstudien in den einbezogenen Metaana-
lysen nicht berücksichtigt werde (Arnold 2011, S. 220; Brügelmann 2014, S. 41;
Pant 2014a, S. 94 f.; 2014b, S. 142ff.). Kritisiert wird auch die Konzentration auf
quantitativ erfassbare Variablen und auf kognitive Lernergebnisse, während nicht-
kognitive Lernergebnisse ausgeblendet würden (Snook et al. 2009,S.95f.;Terhart
2011, S. 426; Brügelmann 2014, S. 43; Beywl und Zierer 2015b, S. XI f.). Zudem
wird die Übertragbarkeit der Ergebnisse über Ländergrenzen, insbesondere auf das
deutsche Bildungssystem, in Frage gestellt (Snook et al. 2009, S. 97 f.; Brügel-
mann 2014, S. 43 ff.; Beywl und Zierer 2015b, S. XIV–XVI). Hinterfragt werden
auch einzelne von Hatties inhaltlichen Resultaten, wie beispielsweise der Befund
einer eher geringen Rolle institutioneller Rahmenbedingungen (Snook et al. 2009,
S. 98 ff.; Brügelmann 2014, S. 47 f.). Insgesamt sehen einzelne Kritiker auch die
Gefahr einer zu selektiven und verzerrten Rezeption zur Untermauerung vorgefasster
Meinungen (Snook et al. 2009, S. 104).
Als Ergänzung und Vervollständigung zu diesen eher globalen methodischen be-
ziehungsweise vorwiegend inhaltlichen Themen in der bildungswissenschaftlichen
Diskussion steht eine kritische Betrachtung von Hatties Methodik im Detail noch
aus. Dies soll der vorliegende Beitrag leisten. Zunächst arbeiten wir heraus, welche
K
C. Wecker et al.
methodischen Maßstäbe an die Datengrundlage und Hatties Vorgehen angesichts
des von ihm gewählten Ansatzes überhaupt anzulegen sind (Abschn. 2). Im Haupt-
teil trennen wir zwischen einer Kritik der Datengrundlage (Abschn. 3.1) – also
der Informationen aus den einbezogenen Metaanalysen und den ihnen zu Grunde
liegenden Primärstudien – und einer „internen“ Kritik von Hatties Vorgehen gemes-
sen an seinen eigenen Maßstäben (Abschn. 3.2). Danach diskutieren wir im Sinne
einer „externen“ Kritik die prinzipielle Angemessenheit des gewählten Ansatzes
(Abschn. 3.3), bevor wir abschließend auf mögliche Konsequenzen aus den identifi-
zierten Kritikpunkten eingehen (Abschn. 4). Die angeführten Beispiele aus „Visible
Learning“ stellen durchgängig keine „in mühevoller Kleinarbeit identifizierten zu-
fälligen Fehler“ dar. Sie wurden vielmehr exemplarisch so ausgewählt, dass sich
an ihnen Hatties Vorgehen sowie dessen systematische Mängel rekonstruieren und
verdeutlichen lassen. Deshalb verzichten wir in der Regel auf weitere Belege. Sofern
ein Beispiel nicht für eine systematische Vorgehensweise steht, geht dies aus dem
Text hervor.
2 Methodische Grundlagen einer Metaanalyse zweiter Stufe
Bislang gibt es im Bildungsbereich und in benachbarten Gebieten nur wenige Bei-
spiele für Metaanalysen zweiter Stufe (z. B. Sipe und Curlette 1997; Peterson 2001;
Wilson und Lipsey 2001; Tamim et al. 2011) und kaum methodische Arbeiten, in
denen Standards für das Vorgehen bei solchen Untersuchungen ausgearbeitet wurden
(z. B. Sipe und Curlette 1997, S. 602 ff.). Daher entwickeln wir zunächst die anzule-
genden methodischen Maßstäbe aus den Grundannahmen des von Hattie gewählten
methodischen Ansatzes.
Hatties Arbeit stellt nach eigenen Aussagen eine „Synthese“ von Metaanalysen
(Hattie 2009, S. 3 ff.) bzw. eine „Meta-Metaanalyse“ (Hattie 2009, S. 3) dar, bei
der das fixed-effect-Modell angewandt wurde (Hattie 2009, S. 12). Die zentrale
Annahme des fixed-effect-Modells besagt, dass allen Primärstudien eine konstante
„wahre“ Effektstärke gemeinsam ist. Unterschiedliche Effektstärken, wie sie sich in
aller Regel in den einzelnen Primärstudien ergeben, kommen demnach ausschließ-
lich dadurch zustande, dass es bei der Stichprobenziehung in den Primärstudien zu
zufälligen Abweichungen von der gemeinsamen konstanten Effektstärke kommt. Die
anhand der Stichprobe in einer Primärstudie ermittelte Effektstärke setzt sich somit
additiv aus der konstanten gemeinsamen Effektstärke und einem Stichprobenfehler
zusammen. Die in einer Primärstudie ermittelte Effektstärke ist also eine Zufalls-
variable mit einer Wahrscheinlichkeitsverteilung (Stichprobenkennwerteverteilung),
deren Streuung von der Stichprobengröße abhängt: Je größer die Stichprobe einer
Primärstudie, desto geringer ist die Streuung dieser Verteilung. Anhand von großen
Primärstudien kann die konstante gemeinsame Effektstärke daher mit höherer Präzi-
sion geschätzt werden (z. B. Hedges und Olkin 1985, S. 107; Borenstein et al. 2009,
S. 63 ff.).
Bei der Schätzung der gemeinsamen konstanten Effektstärke in einer Metaana-
lyse werden im fixed-effect-Modell daher die einzelnen Primärstudien nach ihrer
Präzision, d. h. indirekt proportional zur Varianz der Stichprobenkennwertevertei-
K
Visionär und imposant – aber auch belastbar?
lung ihrer Effektstärke, gewichtet (siehe Gl. 1 bzw. 5 im Anhang). Dabei lässt sich
wiederum die Präzision dieser neuen Schätzung der gemeinsamen konstanten Ef-
fektstärke ermitteln, die nun auf den Effektstärken aus allen Primärstudien beruht.
Deren Präzision ist im fixed-effect-Modell ausschließlich von den Varianzen der
Stichprobenkennwerteverteilungen der Effektstärken in den Einzelstudien abhängig
(siehe Gl. 2 bzw. 6 im Anhang).
Daraus ergibt sich, dass eine Metaanalyse im Rahmen des fixed-effect-Modells
selbst wie eine Primärstudie mit einer Effektstärkenschätzung und deren Varianz
behandelt und in eine Metaanalyse zweiter Stufe einbezogen werden kann. So-
fern die Primärstudien tatsächlich eine gemeinsame konstante Effektstärke besitzen,
ist eine solche fixed-effect-Metaanalyse zweiter Stufe auf der Grundlage mehrerer
Metaanalysen gleichwertig mit einer fixed-effect-Metaanalyse erster Stufe auf der
Grundlage sämtlicher Primärstudien (Beweis: siehe Anhang). In der Metaanalyse
zweiter Stufe sind die einbezogenen Metaanalysen analog zu den Primärstudien in
einer gewöhnlichen Metaanalyse nach ihrer Präzision zu gewichten; die Präzisi-
on des Gesamtschätzwerts für die gemeinsame konstante Effektstärke ist ebenfalls
analog zu bestimmen (siehe Gl. 7 bis 9 im Anhang).
Eine entscheidende Voraussetzung für die Angemessenheit dieses Verfahrens ist
– wie bei einer Metaanalyse erster Stufe – die statistische Unabhängigkeit der zu
Grunde gelegten Schätzwerte. Die zusammengefassten Metaanalysen erster Stufe
dürfen sich daher in den Primärstudien, auf denen sie beruhen, nicht überschneiden
(vgl. Sipe und Curlette 1997, S. 624).
Daraus ergeben sich die folgenden methodischen Anforderungen, an denen Hat-
ties Arbeit zu messen ist: (1) In den berücksichtigten Metaanalysen muss auf der
Grundlage korrekt ermittelter Effektstärken und Varianzen der Primärstudien unter
korrekter Gewichtung im Rahmen des fixed-effect-Modells die gemeinsame kon-
stante Effektstärke und deren Varianz bestimmt worden sein. (2) In der Metaanalyse
zweiter Stufe muss auf der Grundlage von Metaanalysen, die sich in den herangezo-
genen Primärstudien nicht überschneiden, unter korrekter Gewichtung im Rahmen
des fixed-effect-Modells die gemeinsame konstante Effektstärke und deren Varianz
bestimmt werden. Diese zwei Anforderungen sind der Grund für die im Folgenden
vorgenommene, bereits erwähnte Trennung zwischen der Kritik der Datengrundlage
und der „internen“ Kritik von Hatties Vorgehen.
3 Kritik des Ansatzes von „Visible Learning“
3.1 Kritik der Datengrundlage
Zunächst gehen wir der Frage nach, inwiefern Hatties Datengrundlage den in Ab-
schn. 2 entwickelten methodischen Anforderungen genügt (siehe Tab. 1). Auf der
Ebene der einzelnen einbezogenen Primärstudieneffekte innerhalb der zu Grunde lie-
genden Metaanalysen erster Stufe müssen zunächst die einzelnen Primärstudienef-
fektstärken korrekt ermittelt worden sein. Dabei ist zunächst die Entscheidung zu
treffen, ob die Mittelwertsdifferenz zwischen Experimental- und Kontrollbedingung
auf die gepoolte Standardabweichung aus beiden Bedingungen relativiert werden
K
C. Wecker et al.
Tab . 1 Mängel bei den einzelnen Analyseschritten
Analyseschritt Mängel der Vorgehensweise
Datengrundlage: zu Grunde liegende Metaanalysen erster Stufe
(1) Berechnung der einzelnen
einbezogenen
Primärstudieneffekte
Zwischen Metaanalysen wechselnde Verwendung von Cohens doder
Hedges’ gvs. Glass’
Verwendung des Standardfehlers anstelle der Standardabweichung
(2) Zusammenfassung der
Primärstudieneffekte innerhalb
der verwendeten Metaanalysen
erster Stufe
Fehlende Gewichtung der Primärstudien nach ihrer Präzision
Fehlende Angaben zur Varianz der geschätzten gemeinsamen Effekt-
stärke (Varianz, Standardfehler oder Konfidenzintervall)
Angabe der Standardabweichung der Primärstudieneffekte anstelle
von Angaben zur Varianz (bzw. zum Standardfehler) der geschätzten
gemeinsamen Effektstärke
Fehlende Primärstudientabelle
Fehlende Angaben in Primärstudientabelle, insbesondere zu Stichpro-
bengrößen in Experimental- und Kontrollbedingungen
Vorgehensweise: Metaanalysen zweiter Stufe in „Visible Learning“
(1) Beachtung der
Einschlusskriterien Einschluss einzelner Effektstärkenschätzungen aus Metaanalysen
erster Stufe, die auch Effekte auf Variablen jenseits des Leistungsbe-
reichs einbeziehen
Fehlerhafte Zuordnung von Metaanalysen erster Ordnung zu den
Einflussfaktoren
(2) Ermittlung der Effektstär-
ken aus den Metaanalysen
erster Stufe
Verwendung des Korrelationskoeffizienten bei Zusammenfassung
abhängiger Effektstärken innerhalb von Metaanalysen erster Stufe
anstelle von Fishers Z-Werten
(3) Ermittlung der Varianzen
der Effektstärkenschätzungen
aus den Metaanalysen erster
Stufe
Fehlende Verwendung oder Berechnung des Standardfehlers trotz
hinreichender Angaben in Metaanalysen erster Stufe
Fehlerhafte Berechnung des Standardfehlers aus Angaben zur Stan-
dardabweichung der Effektstärken in Metaanalysen erster Stufe an-
stelle von Angaben zur Stichprobengröße in den Primärstudien
(4) Neutralisierung von Du-
bletten
Fehlende Berücksichtigung der statistischen Abhängigkeiten zwi-
schen Metaanalysen erster Stufe mit sich überschneidenden Mengen
von Primärstudien
(5) Gewichtete Schätzung der
Effektstärke
Ungewichtete Zusammenfassung der Effektstärken aus den Metaana-
lysen erster Stufe
(6) Bestimmung des
Standardfehlers der
Effektstärkenschätzung sowie
eines Konfidenzintervalls
(bzw. Signifikanztest)
Verwendung des arithmetischen Mittels der Standardfehler aus den
Metaanalysen erster Stufe als Standardfehler der in der Metaanalyse
zweiter Stufe ermittelten Effektstärkenschätzung
Verzicht auf Signifikanztests und Berechnung von Konfidenzinterval-
len für die in der Metaanalyse zweiter Stufe ermittelten Effektstärken-
schätzungen
soll wie bei Cohens d, Hedges’ goder Hedges’ unverzerrtem Schätzer der standar-
disierten Mittelwertsdifferenz, oder auf die Standardabweichung aus der Kontroll-
bedingung wie bei Glass’ (Hedges und Olkin 1985, S. 78 ff.; Rosenthal 1994,
S. 236 ff.). Keine dieser beiden Varianten ist der anderen zwangsläufig vorzuzie-
hen. Problematisch für eine spätere Zusammenfassung in einer Metaanalyse zweiter
Stufe ist es jedoch, wenn die Metaanalysen erster Stufe nicht dasselbe Effektstär-
kenmaß verwenden, da die genannten Maße nicht ineinander umgerechnet werden
können. Beim Thema „concept mapping“ wurde etwa in der Metaanalyse von Nes-
K
Visionär und imposant – aber auch belastbar?
bit und Adesope (2006, S. 423) auf die gepoolte Standardabweichung relativiert, in
der von Horton und Kollegen (1993, S. 97) dagegen auf die Standardabweichung
aus der Kontrollbedingung. Insbesondere bei großen Unterschieden in Mittelwerten
und Standardabweichungen zwischen Experimental- und Kontrollbedingung sowie
deutlich größerer Experimentalgruppe können diese Effektstärkenmaße merklich
voneinander abweichen.
Ein weiteres Problem in Bezug auf die korrekte Ermittlung der Primärstudienef-
fektstärken stellt die vereinzelte Verwechslung von Standardabweichung und Stan-
dardfehler dar. Beim Thema „problem-based learning“ wird die Effektstärke für die
erste abhängige Variable aus der Primärstudie von Eisenstaedt et al. (1990) bei Gij-
bels et al. (2005, Appendix, S. 56) mit –8,291 angegeben. Trotz eines Hinweises auf
mehrere derart extreme Werte (Gijbels et al. 2005, S. 43) ist nicht klar ersichtlich,
wie mit diesen verfahren wurde. Die Fehlerquelle liegt hier auf der Hand: In der
Originalpublikation wird für die Variable „Exam 1“ in der Experimentalgruppe ein
arithmetisches Mittel von 66,53 und ein Standardfehler („S.E.“) von 2,74 sowie in
der Kontrollgruppe ein arithmetisches Mittel von 80,21 und ein Standardfehler von
1,65 angegeben (S. S12, Tab. 1). Bei der Ermittlung der Effektstärke wurde also
offenbar anstatt durch die Standardabweichung durch den Standardfehler aus der
Kontrollgruppe geteilt: (80,21–66,53)/1,65 = –8,291. Da die Stichprobe in der Kon-
trollgruppe 107 Personen umfasste (Eisenstaedt et al. 1990, S. S12), beträgt deren
Standardabweichung 17,07 (vgl. Bortz 2005, S. 90, Gl. 3.1) und Glass’ somit
–0,80.
Darüber hinaus scheinen Effektstärken für Primärstudien in Metaanalysen auch
ohne erkennbare Systematik gelegentlich fehlerhaft berechnet zu werden. Beim The-
ma „play programs“ bestehen zwischen den Metaanalysen von Spies (1987) und von
Fisher (1992) bei beinahe allen von beiden Metaanalysen abgedeckten Primärstu-
dien deutliche Diskrepanzen. Beispielsweise wird für die Primärstudie von Dansky
(1980) bei Fisher eine Effektstärke von r= 0,428 (S. 166, Tab. 1) angegeben, bei
Spies dagegen mehrere einzelne Korrelationen, die alle r= 0,62 oder mehr betragen
(Tab. 2).
Auf der Ebene der Zusammenfassung der Primärstudieneffekte innerhalb der ver-
wendeten Metaanalysen erster Stufe gibt es weitere Fehlerquellen. Zum einen wird
bei der Schätzung der gemeinsamen Effektstärke in manchen Metaanalysen keine
Gewichtung der Primärstudien nach ihrer Präzision vorgenommen. Beim Thema
„adjunct aids“ stammt die bei Hattie für die Metaanalyse von Levie und Lentz
(1982) angegebene Effektstärke von 0,55 offenbar aus dem Abschn. „Learning
Illustrated Text Information“ (S. 198); diese ist jedoch das ungewichtete arithmeti-
sche Mittel der 24 Effektstärken aus Tabelle 1 (S. 199 ff.). Hier wäre es allerdings
auf der Grundlage der Angaben in Tabelle 1 möglich, den korrekten Schätzwert für
die gemeinsame Effektstärke unter Gewichtung der Primärstudien zu ermitteln.
Zum anderen ist für die angemessene Gewichtung einer Metaanalyse erster Stufe
in einer Metaanalyse zweiter Stufe die Varianz der geschätzten gemeinsamen Ef-
fektstärke nötig (siehe Abschn. 2). Sie lässt sich für jede Metaanalyse erster Stufe
ermitteln, wenn der Standardfehler der Effektstärkenschätzung angegeben ist. Dieser
K
C. Wecker et al.
lässt sich wiederum aus einem Konfidenzintervall bestimmen.1In manchen Meta-
analysen findet sich jedoch keines dieser Präzisionsmaße. Dies gilt beispielsweise
beim Thema „adjunct aids“ für die Metaanalyse von Levie und Lentz (1982, S. 198),
bei der die Varianz allerdings aus den Angaben zu den Stichprobengrößen in der
Primärstudientabelle zumindest näherungsweise ermittelt werden könnte. In anderen
Fällen wird anstelle eines brauchbaren Präzisionsmaßes lediglich die dafür wenig
aussagekräftige Standardabweichung der Primärstudieneffekte angegeben (z.B. Lee
und Genovese 1988, S. 282).
Die meisten der genannten Probleme ließen sich beheben, wenn jede Metaanalyse
erster Stufe eine vollständige Tabelle mit allen einbezogenen Primärstudien enthal-
ten würde. Dies ist jedoch häufig nicht der Fall, wie beispielsweise in beiden von
Hattie herangezogenen Metaanalysen zum Thema „spaced vs. mass practice“ (Lee
und Genovese 1988; Donovan und Radosevich 1999). Auch wenn eine Primärstu-
dientabelle enthalten ist, fehlen darin oft notwendige Angaben, insbesondere zu den
Stichprobengrößen in Experimental- und Kontrollbedingung, wie etwa beim Thema
„direct instruction“ in der Metaanalyse von White (1988, S. 367, Tabelle 1). Zu-
sammenfassend lässt sich festhalten, dass bereits die Hattie zur Verfügung stehende
Datengrundlage in vielerlei Hinsicht mängelbehaftet ist.
3.2 Interne Kritik der Methodik
Wir wenden uns nun der Frage zu, inwiefern die Berechnungen in Hatties Arbeit
den methodischen Anforderungen entsprechen, die sich aus dem von ihm gewählten
Ansatz ergeben (siehe Tab. 1).
(1) Beachtung der Einschlusskriterien. Nach Hatties eigenen Angaben (2009,
S. 15) soll der Forschungsstand zu Effekten im kognitiven Leistungsbereich („aca-
demic achievement“) zusammengefasst werden. Es werden jedoch vereinzelt auch
Effektstärken aus Metaanalysen einbezogen, die nicht oder nicht in vollem Umfang
dem Leistungsbereich zuzuordnen sind. Beim Thema „play“ beispielsweise über-
nimmt Hattie aus der Metaanalyse von Fisher (1992, S. 168) die Gesamteffektstärke
von r= 0,347 – umgerechnet d= 0,74 (Hattie 2009, Appendix A) –, die auch Effekte
auf „social development“ mit den Teilaspekten „perspective taking“ und „regulation
of affect“ beinhaltet (Fisher 1992, S. 175, Tab. 3).
Da Hattie für jeden Einflussfaktor eine eigene Metaanalyse zweiter Stufe durch-
führt, gelten für jede davon implizit weitere Einschlusskriterien bezüglich der unab-
hängigen Variable. Dabei kommt es vereinzelt vor, dass verwendete Metaanalysen
erster Stufe Einflussfaktoren falsch zugeordnet werden, wie beispielsweise beim
Thema „inductive teaching“ die Metaanalyse von Klauer und Phye (2008): Darin
werden keine Studien zu einer „induktiven“ Unterrichtsmethode, sondern Studien
zu Klauers Trainingsprogrammen im induktiven Denken zusammengefasst (S. 96).
1Im Fall eines 95 %-Konfidenzintervalls:
SE D
Obergrenze–Untergrenze
21;96
K
Visionär und imposant – aber auch belastbar?
(2) Ermittlung der Effektstärken ausden Metaanalysen erster Stufe. Wenn in einer
Metaanalyse erster Stufe keine einzelne, sondern mehrere Effektstärkenschätzungen
angegeben werden, z. B. für unterschiedliche abhängige Variablen, fasst Hattie diese
in aller Regel zu einer einzigen Effektstärke pro Metaanalyse erster Stufe zusam-
men. Korrekt wäre hier, das arithmetische Mittel nicht wie Hattie direkt aus den
Korrelationen zu berechnen, sondern aus den entsprechenden Z-Werten nach Fisher
(Bortz 2005, S. 219). Beim Thema „play“ etwa entspricht die für die Metaanalyse
von Spies (1987) bei Hattie angegebene Effektstärke von d= 0,26 einer Korrelation
von r= 0,129; diese Werte ergeben sich jedoch nur dann, wenn das arithmetische
Mittel unmittelbar aus den Korrelationen (Spies 1987, S. 5 f.) berechnet wurde und
nicht aus den Z-Werten nach Fisher. Die dadurch entstehenden Ungenauigkeiten
fallen im Gesamtzusammenhang der Analysen allerdings nur eingeschränkt ins Ge-
wicht, da Fishers Z-Werte von Korrelationskoeffizienten bei kleinen Effektstärken
weniger als 1 %, bei mittleren etwa 3 % und bei großen um immer noch weniger als
10 % abweichen (siehe dazu Bortz 2005, S. 219, Gl. 6.86a), und nur sechs der 138
Einflussfaktoren in Hatties Buch im Durchschnitt eine große Effektstärke aufweisen
(Hattie 2009, Anhang B).
(3) Ermittlung der Varianzen der Effektstärkenschätzungen aus den Metaanalysen
erster Stufe. Beim Durchblättern des Appendix A von „Visible Learning“ fällt der
hohe Anteil fehlender Werte in der Spalte für den Standardfehler auf. Offenbar hat
Hattie häufig auch dann keinen Standardfehler bestimmt, wenn in den jeweiligen
Metaanalysen erster Stufe Konfidenzintervalle angegeben werden. Daraus könnte
der Standardfehler und damit die Varianz der Effektstärkenschätzung problemlos
berechnet werden; Hattie beklagt dagegen das Fehlen nötiger Informationen (2009,
S. 20). Beim Thema „web-based learning“ etwa ist in der Metaanalyse von Sitzmann
und Kollegen (2006) außer dem 95 %-Konfidenzintervall auch der Standardfehler
angegeben (S. 641, Tabelle 1).
Fehlerhaft ist Hatties Berechnung von Standardfehlern aus Angaben zur Stan-
dardabweichung von Effektstärken in Metaanalysen erster Stufe (siehe Abschn. 3.1).
Beispielsweise ergibt sich beim Thema „direct instruction“ der bei Hattie angegebe-
ne Standardfehler von 0,135 für die Metaanalyse von Haas (2005) bei Anwendung
der Formel für die Berechnung eines Standardfehlers des arithmetischen Mittels aus
einer Standardabweichung und der Stichprobengröße in einer Primärstudie (vgl.
Bortz 2005, S. 90, Gl. 3.1).2Der Standardfehler einer Effektstärkenschätzung in ei-
ner Metaanalyse beruht im Rahmen des fixed-effect-Modells jedoch ausschließlich
auf den Standardfehlern der Effektstärkenschätzungen aus den einzelnen Primär-
studien, die wiederum von der Anzahl der Versuchspersonen in den verglichenen
Bedingungen und der Effektstärke abhängen. Bei der Metaanalyse von Haas (2005,
S. 30, Tabelle 2) ergibt sich für die Zusammenfassung von 19 Effektstärken ein Wert
2
s0;592
19 D0;135
mit 0,59 als Wert für die Standardabweichung und einer Anzahl von 19 Effektstärken (Haas 2005, S. 30,
Tabelle 2).
K
C. Wecker et al.
von 0,05 als Untergrenze für den Standardfehler bzw. 0,0025 für die Varianz, wenn
man annimmt, dass sich die durchschnittliche Stichprobengröße der darin enthalte-
nen Studien von knapp 84 Personen in jeder Primärstudie zu gleichen Teilen auf die
beiden Bedingungen verteilt. Hattie weist dieser Metaanalyse mit einer Varianz von
0,018 somit ein bis zu etwa siebenfach zu geringes Gewicht zu.
(4) Neutralisierung von Dubletten. Bei Arbeiten, die die Ergebnisse mehrerer
Überblicksarbeiten zum selben Thema zusammenfassen, tritt in der Regel das Prob-
lem auf, dass ein großer Teil der Primärstudien in mehrere der zusammenzufas-
senden Überblicksarbeiten Eingang gefunden hat (siehe dazu Cooper und Koenka
2012, S. 450 ff.). In den wenigen bislang existierenden Metaanalysen zweiter Stufe
wurden häufig ganze Metaanalysen erster Stufe wegen Überschneidungen in den
einbezogenen Primärstudien ausgeschlossen (Lipsey und Wilson 1993, S. 1197; Pe-
terson 2001, S. 454), und zwar bereits ab Überlappungen von 25% (Wilson und
Lipsey 2001, S. 416) bzw. drei oder mehr Primärstudien (Sipe und Curlette 1997,
S. 624). Hattie dagegen ignoriert die Dubletten-Problematik trotz teilweise deut-
lich größerer Überschneidungen vollständig. Zum Beispiel sind beim Thema „web-
based learning“ 14 der 15 Primärstudien aus der Metaanalyse von Olson und Wisher
(2002, S. 11), deren mittlere Effektstärke von 0,24 merklich von den Ergebnissen
der beiden anderen Metaanalysen zum selben Thema (0,14 bzw. 0,15) abweicht,
bereits durch eine der beiden anderen Metaanalysen (Sitzmann et al. 2006, S. 654
ff.) abgedeckt.
(5) Gewichtete Schätzung der Effektstärke. Wie bereits von Pant angemerkt wurde
(vgl. 2014a, S. 94 f.), berechnet Hattie zur Schätzung der gemeinsamen Effektstärke
ein einfaches arithmetisches Mittel der Effektstärken aus den Metaanalysen erster
Stufe. Der korrekte Schätzwert ist jedoch das mit den Kehrbrüchen der Varianzen
der Effektstärkenschätzungen gewichtete arithmetische Mittel (Hedges und Olkin
1985, S. 110; Borenstein et al. 2009, S. 65 f.). Fasst man beispielsweise beim The-
ma „direct instruction“ die drei (von insgesamt vier) Metaanalysen, für die Hattie
einen Standardfehler angibt, auf der Grundlage der bei ihm angegebenen Werte mit
dem Kehrbruch der Varianz gewichtet zusammen, ergibt sich anstelle der Effektstär-
kenschätzung von 0,59 ein Wert von 0,23. Dies würde einen Abstieg von Platz 26
auf Platz 98 seiner Rangliste bedeuten. Außerdem ist diese Effektstärke nach den
Kriterien von Cohen nicht mehr als mittlerer Effekt und nach Hatties Kriterium
(2009, S. 16 ff.) nicht mehr als auf jeden Fall von Belang zu klassifizieren (vgl.
dazu – mit abweichender Gewichtung und anderem Ergebnis – Pant 2014a, S. 94 f.;
2014b, S. 143 f.).
(6) Bestimmung des Standardfehlers der Effektstärkenschätzung sowie eines Kon-
fidenzintervalls (bzw. Signifikanztest). In seinen „Effekt-Barometern“ gibt Hattie
auch einen Standardfehler für die ermittelte Effektstärke an. Deren Berechnung ist
jedoch fehlerhaft (vgl. dazu auch Pant 2014a, S. 96, Anm. 4, 2014b, S. 143, FN 4). In
aller Regel ist der angegebene Wert das arithmetische Mittel der angegebenen Stan-
dardfehler der einzelnen Metaanalysen erster Stufe. Beim Thema „inquiry-based
teaching“ etwa ist der angegebene Standardfehler von 0,092 das arithmetisches Mit-
tel der beiden zu zwei der insgesamt vier Metaanalysen angegebenen Standardfehler
von 0,154 und 0,030. Die Präzision der Schätzung aus beiden Metaanalysen kann
jedoch nicht geringer sein als die der einzelnen Metaanalysen; tatsächlich beträgt
K
Visionär und imposant – aber auch belastbar?
der Standardfehler einer Effektstärkenschätzung aus diesen beiden Metaanalysen bei
Überlappungsfreiheit in den Primärstudien 0,029.
Verwunderlich ist außerdem, warum Hattie grundsätzlich keinen Signifikanztest
durchführt oder Konfidenzintervalle für die Effektstärkenschätzungen angibt. Bei
Einflussfaktoren mit niedrigen Effektstärken bleibt somit unklar, ob überhaupt ein
Effekt vorliegt oder nicht. Außerdem kann über die relative Effektivität von Ein-
flussfaktoren, die auf der Rangliste nahe beieinander liegende Plätze einnehmen,
nicht entschieden werden, da sich die Konfidenzintervalle ihrer Effektstärken in den
meisten Fällen überlappen dürften, bei Hattie aber nicht angegeben sind. Aufgrund
der fehlerhaften Angaben zu den Standardfehlern sind sie für die Leser auch nicht
ohne Weiteres ermittelbar.
Die Rekonstruktion von Hatties Vorgehensweise im Detail anhand von Beispie-
len ergibt somit, dass die anzulegenden methodischen Standards auf allen Ebenen
der Analyse verletzt werden. Wie einzelne der angeführten Beispiele zeigen, liegen
Hatties Werte teilweise um ein Mehrfaches zu hoch oder niedrig. Um die Auswir-
kungen dieser Mängel auf die Analyseergebnisse abschätzen zu können, müssten
jeweils die vollständigen Analysen korrekt durchgeführt werden, für die jedoch, wie
bereits dargelegt, häufig nötige Angaben fehlen. Allein die Menge und Bandbreite
der angeführten Unzulänglichkeiten gibt jedoch Anlass zu begründeten Zweifeln an
der Belastbarkeit von Hatties Resultaten.
3.3 Externe Kritik der Methodik
Neben interner Kritik, die sich auf die korrekte Ausführung des von Hattie selbst
gewählten Vorgehens konzentriert, ist im Sinne einer externen Kritik auch die grund-
sätzliche Angemessenheit von Hatties Ansatz zu hinterfragen.
(1) Berücksichtigung von Moderatorvariablen. Für seine quantitativen Analysen
entnimmt Hattie jeder Metaanalyse erster Stufe nur den mittleren Effekt auf kogni-
tive Lernergebnisse aus allen Primärstudien und ermittelt daraus bei jedem Einfluss-
faktor die mittlere Effektstärke. Daran wird mit Recht kritisiert, dass so die Rolle
von Variablen, die Effekte der Einflussfaktoren moderieren, ignoriert und verwischt
wird (Snook et al. 2009, S. 97; Pant 2014a, S. 93 f., 2014b, S. 142 f.). Hattie weist
auf diese Problematik selbst hin (Hattie 2009, S. 9 ff.). In den kurzen Kapiteln zu den
einzelnen Einflussfaktoren behandelt er in der Regel auch Unterschiede zwischen
einzelnen Ausprägungen von Moderatorvariablen in Bezug auf die Effektstärke.
Beispielsweise weist er beim Thema „play programs“ darauf hin, dass die höchsten
Effekte für „socio-dramatic play“ und die geringsten für „imaginative play“ gefun-
den wurden (Hattie 2009, S. 154). Dabei gibt er die exakten Werte (r=0,60bzw.
d=1,48vs.r=0,14bzw.d= 0,28; Fisher 1992, S. 175, Tab. 4) jedoch nicht an. Sie
gehen auch nicht in seine Rangliste ein, sodass diese Liste in Bezug auf besonders
wirksame oder unwirksame Varianten der Einflussfaktoren wenig aussagekräftig ist.
In seinem Ansatz einer Metaanalyse zweiter Stufe ist eine Berücksichtigung von
Moderatorvariablen jedoch letztlich gar nicht möglich, da diese in verschiedenen
Metaanalysen erster Stufe zum selben Thema in aller Regel nicht einheitlich codiert
sind (vgl. Cooper und Koenka 2012, S. 458 f.).
K
C. Wecker et al.
(2) Angemessenheit des fixed-effect-Modells. In der Diskussion um Hatties Arbeit
wird auch die Angemessenheit des fixed-effect-Modells bezweifelt (Pant 2014a,
S. 87 ff.). Während darin für alle Studien zu einem Einflussfaktor eine konstante
gemeinsame Effektstärke angenommen wird, wird im sogenannten „random-effects-
Modell“ davon ausgegangen, dass die „wahren“ Effektstärken in der Regel zwischen
den Primärstudien variieren und somit selbst Realisierungen einer Zufallsvariable
mit einer bestimmten Wahrscheinlichkeitsverteilung darstellen. Diese Annahme ist
beispielsweise angesichts der üblicherweise unterschiedlichen Unterrichtsthemen,
Materialien, Rahmenbedingungen etc. in verschiedenen Primärstudien im Bildungs-
bereich von vornherein plausibler als die Annahme eines gemeinsamen konstanten
Effekts. Darüber hinaus belegt in vielen Fällen ein statistischer Homogenitätstest
auch empirisch, dass die Effektstärken aus den Primärstudien so stark variieren, wie
es bei einer konstanten gemeinsamen Effektstärke ausgesprochen unwahrscheinlich
wäre. Anders als von Kritikern nahegelegt (Pant 2014a, S. 94) und auch von Hattie
selbst erwogen (Hattie 2009, S. 12), muss dies aber nicht bedeuten, dass auf der
Ebene einer Metaanalyse zweiter Stufe zwangsläufig das random-effects-Modell zu
Grunde gelegt werden müsste. Zwar ist es völlig plausibel, zwischen Primärstudien
– mit ihren unterschiedlich realisierten Ausgestaltungen von Methoden – variierende
Effektstärken anzunehmen: Im Extremfall schätzt jede Primärstudie einen anderen
„wahren“ Effekt aus der erwähnten Zufallsverteilung. Unter diesen Gegebenheiten
ist in einer Metaanalyse erster Stufe das random-effects-Modell indiziert. Wenn je-
doch mehrere Metaanalysen erster Stufe tatsächlich dasselbe Thema untersuchen
und dabei dieselben Einschlusskriterien anlegen – was in Hatties Arbeit bei vielen
der Einflussfaktoren zumindest näherungsweise der Fall sein dürfte –, ist allerdings
nicht plausibel, dass das arithmetische Mittel der wahren Effektstärken der ein-
zelnen Primärstudien selbst jenseits von Stichprobenfehlern bei der Ziehung der
Primärstudienstichproben zwischen den Metaanalysen erster Stufe variieren sollte:
Alle Metaanalysen erster Stufe schätzen dann denselben mittleren „wahren“ Effekt.
Anders als bei einigen sehr breiten, themenübergreifenden Fragestellungen notwen-
dig (Sterne et al. 2002, S. 1517 ff.; Tamim et al. 2011, S. 14), ist unter diesen
Gegebenheiten in einer Metaanalyse zweiter Stufe das random-effects-Modell nicht
indiziert. Abgesehen davon würde bei einem großen Teil der Einflussfaktoren in
Hatties Arbeit die Anzahl der Metaanalysen erster Stufe für die bei Anwendung des
random-effects-Modells nötige Schätzung der Varianz zwischen ihnen kaum aus-
reichen, da pro Einflussfaktor durchschnittlich nur etwa sechs3Metaanalysen erster
Stufe vorliegen (siehe dazu Borenstein et al. 2009, S. 163).
Das fixed-effect-Problem liegt in Wirklichkeit auf einer anderen Ebene als in
der bisherigen Diskussion um Hatties Arbeit zuweilen angedeutet: Wenn eine ältere
Metaanalyse erster Stufe unangemessenerweise im Rahmen des fixed-effect-Modells
durchgeführt wurde, liegt in der Regel eine Unterschätzung des Standardfehlers der
mittleren Effektstärke vor, da die Varianz zwischen den Primärstudien unberück-
sichtigt bleibt. Außerdem wurden dann die Primärstudien falsch gewichtet, da die
Stichprobengrößen der Primärstudien im random-effects-Modell eine umso gerin-
gere Rolle spielen, je größer die Varianz der Effektstärken zwischen Primärstudien
3800 Metaanalysen/138 Einflussfaktoren
K
Visionär und imposant – aber auch belastbar?
ist (vgl. Pant 2014a, S. 87 ff.). Derzeit existieren keine etablierten Methoden, um
diese Mängel in einer Metaanalyse zweiter Stufe unmittelbar auf der Grundlage sta-
tistischer Angaben aus den Metaanalysen erster Stufe zu beheben. Die Varianz der
Effektstärken zwischen den Primärstudien könnte vielmehr auf der Grundlage der
Varianzen der Effektstärkenschätzungen aus den einzelnen Primärstudien geschätzt
werden, sofern diese mit Hilfe von Angaben zu den Stichprobengrößen ermittelt
werden könnten (Borenstein et al. 2009, S. 72 f.). Dieses Vorgehen käme jedoch be-
reits einer Reanalyse der Primärstudiendaten gleich (siehe Cooper und Koenka 2012,
S. 458 f.). Da ferner die fehlerhafte Gewichtung der Primärstudieneffektstärken in
einer Metaanalyse erster Stufe nicht nachträglich korrigiert werden kann, wäre auch
dazu eine erneute Zusammenfassung der Primärstudieneffektstärken nötig.
Die unangebrachte Verwendung des fixed-effect-Modells in Metaanalysen erster
Stufe ist nicht Hattie anzulasten. Sie stellt aber ein unüberwindliches Hindernis für
seinen Ansatz einer Metaanalyse zweiter Stufe dar, bei der nur Resultate von Meta-
analysen erster Stufe verwendet werden. Unsere Ausführungen legen dagegen nahe,
die Primärstudiendaten aus allen existierenden Metaanalysen erster Stufe – sofern
vorhanden – zusammenzuführen und in einer umfassenden Metaanalyse ebenfalls
erster Stufe zu integrieren (vgl. Cooper und Koenka 2012, S. 458 f.). Dadurch wür-
den Homogenitätstests, die korrekte Anwendung des random-effects-Modells sowie
Moderatoranalysen erleichtert bzw. überhaupt erst ermöglicht. Außerdem ließe sich
auf diese Weise auch das angesprochene Dublettenproblem lösen. Auf die Voraus-
setzungen für diese Vorgehensweise kommen wir im letzten Abschnitt zurück.
(3) Vergleiche zwischen Einflussfaktoren. Neben diesen Kritikpunkten, die sich
allesamt auf die einzelnen Metaanalysen zweiter Stufe zu den 138 Einflussfaktoren
beziehen, ist auch die Sinnhaftigkeit eines Vergleichs zwischen diesen Einflussfak-
toren, wie er durch die Effektivitätsrangliste (Hattie 2009, Anhang B) nahegelegt
wird, zu hinterfragen. Dabei geht es erstens um das Verhältnis der Effektstärke eines
Einflussfaktors zu seiner „Einwirkungsdauer“. Häufig werden in dieser Hinsicht Ver-
gleiche mit dem „Effekt eines Schuljahrs Unterricht“ angestellt, der mit 0,15 bzw.
0,2 bis 0,4 beziffert wird (Hattie 2009, S. 16; Terhart 2011, S. 428; Pant 2014b,
S. 142) – bis hin zu 0,2 bis 0,4 pro Schulhalbjahr (Köller 2012, S. 74). Während
solche Bezugsgrößen in vergleichenden Schulleistungsstudien durchaus Sinn erge-
ben (z. B. Roppelt et al. 2013, S. 124 ff.), sind sie als Einordnungshilfe für Hatties
Einflussfaktoren irreführend. Beispielsweise werden in der experimentellen Lehr-
Lernforschung häufig Effekte einer instruktionalen Unterstützungsform wie z.B.
von ausgearbeiteten Lösungsbeispielen in einer einzelnen Sitzung von maximal drei
Stunden Dauer untersucht. Eine dabei beobachtete Effektstärke von beispielsweise
0,3 entspräche offenkundig wohl kaum der Größenordnung des Kompetenzzuwach-
ses im Verlauf eines Schuljahres. Arbeiten zu umfassenderen Programmen wie etwa
die bei Hattie unter „direct instruction“ eingeordneten Untersuchungen betrachten
dagegen die Effekte von Maßnahmen mit einer Dauer von bis zu einem Jahr (White
1988, S. 371). Es liegt auf der Hand, dass sich in den beiden genannten Forschungs-
gebieten die eingesetzten Instrumente zur Erfassung des Lernerfolgs im Umfang
der abgedeckten Themen stark unterscheiden werden. Aus den damit ermittelten Ef-
fektstärken lässt sich daher nichts Belastbares folgern, womit Vergleiche zwischen
den beiden derart unterschiedlichen instruktionalen Maßnahmentypen zu rechtferti-
K
C. Wecker et al.
gen wären: Weder erzielt eine instruktionale Unterstützungsform wie beispielsweise
ausgearbeitete Lösungsbeispiele, für die in einem ca. eineinhalbstündigen Laborver-
such eine Effektstärke von ca. 0,6 festgestellt worden sein mag (vgl. Hattie 2009,
S. 172), bei einem Einsatz im Mathematikunterricht über zwei Wochen mit vier
Unterrichtsstunden pro Woche zwangsläufig einen Effekt in der Größenordnung von
2,4, noch wird die Effektstärke in diesem Fall notwendigerweise ebenfalls etwa 0,6
betragen. Viel wahrscheinlicher wird sie eher geringer ausfallen, wenn ausgearbeitete
Lösungsbeispiele über einen längeren Zeitraum in den Unterricht integriert einge-
setzt werden und der Lernerfolg in Bezug auf sämtliche in dieser Zeit behandelten
Inhalte erst ganz am Ende getestet wird. Maßnahmen mit völlig unterschiedlicher
typischer Dauer können daher bezüglich ihrer Effektivität auch anhand von Effekt-
stärken nicht verglichen werden.
Zweitens suggeriert Hatties Rangliste, dass die 138 Einflussfaktoren als prinzi-
piell alternativ in Frage kommende Handlungsmöglichkeiten anzusehen sind, aus
denen etwa bei der Unterrichtsgestaltung eine möglichst wirksame auszuwählen ist.
Dies würde jedoch voraussetzen, dass es sich bei den Einflussfaktoren überhaupt
um echte Handlungsoptionen handelt und dass deren Effektstärken in Bezug auf
dieselbe „Baseline“ ermittelt wurden, d. h. dass die Kontrollbedingungen in den
Primärstudien in allen einbezogenen Metaanalysen erster Stufe als gleichwertiger
Vergleichsmaßstab anzusehen sind. Ein Blick auf die Rangliste zeigt, dass dies weder
der Fall noch überhaupt möglich ist, da die Einflussfaktoren völlig unterschiedlichen
Typen angehören: Einerseits findet man neben institutionellen Rahmenbedingungen
wie der Schulgröße (Hattie 2009, S. 79 f.) sowie Personenmerkmalen wie dem
Selbstkonzept (Hattie 2009, S. 46 f.) umfassende Programme wie etwa die unter
„direct instruction“ eingeordneten (Hattie 2009, S. 204 ff.), bei denen sich die an-
gegebenen Effektstärken in der Regel auf einen Vergleich mit irgendeiner Form von
„traditionellem“ Unterricht beziehen. Aufgrund des gemeinsamen Bezugspunktes
könnten deren Effektstärken somit durchaus als Grundlage für eine Rangordnung
dieser Typen von Programmen nach ihrer Wirksamkeit herangezogen werden. Ande-
rerseits werden in die Rangliste jedoch auch Vergleiche von Ausgestaltungsvarianten
bestimmter Gestaltungsparameter ein und derselben Maßnahme untereinander auf-
genommen (vgl. Renkl 2015, S. 80 ff.), wie beispielsweise hinsichtlich des Themas
Übung die Gegenüberstellung von innerhalb einer Übungssitzung geballtem und auf
mehrere Übungssitzungen verteiltem Üben („spaced vs. mass practice“, Hattie 2009,
S. 185 f.). Ein wenig gleicht Hatties Rangliste somit einer Bundesligatabelle, in der
sowohl der FC Bayern München als auch der „Hamburger SV an einem guten Tag
im Vergleich zu einem schlechten“ einen Platz einnehmen. Es ist zu bezweifeln,
dass Lehrende jemals sinnvollerweise zwischen einem Progamm aus dem Bereich
direkte „Instruktion“ und verteiltem Üben anstatt etwa über die optimale Verbindung
aus beidem zu entscheiden haben. Falls dies doch einmal der Fall sein sollte, kann
die Beurteilung der relativen Wirksamkeit dieser Handlungsoptionen unmöglich im
einen Fall auf einem Vergleich mit einer instruktionalen „Standardbedingung“ und
im anderen Fall auf einem Vergleich mit einer anderen Gestaltungsvariante derselben
Instruktionsform beruhen.
K
Visionär und imposant – aber auch belastbar?
4 Konsequenzen
Unsere Ausführungen zur Qualität der Datengrundlage, zur Erfüllung der metho-
dischen Ansprüche, die sich aus Hatties Ansatz ergeben, und zur grundsätzlichen
Angemessenheit dieses Ansatzes legen ein recht eindeutiges Fazit nahe: Ein Großteil
der Befunde ist begründeten Zweifeln ausgesetzt. Wie wir gezeigt haben, sind die
Angaben zu den Effektstärken und Standardfehlern der einzelnen Metaanalysen im
Anhang A sowie zu den resultierenden Effektstärken und Standardfehlern für die
Einflussfaktoren in sämtlichen „Effektstärkenbarometern“ und in Anhang B nicht
zuverlässig. Dasselbe gilt aufgrund unklarer Zähleinheiten sowie Überlappungen in
den einbezogenen Primärstudien für die Anzahlen von Studien, Effekten und Perso-
nen auf beiden Ebenen.4Somit sind so gut wie alle in der Arbeit enthaltenen Arten
quantitativer Informationen von Mängeln betroffen. Bemerkenswerterweise klingt
bei Hattie selbst (Beywl und Zierer 2015a, S. XXVII) wie auch in der Diskussi-
on über seine Arbeit (z. B. Arnold 2011, S. 220) jedoch zum Teil die Auffassung
an, die einzelnen ermittelten Effektstärken seien letztlich nicht entscheidend. Der
eigentliche Wert der Arbeit liege in der „Geschichte oder Theorie, die John Hattie
entwickelt“ (Beywl und Zierer 2015a, S. XXVIII). Auf den Gehalt einer wissen-
schaftlichen Theorie wirft es grundsätzlich kein gutes Licht, wenn sie unabhängig
von empirischen Befunden Bestand haben soll. Wenn darüber hinaus auf jeder Ebe-
ne der Analyse Mängel zu beanstanden sind, stehen darauf beruhende inhaltliche
Schlussfolgerungen – etwa zur Bedeutung von Tiefen- anstelle von Oberflächen-
merkmalen oder Unterrichts- anstelle von Schulsystemmerkmalen (vgl. Köller 2012,
S. 77) – in Frage. Selbstverständlich bedeutet dies nicht, dass diese Merkmale keine
vorrangige Bedeutung besitzen. Es bedeutet jedoch, dass derartige Fragen auf dieser
Grundlage schlicht nicht zu entscheiden sind.
Unserer Meinung nach hat sich Hattie mit seiner Pionierarbeit dennoch wertvol-
le und bleibende Verdienste erworben. Sie liegen vor allem darin, dass er damit
auch aufgezeigt hat, was trotz enormer Mengen empirischer Studien immer noch
nicht möglich ist: eine umfassende und wissenschaftlich solide Synthese empirischer
bildungswissenschaftlicher Forschung.
Damit lenkt er die Aufmerksamkeit auch auf ein grundsätzliches Problem der
empirischen Bildungsforschung: Für Forschung werden weltweit fortwährend öf-
fentliche Ressourcen eingesetzt – mit dem Ertrag, dass die Ergebnisse häufig nicht
publiziert werden, wenn keine statistisch signifikanten Effekte gefunden werden.
Öffentliche Ressourcen fließen auch in Metaanalysen, bei denen manchmal nicht
einmal klar ist, welche Primärstudien einbezogen wurden (z. B. Johnson und John-
son 1987), oder in denen Primärstudientabellen entweder ganz fehlen oder nur un-
zureichende Angaben zu den Primärstudien enthalten.
Wie Hatties Arbeit deutlich macht, kann eine einzelne Metaanalyse die Frage der
Effektivität eines Einflussfaktors jedoch ohnehin nicht abschließend beantworten.
Metaanalysen sollten daher fortgeschrieben werden, wenn eine nennenswerte Zahl
4Die ursprünglich systematisch fehlerhaft berechneten common language effect sizes in Anhang A mit
unmöglichen Wahrscheinlichkeiten unter 0 % und über 100 % wurden für die deutsche Übersetzung korri-
giert (Beywl und Zierer 2015b, S. XVII).
K
C. Wecker et al.
weiterer Primärstudien hinzugekommen ist, jedoch nicht – wie in Hatties Arbeit –
in einer Metaanalyse zweiter Stufe, sondern als Metaanalyse erster Stufe auf der
Grundlage sämtlicher existierender, auch bereits früher in Metaanalysen einbezoge-
ner Primärstudien ohne Dubletten (vgl. Cooper und Koenka 2012, S. 458 f.). Neben
einer Verständigung auf ein einheitliches Effektstärkenmaß, als das sich allmählich
Hedges’ unverzerrter Schätzer der standardisierten Mittelwertsdifferenz (Hedges und
Olkin 1985, S. 81) etabliert, und der Beachtung etablierter Standards zum Umgang
mit statistischen Abhängigkeiten, zur korrekten Gewichtung und zur Berechnung
von Standardfehlern (Borenstein et al. 2009, S. 65 ff.) erscheint uns vordringlich,
dass mit jeder Metaanalyse eine vollständige und strukturell eindeutige Primärstu-
dientabelle veröffentlicht wird, die zur Fortschreibung weiterverwendet werden kann
(Cooper und Koenka 2012, S. 458).
Wenn Primärstudien über die Handvoll Leser eines Zeitschriftenartikels hinaus
einen bleibenden Beitrag zum fachlichen Erkenntnisfortschritt leisten sollen, sollten
sie Projekte wie das von Hattie erleichtern, indem unabhängig von der Veröffent-
lichung in einer Zeitschrift „metaanalytische Rohdaten“ in standardisierter Form
öffentlich zugänglich gemacht werden. Gerade bei Studien, die aufgrund fehlender
statistisch signifikanter Effekte geringe Erfolgschancen auf Veröffentlichung in ei-
ner Zeitschrift haben, könnten die relevanten Kennwerte in Kombination mit einer
nachvollziehbaren Dokumentation der Methodik an eine zentrale Datenbank überge-
ben und dadurch ohne weiteren Aufwand dauerhaft archiviert und für Metaanalysen
nutzbar gemacht werden. Im Rahmen von Bemühungen zum Aufbau von Infra-
strukturen für die Archivierung von Rohdaten wurde herausgestellt, dass derartige
Leistungen auch als publikationslistentaugliche Produkte honoriert werden müssen
(Stanat 2012, S. 8 f.). Der Aufbau derartiger Datenbanken ist unseres Erachtens
ebenso zukunftsweisend wie dringlich. Verzerrungen durch eine selektive Publikati-
on von Forschungsergebnissen könnten damit deutlich reduziert und die metaanaly-
tische Zusammenfassung von Einzelbefunden wesentlich erleichtert werden. Durch
diese Weiterentwicklung von Hatties innovativer Idee könnte aus einem visionären
Ansatz ein handfester Bestandteil einer forschungsbasierten Bildungspraxis werden.
K
Visionär und imposant – aber auch belastbar?
Anhang
Beweis für die Äquivalenz einer Metaanalyse überschneidungsfreier
Metaanalysen mit der Metaanalyse aller Primärstudien im Rahmen des fixed-
effect-Modells
(i) Im fixed-effect-Modell wird die gemeinsame Effektstärke sämtlicher Primärstu-
dien dausgehend von den Effektstärken diaus kPrimärstudien folgendermaßen
geschätzt:
dDPk
i=1 widi
Pk
i=1 wi
(1)
(vgl. Borenstein et al. 2009, S. 66, Formel 11.3) mit wiD1
vi(vgl. Borenstein et al.
2009, S. 63, Formel 11.2) aus der Varianz vider Effektstärke in der Primärstudie i.
Für die Varianz vddieses Schätzwerts gilt:
vd
D
1
Pk
i=1 wi
(2)
(vgl. Borenstein et al. 2009, S. 66, Formel 11.4).
Wenn die kPrimärstudien aus mMetaanalysen mit jeweils kjPrimärstudien (ohne
Überschneidungen zwischen den Metaanalysen) mit den Effektstärken dji stammen,
gilt für den Schätzwert der gemeinsamen Effektstärke aller Primärstudien
dDPm
j=1 Pkj
i=1 wjidji
Pm
j=1 Pkj
i=1 wji
(3)
mit wji D1
vji aus der Varianz vji der Effektstärke in der Primärstudie iaus der
Metaanalyse j, sowie für dessen Varianz
vd
D
1
Pm
j=1 Pkj
i=1 wji
:(4)
(ii) In jeder Metaanalyse jwird ausgehend von den Effektstärken dji und den Gewich-
ten wji unter Anwendung von (1) auf sämtliche kjin ihr enthaltenen Primärstudien
die gemeinsame Effektstärke der Primärstudien
djDPkj
i=1 wjidji
Pkj
i=1 wji
(5)
und unter Anwendung von (2) deren Varianz
vdj
D
1
Pkj
i=1 wji
(6)
K
C. Wecker et al.
bestimmt.
(iii) Wenn aus allen mMetaanalysen jeweils ein Schätzwert der gemeinsamen
Effektstärke sowie dessen Varianz vorliegt, kann die gemeinsame Effektstärke sämt-
licher Primärstudien auch unmittelbar aus den Schätzwerten djund den Gewich-
ten wjaus den mMetaanalysen geschätzt werden:
dDPm
j=1 wjdj
Pm
j=1 wj
(7)
mit
wjD
1
vdj
D
kj
X
i=1
wji (8)
(wegen (6)).
Setzt man zum Beweis von (7) auf der rechten Seite von (7)fürwjdie rechte
Seite von (8) und für djdie rechte Seite von (5) ein, erhält man durch Kürzen
innerhalb des Zählers und wegen (3):
Pm
j=1 Pkj
i=1 wjiPkj
i=1 wjidji
Pkj
i=1 wji
Pm
j=1 Pkj
i=1 wji
DPm
j=1 Pkj
i=1 wjidji
Pm
j=1 Pkj
i=1 wji
Dd
Die Varianz des Schätzwerts der gemeinsamen Effektstärke wird folgendermaßen
ermittelt:
vd
D
1
Pm
j=1 wj
(9)
Setzt man zum Beweis von (9) auf der rechten Seite von (9)fürwjdie rechte
Seite von (8) ein, erhält man wegen (4):
1
Pm
j=1 wj
D
1
Pm
j=1 Pkj
i=1 wji
Dvd
Somit lässt sich die gemeinsame Effektstärke aller Primärstudien aus mMeta-
analysen ohne Überschneidungen in den Primärstudien schätzen, indem man diese
Metaanalysen selbst als Primärstudien behandelt und in einer weiteren Metaanalyse
gemäß dem fixed-effect-Modell zusammenfasst.
Literatur
Arnold, I. (2011). John Hattie: Visible Learning: A synthesis of over 800 meta-analyses relating to achie-
vement. International Review of Education,57, 219–221.
Beywl, W., & Zierer, K. (2015a). Lernen sichtbar machen erweitert: Vorwort zur erweiterten Auflage. In J.
Hattie, Lernen sichtbar machen: Überarbeitete deutschsprachige Ausgabe von Visible Learning (S.
XXVII–XXIX). Baltmannsweiler: Schneider Hohengehren.
K
Visionär und imposant – aber auch belastbar?
Beywl, W., & Zierer, K. (2015b). Lernen sichtbar machen: Zur deutschsprachigen Ausgabe von „Visi-
ble Learning“. In J. Hattie, Lernen sichtbar machen: Überarbeitete deutschsprachige Ausgabe von
Visible Learning (S. VI–XXVI). Baltmannsweiler: Schneider Hohengehren.
Borenstein, M., Hedges, L.V., Higgins, J. P.T., & Rothstein, H. R. (2009). Introduction to meta-analysis.
Chichester: Wiley.
Bortz, J. (2005). Statistik für Human- und Sozialwissenschaftler (6. Aufl.). Heidelberg: Springer.
Brügelmann, H. (2014). Gilt nach Hattie: Je häufiger, desto besser? Zur Bedeutung von „Evidenzbasie-
rung“ für pädagogisches Handeln vor Ort. In E. Terhart (Hrsg.), Die Hattie-Studie in der Diskussion:
Probleme sichtbar machen (S. 38–50). Seelze: Klett Kallmeyer.
Cooper, H., & Koenka, A.C. (2012). The overview of reviews: Unique challenges and opportunities when
research syntheses are the principal elements of new integrative scholarship. American Psychologist,
67(6), 446–462.
Dansky, J.L. (1980). Make-believe: A mediator of the relationship between play and associative fluency.
Child Development,51(2), 576–579.
Donovan, J. J., & Radosevich, D.J. (1999). A meta-analytic review of the distribution of practice effect:
Now you see it, now you don’t. Journal of Applied Psychology,84(5), 795–805.
Eisenstaedt, R. S., Barry, W.E., & Glanz, K. (1990). Problem-based learning: Cognitive retention and co-
hort traits of randomly selected participants and decliners. Academic Medicine,65(9), S11–S12.
Fisher, E. P. (1992). The impact of play on development: A meta-analysis. Play & Culture,5, 159–181.
Gijbels, D., Dochy, F., van den Bossche, P., & Segers, M. (2005). Effects of problem-based learning: A
meta-analysis from the angle of assessment. Review of Educational Research,75(1), 27–61.
Haas, M. (2005). Teaching methods for secondary algebra: A meta-analysis of findings. NASSP Bulletin,
89(642), 24–46.
Hattie, J. A.C. (2009). Visible learning: A synthesis of over 800 meta-analyses relating to achievement.
London: Routledge.
Hedges, L. V., & Olkin, I. (1985). Statistical methods for meta-analysis. San Diego: Academic Press.
Horton, P.B., McConney, A.A., Gallo, M., Woods, A. L., Senn, G. J., & Hamelin, D. (1993). An inves-
tigation of the effectiveness of concept mapping as an instructional tool. Science Education,77(1),
95–111.
Johnson, D. W., & Johnson, R.T. (1987). Research shows the benefits of adult cooperation. Educational
Leadership,45(3), 27–30.
Klauer, K.J., & Phye, G. D. (2008). Inductive reasoning: A training approach. Review of Educational Re-
search,78(1), 85–123.
Köller, O. (2012). What works best in school? Hatties Befunde zu Effekten von Schul- und Unterrichtsva-
riablen auf Schulleistungen. Psychologie in Erziehung und Unterricht,59(1), 72–78.
Lee, T.D., & Genovese, E.D. (1988). Distribution of practice in motor skill acquisition: Learning and
performance effects reconsidered. Research Quarterly for Exercise and Sport,59(4), 277–287.
Levie, W. H., & Lentz, R. (1982). Effects of text illustrations: A review of research. Educational Commu-
nication and Technology Journal,30(4), 195–232.
Lipsey, M.W., & Wilson, D. B. (1993). The efficacy of psychological, educational, and behavioral treat-
ment: Confirmation from meta-analysis. American Psychologist,48(12), 1181–1209.
Lipsey, M.W., & Wilson, D.B. (1995). Reply to comments on Lipsey and Wilson (1993). American Psy-
chologist,50, 113–115.
Nesbit, J. C., & Adesope, O. O. (2006). Learning with concept and knowledge maps: A meta-analysis.
Review of Educational Research,76(3), 413–448.
Olson, T.M., & Wisher, R. A. (2002). The effectiveness of web-based instruction: An initial inquiry. Inter-
national Review of Research in Open and Distance Learning,3(2), 1–17.
Pant, H.A. (2014a). Aufbereitung von Evidenz für bildungspolitische und pädagogische Entscheidungen:
Metaanalysen in der Bildungsforschung. In R. Bromme & M. Prenzel (Hrsg.), Von der Forschung
zur evidenzbasierten Entscheidung: Die Darstellung und das öffentliche Verständnis der empirischen
Bildungsforschung (Zeitschrift für Erziehungswissenschaft: Sonderheft 27, S. 79–99). Wiesbaden:
Springer VS.
Pant, H.A. (2014b). Visible Evidence? Eine methodisch orientierte Auseinandersetzung mit John Hatties
Meta-Metaanalysen. In E. Terhart (Hrsg.), Die Hattie-Studie in der Diskussion: Probleme sichtbar
machen (S. 134–146). Seelze: Klett Kallmeyer.
Peterson, R. A. (2001). On the use of college students in social science research: Insights from a second-
order meta-analysis. Journal of Consumer Research,28(3), 450–461.
Renkl, A. (2015). Different roads lead to Rome: The case of principle-based cognitive skills. Learning:
Research and Practice,1(1), 79–90.
K
C. Wecker et al.
Roppelt, A., Plenk, C., Pöhlmann, C., & Pietsch, E. (2013). Der Ländervergleich im Fach Mathematik. In
H.A. Pant, P. Stanat, U. Schroeders, A. Roppelt, T. Siegle & C. Pöhlmann (Hrsg.), IQB-Länderver-
gleich 2012: Mathematische und naturwissenschaftliche Kompetenzen am Ende der Sekundarstufe I
(S. 123–140). Münster: Waxmann.
Rosenthal, R. (1994). Parametric measures of effect size. In H. Cooper & L. V. Hedges (Hrsg.), The hand-
book of research synthesis (S. 231–244). New York: Russell Sage Foundation.
Sipe, T.A., & Curlette, W. L. (1997). A meta-synthesis of factors related to educational achievement: A
methodological approach to summarizing and synthesizing meta-analyses. International Journal of
Educational Research,25(7), 573–698.
Sitzman, T., Kraiger, K., Stewart, D., & Wisher, R. (2006). The comparative effectiveness of web-based
and classroom instruction: A meta-analysis. Personnel Psychology,59, 623–664.
Snook, I., O’Neill, J., Clark, J., O’Neill, A.-M., & Openshaw, R. (2009). Invisible learnings? A com-
mentary on John Hattie’s book: Visible Learning: A synthesis of over 800 meta-analyses relating to
achievement. New Zealand Journal of Educational Studies,44(1), 93–106.
Sohn, D. (1995). Meta-analysis as a means of discovery. American Psychologist,50, 108–110.
Spies, C. (1987). Play, problem solving and creativity in young children. Vortrag auf dem Biennial Meeting
of the Society for Research in Child Development, Baltimore, 23. - 26. April 1987.
Stanat, P. (2012). Bereitstellung und Nutzung quantitativer Forschungsdaten in der Bildungsforschung:
Memorandum des Fachkollegiums „Erziehungswissenschaft“ der DFG. http://www.dfg.de/download/
pdf/foerderung/grundlagen_dfg_foerderung/informationen_fachwissenschaften/geisteswissenschaften/
forschungsdaten_memorandum_fk_109.pdf. Zugegriffen: 5. Feb. 2015.
Sterne, J. A. C., Jüni, P., Schulz, K. F., Altman, D. G., Bartlett, C., & Egger, M. (2002). Statistical methods
for assessing the influence of study characteristics on treatment effects in ,meta-epidemiological‘
research. Statistics in Medicine,21(11), 1513–1524.
Tamim, R.M., Bernard, R.M., Borokhovski, E., Abrami, P. C., & Schmid, R. F. (2011). What forty years
of research says about the impact of technology on learning: A second-order meta-analysis and vali-
dation study. Review of Educational Research,81(1), 4–28.
Terhart, E. (2011). Has John Hattie really found the holy grail of research on teaching? An extended review
of „Visible Learning“. Journal of Curriculum Studies,43(3), 425–438.
White, W.A. T. (1988). A meta-analysis of the effects of direct instruction in special education. Education
and Treatment of Children,11(4), 364–374.
Wilson, D.B., & Lipsey, M.W. (2001). The role of method in treatment effectiveness research: Evidence
from meta-analysis. Psychological Methods,6(4), 413–429.
K