Content uploaded by Johannes Schult
Author content
All content in this area was uploaded by Johannes Schult on Nov 27, 2019
Content may be subject to copyright.
Running Head: VALIDITÄT VON STUDIERFÄHIGKEITSTESTS
Leisten fachspezifische Studierfähigkeitstests im deutschsprachigen Raum eine valide
Studienerfolgsprognose? Ein metaanalytisches Update
Johannes Schult*
Institut für Bildungsanalysen Baden-Württemberg, Stuttgart
Arvid Hofmann und Stephan J. Stegt
ITB Consulting, Bonn
Diese Artikelfassung entspricht nicht vollständig dem in der Zeitschrift für
Entwicklungspsychologie und Pädagogische Psychologie veröffentlichten Artikel unter
doi:10.1026/0049-8637/a000204. Dies ist nicht die Originalversion des Artikels und kann
daher nicht zur Zitierung herangezogen werden. Bitte verbreiten oder zitieren Sie diesen
Artikel nicht ohne Zustimmung des Autors.
*Korrespondierender Autor: Dr. Johannes Schult, Institut für Bildungsanalysen Baden-
Württemberg, Heilbronner Straße 172, D-70191 Stuttgart, Telefon: 0711 6642-3102, Fax:
0711 6642-3098, E-Mail: jutze@jutze.com
Autorenhinweis zu möglichen Interessenkonflikten: Arvid Hofmann und Dr. Stephan J.
Stegt sind Human Resources Consultant bzw. Gesellschafter der Firma ITB Consulting,
welche mehrere der in der Metaanalyse betrachteten Tests entwickelt hat.
VALIDITÄT VON STUDIERFÄHIGKEITSTESTS 2
Zusammenfassung
Fachspezifische Studierfähigkeitstests werden in mehreren zulassungsbeschränkten
Studiengängen als Auswahlinstrument eingesetzt. Eine Metaanalyse von Hell, Trapmann
und Schuler (2007) ermittelte eine hohe prognostische Validität solcher Tests. Seitdem hat
es allerdings umfassende Veränderungen des Bildungssystems (z.B. Bologna-Prozess,
Änderungen der Schulsysteme) sowie eine stete Weiterentwicklung der Testverfahren
gegeben. Zur Klärung der Frage, ob fachspezifische Studierfähigkeitstests nach wie vor
eine gute Erfolgsprognose liefern, schreibt die vorliegende Arbeit die Metaanalyse von
Hell et al. (2007) fort. Die prognostische Validität im deutschsprachigen Raum ist stabil
geblieben (ρ = .427, K = 54 Stichproben, N = 8410 Personen). Es fanden sich höhere
Validitäten bei neueren Studien, Zeitschriftenartikeln mit Peer-Review, universitären
Stichproben sowie bei kürzerem Abstand zwischen Test und Studiennotenerfassung.
Zudem zeigten sich Fachunterschiede bezüglich der prognostischen Validität
beispielsweise zugunsten von Sozialwissenschaften (ρ = .510). Die Studierfähigkeitstests
besitzen außerdem eine inkrementelle Validität über die Abiturnote hinaus (ΔR² = .081,
k = 31, n = 3999). Die Befunde sprechen dafür, dass die Testverfahren einen hilfreichen
Beitrag zur erfolgreichen Studierendenauswahl liefern (als Alternative oder Ergänzung zur
Abiturnote).
Schlüsselwörter: Studierfähigkeitstest, Validität, Studierendenauswahl, Studienerfolg,
Prognose
VALIDITÄT VON STUDIERFÄHIGKEITSTESTS 3
Do subject-specific admission tests in German-speaking countries provide a valid
prediction of academic performance? A meta-analytic update
Abstract
Subject-specific college admission tests are used for student selection in fields with
restricted admission. A meta-analysis by Hell, Trapmann and Schuler (2007) found a high
predictive validity of such tests. Since then, there have been various changes in the
educational system (e.g., the Bologna process, changes in schooling) and an ongoing
development of testing procedures. The present study continues the meta-analysis of Hell
et al. (2007) in order to find out whether subject-specific college admission tests still
provide a good prediction of educational success. The predictive validity remained stable
in German-speaking countries (ρ = .427, K = 54 samples, N = 8410 persons). Validities
were higher in newer studies, peer-reviewed journal articles, university samples, and
studies with a shorter time between testing and assessment of college grades. Furthermore,
the predictive validity differed between fields of study, for example in favour of the social
sciences (ρ = .510). College admission tests also have incremental validity over and above
high school grades (ΔR² = .081, k = 31, n = 3999). These findings support the notion that
the admission tests contribute to an effectual student selection (as an alternative or
additionally to high school grades).
Keywords: admission test, validity, student selection, academic performance, prediction
VALIDITÄT VON STUDIERFÄHIGKEITSTESTS 4
Leisten fachspezifische Studierfähigkeitstests im deutschsprachigen Raum eine valide
Studienerfolgsprognose? Ein metaanalytisches Update
Gibt es mehr Bewerbungen als zu vergebende Studienplätze, braucht es sinnvolle
Verfahren, um nach festgelegten Kriterien die am besten geeigneten Bewerberinnen und
Bewerber zum Studium zuzulassen. Die Note der Hochschulzugangsberechtigung (HZB)
dient häufig als wichtiges, oft auch einziges Kriterium bei der Studienplatzvergabe im
Sinne der Bestenauslese. Schulnoten sind valide Prädiktoren des Studienerfolgs
(Trapmann, Hell, Weigand & Schuler, 2007), obgleich sie eigentlich keine prospektive
Diagnose darstellen (Schuler & Schult, 2018). Problematisch ist, dass die HZB-Noten aus
verschiedenen (Bundes-) Ländern nur bedingt vergleichbar sind. In diesem Sinne
entschied das Bundesverfassungsgericht (BVerfG), dass Hochschulen Studienplätze im
Falle einer bundesweiten Zulassungsbeschränkung „nicht allein und auch nicht ganz
überwiegend nach dem Kriterium der Abiturnoten“ vergeben dürfen (BVerfG, 2017,
Abs. 209). Fachspezifische Studierfähigkeitstests stellen ein wichtiges ergänzendes bzw.
alternatives Auswahlinstrument dar. Einen ersten Überblick über die prognostische
Validität solcher Testverfahren bietet die Metaanalyse von Hell, Trapmann und Schuler
(2007), die die Forschungslage von 1980 bis 2005 zusammenfasst. Mit der vorliegenden
Metaanalyse überprüfen wir, wie sich die Validität von fachspezifischen
Studierfähigkeitstests im Zuge der nachfolgenden Veränderungen der Bildungslandschaft
(z.B. Bologna-Prozess) entwickelt hat.
Begriffsklärung und Definition
Die Begriffe „fachspezifischer Studierfähigkeitstest“, „studienfachspezifischer
Fähigkeitstest“ oder „studienfeldbezogener Test“ werden weitgehend synonym verwendet.
Wir definieren den Begriff „fachspezifischer Studierfähigkeitstest“ in Anlehnung an den
Deidesheimer Kreis (1997) wie folgt: Ein fachspezifischer Studierfähigkeitstest ist ein Test
VALIDITÄT VON STUDIERFÄHIGKEITSTESTS 5
zur Messung derjenigen Fähigkeiten und Fertigkeiten, die zur Bewältigung der
Anforderungen eines bestimmten Studiengangs besonders wichtig sind. Ein
fachspezifischer Studierfähigkeitstest wird für einen einzelnen Studiengang entwickelt
oder für eine Gruppe von Studiengängen mit ähnlichen Anforderungen. Der Schwerpunkt
liegt auf der Messung kognitiver Fähigkeiten. Einstellungen, Interessen, Motive oder
allgemeine Persönlichkeitseigenschaften werden nicht direkt erfasst.
Ein fachspezifischer Studierfähigkeitstest beinhaltet komplexe fachbezogene
Problemlöseaufgaben. Mit diesen Problemlöseaufgaben „wird eine Simulation typischer
Lern- und sonstiger Anforderungssituationen der betreffenden Studiengänge angestrebt“
(Deidesheimer Kreis, 1997, S. 109). Sie werden häufig kombiniert mit Aufgaben zur
Messung allgemeiner kognitiver Fähigkeiten, wie sie in Intelligenztests zum Einsatz
kommen. In einem fachspezifischen Studierfähigkeitstest im engeren Sinne werden keine
Kenntnisse abgefragt.
Daneben gibt es Verfahren, die in Veröffentlichungen ebenfalls als fachspezifische
Studierfähigkeitstests bezeichnet werden, die aber andere bzw. zusätzliche
Aufgabenformate beinhalten, beispielsweise die Abfrage von Kenntnissen, das Schreiben
eines Essays oder die Abfrage von Inhalten des ersten Studienjahres in einer Klausur, auf
die man sich vor dem Test mit Lehrbüchern vorbereiten muss. Diese Verfahren haben wir
als „Sonstige/Mischtests“ in die Metaanalyse aufgenommen.
Eine erweiterte Definition, die über die des Deidesheimer Kreises hinausgeht und
u.a. auch die Mischtests umfasst, könnte wie folgt lauten: Ein fachspezifischer
Studierfähigkeitstest misst kognitive Fähigkeiten und Fertigkeiten, die für akademischen
Erfolg in einem spezifischen Studiengang oder Studienfeld besonders wichtig sind. Er
beinhaltet fachspezifische komplexe Problemlöseaufgaben, die mit weiteren Elementen
wie fachunspezifischen Problemlöseaufgaben oder Kenntnisabfragen kombiniert werden
können.
VALIDITÄT VON STUDIERFÄHIGKEITSTESTS 6
Da allgemeine Studierfähigkeitstests gemäß dem Hochschulrahmengesetz in
Deutschland nicht für die Studierendenauswahl eingesetzt werden dürfen, stehen in der
Forschungsliteratur – und somit auch in der vorliegenden Metaanalyse – fachspezifische
Studierfähigkeitstests im Fokus.
1
Konstruktionsprinzipien und Qualitätsstandards
Die Konstruktion eines fachspezifischen Studierfähigkeitstests sollte auf einer Analyse der
Anforderungen basieren, die das jeweilige Studium an die Studierenden stellt (vgl.
Moosbrugger, Jonkisz & Fucks, 2006). Diese Anforderungsanalyse kann beispielsweise in
Form von Workshops mit Hochschulmitarbeitenden erfolgen oder durch die
Berücksichtigung einschlägiger Studien. Vor der Implementierung des Tests sollte eine
empirische Erprobung der Aufgaben mit Personen der Zielgruppe stattfinden, um
Indikatoren der Testgüte zu ermitteln und den Test anhand der Gütekriterien zu
optimieren, beispielsweise durch die Anpassung des Schwierigkeitsniveaus.
Messeigenschaften wie die Reliabilität sowie Zusammenhänge mit relevanten
Außenkriterien sollten kontinuierlich ermittelt werden. Soweit irgend möglich, sollte die
Prognosekraft des Tests bezüglich des Studienerfolgs empirisch überprüft werden.
Konstruktion und Evaluation sollten von psychologischem Fachpersonal mit
eignungsdiagnostischer Expertise vorgenommen oder zumindest begleitet werden, unter
Berücksichtigung nationaler und internationaler Standards der Testentwicklung (z.B. DIN
33430, Richtlinien der International Test Commission [ITC]).
1
Allgemeine Fähigkeitstests werden lediglich zu Forschungs- und Beratungszwecken eingesetzt, wobei der
Zusatznutzen über fachspezifische Tests hinaus fraglich ist (Schult, Fischer & Hell, 2016).
VALIDITÄT VON STUDIERFÄHIGKEITSTESTS 7
Studierfähigkeitstests im Auswahlprozess und in der Forschung
Die Metaanalyse von Hell et al. (2007) fasst die Validitätsbefunde für den
deutschsprachigen Raum von 1980 bis 2005 zusammen. Basierend auf neun Studien mit
K = 36 Stichproben (N = 45091 Personen) betrug die mittlere (ungewichtete) Korrelation
zwischen Testleistung und Studiennoten r = .321. Das gewichtete metaanalytische Mittel
betrug nach der Korrektur der Kriteriumsunreliabilität ρ = .436 und nach zusätzlicher
Korrektur für selektionsbedingte Variabilitätseinschränkung ρ = .478. Fachspezifische
Studierfähigkeitstests waren zu Beginn des Bologna-Prozesses somit valide Prädiktoren
des Studienerfolgs. In der Metaanalyse fanden sich weiterhin Studienfachunterschiede
(von ρ = .325 für Wirtschaftswissenschaften bis zu ρ = .507 für Humanmedizin),
uneinheitliche Studienabschnittsunterschiede sowie höhere Validitäten für Untersuchungen
von hochschulübergreifenden Stichproben. Für die inkrementelle Validität von
Studierfähigkeitstests über die HZB-Note wurde basierend auf den metaanalytischen
Befunden ein Wertekorridor zwischen 6.6 % und 10.2 % geschätzt (abhängig von der
Prädiktor-Interkorrelation; Hell, Trapmann & Schuler, 2008).
Das Interesse an (deutschsprachigen) Studierfähigkeitstests hat seither nicht
abgenommen; standardisierte Testverfahren haben eher noch an Bedeutung gewonnen.
Aktuell nutzt beispielsweise die deutliche Mehrheit der Medizinfakultäten staatlicher
Hochschulen in Deutschland Studierfähigkeitstests zur Studierendenauswahl (Schwibbe et
al., 2018). Bei der Zulassung zum Psychologie-Studium können in allen Bundesländern
Auswahltests berücksichtigt werden (Janke & Dickhäuser, 2018). Darüber hinaus kommen
in anderen Fachrichtungen ebenfalls gezielt Studierfähigkeitstests zum Einsatz, wenn die
Nachfrage die Zahl der verfügbaren Studienplätze überschreitet. Auch in Österreich und
der Schweiz muss zur Wahrung der Studienqualität die Zulassung in Fächern wie
beispielsweise Medizin beschränkt werden; dabei werden fachspezifische
VALIDITÄT VON STUDIERFÄHIGKEITSTESTS 8
Studierfähigkeitstests als Auswahlinstrument eingesetzt (Arendasy, Sommer &
Feldhammer-Kahr, 2016; Hänsgen, 2012).
Die Konzeption und Pflege von Studierfähigkeitstests ist eine fortlaufende Aufgabe
und Herausforderung. Bei Auswahltests müssen stetig neue Aufgaben entwickelt werden,
damit das Testmaterial nicht einfach auswendig gelernt werden kann.
Studienanforderungen können sich im Laufe der Zeit ändern, was ebenfalls eine
Anpassung der Testinhalte notwendig macht. Die Validität fachspezifischer
Studierfähigkeitstests muss also kontinuierlich überprüft werden. Entsprechend gab es in
den Jahren seit der ersten Metaanalyse (Hell et al., 2007) nicht weniger, sondern mehr
Untersuchungen – sowohl zu neuen Testverfahren, als auch zu etablierten
Auswahlinstrumenten wie dem Test für Medizinische Studiengänge (TMS). Zu beachten
ist dabei, dass in den letzten zwölf Jahren auch vermehrt Studien durchgeführt wurden, bei
denen die prädiktive Validität von Studierfähigkeitstests untersucht wurde, ohne dass das
Testergebnis für die Zulassung relevant war (z.B. Hänsgen, 2012). Ein Vorteil davon ist,
dass die Prognose auch für Studierende mit schlechten Testergebnissen untersucht werden
kann, ohne dass man auf Korrekturen für Einschränkungen der Variabilität zurückgreifen
muss. Ein Nachteil dieser Studien ist jedoch, dass die Testsituation eine andere ist. Denn in
Auswahlverfahren hängt die persönliche Zukunft vom Abschneiden im Test ab. Die
Bewerberinnen und Bewerber bemühen sich, die bestmögliche Leistung zu erbringen. Die
Testbearbeitung erfolgt vermutlich konzentrierter, aber auch unter größerer Anspannung.
Probeklausuren erzeugen beispielsweise weniger Leistungsängstlichkeit als vergleichbare
benotete Prüfungen (Lotz & Sparfeldt, 2017). Inzwischen liegen hinreichend viele Studien
vor, dass ein metaanalytischer Vergleich der unterschiedlichen Testsituationen stattfinden
kann.
Studierende begegnen den Tests heute vermutlich besser informiert und vorbereitet
als früher. Denn die Tests sind weiter verbreitet und es gibt zahlreiche online verfügbare
VALIDITÄT VON STUDIERFÄHIGKEITSTESTS 9
Informationen zu den Tests sowie Vorbereitungsmöglichkeiten. Wie etwaige
Übungseffekte die prognostische Validität dabei verändern, ist noch unklar. Studien aus
den Vereinigten Staaten, in denen um Studierfähigkeitstests eine regelrechte
Vorbereitungsindustrie entstanden ist, deuten jedoch nicht auf gravierende
Validitätsschwankungen hin (vgl. Sackett, Borneman & Connelly, 2008). Auch auf Seiten
der Testentwicklung und -durchführung gab es in den letzten Jahren Veränderungen. Die
Testverfahren wurden stetig weiterentwickelt, so dass inzwischen auch jenseits der
Medizin großflächig und fortlaufend Studierfähigkeitstests eingesetzt werden (vgl. Hell et
al., 2007).
Studienerfolgskriterien
Die prädiktive Validität von Auswahlverfahren hängt davon ab, welche
Studienerfolgskriterien betrachtet werden. In der Testevaluationsforschung wie auch für
die Studierenden selbst sind Noten (nicht nur wegen ihrer einfach erfassbaren numerischen
Form) von zentraler Bedeutung. Im Zuge des Bologna-Prozesses findet nun eine
Kreditierung jedes Leistungsmoduls statt und Prüfungen aus allen Semestern fließen in die
Endnote ein (vgl. Winkel, 2010). Studiennoten hängen dabei positiv mit anderen
Erfolgskriterien wie Studienabschluss, Studiendauer, Studienzufriedenheit und
anschließenden Berufschancen zusammen (vgl. Stemler, 2012). Auch wenn es Hinweise
gibt, dass Studierfähigkeitstests diese Kriterien vorhersagen können (insbesondere
Studienabschluss, vgl. Kurz, Metzger & Linsner, 2014), reicht die Studienzahl bislang
nicht für eine umfängliche metaanalytische Aggregation. Zudem gibt es methodische
Herausforderungen bei der Erfassung des Kriteriums Abschluss bzw. Abbruch. Im
Studienverlauf kann zwischen (weiterhin) immatrikulierten und exmatrikulierten Personen
unterschieden werden (z.B. Nickolaus & Abele, 2009). Unter den Exmatrikulierten
befinden sich allerdings auch Hochschulwechsler, die ihr Studium an einem anderen Ort
fortsetzen. Um Personen dahingehend zu unterscheiden, ob sie ihr Studium mit oder ohne
VALIDITÄT VON STUDIERFÄHIGKEITSTESTS 10
Abschluss beenden, braucht es langen Atem (vgl. Kurz et al., 2014). Teilweise wird
deshalb auch das Kriterium „Abschluss in Regelstudienzeit“ betrachtet (z.B. Kadmon &
Kadmon, 2016). Gerade bei vorselegierten Stichproben sind die Abbruchquoten außerdem
eher niedrig. Eine zuverlässige Studienabschlussprognose ist dann nur mit großen
Kohorten möglich. Hier besteht sicherlich Forschungsbedarf für zukünftige Großprojekte
(vgl. Deutsche Gesellschaft für Psychologie, 2018a, S. 4–5).
Ziele und Fragestellungen
Ziel der vorliegenden Metaanalyse ist die Fortschreibung der Arbeit von Hell et al. (2007)
anhand von Validitätsstudien, die zwischenzeitlich durchgeführt wurden. Wir erwarten
eine weitgehende Replikation der Befunde, also mittelstarke bis starke Zusammenhänge
zwischen Testleistungen und Studienleistungen mit Korrelationen zwischen r = .3 und
r = .5. Als potenzielle Moderatoren wurden von Hell et al. (2007) (1) das Publikationsjahr,
(2) die Heterogenität der Stichprobe in Bezug auf unterschiedliche Hochschulen, (3) die
Art der Publikation (Zeitschriftenartikel mit Peer-Review vs. Sonstige), (4) die
Erhebungsbedingung (Selektionsfunktion vs. keine Selektionsfunktion) sowie (5) das
Studienfach bzw. die Fachrichtung übernommen. Während Hell et al. (2007) den
Studienabschnitt als Moderator untersuchten, testeten wir (6) die (angestrebte)
Abschlussart, (7) die Zeit zwischen Testung und Kriteriumserfassung sowie (8) den
Vergleich von Einzel-/Zwischennoten mit Abschlussnoten als Moderatoren. Außerdem
wurde untersucht, ob es Unterschiede bezüglich (9) der Hochschulart (reine
Universitätsstichproben vs. andere) sowie (10) der Testart (reine Fähigkeitstests vs.
Sonstige/Mischtests) gibt. Zusätzlich erfolgte zur Bestimmung der inkrementellen
Validität fachspezifischer Studierfähigkeitstests eine Gegenüberstellung der
metaanalytischen Validität von Abiturnoten alleine und von Abiturnoten und
Testergebnissen zusammen.
VALIDITÄT VON STUDIERFÄHIGKEITSTESTS 11
Methode
Literatursuche
Ziel der verwendeten Suchstrategie war es, alle aktuellen Studien zur prädiktiven Validität
fachspezifischer Studierfähigkeitstests im deutschsprachigen Raum zu identifizieren.
Einschlusskriterien waren entsprechend a) die Verwendung eines fachspezifischen
Fähigkeitstests, b) ein längsschnittliches Untersuchungsdesign, c) (mindestens) eine
berichtete Korrelation der Testleistung mit dem Erfolgskriterium Studiennoten, d)
Publikation seit 2005, e) Testzeitpunkt nach 1990
2
sowie f) Studierendenstichproben von
Hochschulen in Deutschland, Österreich oder der Schweiz. Der Zeitraum wurde gewählt,
um eine nahtlose Fortschreibung der Metaanalyse von Hell et al. (2007) zu ermöglichen.
Zugleich wurden Studien bzw. Stichproben ausgeschlossen, die bereits bei Hell et al.
(2007) eingeschlossen wurden, damit die Ergebnisse der damaligen und der vorliegenden
neuen Metaanalyse unabhängig voneinander betrachtet und verglichen werden können.
Zuerst wurden die Datenbanken PsycINFO und PSYNDEX durchsucht (65 Treffer;
Stand: 2. Dezember 2018). Dabei wurde die folgende Suchanfrage verwendet für Treffer
ab 2005: Studierfähigkeitstest* OR ((Eignungstest* AND Studium)) OR (((Leistungstest*
OR Testleistung*) AND Studierendenauswahl*)) OR (((Leistungstest* OR Testleistung*)
AND (Studienfeldspezifisch* OR Studienfachspezifisch*))) OR
Studierendenauswahlverfahren OR Studieneingangstest OR ((EMS AND "Eignungstest
für das Medizinstudium")) OR ((TMS AND "Test für Medizinische Studiengänge")) OR
((Fachspezifisch* AND Eignungstest*)) OR ((Auswahlverfahren AND (Studium OR
Studienerfolg))) OR Studienerfolgsprognose. Weiterhin wurden die Studien gesichtet, die
laut Google Scholar die Metaanalyse von Hell et al. (2007) zitieren (76 Treffer, Stand: 2.
2
Wie schon Hell et al. (2007) beschränken wir uns auf „neuere“ Studien, um Verzerrungen durch historische
Unterschiede bei der Testkonstruktion, bei den Studiengängen und bei der Studierendenpopulation zu
vermeiden.
VALIDITÄT VON STUDIERFÄHIGKEITSTESTS 12
Dezember 2018). Da es sich bei der Metaanalyse von Hell et al. (2007) um die vermutlich
einschlägigste Arbeit zum Thema handelt, hielten wir die explizite Betrachtung der
zitierenden Arbeiten für sinnvoll, zumal so auch weitere „graue“ Literatur wie
Dissertationen und technische Berichte ermittelt werden konnte. Über die Sichtung von
Referenzen einschlägiger Artikel sowie thematisch verwandter Arbeiten wurde
anschließend weiter nach passenden Studien gesucht. Nach Sichtung der Suchergebnisse
wurden 46 Studien kodiert, von denen 28 letztlich in die Metaanalyse eingeschlossen
werden konnten. Das Flussdiagramm in Abbildung 1 zeigt die verschiedenen Phasen der
Literaturrecherche.
Abbildung 1. PRISMA-Flussdiagramm für die verschiedenen Phasen der systematischen
Metaanalyse (vgl. Moher, Liberati, Tetzlaff & Altman, 2009) * = Mehrfachnennungen
möglich
Gefunden durch Daten-
banksuche (k= 141) Gefunden in anderen
Quellen (k= 40)
Verbleib nach Entfernen
von Duplikaten (k= 168)
In Vorauswahl
aufgenommen (k= 88) Ausgeschlossen (k= 42)
Volltext auf Eignung
beurteilt (k= 46)
Studien eingeschlossen
in quantitative Meta-
Analyse (k= 28)
Volltextartikel ausge-
schlossen mit Begründung
(k= 18), davon*
•k= 8 unzureichend quantifizierte
Validität
•k= 6 inadäquates Kriterium
•k= 4 überlappende Stichproben
•k= 3 ungeeigneter Prädiktor
•k= 1 keine empirische Studie
•k= 1 gravierende methodische
Probleme
IdentifikationVorauswahlEignungEingeschlossen
VALIDITÄT VON STUDIERFÄHIGKEITSTESTS 13
Kodierung
Die ausgewählten Studien wurden von den ersten beiden Autoren mithilfe eines
Kodierschemas unabhängig voneinander kodiert. Dabei lagen die Werte der
Intraklassenkorrelationskoeffizienten bei mindestens intervallskalierten Variablen im
Bereich von 0.92 bis 1 und die Werte für Cohens к für die kategorialen Variablen im
Bereich von 0.48
3
und 1. Uneinheitliche Kodierungen wurden vom dritten Autor gesichtet
und geklärt. Wurden Validitäten für mehrere Kriterien berichtet, wurde die zeitlich
späteste Studienleistung gewählt. Bei unklaren oder gleichzeitigen Zeitpunkten der
Erfolgsdiagnose wurden die Validitätskoeffizienten nach Fishers z-Transformation
gemittelt. Lagen Validitäten für überlappende Teilstichproben vor, wurde die Korrelation
aus der größten Stichprobe gewählt.
Analyseplan
Die Metaanalyse wurde in R 3.5.2 (R Core Team, 2018) mit dem Paket metafor 2.0-0
(Viechtbauer, 2010) gerechnet nach der Strategie von Hunter und Schmidt (2004; vgl.
Viechtbauer, 2019). Für die Metaanalyse werden Modelle mit festen Effekten (fixed
effects, FE) und mit Zufallseffekten (random effects, RE) berichtet (vgl. Schmidt, Oh &
Hayes, 2009). Die Moderatorenanalysen basieren analog zu Hell et al. (2007) auf FE-
Modellen. Die Datenmatrix und die Auswertungssyntax stehen online unter
https://osf.io/n6dmx/.
Zur Schätzung der operativen Validität wurde die Metaanalyse mit den für die
Variabilitätseinschränkung durch Selektionseffekte (restriction of range) und für
Kriteriumsunreliabilität korrigierten Korrelationskoeffizienten durchgeführt (vgl. Schmidt,
Le & Oh, 2009). Die Variabilitätseinschränkung durch Selektionseffekte betrug für
3
Bei der Variable „Wie setzt sich die Stichprobe bezüglich des akademischen Rahmens zusammen?“ (z.B.
„eine Hochschule, mehrere Jahrgänge“, in der Analyse später dichotomisiert zu „eine/mehrere
Hochschulen“) mit к = 0.48 wurde die Kodieranweisung von den Beurteilern unterschiedlich aufgefasst. Die
übrigen Variablen zeigen ein Cohens к von mindestens 0.66.
VALIDITÄT VON STUDIERFÄHIGKEITSTESTS 14
Studien, in denen der Test Auswahlfunktion hatte, zwischen u = 0.68 und u = 1.03
(M = 0.83, SD = 0.14, k = 13). Dabei entspricht u dem Verhältnis der Standardabweichung
der Testleistungen der ausgewählten Studierenden zur Standardabweichung der
Testleistungen aller Bewerberinnen und Bewerber (Schmidt, Le & Oh, 2009). Wenn in
einem Bewerbungsverfahren die Testleistungen aller Teilnehmenden mit SD = 1 streuen
und in der dann ausgewählten Stichprobe (in der die schwächsten Testleistungen
systematisch fehlen) die Testleistungen nur noch mit SD = 0.8 streuen, ergibt sich u =
0.8/1 = 0.8. Für diejenigen Studien zu Tests mit Auswahlfunktion, bei denen die
Variabilitätseinschränkung nicht bestimmt werden konnte, verwendeten wir als Schätzung
das gewichtete Mittel u = 0.83. Im Vergleich dazu kamen Hell et al. (2007) auf u = 0.889.
Für Studien zu Tests ohne Auswahlfunktion fand keine Korrektur für Selektionseffekte
statt (u = 1), was sich auch mit den empirischen Befunden deckt, die keine
Variabilitätseinschränkung enthalten (z.B. Schult, 2018). Als Schätzung für die Reliabilität
der Studiennoten wurde zur optimalen Vergleichbarkeit wie bei Hell et al. (2007) der
Reliabilitätswert r = .83 verwendet (vgl. Kuncel et al., 2001, 2004).
Zusammen mit dem Funnelplot betrachteten wir die trim and fill-Analyse, um
abzuschätzen, wie weit ein möglicher publication bias die Validitätsschätzung verzerrt
(Duval, 2005). Als allgemeiner Test auf Heterogenität wurde die Q-Statistik betrachtet
(vgl. Schwarzer, Carpenter & Rücker, 2015). Die zehn Moderatoren wurden mithilfe von
Q-Statistiken für die Prüfung auf erklärte Varianz und auf verbleibende Restvarianz
untersucht. Als Signifikanzniveau wurde α = .05 gewählt, wobei in der
Moderatorenanalyse durch die Bonferroni-Korrektur für multiple Tests das
Vergleichsniveau α = .05/10 = .005 beträgt.
Zuletzt wurde, soweit in den Originalstudien verfügbar, noch die prognostische
Validität der HZB-Noten sowie die Validität der Kombination aus Studierfähigkeitstests
und HZB-Noten geschätzt, um die inkrementelle Validität der Testleistungen über die
VALIDITÄT VON STUDIERFÄHIGKEITSTESTS 15
HZB-Noten hinaus zu untersuchen. Dabei wurde nur die Korrektur für
Kriteriumsunreliabilität durchgeführt, weil insbesondere für die HZB-Test-Kombination
belastbare Daten zur selektionsbedingten Variabilitätseinschränkung fehlen. Die
inkrementelle Validität wird häufig als Zuwachs an erklärter Kriteriumsvarianz berichtet.
Sie wurde in der vorliegenden Arbeit entsprechend berechnet als ΔR² = ρ²HZB+Test – ρ²HZB.
Ergebnisse
Im Rahmen der Literaturrecherche konnten 28 Studien identifiziert werden, die die
Einschlusskriterien erfüllten (vgl. Tab. 1). K = 54 Stichproben mit N = 8410 Personen
flossen in die vorliegende Metaanalyse ein. Ohne Korrekturen beträgt der gewichtete
mittlere Effekt r = .355. Die Validitätskoeffizienten reichen dabei von r = .003 bis r = .676
(SD = .141). Nach der Korrektur für die Unreliabilität des Kriteriums Studiennoten liegt
das metaanalytische Mittel bei ρ = .390. Die Metaanalyse der operativen Validität
(korrigiert für Kriteriumsunreliabilität und selektionsbedingte Variabilitätseinschränkung)
beträgt schließlich ρ = .427 (vgl. den Forestplot in Abb. 2 sowie Tab. 2). Sowohl das
95 %-Konfidenz- als auch das 90 %-Kredibilitätsintervall liegen jeweils deutlich über
Null. Somit kann eine positive Validität für die fachspezifischen Studierfähigkeitstests
generalisiert werden.
Tabelle 1
Übersicht über die eingeschlossenen Stichproben
Quelle
Stichprobe
n
r
A
ρ
Bergholz & Stegt (2018)
Jura, Frauen
201
.33
.640
.516
Bergholz & Stegt (2018)
Jura, Männer
378
.33
.668
.494
Buschhüter et al. (2017)
Physik, Stichprobe A
106
.44
.911
.483
Damaschke (2016)
Medizin
72
.298
.769
.387
Dlugosch (2005)
Jura, Studienjahr 2000
63
.53
.683
.776
Dlugosch (2005)
Jura, Studienjahr 2001
91
.18
.657
.274
Fischer et al. (2015)
Naturwissenschaften, Frauen
129
.26
.911
.285
VALIDITÄT VON STUDIERFÄHIGKEITSTESTS 16
Fischer et al. (2015)
Naturwissenschaften, Männer
140
.38
.911
.417
Fischer et al. (2015)
Wirtschaftswissenschaften, Frauen
169
.41
.911
.450
Fischer et al. (2015)
Wirtschaftswissenschaften,
Männer
187
.49
.911
.538
Formazin et al. (2011)
Psychologie
79
.33
.772
.428
Frankenberger (2013)
Politikwissenschaft 2010–2013
56
.437
.782
.559
Freyer (2013)
Berlin, Chemie
88
.287
.911
.315
Freyer (2013)
Berlin, Lehramt
29
.320
.911
.351
Freyer (2013)
Essen, Chemie
63
.369
.911
.405
Freyer (2013)
Essen, Lehramt
31
.676
.911
.742
Freyer (2013)
München, Chemie
180
.270
.911
.296
Freyer (2013)
München, Lehramt
68
.211
.911
.232
Greiff (2006)
Verschiedene, 02/2000
298
.255
.911
.280
Greiff (2006)
Verschiedene, 05/2001
323
.338
.911
.371
Greiff (2006)
Verschiedene, 11/2000
196
.262
.911
.288
Hänsgen (2012)
Humanmedizin, Kohorte 2010
239
.49
.911
.538
Hänsgen et al. (2007)
Humanmedizin
440
.328a
.746
.440
Heene (2007)
Psychologie
66
.161b
.911
.177
Höft & Schuster (2014)
Arbeitsmarktmanagement /
Beschäftigungsorientierte
Beratung und Fallmanagement
302
.003
.759
.004
Kadmon & Kadmon (2016)
Medizin, Abiturnote 1,0
195
.433
.781
.554
Kadmon & Kadmon (2016)
Medizin, Abiturnote 2,0–2,3
94
.446
.783
.570
Kothe et al. (2013)
Zahnmedizin, WS 2006/07
47
.025b
.911
.027
Kothe et al. (2013)
Zahnmedizin, WS 2007/08
39
.153b
.911
.167
Kothe et al. (2013)
Zahnmedizin, WS 2009/10
34
.190b
.763
.249
Kothe et al. (2013)
Zahnmedizin, WS 2010/11
32
.308b
.770
.400
Krex (2008)
Ingenieurwissenschaften
94
.20
.911
.220
Kurz et al. (2014)
Bachelor Fahrzeugtechnik
42
.242
.911
.266
Kurz et al. (2014)
Bachelor Maschinenbau
49
.55
.911
.604
Kurz et al. (2014)
Diplom Fahrzeugtechnik
64
.309
.911
.339
Kurz et al. (2014)
Diplom Maschinenbau
41
.476
.911
.522
Lengenfelder et al. (2008)
Psychologie
246
.508b
.790
.643
Maaß (2008)
Produktionsmanagement, SS 2007
22
.44
.932
.472
Maaß (2008)
Produktionsmanagement, WS
2006/07
26
.23
.655
.351
Mallinger et al. (2007)
Medizin, Frauen
273
.41
.705
.582
VALIDITÄT VON STUDIERFÄHIGKEITSTESTS 17
Mallinger et al. (2007)
Medizin, Männer
325
.40
.729
.549
Müller et al. (2018)
Bauingenieurwesen
177
.58
.911
.637
Müller et al. (2018)
Biologie
116
.35
.911
.384
Müller et al. (2018)
Chemie
156
.65
.911
.713
Müller et al. (2018)
Physik
76
.66
.911
.724
Nickolaus & Abele (2009)
Anglistik
91
.49
.788
.622
Schachtschneider (2016)
Lehramt Biologie, Längsschnitt
61
.454
.911
.498
Schult (2018)
Wirtschaftswissenschaften
95
.30
.911
.329
Stegt & Bergholz (2018)
Betriebswirtschaftslehre
646
.35
.778
.450
Stegt & Bergholz (2018)
Volkswirtschaftslehre
195
.45
.804
.560
Wahl & Walenta (2017)
Betriebswirtschaft und
Wirtschaftspsychologie
267
.39
.777
.502
Werwick et al. (2018)
Humanmedizin, M1 2014–2016
319c
.31
.770
.403
Zimmerhofer (2008)
Informatik, Hauptfach
182
.345b
.911
.378
Zimmerhofer (2008)
Informatik, Nebenfach
412
.304b
.911
.333
n = Stichprobengröße, r = Korrelation zwischen Testleistung und Studiennoten, A =
Korrekturfaktor (vgl. Schmidt, Le & Oh, 2009), ρ = operative Validität (korrigiert für
Kriteriumsunreliabilität und selektionsbedingte Variabilitätseinschränkung).
a Gemittelte Korrelation; aus den berichteten, für Variabilitätseinschränkung korrigierten
Validitäten wurde die unkorrigierte Korrelation geschätzt (mit u = 0.83).
b Gemittelte Korrelation
c Werwick (persönliche Kommunikation am 8.11.2018)
Tabelle 2
Validität von fachspezifischen Studierfähigkeitstests
Korrektur
N
K
ρ
SEFE
95 %
KIFE
SERE
95 %
KIRE
I²
90 %
KRRE
Kriteriumsunreliabilität
8410
54
.390
.010
[.369,
.410]
.022
[.347,
.433]
66.77 %
[.205,
.574]
Kriteriumsunreliabilität,
Variabilitätseinschränkung
8410
54
.427
.012
[.405,
.450]
.024
[.380,
.475]
67.75 %
[.220,
.635]
N = Personen in der Gesamtstichprobe, K = Anzahl der unabhängigen Stichproben,
ρ = mittlere korrigierte Validität, SEFE = Standardfehler von ρ (Modell mit festen
Effekten), 95 % KIFE = 95 %-Konfidenzintervall um ρ (feste Effekte),
SERE = Standardfehler von ρ (Modell mit Zufallseffekten), 95 % KIRE = 95 %-
Konfidenzintervall um ρ (Zufallseffekte), I² = Anteil der Variabilität, der auf heterogene
Studien zurückzuführen ist und nicht auf den Stichprobenfehler, 90 % KRRE = 90 %-
Kredibilitätsintervall um ρ.
VALIDITÄT VON STUDIERFÄHIGKEITSTESTS 18
Abbildung 2. Der Forestplot zeigt die operativen Validitäten (Korrelationen zwischen
Testleistung und Studienerfolg, korrigiert für Kriteriumsunreliabilität und
selektionsbedingte Variabilitätseinschränkung) der eingeschlossenen Studien mit dem
jeweils dazugehörigen 95%-Konfidenzintervall.
Bergholz & Stegt (2018) Frauen
Bergholz & Stegt (2018) Männer
Buschhüter et al. (2017) Stichprobe A
Damaschke (2016)
Dlugosch (2005) 2000
Dlugosch (2005) 2001
Fischer et al. (2015) Nat.-Wiss. Frauen
Fischer et al. (2015) Nat.-Wiss. Männer
Fischer et al. (2015) Wiwi Frauen
Fischer et al. (2015) Wiwi Männer
Formazin et al. (2011)
Frankenberger (2013)
Freyer (2013) Berlin Chemie
Freyer (2013) Berlin Lehramt
Freyer (2013) Essen Chemie
Freyer (2013) Essen Lehramt
Freyer (2013) München Chemie
Freyer (2013) München Lehramt
Greiff (2006) 02/2000
Greiff (2006) 05/2001
Greiff (2006) 11/2000
Hänsgen (2012)
Hänsgen et al. (2007)
Heene (2007)
Höft & Schuster (2014)
Kadmon & Kadmon (2016) Abi 1.0
Kadmon & Kadmon (2016) Abi 2.0–2.3
Kothe et al. (2013) WS 2006/07
Kothe et al. (2013) WS 2007/08
Kothe et al. (2013) WS 2009/10
Kothe et al. (2013) WS 2010/11
Krex (2008) Ingenieurwissenschaften
Kurz et al. (2014) Bachelor Fahrzeugtechnik
Kurz et al. (2014) Bachelor Maschinenbau
Kurz et al. (2014) Diplom Fahrzeugtechnik
Kurz et al. (2014) Diplom Maschinenbau
Lengenfelder et al. (2008)
Maaß (2008) SS 2007
Maaß (2008) WS 2006/07
Mallinger et al. (2007) Frauen
Mallinger et al. (2007) Männer
Müller et al. (2018) Bauingenieurwesen
Müller et al. (2018) Biologie
Müller et al. (2018) Chemie
Müller et al. (2018) Physik
Nickolaus & Abele (2009)
Schachtschneider (2016)
Schult (2018)
Stegt & Bergholz (2018) BWL
Stegt & Bergholz (2018) VWL
Wahl & Walenta (2017)
Werwick et al. (2018)
Zimmerhofer (2008) Hauptfach
Zimmerhofer (2008) Nebenfach
Gesamt
-0.25
0
0.25
0.5
0.75
1
Effektstärke (operative Validität)
VALIDITÄT VON STUDIERFÄHIGKEITSTESTS 19
Der Funnelplot in Abbildung 3 zeigt die Verteilung der Effektstärken in Abhängigkeit des
Standardfehlers. Es gibt wenige Ausreißer, die teils nach oben und teils nach unten
abweichen. Entsprechend schätzt die trim and fill-Analyse, dass keine Stichproben auf der
linken Seite fehlen. Der signifikante Homogenitätstest (Qtotal(53) = 168.7, p < .001;
I² = 67.75 %; vgl. Tab. 3) deutet jedoch auf mögliche Moderatoreneffekte hin.
Abbildung 3. Der Funnelplot zeigt die operativen Validitäten (Korrelationen zwischen
Testleistung und Studienerfolg, korrigiert für Kriteriumsunreliabilität und
selektionsbedingte Variabilitätseinschränkung) in Abhängigkeit der dazugehörigen
Standardfehler. Bei Abwesenheit von Moderatoreffekten und publication bias würde man
erwarten, dass 95% der Effektstärken im mittleren Dreieck (gepunktete Linien) liegen.
Effektstärke (operative Validität)
Standardfehler
0.267
0.2
0.133
0.067
0
-0.2
-0
0.2
0.4
0.6
0.8
1
VALIDITÄT VON STUDIERFÄHIGKEITSTESTS 20
Tabelle 3
Q-Test für die Gesamtanalyse, für den Moderator Studienfach sowie für den Moderator
(angestrebter) Studienabschluss
Qtotal
df
p
Qbetween
df
p
Qwithin
df
p
Q-Test gesamt
168.7
53
<.001
Moderator Studienfach
22.1
8
.0047*
146.5
45
<.001*
Moderator
Studienabschluss
6.1
3
.109
162.6
50
<.001*
Die Bonferroni-Adjustierung des α-Niveaus ergibt * für α < .005.
Moderatorenanalyse
Wie schon in der Metaanalyse von Hell et al. (2007) zeigen sich erneut
Validitätsunterschiede zwischen verschiedenen Fachrichtungen (Q(8) = 22.1, p < .005, vgl.
Tab. 3). Erneut fällt die mittlere Validität in medizinischen Studiengängen höher aus als in
den Wirtschaftswissenschaften. In den Sozialwissenschaften (inkl. Psychologie) und in
den Rechtswissenschaften finden sich sogar noch höhere Validitäten, während die
Ingenieur- und die Naturwissenschaften im mittleren Bereich von .47 > ρ > .43 liegen (vgl.
Tab. 4).
4
Zwischen unterschiedlichen (angestrebten) Abschlüssen gibt es dagegen keine
signifikanten Unterschiede (vgl. Tab. 3 und 4).
Das Publikationsjahr zeigt einen positiven Zusammenhang mit den berichteten
Effektstärken (b = .008, p = .001): Neuere Studien weisen etwas höhere Validitäten auf. Je
länger der Zeitraum zwischen Test und Kriteriumserfassung ist, desto niedriger fallen
dagegen die Validitäten aus (b = –.049, p < .001). Vom ersten bis zum sechsten Semester
eines Studiums entspräche das einer Abnahme von knapp Δρ = –.25. Prognosen über einen
längeren Zeitraum sind also schwieriger zu treffen als Prognosen über einen kurzen
Zeitraum. Im Schnitt sind die Validitätskoeffizienten für rein universitäre Stichproben mit
4
Da für Anglistik (Nickolaus & Abele, 2009), Produktionsmanagement (Maaß, 2008) und Informatik
(Zimmerhofer, 2008) nur jeweils eine Primärstudie vorlag (mit maximal k = 2 Stichproben), sehen wir in
diesen Fachrichtungen von einer Interpretation ab.
VALIDITÄT VON STUDIERFÄHIGKEITSTESTS 21
ρ = .461 signifikant größer als für gemischte und für Fachhochschulstichproben (ρ = .346;
p = < .001). Außerdem werden in Zeitschriftenartikeln mit Peer-Review Validitäten
berichtet, die im Schnitt um Δρ = .093 (p < .001) höher ausfallen als in anderen
Publikationsarten. Für die übrigen Moderatorvariablen finden sich keine generalisierbaren
Effekte (vgl. Tab. 5).
Tabelle 4
Analyse der kategorialen Moderatoren Studienrichtung und (angestrebter)
Studienabschluss (Korrekturen: Kriteriumsunreliabilität, Variabilitätseinschränkung)
Studienrichtung
N
K
ρ
SEFE
95 % KIFE
Anglistik
91
1
.622
.117
[.393, .851]
Sozialwissenschaften
447
4
.510
.052
[.409, .611]
Rechtswissenschaften
733
4
.498
.049
[.402, .595]
Medizin
2109
12
.471
.025
[.423, .520]
Ingenieurwissenschaften
467
6
.465
.045
[.378, .553]
Naturwissenschaften
1243
13
.437
.027
[.383, .491]
Produktionsmanagementa
48
2
.428
.164
[.106, .749]
Wirtschaftswissenschaften
2678
10
.376
.020
[.337, .415]
Informatik
594
2
.347
.039
[.270, .424]
(angestrebter) Studienabschluss
N
K
ρ
SEFE
95 % KIFE
Bachelor
3163
24
.441
.019
[.404, .478]
Master
936
3
.457
.036
[.387, .528]
Staatsexamen
1619
14
.457
.028
[.403, .512]
Diplom
2692
13
.390
.019
[.352, .428]
N = Personen in der Gesamtstichprobe, K = Anzahl der unabhängigen Stichproben,
ρ = mittlere korrigierte Validität, SEFE = Standardfehler von ρ (Modell mit festen
Effekten), 95 % KIFE = 95 %-Konfidenzintervall um ρ (feste Effekte)
a Der Studiengang Produktionsmanagement deckt zu gleichen Teilen wirtschafts- und
ingenieurwissenschaftliche Inhalte ab (vgl. Maaß, 2008), weshalb er hier separat betrachtet
wird.
VALIDITÄT VON STUDIERFÄHIGKEITSTESTS 22
Tabelle 5
Moderatorenanalyse für kontinuierliche und dichotome (Dummy-kodierte) Variablen
K
b
SE(b)
Qbetween
(df = 1)
p
Publikationsjahr
54
.008
.003
10.7
.001*
Eine vs. mehrere Hochschulen
54
.008
.023
0.1
.724
Sonstige vs. Journalartikel mit Peer-Review
54
.093
.024
14.9
<.001*
Keine Auswahlfunktion vs.
Auswahlfunktion
54
.013
.023
0.3
.577
Einzel-/Zwischennoten vs. Abschlussnoten
54
.054
.029
3.5
.062
Jahre zwischen Testung und
Kriteriumserfassung
46
–.049
.014
12.0
<.001*
Sonstige vs. reine Universitätsstichproben
54
.115
.025
20.5
<.001*
Sonstige/Mischtests vs. reine Fähigkeitstests
54
–.059
.025
5.6
.018
Die Bonferroni-Adjustierung des α-Niveaus ergibt * für α < .005.
Inkrementelle Validität
Für 31 Stichproben aus insgesamt 13 Artikeln wurden zusätzlich Informationen zur
prognostischen Validität von HZB-Noten sowie von HZB-Noten zusammen mit
Studierfähigkeitstestleistungen berichtet (n = 3999). Für die Korrelation von HZB- und
Studiennoten ergibt sich ein metaanalytisches Mittel von ρ = .447 (korrigiert für die
Unreliabilität der Studiennoten). Für die gemeinsame Validität von HZB-Noten und
Studierfähigkeitstests bezüglich der Studiennoten beträgt das metaanalytische Mittel
ρ = .530 (ebenfalls korrigiert für Kriteriumsunreliabilität). Die Differenz der quadrierten
mittleren Validitäten ergibt als geschätzte inkrementelle Validität ΔR² = .530² –
.447² = .081. Die Leistungen im Studierfähigkeitstest klären also etwa 8 % zusätzliche
Studienerfolgsvarianz über die HZB-Noten hinaus auf. Zu beachten ist dabei, dass in den
hier untersuchten 31 Stichproben die fachspezifischen Studierfähigkeitstests eine
numerisch niedrigere Validität hatten (ρ = .365, korrigiert für Kriteriumsunreliabilität) als
die 54 Stichproben der oben berichteten Gesamtanalyse (ρ = .390, korrigiert für
VALIDITÄT VON STUDIERFÄHIGKEITSTESTS 23
Kriteriumsunreliabilität, vgl. Tab. 2), so dass die inkrementelle Validität womöglich
unterschätzt wird.
5
Diskussion
Die vorliegende Metaanalyse zeigt, dass die prädiktive Validität von fachspezifischen
Studierfähigkeitstests im deutschsprachigen Raum weiterhin gut ist und untermauert damit
die Empfehlung der Deutschen Gesellschaft für Psychologie (2018b),
studiengangspezifische Eignungstests im Rahmen von Auswahlverfahren zu verwenden.
Die zentralen Befunde der 12 Jahre zurückliegenden Metaanalyse (Hell et al., 2007) ließen
sich mit dem neuen Studienpool mit 54 Stichproben gut replizieren. Die operative
Validität (also die für selektionsbedingte Variabilitätseinschränkung und
Kriteriumsunreliabilität korrigierte Korrelation) liegt bei ρ = .427 und somit im
mittelhohen Bereich (.3 < ρ ≤ .5 nach Cohen, 1988). Validitäten in diesem Bereich finden
sich beispielsweise auch für die Studienerfolgsprognose durch deutsche Abiturnoten
(Trapmann et al., 2007) und für die Berufserfolgsprognose durch Leistungstests (vgl.
Sackett et al., 2008). Für Interviews als Auswahlverfahren für Studierende zeigen sich im
Vergleich dazu lediglich kleine Effekte (.1 < ρ ≤ .3 nach Cohen, 1988; vgl. Hell et al.,
2008).
Die inkrementelle Validität von fachspezifischen Studierfähigkeitstests konnte
anhand von 31 Stichproben untersucht werden. Nach Berücksichtigung der HZB-Note (mit
R² = .447² = 20 %) kann die Testleistung etwa 8 % Studiennotenvarianz zusätzlich
erklären. Dieser Wert liegt im erwarteten Wertekorridor und spricht dafür, dass
fachspezifische Studierfähigkeitstests einen Mehrwert über Abiturnoten hinaus bieten
können, insbesondere bei niedrigen Selektionsquoten (vgl. Hell et al., 2008). Die
5
Die (unreliabilitätskorrigierte) Validität der HZB-Noten ρ = .447 liegt in den 31 Stichproben leicht unter
dem metaanalytischen (deutschen) Mittel von ρ = .467 (k = 42, n = 45860; Trapmann et al., 2007).
VALIDITÄT VON STUDIERFÄHIGKEITSTESTS 24
gemeinsame operative Validität von Studierfähigkeitstests und HZB-Note liegt im hohen
Bereich ρ > .5 nach Cohen (1988).
Studierfähigkeitstests für sozialwissenschaftliche, juristische und medizinische
Studiengänge weisen im Schnitt die höchsten Validitäten auf. Der Studienabschnitt im
Sinne des Zeitabstands zwischen Testung und Studiennotenerhebung war ebenfalls ein
signifikanter Moderator: Je größer der Zeitabstand ist, desto kleiner fallen im Schnitt die
Validitäten aus. Dies deckt sich mit längsschnittlichen Studien (Höft & Schuster, 2014;
Kurz et al., 2014). Beim Vergleich von Testverfahren sollte somit auch der Zeitabstand
berücksichtigt werden.
Die Testung im Rahmen eines Selektionsprozesses moderierte die Validität dagegen
nicht. Auch für die Heterogenität der Stichproben in Bezug auf unterschiedliche
Hochschulen fand sich – anders als bei Hell et al. (2007) – kein signifikanter Effekt.
Stattdessen waren Tests, die an Universitäten eingesetzt wurden, im Schnitt valider als
Tests, die überwiegend an Fachhochschulen genutzt wurden. Dies kann möglicherweise
dadurch erklärt werden, dass Studiengänge an Fachhochschulen einen höheren
Praxisbezug aufweisen (vgl. Höft & Schuster, 2014) und die gängigen
Studierfähigkeitstests stark auf Fähigkeiten fokussieren, die für die stärker
forschungsorientierten Studieninhalte an Universitäten relevant sind. Bei neueren Studien
war eine leichte Validitätszunahme zu beobachten; dies könnte ein Indiz für eine
erfolgreiche Pflege und (Weiter-)Entwicklung der Testinstrumente sein. Dafür spricht
auch, dass beispielsweise die wirtschaftswissenschaftlichen Testverfahren deskriptiv
höhere Validitäten erzielen als in der Metaanalyse von Hell et al. (2007).
Besonders wichtig ist auch die Erkenntnis, dass nicht jeder fachspezifische
Studierfähigkeitstest, der nach wissenschaftlichen Kriterien entwickelt wurde, auch
automatisch eine hohe Validität hat, wie die Studie von Höft und Schuster (2014) zeigt.
VALIDITÄT VON STUDIERFÄHIGKEITSTESTS 25
Daher sollte auch weiterhin für jede konkrete (Studierenden-)Auswahl die Validität
evaluiert werden.
Wünschenswert ist an dieser Stelle zudem, dass Validitätsbefunde möglichst
vollständig und einheitlich berichtet werden. Bei der Kodierung begegneten wir in vielen
Studien sehr fragmentarisch berichteten Ergebnissen. Mal fehlten Angaben zur
Stichprobengröße und zu den Messzeitpunkten, mal wurde nur die Validität für Test und
HZB-Note gemeinsam beziffert, jedoch nicht für die Prädiktoren im Einzelnen (und auch
selten die Korrelation zwischen HZB-Note und Testleistung).
Die 2007er Metaanalyse (Hell et al., 2007) basiert auf N = 45091 Personen, während
die vorliegende Metaanalyse dagegen Daten von „nur“ N = 8410 Personen aggregiert. Die
Zahl der eingeschlossenen Studien bzw. Stichproben ist in der vorliegenden Studie
allerdings deutlich größer (K = 54 vs. K = 36). Es „fehlen“ die sehr umfangreichen
Stichproben aus medizinischen Studiengängen (z.B. n = 12496; Trost, 1998), dafür ist die
Zahl der Personen in nichtmedizinischen Studiengängen mehr als dreimal so hoch
(n = 6301 vs. n = 1873). Somit kann die vorliegende Studie insbesondere in den
nichtmedizinischen Studienfeldern zusätzliche Informationen bezüglich der Validität von
Auswahltests liefern. Die Vielfalt der Fächer, Studiendesigns und Testverfahren, die in die
vorliegende Metaanalyse einflossen, ist eine Stärke dieser Übersichtsarbeit.
Limitationen
Studiennoten sind ein zentrales Erfolgskriterium. Ihnen kommt im Zuge von Bologna
große Bedeutung zu, da nun bereits die Leistungen ab dem ersten Semester in die
Abschlussnote einfließen. Andere Kriterien wie erfolgreicher Studienabschluss,
Studienzufriedenheit und Studiendauer wurden zwar in einzelnen Studien untersucht,
können derzeit aber aufgrund der geringen Studienzahl noch nicht metaanalytisch
betrachtet werden.
VALIDITÄT VON STUDIERFÄHIGKEITSTESTS 26
Zur Bestimmung der operationalen Validität wurden die Validitätskoeffizienten wie
allgemein üblich für die Unreliabilität des Kriteriums (und auch für die selektionsbedingte
Variabilitätseinschränkung der Leistungen) korrigiert (vgl. Sackett et al., 2008). Für die
Unreliabilitätskorrektur wurde dabei für alle Studien der gleiche Reliabilitätswert r = .83
angenommen (vgl. Kuncel et al., 2001, 2004). In der Literatur finden sich sowohl höhere
(z.B. Beatty, Walmsley, Sackett, Kuncel & Koch, 2015 für US-amerikanische Noten) als
auch niedrigere Schätzwerte (z.B. Greiff, 2006 für deutsche Hochschulnoten). Da die
Korrektur in der vorliegenden Arbeit analog zur Metaanalyse von Hell et al. (2007)
durchgeführt wurde, bleiben die jeweiligen (korrigierten) Ergebnisse optimal vergleichbar.
Dass Effekte in manchen Arbeiten nur selektiv berichtet wurden, stellt eine
potenzielle Gefahr für die Generalisierbarkeit der vorliegenden Metaanalyse dar. Unter
den nicht eingeschlossenen Stichproben finden sich vereinzelt Studien mit sehr kleinen
Effekten, welche lediglich als nicht signifikant berichtet werden (z.B. Krex, 2008). Der
metaanalytische Mittelwert würde entsprechend wohl etwas geringer ausfallen, wenn diese
kleinen Stichproben zusätzlich mit eingeschlossen werden könnten. Zugleich sind unter
den nicht eingeschlossenen Studien auch Arbeiten, die zwar Validitätshinweise liefern,
jedoch abweichende Erfolgsmaße betrachten (z.B. Hissbach, Klusmann & Hampe, 2011).
Der metaanalytische Mittelwert würde entsprechend gestützt und möglicherweise sogar
etwas erhöht werden, wenn diese Validitätsbefunde mit eingeschlossen werden könnten.
Eine selektive Publikation positiver Ergebnisse ist im Sinne des publication bias denkbar
(vgl. Schwarzer et al., 2015). Die Moderatorenanalyse liefert einen Hinweis auf derartige
Verzerrungen, denn die Validitäten in Zeitschriftenartikeln mit Peer-Review fallen
signifikant höher aus als in anderen Publikationsarten. Der Funnelplot und die trim and
fill-Analyse deuten jedoch nicht auf eine systematische Überschätzung der mittleren
Validität hin.
VALIDITÄT VON STUDIERFÄHIGKEITSTESTS 27
Als Ausreißer im Funnelplot fällt der niedrige Validitätskoeffizient 𝑟̅ = .003 aus der
Studie von Höft und Schuster (2014) auf, der auf den Daten von n = 302
Bachelorstudierenden beruht. Zur Vorhersage der Bachelorabschlussnote wurden als
fachspezifischer Studierfähigkeitstest Teile eines umfassenderen kognitiven
Fähigkeitstests verwendet (Pösse & Klinck, 2007). Für die augenscheinlich abstrakteren
Subtests „Formanalogien“, „Datenvergleich“ und „Verbalanalogien“ fanden sich in der
Studie sogar erwartungswidrige Vorzeichen bei den Validitäten. Die fachbezogeneren
Subtests „Vorschriften“ und „Textrechnen“ zeigten aber immerhin signifikante positive
Zusammenhänge mit der Leistung im ersten Studientrimester. Die Ergebnisse machen
jedenfalls deutlich, dass nicht jeder Fähigkeitstest automatisch eine valide
Studienerfolgsprognose erlaubt. Entsprechend wurde das Testverfahren an der
betreffenden Hochschule zwischenzeitlich überarbeitet und durch neue Teile ergänzt, die
inhaltlich einen stärkeren Bezug zu den Studieninhalten haben (Höft & Ambiel, 2017).
Dies unterstreicht die Bedeutung von Validierungsstudien, die eine fortlaufende Pflege
und Anpassung der Auswahlinstrumente ermöglichen. In unsere Metaanalyse ging die von
Höft und Schuster (2014) berichtete Nullkorrelation selbstverständlich ein. Insgesamt
liegen also keine Hinweise auf eine systematische Unter- oder Überschätzung der
aggregierten Validität vor.
Die Studienbasis für die Schätzung der inkrementellen Testvalidität über die HZB-
Noten hinaus ist nur etwa halb so groß wie die der Gesamtanalyse. Angesichts der
numerisch niedrigeren Testvalidität in den verwendbaren Studien wäre es vorstellbar, dass
validere Tests eine noch höhere inkrementelle Validität besitzen. Andererseits wurde zur
gemeinsamen Vorhersage des Studienerfolgs durch HZB-Note und Testleistung in den
meisten Fällen die beste Linearkombination der beiden Prädiktoren verwendet. Dies führt
zu einer Überanpassung der Regressionsmodelle. Eine Kreuzvalidierung ergibt
VALIDITÄT VON STUDIERFÄHIGKEITSTESTS 28
gewöhnlich etwas niedrigere Validitäten (konkrete Berechnungen siehe Zimmerhofer,
2008).
Fazit
Fachspezifische Studierfähigkeitstests sind ein valides Instrument zur
Studierendenauswahl, das als Alternative wie auch als Ergänzung zur HZB-Note
eingesetzt werden kann. Die vorliegenden Befunde sind für Praxis und Forschung
gleichermaßen relevant. Es ergeben sich deutliche Hinweise bezüglich der guten
prädiktiven Validität von Studierfähigkeitstests in verschiedenen Fachbereichen. Die
Vorhersage von Studienerfolg in Masterstudiengängen ist ein vielversprechender
Schwerpunkt für zukünftige Forschung, da es hierzu bislang nur wenige Studien gibt und
mit den Bachelornoten ein weiterer interessanter Prädiktor existiert (Troche, Mosimann &
Rammsayer, 2014). Perspektivisch gilt es zudem, Validitätsuntersuchungen auf weitere
Erfolgskriterien (wie z.B. Studiendauer, -zufriedenheit, -abschluss) auszuweiten. Studien
zur Testfairness (vgl. Bergholz & Stegt, 2018; Fischer, Schult & Hell, 2013) sollten den
Einsatz von Auswahltests begleiten.
Fachspezifische Studierfähigkeitstests sind jedoch keine Selbstläufer. Ihre
Konstruktion ist aufwändig. Bei der Entwicklung wie auch bei der fortlaufenden Pflege
müssen inhaltliche, organisatorische, rechtliche und nicht zuletzt psychometrische Aspekte
berücksichtigt werden. Daher sollten fachspezifische Studierfähigkeitstests stets mit Hilfe
psychologischer Expertinnen und Experten und unter Berücksichtigung von
wissenschaftlichen Standards der Testentwicklung (DIN 33430, ITC) entwickelt werden.
Aus ökonomischen Gründen wie auch zur besseren Vergleichbarkeit der Ergebnisse
empfehlen sich hochschulübergreifende Lösungen. So lassen sich Zulassungsverfahren
entwickeln, die prospektiven Studierenden und auswählenden Hochschulen einen
validitätsbezogenen Mehrwert bieten.
VALIDITÄT VON STUDIERFÄHIGKEITSTESTS 29
Literatur
Arendasy, M., Sommer, M. & Feldhammer‐Kahr, M. (2016). MedAT:
Kurzzusammenfassung 2013–2016. Graz: Universität Graz.
Beatty, A. S., Walmsley, P. T., Sackett, P. R., Kuncel, N. R. & Koch, A. J. (2015). The
reliability of college grades. Educational Measurement: Issues and Practice, 34(4),
31–40. doi:10.1111/emip.12096
*Bergholz, L. & Stegt, S. J. (2018). Validität und Fairness eines Studierfähigkeitstests für
Rechtswissenschaften. Zeitschrift für Hochschulentwicklung, 13(4), 57–97.
Bundesverfassungsgericht [BVerfG] (2018). Urteil des Ersten Senats vom 19. Dezember
2017 – 1 BvL 3/14 – Rn. (1 – 253). Zugriff am 7.11.2018. Verfügbar unter
http://www.bverfg.de/e/ls20171219_1bvl000314.html
*Buschhüter, D., Spoden, C. & Borowski, A. (2017). Studienerfolg im Physikstudium:
Inkrementelle Validität physikalischen Fachwissens und physikalischer Kompetenz.
Zeitschrift für Didaktik der Naturwissenschaften, 23(1), 127–141.
doi:10.1007/s40573-017-0062-7
Cohen, J. (1988). Statistical power analysis for the behavioral sciences (2. Aufl.).
Hillsdale, NJ: Erlbaum.
*Damaschke, M. (2016). Qualitätssicherung der Studierendenauswahl: Test für
Medizinische Studiengänge (TMS) aus Sicht von Studienbewerbern, Studierenden und
Absolventen des Studienganges Humanmedizin. Unveröffentlichte Dissertation,
Ruprecht-Karls-Universität Heidelberg.
Deidesheimer Kreis (1997). Hochschulzulassung und Studieneignungstests. Göttingen:
Vandenhoek und Ruprecht.
Deutsche Gesellschaft für Psychologie (2018a). Aktuelle Mitteilungen, 14(52).
Deutsche Gesellschaft für Psychologie (2018b). Erfolgreich im Studium? DGPs für
studiengangspezifische Eignungstests (Pressemitteilung 03.09.2018). Zugriff am
VALIDITÄT VON STUDIERFÄHIGKEITSTESTS 30
15.11.2018. Verfügbar unter https://www.dgps.de/uploads/media/DGPs-
Presseinformation_03-09-2018.pdf
*Dlugosch, S. (2005). Prognose von Studienerfolg: dargestellt am Beispiel des
Auswahlverfahrens der Bucerius Law School. Herzogenrath: Shaker
Duval, S. J. (2005). The trim and fill method. In: H. R. Rothstein, A. J. Sutton & M.
Borenstein (Hrsg.), Publication bias in meta-analysis: Prevention, assessment, and
adjustments (S. 127–144). Chichester: Wiley
*Fischer, F., Schult, J. & Hell, B. (2015). Unterschätzung der Studienleistungen von
Frauen durch Studierfähigkeitstests: Erklärbar durch Persönlichkeitseigenschaften?
Diagnostica, 61, 34–46. doi:10.1026/0012-1924/a000120
Fischer, F. T., Schult, J. & Hell, B. (2013). Sex-specific differential prediction of college
admission tests: A meta-analysis. Journal of Educational Psychology, 105, 478–488.
doi:10.1037/a0031956
*Formazin, M., Schroeders, U., Köller, O., Wilhelm, O. & Westmeyer, H. (2011).
Studierendenauswahl im Fach Psychologie. Psychologische Rundschau, 62, 221–236.
doi:10.1026/0033-3042/a000093
*Frankenberger, R. (2013). Kritische Übergänge: Theoretische Überlegungen und
empirische Befunde zur Frage der Studierfähigkeit. Tübinger Beiträge zur
Hochschuldidaktik, 9(3).
*Freyer, K. (2013). Zum Einfluss von Studieneingangsvoraussetzungen auf den
Studienerfolg Erstsemesterstudierender im Fach Chemie. Berlin: Logos.
*Greiff, S. (2006). Prädiktoren des Studienerfolgs. Duisburg: WiKu-Verlag
*Hänsgen, K.-D. (2012) EMS als Self Assessment ungeeignet? Zu den Ergebnissen des
Eignungstests für das Medizinstudium (EMS) in Genf 2010–2012. Freiburg, Schweiz:
Zentrum für Testentwicklung und Diagnostik.
VALIDITÄT VON STUDIERFÄHIGKEITSTESTS 31
*Hänsgen, K.-D., Eggli, P. & Wechsler, K. (2007). Numerus clausus und Eignungstest –
das richtige Konzept? (Vortrag). Vortrag Journee de reflexion FMH, Bern,
07.12.2007. Zugriff am 8.11.2018. Verfügbar unter
https://www3.unifr.ch/ztd/ems/doc/emseval07.pdf
*Heene, M. (2007). Konstruktion und Evaluation eines Studierendenauswahlverfahrens
für Psychologie an der Universität Heidelberg. Unveröffentlichte Dissertation,
Ruprecht-Karls-Universität Heidelberg.
Hell, B., Trapmann, S. & Schuler, H. (2007). Eine Metaanalyse der Validität von
fachspezifischen Studierfähigkeitstests im deutschsprachigen Raum. Empirische
Pädagogik, 21, 251–270.
Hell, B., Trapmann, S. & Schuler, H. (2008). Synopse der Hohenheimer Metaanalysen zur
Prognostizierbarkeit des Studienerfolgs und Implikationen für die Auswahl- und
Beratungspraxis. In H. Schuler & B. Hell (Hrsg.), Studierendenauswahl und
Studienentscheidung (S. 43–54). Göttingen: Hogrefe.
Hissbach, J. C., Klusmann, D. & Hampe, W. (2011). Dimensionality and predictive
validity of the HAM-Nat, a test of natural sciences for medical school admission.
BMC Medical Education, 11, 83. doi:10.1186/1472-6920-11-83
Höft, S. & Ambiel, D. (2017, September). Studienerfolg an der Hochschule der BA:
Vorhersagequalität unterschiedlicher Prädiktoren im Kohortenvergleich.
Posterpräsentation auf der 14. Arbeitstagung der Fachgruppe Differentielle
Psychologie, Persönlichkeitspsychologie und Psychologische Diagnostik (DPPD) in
München.
*Höft, S. & Schuster, G. (2014). Vorhersage des Studienerfolgs an der Hochschule der
Bundesagentur für Arbeit auf Grundlage der Studieneingangskriterien „Schulnote“
und „Fachspezifischer Studierfähigkeitstest“. In P. Guggemos, M. Müller & M.
Rübner (Hrsg.), Herausforderungen und Erfolgsfaktoren beschäftigungsorientierter
VALIDITÄT VON STUDIERFÄHIGKEITSTESTS 32
Beratung. Beiträge aus der Beratungsforschung (S. 210–237). Landau: Verlag
Empirische Pädagogik.
Hunter, J. E. & Schmidt, F. L. (2004). Methods of meta-analysis: Correcting error and
bias in research findings (2nd ed.). Thousand Oaks, CA: Sage.
Janke, S. & Dickhäuser, O. (2018). Zur prognostischen Güte von Zulassungskriterien im
Psychologiestudium für Studienerfolgsindikatoren. Psychologische Rundschau, 69,
160–168. doi:10.1026/0033-3042/a000383
*Kadmon, G. & Kadmon, M. (2016). Studienleistung von Studierenden mit den besten
versus mittelmäßigen Abiturnoten: Gleicht der Test für Medizinische Studiengänge
(TMS) ihre Prognosen aus? GMS Journal for Medical Education, 33(1), Doc7.
doi:10.3205/zma001006
*Kothe, C., Hissbach, J. & Hampe, W. (2013). Das Hamburger Auswahlverfahren in der
Zahnmedizin-Einführung des HAM-Nat als fachspezifischer Studierfähigkeitstest.
GMS Journal for Medical Education, 30(4), Doc46. doi:10.3205/zma000889
*Krex, L. (2008). Studienerfolgsprognose in der Bundeswehr-Evaluation vorhandener und
zukünftiger Prädiktoren. Unveröffentlichte Dissertation, Rheinische Friedrich-
Wilhelms-Universität zu Bonn.
Kuncel, N. R., Hezlett, S. A. & Ones, D. S. (2001). A comprehensive metaanalysis of the
predictive validity of the graduate record examinations: Implications for graduate
student selection and performance. Psychological Bulletin, 127, 162–181.
doi:10.1037//0033-2909.127.1.162
Kuncel, N. R., Hezlett, S. A. & Ones, D. S. (2004). Academic performance, career
potential, creativity, and job performance: Can one construct predict them all? Journal
of Personality and Social Psychology, 86, 148–161. doi:10.1037/0022-3514.86.1.148
*Kurz, G., Metzger, G. & Linsner, M. (2014). Studienerfolg und seine Prognose: eine
Fallstudie in Ingenieurstudiengängen der Hochschule für Angewandte Wissenschaften
VALIDITÄT VON STUDIERFÄHIGKEITSTESTS 33
Esslingen. In M. Rentschler & G. Metzger (Hrsg.), Perspektiven angewandter
Hochschuldidaktik: Studien und Erfahrungsberichte (S. 13–79). Aachen: Shaker.
*Lengenfelder, P., Baumann, U., Allesch, C. & Nuerk, H.-C. (2008). Studierendenauswahl
an der Universität Salzburg: Konzeption und Validität. In H. Schuler & B. Hell
(Hrsg.), Studierendenauswahl und Studienentscheidung (S. 192–203). Göttingen:
Hogrefe.
Lotz, C. & Sparfeldt, J. R. (2017). Does test anxiety increase as the exam draws near?
Students’ state test anxiety recorded over the course of one semester. Personality and
Individual Differences, 104, 397–400. doi:10.1016/j.paid.2016.08.032
*Maaß, S. (2008). Inhaltliche Aspekte des Fachspezifischen Studierfähigkeitstests. In M.
Rentschler & H.-P. Voss (Hrsg.), Studieneignung und Studierendenauswahl –
Untersuchungen und Erfahrungsberichte (S. 71–93). Aachen: Shaker
*Mallinger, R., Holzbaur, C., Dierich, M., Heidegger, M., Hänsgen, K.-D. & Spicher, B.
(2007). EMS: Eignungstest für das Medizinstudium in Österreich. Freiburg, Schweiz:
Zentrum für Testentwicklung und Diagnostik.
Moher, D., Liberati, A., Tetzlaff, J. & Altman, D. G. (2009). Preferred reporting items for
systematic reviews and meta-analyses: The PRISMA statement. PLoS Med, 6(7):
e1000097. doi:10.1371/journal.pmed1000097
Moosbrugger, H., Jonkisz, E. & Fucks, S. (2006). Studierendenauswahl durch die
Hochschulen: Ansätze zur Prognostizierbarkeit des Studienerfolgs am Beispiel des
Studiengangs Psychologie. Report Psychologie, 3, 114–123.
*Müller, J., Stender, A., Fleischer, J., Borowski, A., Dammann, E., Lang, M. & Fischer, H.
E. (2018). Mathematisches Wissen von Studienanfängern und Studienerfolg.
Zeitschrift für Didaktik der Naturwissenschaften, 24, 183–199. doi:10.1007/s40573-
018-0082-y
VALIDITÄT VON STUDIERFÄHIGKEITSTESTS 34
*Nickolaus, R. & Abele, S. (2009). Chancen und Grenzen eines differenzierteren Ansatzes
zur Hochschulbewerberauswahl. Das Hochschulwesen, 57(3), 81–88.
Pösse, B. & Klinck, D. (2007). Testserie für Abiturienten und Hochschüler (MOT) im
Rahmen des Auswahlverfahrens für die Studiengänge an der Hochschule für
Bundesagentur für Arbeit. Information Nr. 66 des Psychologischen Dienstes.
Nürnberg: Bundesagentur für Arbeit.
R Core Team (2018). R: A language and environment for statistical computing. Wien: R
Foundation for Statistical Computing. Zugriff am 11.1.2019. Verfügbar unter
https://www.R-project.org
Sackett, P. R., Borneman, M. J. & Connelly, B. S. (2008). High stakes testing in higher
education and employment: appraising the evidence for validity and fairness.
American Psychologist, 63(4), 215–227. doi:10.1037/0003-066X.63.4.215
*Schachtschneider, Y. (2016). Studieneingangsvoraussetzungen und Studienerfolg im
Fach Biologie. Berlin: Logos.
Schmidt, F. L., Le, H. & Oh, I.-S. (2009). Correcting for the distorting effects of study
artifacts in meta-analysis. In H. Cooper & L. V. Hedges (Hrsg.), The handbook of
research synthesis (2nd ed., S. 317–333). New York: Russell Sage Foundation.
Schmidt, F. L., Oh, I.-S. & Hayes, T. L. (2009). Fixed- versus random-effects models in
meta-analysis: Model properties and an empirical comparison of differences in results.
British Journal of Mathematical and Statistical Psychology, 62, 91–128.
doi:10.1348/000711007X255327
Schuler, H. & Schult, J. (2018). Prädiktoren von Studien- und Berufserfolg. In D. H. Rost,
J. R. Sparfeldt & S. R. Buch (Hrsg.), Handwörterbuch Pädagogische Psychologie (5.
Aufl., S. 645–653). Weinheim: Beltz.
*Schult, J. (2018). Bereit für Bologna? Test- und notenbasierte Erfolgsprognose im
Masterstudium. Zugriff am 12.11.2018. Verfügbar unter https://osf.io/k9bg5
VALIDITÄT VON STUDIERFÄHIGKEITSTESTS 35
Schult, J., Fischer, F. T. & Hell, B. (2016). Tests of scholastic aptitude cover reasoning
facets sufficiently. European Journal of Psychological Assessment, 32, 215–219.
doi:10.1027/1015-5759/a000247
Schwarzer, G., Carpenter, J. R. & Rücker, G. (2015). Meta-analysis with R. Cham:
Springer. doi:10.1007/978-3-319-21416-0
Schwibbe, A., Lackamp, J., Knorr, M., Hissbach, J., Kadmon, M. & Hampe, W. (2018).
Medizinstudierendenauswahl in Deutschland. Bundesgesundheitsblatt –
Gesundheitsforschung – Gesundheitsschutz, 61, 178–186. doi:10.1007/s00103-017-
2670-2
*Stegt, S. J. & Bergholz, L. (2018). Vorhersage des Studienerfolgs in konsekutiven
Masterstudiengängen mithilfe eines kognitiven Eignungstests. Hochschulmanagement,
13(4), 101–107.
Stemler, S. E. (2012). What should university admissions tests predict? Educational
Psychologist, 47, 5–17. doi:10.1080/00461520.2011.611444
Trapmann, S., Hell, B., Weigand, S. & Schuler, H. (2007). Die Validität von Schulnoten
zur Vorhersage des Studienerfolgs – eine Metaanalyse. Zeitschrift für Pädagogische
Psychologie, 21, 11–27. doi:10.1024/1010-0652.21.1.11
Troche, S., Mosimann, M. & Rammsayer, T. (2014). Die Vorhersage des Studienerfolgs
im Masterstudiengang Psychologie durch Schul- und Bachelorstudienleistungen.
Beiträge zur Hochschulforschung, 36(1), 30–45.
Trost, G. (Hrsg.) (1998). Evaluation des Tests für medizinische Studiengänge (TMS):
Synopse der Ergebnisse. Bonn: Institut für Test- und Begabungsforschung.
Viechtbauer, W. (2010). Conducting meta-analyses in R with the metafor package.
Journal of Statistical Software, 36(3), 1–48. Zugriff am 11.1.2019. Verfügbar unter
http://www.jstatsoft.org/v36/i03/
VALIDITÄT VON STUDIERFÄHIGKEITSTESTS 36
Viechtbauer, W. (2019). Hunter and Schmidt method. Zugriff am 1.2.2019
http://www.metafor-project.org/doku.php/tips:hunter_schmidt_method
*Wahl, I. & Walenta, C. (2017). Evaluierung des Aufnahmeverfahrens eines
Fernstudiengangs anhand des Studienerfolges: Vorhersage des Studienerfolges durch
studienbezogene Lerntests, Englischtests, objektive Leistungsmotivationstests,
Intelligenztests und Eignungsinterviews. Zeitschrift für Evaluation, 16(1), 73–96.
*Werwick, K., Winkler-Stuck, K. & Robra, B. P. (2018). From HAM-Nat to the
“Physikum” – Analysis of the study success parameters before and after the
introduction of a science test in the approval procedure. GMS Journal for Medical
Education, 35(3), Doc30. doi:10.3205/zma001176
Winkel, O. (2010). Higher education reform in Germany: How the aims of the Bologna
process can be simultaneously supported and missed. International Journal of
Educational Management, 24, 303–313. doi:10.1108/09513541011045245
*Zimmerhofer, A. (2008). Studienberatung im deutschen Hochschulsystem auf der Basis
psychologischer Tests: Studienfachprofile, Vorhersagevalidität und Akzeptanz.
Unveröffentlichte Dissertation, Rheinisch-Westfälische Technische Hochschule
Aachen.
Die mit einem Stern versehenen Literatureinträge bezeichnen die Studien, die in die
Metaanalyse aufgenommen wurden.