ArticlePDF Available

Leisten fachspezifische Studierfähigkeitstests im deutschsprachigen Raum eine valide Studienerfolgsprognose? Ein metaanalytisches Update

Authors:
  • Institute for Educational Analysis Baden-Württemberg
  • ITB Consulting GmbH
  • ITB Consulting GmbH

Abstract

Fachspezifische Studierfähigkeitstests werden in mehreren zulassungsbeschränkten Studiengängen als Auswahlinstrument eingesetzt. Eine Metaanalyse von Hell, Trapmann und Schuler (2007) ermittelte eine hohe prognostische Validität solcher Tests. Seitdem hat es allerdings umfassende Veränderungen des Bildungssystems (z.B. Bologna-Prozess, Änderungen der Schulsysteme) sowie eine stete Weiterentwicklung der Testverfahren gegeben. Zur Klärung der Frage, ob fachspezifische Studierfähigkeitstests nach wie vor eine gute Erfolgsprognose liefern, schreibt die vorliegende Arbeit die Metaanalyse von Hell et al. (2007) fort. Die prognostische Validität im deutschsprachigen Raum ist stabil geblieben (ρ = .427, K = 54 Stichproben, N = 8410 Personen). Es fanden sich höhere Validitäten bei neueren Studien, Zeitschriftenartikeln mit Peer-Review, universitären Stichproben sowie bei kürzerem Abstand zwischen Test und Studiennotenerfassung. Zudem zeigten sich Fachunterschiede bezüglich der prognostischen Validität beispielsweise zugunsten von Sozialwissenschaften (ρ = .510). Die Studierfähigkeitstests besitzen außerdem eine inkrementelle Validität über die Abiturnote hinaus (ΔR2 = .081, k = 31, n = 3999). Die Befunde sprechen dafür, dass die Testverfahren einen hilfreichen Beitrag zur erfolgreichen Studierendenauswahl liefern (als Alternative oder Ergänzung zur Abiturnote).
Running Head: VALIDITÄT VON STUDIERFÄHIGKEITSTESTS
Leisten fachspezifische Studierfähigkeitstests im deutschsprachigen Raum eine valide
Studienerfolgsprognose? Ein metaanalytisches Update
Johannes Schult*
Institut für Bildungsanalysen Baden-Württemberg, Stuttgart
Arvid Hofmann und Stephan J. Stegt
ITB Consulting, Bonn
Diese Artikelfassung entspricht nicht vollständig dem in der Zeitschrift für
Entwicklungspsychologie und Pädagogische Psychologie veröffentlichten Artikel unter
doi:10.1026/0049-8637/a000204. Dies ist nicht die Originalversion des Artikels und kann
daher nicht zur Zitierung herangezogen werden. Bitte verbreiten oder zitieren Sie diesen
Artikel nicht ohne Zustimmung des Autors.
*Korrespondierender Autor: Dr. Johannes Schult, Institut für Bildungsanalysen Baden-
Württemberg, Heilbronner Straße 172, D-70191 Stuttgart, Telefon: 0711 6642-3102, Fax:
0711 6642-3098, E-Mail: jutze@jutze.com
Autorenhinweis zu möglichen Interessenkonflikten: Arvid Hofmann und Dr. Stephan J.
Stegt sind Human Resources Consultant bzw. Gesellschafter der Firma ITB Consulting,
welche mehrere der in der Metaanalyse betrachteten Tests entwickelt hat.
VALIDITÄT VON STUDIERFÄHIGKEITSTESTS 2
Zusammenfassung
Fachspezifische Studierfähigkeitstests werden in mehreren zulassungsbeschränkten
Studiengängen als Auswahlinstrument eingesetzt. Eine Metaanalyse von Hell, Trapmann
und Schuler (2007) ermittelte eine hohe prognostische Validität solcher Tests. Seitdem hat
es allerdings umfassende Veränderungen des Bildungssystems (z.B. Bologna-Prozess,
Änderungen der Schulsysteme) sowie eine stete Weiterentwicklung der Testverfahren
gegeben. Zur Klärung der Frage, ob fachspezifische Studierfähigkeitstests nach wie vor
eine gute Erfolgsprognose liefern, schreibt die vorliegende Arbeit die Metaanalyse von
Hell et al. (2007) fort. Die prognostische Validität im deutschsprachigen Raum ist stabil
geblieben (ρ = .427, K = 54 Stichproben, N = 8410 Personen). Es fanden sich höhere
Validitäten bei neueren Studien, Zeitschriftenartikeln mit Peer-Review, universitären
Stichproben sowie bei kürzerem Abstand zwischen Test und Studiennotenerfassung.
Zudem zeigten sich Fachunterschiede bezüglich der prognostischen Validität
beispielsweise zugunsten von Sozialwissenschaften (ρ = .510). Die Studierfähigkeitstests
besitzen außerdem eine inkrementelle Validität über die Abiturnote hinaus (ΔR² = .081,
k = 31, n = 3999). Die Befunde sprechen dafür, dass die Testverfahren einen hilfreichen
Beitrag zur erfolgreichen Studierendenauswahl liefern (als Alternative oder Ergänzung zur
Abiturnote).
Schlüsselwörter: Studierfähigkeitstest, Validität, Studierendenauswahl, Studienerfolg,
Prognose
VALIDITÄT VON STUDIERFÄHIGKEITSTESTS 3
Do subject-specific admission tests in German-speaking countries provide a valid
prediction of academic performance? A meta-analytic update
Abstract
Subject-specific college admission tests are used for student selection in fields with
restricted admission. A meta-analysis by Hell, Trapmann and Schuler (2007) found a high
predictive validity of such tests. Since then, there have been various changes in the
educational system (e.g., the Bologna process, changes in schooling) and an ongoing
development of testing procedures. The present study continues the meta-analysis of Hell
et al. (2007) in order to find out whether subject-specific college admission tests still
provide a good prediction of educational success. The predictive validity remained stable
in German-speaking countries (ρ = .427, K = 54 samples, N = 8410 persons). Validities
were higher in newer studies, peer-reviewed journal articles, university samples, and
studies with a shorter time between testing and assessment of college grades. Furthermore,
the predictive validity differed between fields of study, for example in favour of the social
sciences (ρ = .510). College admission tests also have incremental validity over and above
high school grades (ΔR² = .081, k = 31, n = 3999). These findings support the notion that
the admission tests contribute to an effectual student selection (as an alternative or
additionally to high school grades).
Keywords: admission test, validity, student selection, academic performance, prediction
VALIDITÄT VON STUDIERFÄHIGKEITSTESTS 4
Leisten fachspezifische Studierfähigkeitstests im deutschsprachigen Raum eine valide
Studienerfolgsprognose? Ein metaanalytisches Update
Gibt es mehr Bewerbungen als zu vergebende Studienplätze, braucht es sinnvolle
Verfahren, um nach festgelegten Kriterien die am besten geeigneten Bewerberinnen und
Bewerber zum Studium zuzulassen. Die Note der Hochschulzugangsberechtigung (HZB)
dient häufig als wichtiges, oft auch einziges Kriterium bei der Studienplatzvergabe im
Sinne der Bestenauslese. Schulnoten sind valide Prädiktoren des Studienerfolgs
(Trapmann, Hell, Weigand & Schuler, 2007), obgleich sie eigentlich keine prospektive
Diagnose darstellen (Schuler & Schult, 2018). Problematisch ist, dass die HZB-Noten aus
verschiedenen (Bundes-) Ländern nur bedingt vergleichbar sind. In diesem Sinne
entschied das Bundesverfassungsgericht (BVerfG), dass Hochschulen Studienplätze im
Falle einer bundesweiten Zulassungsbeschränkung „nicht allein und auch nicht ganz
überwiegend nach dem Kriterium der Abiturnoten“ vergeben dürfen (BVerfG, 2017,
Abs. 209). Fachspezifische Studierfähigkeitstests stellen ein wichtiges ergänzendes bzw.
alternatives Auswahlinstrument dar. Einen ersten Überblick über die prognostische
Validität solcher Testverfahren bietet die Metaanalyse von Hell, Trapmann und Schuler
(2007), die die Forschungslage von 1980 bis 2005 zusammenfasst. Mit der vorliegenden
Metaanalyse überprüfen wir, wie sich die Validität von fachspezifischen
Studierfähigkeitstests im Zuge der nachfolgenden Veränderungen der Bildungslandschaft
(z.B. Bologna-Prozess) entwickelt hat.
Begriffsklärung und Definition
Die Begriffe „fachspezifischer Studierfähigkeitstest“, „studienfachspezifischer
Fähigkeitstest“ oder „studienfeldbezogener Test“ werden weitgehend synonym verwendet.
Wir definieren den Begriff „fachspezifischer Studierfähigkeitstest“ in Anlehnung an den
Deidesheimer Kreis (1997) wie folgt: Ein fachspezifischer Studierfähigkeitstest ist ein Test
VALIDITÄT VON STUDIERFÄHIGKEITSTESTS 5
zur Messung derjenigen Fähigkeiten und Fertigkeiten, die zur Bewältigung der
Anforderungen eines bestimmten Studiengangs besonders wichtig sind. Ein
fachspezifischer Studierfähigkeitstest wird für einen einzelnen Studiengang entwickelt
oder für eine Gruppe von Studiengängen mit ähnlichen Anforderungen. Der Schwerpunkt
liegt auf der Messung kognitiver Fähigkeiten. Einstellungen, Interessen, Motive oder
allgemeine Persönlichkeitseigenschaften werden nicht direkt erfasst.
Ein fachspezifischer Studierfähigkeitstest beinhaltet komplexe fachbezogene
Problemlöseaufgaben. Mit diesen Problemlöseaufgaben „wird eine Simulation typischer
Lern- und sonstiger Anforderungssituationen der betreffenden Studiengänge angestrebt“
(Deidesheimer Kreis, 1997, S. 109). Sie werden häufig kombiniert mit Aufgaben zur
Messung allgemeiner kognitiver Fähigkeiten, wie sie in Intelligenztests zum Einsatz
kommen. In einem fachspezifischen Studierfähigkeitstest im engeren Sinne werden keine
Kenntnisse abgefragt.
Daneben gibt es Verfahren, die in Veröffentlichungen ebenfalls als fachspezifische
Studierfähigkeitstests bezeichnet werden, die aber andere bzw. zusätzliche
Aufgabenformate beinhalten, beispielsweise die Abfrage von Kenntnissen, das Schreiben
eines Essays oder die Abfrage von Inhalten des ersten Studienjahres in einer Klausur, auf
die man sich vor dem Test mit Lehrbüchern vorbereiten muss. Diese Verfahren haben wir
als „Sonstige/Mischtests“ in die Metaanalyse aufgenommen.
Eine erweiterte Definition, die über die des Deidesheimer Kreises hinausgeht und
u.a. auch die Mischtests umfasst, könnte wie folgt lauten: Ein fachspezifischer
Studierfähigkeitstest misst kognitive Fähigkeiten und Fertigkeiten, die für akademischen
Erfolg in einem spezifischen Studiengang oder Studienfeld besonders wichtig sind. Er
beinhaltet fachspezifische komplexe Problemlöseaufgaben, die mit weiteren Elementen
wie fachunspezifischen Problemlöseaufgaben oder Kenntnisabfragen kombiniert werden
können.
VALIDITÄT VON STUDIERFÄHIGKEITSTESTS 6
Da allgemeine Studierfähigkeitstests gemäß dem Hochschulrahmengesetz in
Deutschland nicht für die Studierendenauswahl eingesetzt werden dürfen, stehen in der
Forschungsliteratur und somit auch in der vorliegenden Metaanalyse fachspezifische
Studierfähigkeitstests im Fokus.
1
Konstruktionsprinzipien und Qualitätsstandards
Die Konstruktion eines fachspezifischen Studierfähigkeitstests sollte auf einer Analyse der
Anforderungen basieren, die das jeweilige Studium an die Studierenden stellt (vgl.
Moosbrugger, Jonkisz & Fucks, 2006). Diese Anforderungsanalyse kann beispielsweise in
Form von Workshops mit Hochschulmitarbeitenden erfolgen oder durch die
Berücksichtigung einschlägiger Studien. Vor der Implementierung des Tests sollte eine
empirische Erprobung der Aufgaben mit Personen der Zielgruppe stattfinden, um
Indikatoren der Testgüte zu ermitteln und den Test anhand der Gütekriterien zu
optimieren, beispielsweise durch die Anpassung des Schwierigkeitsniveaus.
Messeigenschaften wie die Reliabilität sowie Zusammenhänge mit relevanten
Außenkriterien sollten kontinuierlich ermittelt werden. Soweit irgend möglich, sollte die
Prognosekraft des Tests bezüglich des Studienerfolgs empirisch überprüft werden.
Konstruktion und Evaluation sollten von psychologischem Fachpersonal mit
eignungsdiagnostischer Expertise vorgenommen oder zumindest begleitet werden, unter
Berücksichtigung nationaler und internationaler Standards der Testentwicklung (z.B. DIN
33430, Richtlinien der International Test Commission [ITC]).
1
Allgemeine Fähigkeitstests werden lediglich zu Forschungs- und Beratungszwecken eingesetzt, wobei der
Zusatznutzen über fachspezifische Tests hinaus fraglich ist (Schult, Fischer & Hell, 2016).
VALIDITÄT VON STUDIERFÄHIGKEITSTESTS 7
Studierfähigkeitstests im Auswahlprozess und in der Forschung
Die Metaanalyse von Hell et al. (2007) fasst die Validitätsbefunde für den
deutschsprachigen Raum von 1980 bis 2005 zusammen. Basierend auf neun Studien mit
K = 36 Stichproben (N = 45091 Personen) betrug die mittlere (ungewichtete) Korrelation
zwischen Testleistung und Studiennoten r = .321. Das gewichtete metaanalytische Mittel
betrug nach der Korrektur der Kriteriumsunreliabilität ρ = .436 und nach zusätzlicher
Korrektur für selektionsbedingte Variabilitätseinschränkung ρ = .478. Fachspezifische
Studierfähigkeitstests waren zu Beginn des Bologna-Prozesses somit valide Prädiktoren
des Studienerfolgs. In der Metaanalyse fanden sich weiterhin Studienfachunterschiede
(von ρ = .325 für Wirtschaftswissenschaften bis zu ρ = .507 für Humanmedizin),
uneinheitliche Studienabschnittsunterschiede sowie höhere Validitäten für Untersuchungen
von hochschulübergreifenden Stichproben. Für die inkrementelle Validität von
Studierfähigkeitstests über die HZB-Note wurde basierend auf den metaanalytischen
Befunden ein Wertekorridor zwischen 6.6 % und 10.2 % geschätzt (abhängig von der
Prädiktor-Interkorrelation; Hell, Trapmann & Schuler, 2008).
Das Interesse an (deutschsprachigen) Studierfähigkeitstests hat seither nicht
abgenommen; standardisierte Testverfahren haben eher noch an Bedeutung gewonnen.
Aktuell nutzt beispielsweise die deutliche Mehrheit der Medizinfakultäten staatlicher
Hochschulen in Deutschland Studierfähigkeitstests zur Studierendenauswahl (Schwibbe et
al., 2018). Bei der Zulassung zum Psychologie-Studium können in allen Bundesländern
Auswahltests berücksichtigt werden (Janke & Dickhäuser, 2018). Darüber hinaus kommen
in anderen Fachrichtungen ebenfalls gezielt Studierfähigkeitstests zum Einsatz, wenn die
Nachfrage die Zahl der verfügbaren Studienplätze überschreitet. Auch in Österreich und
der Schweiz muss zur Wahrung der Studienqualität die Zulassung in Fächern wie
beispielsweise Medizin beschränkt werden; dabei werden fachspezifische
VALIDITÄT VON STUDIERFÄHIGKEITSTESTS 8
Studierfähigkeitstests als Auswahlinstrument eingesetzt (Arendasy, Sommer &
Feldhammer-Kahr, 2016; Hänsgen, 2012).
Die Konzeption und Pflege von Studierfähigkeitstests ist eine fortlaufende Aufgabe
und Herausforderung. Bei Auswahltests müssen stetig neue Aufgaben entwickelt werden,
damit das Testmaterial nicht einfach auswendig gelernt werden kann.
Studienanforderungen können sich im Laufe der Zeit ändern, was ebenfalls eine
Anpassung der Testinhalte notwendig macht. Die Validität fachspezifischer
Studierfähigkeitstests muss also kontinuierlich überprüft werden. Entsprechend gab es in
den Jahren seit der ersten Metaanalyse (Hell et al., 2007) nicht weniger, sondern mehr
Untersuchungen sowohl zu neuen Testverfahren, als auch zu etablierten
Auswahlinstrumenten wie dem Test für Medizinische Studiengänge (TMS). Zu beachten
ist dabei, dass in den letzten zwölf Jahren auch vermehrt Studien durchgeführt wurden, bei
denen die prädiktive Validität von Studierfähigkeitstests untersucht wurde, ohne dass das
Testergebnis für die Zulassung relevant war (z.B. Hänsgen, 2012). Ein Vorteil davon ist,
dass die Prognose auch für Studierende mit schlechten Testergebnissen untersucht werden
kann, ohne dass man auf Korrekturen für Einschränkungen der Variabilität zurückgreifen
muss. Ein Nachteil dieser Studien ist jedoch, dass die Testsituation eine andere ist. Denn in
Auswahlverfahren hängt die persönliche Zukunft vom Abschneiden im Test ab. Die
Bewerberinnen und Bewerber bemühen sich, die bestmögliche Leistung zu erbringen. Die
Testbearbeitung erfolgt vermutlich konzentrierter, aber auch unter größerer Anspannung.
Probeklausuren erzeugen beispielsweise weniger Leistungsängstlichkeit als vergleichbare
benotete Prüfungen (Lotz & Sparfeldt, 2017). Inzwischen liegen hinreichend viele Studien
vor, dass ein metaanalytischer Vergleich der unterschiedlichen Testsituationen stattfinden
kann.
Studierende begegnen den Tests heute vermutlich besser informiert und vorbereitet
als früher. Denn die Tests sind weiter verbreitet und es gibt zahlreiche online verfügbare
VALIDITÄT VON STUDIERFÄHIGKEITSTESTS 9
Informationen zu den Tests sowie Vorbereitungsmöglichkeiten. Wie etwaige
Übungseffekte die prognostische Validität dabei verändern, ist noch unklar. Studien aus
den Vereinigten Staaten, in denen um Studierfähigkeitstests eine regelrechte
Vorbereitungsindustrie entstanden ist, deuten jedoch nicht auf gravierende
Validitätsschwankungen hin (vgl. Sackett, Borneman & Connelly, 2008). Auch auf Seiten
der Testentwicklung und -durchführung gab es in den letzten Jahren Veränderungen. Die
Testverfahren wurden stetig weiterentwickelt, so dass inzwischen auch jenseits der
Medizin großflächig und fortlaufend Studierfähigkeitstests eingesetzt werden (vgl. Hell et
al., 2007).
Studienerfolgskriterien
Die prädiktive Validität von Auswahlverfahren hängt davon ab, welche
Studienerfolgskriterien betrachtet werden. In der Testevaluationsforschung wie auch für
die Studierenden selbst sind Noten (nicht nur wegen ihrer einfach erfassbaren numerischen
Form) von zentraler Bedeutung. Im Zuge des Bologna-Prozesses findet nun eine
Kreditierung jedes Leistungsmoduls statt und Prüfungen aus allen Semestern fließen in die
Endnote ein (vgl. Winkel, 2010). Studiennoten hängen dabei positiv mit anderen
Erfolgskriterien wie Studienabschluss, Studiendauer, Studienzufriedenheit und
anschließenden Berufschancen zusammen (vgl. Stemler, 2012). Auch wenn es Hinweise
gibt, dass Studierfähigkeitstests diese Kriterien vorhersagen können (insbesondere
Studienabschluss, vgl. Kurz, Metzger & Linsner, 2014), reicht die Studienzahl bislang
nicht für eine umfängliche metaanalytische Aggregation. Zudem gibt es methodische
Herausforderungen bei der Erfassung des Kriteriums Abschluss bzw. Abbruch. Im
Studienverlauf kann zwischen (weiterhin) immatrikulierten und exmatrikulierten Personen
unterschieden werden (z.B. Nickolaus & Abele, 2009). Unter den Exmatrikulierten
befinden sich allerdings auch Hochschulwechsler, die ihr Studium an einem anderen Ort
fortsetzen. Um Personen dahingehend zu unterscheiden, ob sie ihr Studium mit oder ohne
VALIDITÄT VON STUDIERFÄHIGKEITSTESTS 10
Abschluss beenden, braucht es langen Atem (vgl. Kurz et al., 2014). Teilweise wird
deshalb auch das Kriterium „Abschluss in Regelstudienzeit“ betrachtet (z.B. Kadmon &
Kadmon, 2016). Gerade bei vorselegierten Stichproben sind die Abbruchquoten außerdem
eher niedrig. Eine zuverlässige Studienabschlussprognose ist dann nur mit großen
Kohorten möglich. Hier besteht sicherlich Forschungsbedarf für zukünftige Großprojekte
(vgl. Deutsche Gesellschaft für Psychologie, 2018a, S. 45).
Ziele und Fragestellungen
Ziel der vorliegenden Metaanalyse ist die Fortschreibung der Arbeit von Hell et al. (2007)
anhand von Validitätsstudien, die zwischenzeitlich durchgeführt wurden. Wir erwarten
eine weitgehende Replikation der Befunde, also mittelstarke bis starke Zusammenhänge
zwischen Testleistungen und Studienleistungen mit Korrelationen zwischen r = .3 und
r = .5. Als potenzielle Moderatoren wurden von Hell et al. (2007) (1) das Publikationsjahr,
(2) die Heterogenität der Stichprobe in Bezug auf unterschiedliche Hochschulen, (3) die
Art der Publikation (Zeitschriftenartikel mit Peer-Review vs. Sonstige), (4) die
Erhebungsbedingung (Selektionsfunktion vs. keine Selektionsfunktion) sowie (5) das
Studienfach bzw. die Fachrichtung übernommen. Während Hell et al. (2007) den
Studienabschnitt als Moderator untersuchten, testeten wir (6) die (angestrebte)
Abschlussart, (7) die Zeit zwischen Testung und Kriteriumserfassung sowie (8) den
Vergleich von Einzel-/Zwischennoten mit Abschlussnoten als Moderatoren. Außerdem
wurde untersucht, ob es Unterschiede bezüglich (9) der Hochschulart (reine
Universitätsstichproben vs. andere) sowie (10) der Testart (reine Fähigkeitstests vs.
Sonstige/Mischtests) gibt. Zusätzlich erfolgte zur Bestimmung der inkrementellen
Validität fachspezifischer Studierfähigkeitstests eine Gegenüberstellung der
metaanalytischen Validität von Abiturnoten alleine und von Abiturnoten und
Testergebnissen zusammen.
VALIDITÄT VON STUDIERFÄHIGKEITSTESTS 11
Methode
Literatursuche
Ziel der verwendeten Suchstrategie war es, alle aktuellen Studien zur prädiktiven Validität
fachspezifischer Studierfähigkeitstests im deutschsprachigen Raum zu identifizieren.
Einschlusskriterien waren entsprechend a) die Verwendung eines fachspezifischen
Fähigkeitstests, b) ein längsschnittliches Untersuchungsdesign, c) (mindestens) eine
berichtete Korrelation der Testleistung mit dem Erfolgskriterium Studiennoten, d)
Publikation seit 2005, e) Testzeitpunkt nach 1990
2
sowie f) Studierendenstichproben von
Hochschulen in Deutschland, Österreich oder der Schweiz. Der Zeitraum wurde gewählt,
um eine nahtlose Fortschreibung der Metaanalyse von Hell et al. (2007) zu ermöglichen.
Zugleich wurden Studien bzw. Stichproben ausgeschlossen, die bereits bei Hell et al.
(2007) eingeschlossen wurden, damit die Ergebnisse der damaligen und der vorliegenden
neuen Metaanalyse unabhängig voneinander betrachtet und verglichen werden können.
Zuerst wurden die Datenbanken PsycINFO und PSYNDEX durchsucht (65 Treffer;
Stand: 2. Dezember 2018). Dabei wurde die folgende Suchanfrage verwendet für Treffer
ab 2005: Studierfähigkeitstest* OR ((Eignungstest* AND Studium)) OR (((Leistungstest*
OR Testleistung*) AND Studierendenauswahl*)) OR (((Leistungstest* OR Testleistung*)
AND (Studienfeldspezifisch* OR Studienfachspezifisch*))) OR
Studierendenauswahlverfahren OR Studieneingangstest OR ((EMS AND "Eignungstest
für das Medizinstudium")) OR ((TMS AND "Test für Medizinische Studiengänge")) OR
((Fachspezifisch* AND Eignungstest*)) OR ((Auswahlverfahren AND (Studium OR
Studienerfolg))) OR Studienerfolgsprognose. Weiterhin wurden die Studien gesichtet, die
laut Google Scholar die Metaanalyse von Hell et al. (2007) zitieren (76 Treffer, Stand: 2.
2
Wie schon Hell et al. (2007) beschränken wir uns auf „neuere“ Studien, um Verzerrungen durch historische
Unterschiede bei der Testkonstruktion, bei den Studiengängen und bei der Studierendenpopulation zu
vermeiden.
VALIDITÄT VON STUDIERFÄHIGKEITSTESTS 12
Dezember 2018). Da es sich bei der Metaanalyse von Hell et al. (2007) um die vermutlich
einschlägigste Arbeit zum Thema handelt, hielten wir die explizite Betrachtung der
zitierenden Arbeiten für sinnvoll, zumal so auch weitere „graue“ Literatur wie
Dissertationen und technische Berichte ermittelt werden konnte. Über die Sichtung von
Referenzen einschlägiger Artikel sowie thematisch verwandter Arbeiten wurde
anschließend weiter nach passenden Studien gesucht. Nach Sichtung der Suchergebnisse
wurden 46 Studien kodiert, von denen 28 letztlich in die Metaanalyse eingeschlossen
werden konnten. Das Flussdiagramm in Abbildung 1 zeigt die verschiedenen Phasen der
Literaturrecherche.
Abbildung 1. PRISMA-Flussdiagramm für die verschiedenen Phasen der systematischen
Metaanalyse (vgl. Moher, Liberati, Tetzlaff & Altman, 2009) * = Mehrfachnennungen
möglich
VALIDITÄT VON STUDIERFÄHIGKEITSTESTS 13
Kodierung
Die ausgewählten Studien wurden von den ersten beiden Autoren mithilfe eines
Kodierschemas unabhängig voneinander kodiert. Dabei lagen die Werte der
Intraklassenkorrelationskoeffizienten bei mindestens intervallskalierten Variablen im
Bereich von 0.92 bis 1 und die Werte für Cohens к für die kategorialen Variablen im
Bereich von 0.48
3
und 1. Uneinheitliche Kodierungen wurden vom dritten Autor gesichtet
und geklärt. Wurden Validitäten für mehrere Kriterien berichtet, wurde die zeitlich
späteste Studienleistung gewählt. Bei unklaren oder gleichzeitigen Zeitpunkten der
Erfolgsdiagnose wurden die Validitätskoeffizienten nach Fishers z-Transformation
gemittelt. Lagen Validitäten für überlappende Teilstichproben vor, wurde die Korrelation
aus der größten Stichprobe gewählt.
Analyseplan
Die Metaanalyse wurde in R 3.5.2 (R Core Team, 2018) mit dem Paket metafor 2.0-0
(Viechtbauer, 2010) gerechnet nach der Strategie von Hunter und Schmidt (2004; vgl.
Viechtbauer, 2019). Für die Metaanalyse werden Modelle mit festen Effekten (fixed
effects, FE) und mit Zufallseffekten (random effects, RE) berichtet (vgl. Schmidt, Oh &
Hayes, 2009). Die Moderatorenanalysen basieren analog zu Hell et al. (2007) auf FE-
Modellen. Die Datenmatrix und die Auswertungssyntax stehen online unter
https://osf.io/n6dmx/.
Zur Schätzung der operativen Validität wurde die Metaanalyse mit den für die
Variabilitätseinschränkung durch Selektionseffekte (restriction of range) und für
Kriteriumsunreliabilität korrigierten Korrelationskoeffizienten durchgeführt (vgl. Schmidt,
Le & Oh, 2009). Die Variabilitätseinschränkung durch Selektionseffekte betrug für
3
Bei der Variable „Wie setzt sich die Stichprobe bezüglich des akademischen Rahmens zusammen?“ (z.B.
„eine Hochschule, mehrere Jahrgänge“, in der Analyse später dichotomisiert zu „eine/mehrere
Hochschulen“) mit к = 0.48 wurde die Kodieranweisung von den Beurteilern unterschiedlich aufgefasst. Die
übrigen Variablen zeigen ein Cohens к von mindestens 0.66.
VALIDITÄT VON STUDIERFÄHIGKEITSTESTS 14
Studien, in denen der Test Auswahlfunktion hatte, zwischen u = 0.68 und u = 1.03
(M = 0.83, SD = 0.14, k = 13). Dabei entspricht u dem Verhältnis der Standardabweichung
der Testleistungen der ausgewählten Studierenden zur Standardabweichung der
Testleistungen aller Bewerberinnen und Bewerber (Schmidt, Le & Oh, 2009). Wenn in
einem Bewerbungsverfahren die Testleistungen aller Teilnehmenden mit SD = 1 streuen
und in der dann ausgewählten Stichprobe (in der die schwächsten Testleistungen
systematisch fehlen) die Testleistungen nur noch mit SD = 0.8 streuen, ergibt sich u =
0.8/1 = 0.8. Für diejenigen Studien zu Tests mit Auswahlfunktion, bei denen die
Variabilitätseinschränkung nicht bestimmt werden konnte, verwendeten wir als Schätzung
das gewichtete Mittel u = 0.83. Im Vergleich dazu kamen Hell et al. (2007) auf u = 0.889.
Für Studien zu Tests ohne Auswahlfunktion fand keine Korrektur für Selektionseffekte
statt (u = 1), was sich auch mit den empirischen Befunden deckt, die keine
Variabilitätseinschränkung enthalten (z.B. Schult, 2018). Als Schätzung für die Reliabilität
der Studiennoten wurde zur optimalen Vergleichbarkeit wie bei Hell et al. (2007) der
Reliabilitätswert r = .83 verwendet (vgl. Kuncel et al., 2001, 2004).
Zusammen mit dem Funnelplot betrachteten wir die trim and fill-Analyse, um
abzuschätzen, wie weit ein möglicher publication bias die Validitätsschätzung verzerrt
(Duval, 2005). Als allgemeiner Test auf Heterogenität wurde die Q-Statistik betrachtet
(vgl. Schwarzer, Carpenter & Rücker, 2015). Die zehn Moderatoren wurden mithilfe von
Q-Statistiken für die Prüfung auf erklärte Varianz und auf verbleibende Restvarianz
untersucht. Als Signifikanzniveau wurde α = .05 gewählt, wobei in der
Moderatorenanalyse durch die Bonferroni-Korrektur für multiple Tests das
Vergleichsniveau α = .05/10 = .005 beträgt.
Zuletzt wurde, soweit in den Originalstudien verfügbar, noch die prognostische
Validität der HZB-Noten sowie die Validität der Kombination aus Studierfähigkeitstests
und HZB-Noten geschätzt, um die inkrementelle Validität der Testleistungen über die
VALIDITÄT VON STUDIERFÄHIGKEITSTESTS 15
HZB-Noten hinaus zu untersuchen. Dabei wurde nur die Korrektur für
Kriteriumsunreliabilität durchgeführt, weil insbesondere für die HZB-Test-Kombination
belastbare Daten zur selektionsbedingten Variabilitätseinschränkung fehlen. Die
inkrementelle Validität wird häufig als Zuwachs an erklärter Kriteriumsvarianz berichtet.
Sie wurde in der vorliegenden Arbeit entsprechend berechnet als ΔR² = ρ²HZB+Test ρ²HZB.
Ergebnisse
Im Rahmen der Literaturrecherche konnten 28 Studien identifiziert werden, die die
Einschlusskriterien erfüllten (vgl. Tab. 1). K = 54 Stichproben mit N = 8410 Personen
flossen in die vorliegende Metaanalyse ein. Ohne Korrekturen beträgt der gewichtete
mittlere Effekt r = .355. Die Validitätskoeffizienten reichen dabei von r = .003 bis r = .676
(SD = .141). Nach der Korrektur für die Unreliabilität des Kriteriums Studiennoten liegt
das metaanalytische Mittel bei ρ = .390. Die Metaanalyse der operativen Validität
(korrigiert für Kriteriumsunreliabilität und selektionsbedingte Variabilitätseinschränkung)
beträgt schließlich ρ = .427 (vgl. den Forestplot in Abb. 2 sowie Tab. 2). Sowohl das
95 %-Konfidenz- als auch das 90 %-Kredibilitätsintervall liegen jeweils deutlich über
Null. Somit kann eine positive Validität für die fachspezifischen Studierfähigkeitstests
generalisiert werden.
Tabelle 1
Übersicht über die eingeschlossenen Stichproben
Quelle
Stichprobe
n
r
A
ρ
Bergholz & Stegt (2018)
Jura, Frauen
201
.33
.640
.516
Bergholz & Stegt (2018)
Jura, Männer
378
.33
.668
.494
Buschhüter et al. (2017)
Physik, Stichprobe A
106
.44
.911
.483
Damaschke (2016)
Medizin
72
.298
.769
.387
Dlugosch (2005)
Jura, Studienjahr 2000
63
.53
.683
.776
Dlugosch (2005)
Jura, Studienjahr 2001
91
.18
.657
.274
Fischer et al. (2015)
Naturwissenschaften, Frauen
129
.26
.911
.285
VALIDITÄT VON STUDIERFÄHIGKEITSTESTS 16
Fischer et al. (2015)
Naturwissenschaften, Männer
140
.38
.911
.417
Fischer et al. (2015)
Wirtschaftswissenschaften, Frauen
169
.41
.911
.450
Fischer et al. (2015)
Wirtschaftswissenschaften,
Männer
187
.49
.911
.538
Formazin et al. (2011)
Psychologie
79
.33
.772
.428
Frankenberger (2013)
Politikwissenschaft 20102013
56
.437
.782
.559
Freyer (2013)
Berlin, Chemie
88
.287
.911
.315
Freyer (2013)
Berlin, Lehramt
29
.320
.911
.351
Freyer (2013)
Essen, Chemie
63
.369
.911
.405
Freyer (2013)
Essen, Lehramt
31
.676
.911
.742
Freyer (2013)
München, Chemie
180
.270
.911
.296
Freyer (2013)
München, Lehramt
68
.211
.911
.232
Greiff (2006)
Verschiedene, 02/2000
298
.255
.911
.280
Greiff (2006)
Verschiedene, 05/2001
323
.338
.911
.371
Greiff (2006)
Verschiedene, 11/2000
196
.262
.911
.288
Hänsgen (2012)
Humanmedizin, Kohorte 2010
239
.49
.911
.538
Hänsgen et al. (2007)
Humanmedizin
440
.328a
.746
.440
Heene (2007)
Psychologie
66
.161b
.911
.177
Höft & Schuster (2014)
Arbeitsmarktmanagement /
Beschäftigungsorientierte
Beratung und Fallmanagement
302
.003
.759
.004
Kadmon & Kadmon (2016)
Medizin, Abiturnote 1,0
195
.433
.781
.554
Kadmon & Kadmon (2016)
Medizin, Abiturnote 2,02,3
94
.446
.783
.570
Kothe et al. (2013)
Zahnmedizin, WS 2006/07
47
.025b
.911
.027
Kothe et al. (2013)
Zahnmedizin, WS 2007/08
39
.153b
.911
.167
Kothe et al. (2013)
Zahnmedizin, WS 2009/10
34
.190b
.763
.249
Kothe et al. (2013)
Zahnmedizin, WS 2010/11
32
.308b
.770
.400
Krex (2008)
Ingenieurwissenschaften
94
.20
.911
.220
Kurz et al. (2014)
Bachelor Fahrzeugtechnik
42
.242
.911
.266
Kurz et al. (2014)
Bachelor Maschinenbau
49
.55
.911
.604
Kurz et al. (2014)
Diplom Fahrzeugtechnik
64
.309
.911
.339
Kurz et al. (2014)
Diplom Maschinenbau
41
.476
.911
.522
Lengenfelder et al. (2008)
Psychologie
246
.508b
.790
.643
Maaß (2008)
Produktionsmanagement, SS 2007
22
.44
.932
.472
Maaß (2008)
Produktionsmanagement, WS
2006/07
26
.23
.655
.351
Mallinger et al. (2007)
Medizin, Frauen
273
.41
.705
.582
VALIDITÄT VON STUDIERFÄHIGKEITSTESTS 17
Mallinger et al. (2007)
Medizin, Männer
325
.40
.729
.549
Müller et al. (2018)
Bauingenieurwesen
177
.58
.911
.637
Müller et al. (2018)
Biologie
116
.35
.911
.384
Müller et al. (2018)
Chemie
156
.65
.911
.713
Müller et al. (2018)
Physik
76
.66
.911
.724
Nickolaus & Abele (2009)
Anglistik
91
.49
.788
.622
Schachtschneider (2016)
Lehramt Biologie, Längsschnitt
61
.454
.911
.498
Schult (2018)
Wirtschaftswissenschaften
95
.30
.911
.329
Stegt & Bergholz (2018)
Betriebswirtschaftslehre
646
.35
.778
.450
Stegt & Bergholz (2018)
Volkswirtschaftslehre
195
.45
.804
.560
Wahl & Walenta (2017)
Betriebswirtschaft und
Wirtschaftspsychologie
267
.39
.777
.502
Werwick et al. (2018)
Humanmedizin, M1 20142016
319c
.31
.770
.403
Zimmerhofer (2008)
Informatik, Hauptfach
182
.345b
.911
.378
Zimmerhofer (2008)
Informatik, Nebenfach
412
.304b
.911
.333
n = Stichprobengröße, r = Korrelation zwischen Testleistung und Studiennoten, A =
Korrekturfaktor (vgl. Schmidt, Le & Oh, 2009), ρ = operative Validität (korrigiert für
Kriteriumsunreliabilität und selektionsbedingte Variabilitätseinschränkung).
a Gemittelte Korrelation; aus den berichteten, für Variabilitätseinschränkung korrigierten
Validitäten wurde die unkorrigierte Korrelation geschätzt (mit u = 0.83).
b Gemittelte Korrelation
c Werwick (persönliche Kommunikation am 8.11.2018)
Tabelle 2
Validität von fachspezifischen Studierfähigkeitstests
Korrektur
N
K
ρ
SEFE
95 %
KIFE
SERE
95 %
KIRE
I²
90 %
KRRE
Kriteriumsunreliabilität
8410
54
.390
.010
[.369,
.410]
.022
[.347,
.433]
66.77 %
[.205,
.574]
Kriteriumsunreliabilität,
Variabilitätseinschränkung
8410
54
.427
.012
[.405,
.450]
.024
[.380,
.475]
67.75 %
[.220,
.635]
N = Personen in der Gesamtstichprobe, K = Anzahl der unabhängigen Stichproben,
ρ = mittlere korrigierte Validität, SEFE = Standardfehler von ρ (Modell mit festen
Effekten), 95 % KIFE = 95 %-Konfidenzintervall um ρ (feste Effekte),
SERE = Standardfehler von ρ (Modell mit Zufallseffekten), 95 % KIRE = 95 %-
Konfidenzintervall um ρ (Zufallseffekte), I² = Anteil der Variabilität, der auf heterogene
Studien zurückzuführen ist und nicht auf den Stichprobenfehler, 90 % KRRE = 90 %-
Kredibilitätsintervall um ρ.
VALIDITÄT VON STUDIERFÄHIGKEITSTESTS 18
Abbildung 2. Der Forestplot zeigt die operativen Validitäten (Korrelationen zwischen
Testleistung und Studienerfolg, korrigiert für Kriteriumsunreliabilität und
selektionsbedingte Variabilitätseinschränkung) der eingeschlossenen Studien mit dem
jeweils dazugehörigen 95%-Konfidenzintervall.
Bergholz & Stegt (2018) Frauen
Bergholz & Stegt (2018) Männer
Buschhüter et al. (2017) Stichprobe A
Damaschke (2016)
Dlugosch (2005) 2000
Dlugosch (2005) 2001
Fischer et al. (2015) Nat.-Wiss. Frauen
Fischer et al. (2015) Nat.-Wiss. Männer
Fischer et al. (2015) Wiwi Frauen
Fischer et al. (2015) Wiwi Männer
Formazin et al. (2011)
Frankenberger (2013)
Freyer (2013) Berlin Chemie
Freyer (2013) Berlin Lehramt
Freyer (2013) Essen Chemie
Freyer (2013) Essen Lehramt
Freyer (2013) München Chemie
Freyer (2013) München Lehramt
Greiff (2006) 02/2000
Greiff (2006) 05/2001
Greiff (2006) 11/2000
Hänsgen (2012)
Hänsgen et al. (2007)
Heene (2007)
Höft & Schuster (2014)
Kadmon & Kadmon (2016) Abi 1.0
Kadmon & Kadmon (2016) Abi 2.02.3
Kothe et al. (2013) WS 2006/07
Kothe et al. (2013) WS 2007/08
Kothe et al. (2013) WS 2009/10
Kothe et al. (2013) WS 2010/11
Krex (2008) Ingenieurwissenschaften
Kurz et al. (2014) Bachelor Fahrzeugtechnik
Kurz et al. (2014) Bachelor Maschinenbau
Kurz et al. (2014) Diplom Fahrzeugtechnik
Kurz et al. (2014) Diplom Maschinenbau
Lengenfelder et al. (2008)
Maaß (2008) SS 2007
Maaß (2008) WS 2006/07
Mallinger et al. (2007) Frauen
Mallinger et al. (2007) Männer
Müller et al. (2018) Bauingenieurwesen
Müller et al. (2018) Biologie
Müller et al. (2018) Chemie
Müller et al. (2018) Physik
Nickolaus & Abele (2009)
Schachtschneider (2016)
Schult (2018)
Stegt & Bergholz (2018) BWL
Stegt & Bergholz (2018) VWL
Wahl & Walenta (2017)
Werwick et al. (2018)
Zimmerhofer (2008) Hauptfach
Zimmerhofer (2008) Nebenfach
Gesamt
-0.25
0
0.25
0.5
0.75
1
Effektstärke (operative Validität)
VALIDITÄT VON STUDIERFÄHIGKEITSTESTS 19
Der Funnelplot in Abbildung 3 zeigt die Verteilung der Effektstärken in Abhängigkeit des
Standardfehlers. Es gibt wenige Ausreißer, die teils nach oben und teils nach unten
abweichen. Entsprechend schätzt die trim and fill-Analyse, dass keine Stichproben auf der
linken Seite fehlen. Der signifikante Homogenitätstest (Qtotal(53) = 168.7, p < .001;
I² = 67.75 %; vgl. Tab. 3) deutet jedoch auf mögliche Moderatoreneffekte hin.
Abbildung 3. Der Funnelplot zeigt die operativen Validitäten (Korrelationen zwischen
Testleistung und Studienerfolg, korrigiert für Kriteriumsunreliabilität und
selektionsbedingte Variabilitätseinschränkung) in Abhängigkeit der dazugehörigen
Standardfehler. Bei Abwesenheit von Moderatoreffekten und publication bias würde man
erwarten, dass 95% der Effektstärken im mittleren Dreieck (gepunktete Linien) liegen.
Effektstärke (operative Validität)
Standardfehler
0.267
0.2
0.133
0.067
0
-0.2
-0
0.2
0.4
0.6
0.8
1
VALIDITÄT VON STUDIERFÄHIGKEITSTESTS 20
Tabelle 3
Q-Test für die Gesamtanalyse, für den Moderator Studienfach sowie für den Moderator
(angestrebter) Studienabschluss
Qtotal
df
p
Qbetween
df
p
Qwithin
df
p
Q-Test gesamt
168.7
53
<.001
Moderator Studienfach
22.1
8
.0047*
146.5
45
<.001*
Moderator
Studienabschluss
6.1
3
.109
162.6
50
<.001*
Die Bonferroni-Adjustierung des α-Niveaus ergibt * für α < .005.
Moderatorenanalyse
Wie schon in der Metaanalyse von Hell et al. (2007) zeigen sich erneut
Validitätsunterschiede zwischen verschiedenen Fachrichtungen (Q(8) = 22.1, p < .005, vgl.
Tab. 3). Erneut fällt die mittlere Validität in medizinischen Studiengängen höher aus als in
den Wirtschaftswissenschaften. In den Sozialwissenschaften (inkl. Psychologie) und in
den Rechtswissenschaften finden sich sogar noch höhere Validitäten, während die
Ingenieur- und die Naturwissenschaften im mittleren Bereich von .47 > ρ > .43 liegen (vgl.
Tab. 4).
4
Zwischen unterschiedlichen (angestrebten) Abschlüssen gibt es dagegen keine
signifikanten Unterschiede (vgl. Tab. 3 und 4).
Das Publikationsjahr zeigt einen positiven Zusammenhang mit den berichteten
Effektstärken (b = .008, p = .001): Neuere Studien weisen etwas höhere Validitäten auf. Je
länger der Zeitraum zwischen Test und Kriteriumserfassung ist, desto niedriger fallen
dagegen die Validitäten aus (b = .049, p < .001). Vom ersten bis zum sechsten Semester
eines Studiums entspräche das einer Abnahme von knapp Δρ = .25. Prognosen über einen
längeren Zeitraum sind also schwieriger zu treffen als Prognosen über einen kurzen
Zeitraum. Im Schnitt sind die Validitätskoeffizienten für rein universitäre Stichproben mit
4
Da für Anglistik (Nickolaus & Abele, 2009), Produktionsmanagement (Maaß, 2008) und Informatik
(Zimmerhofer, 2008) nur jeweils eine Primärstudie vorlag (mit maximal k = 2 Stichproben), sehen wir in
diesen Fachrichtungen von einer Interpretation ab.
VALIDITÄT VON STUDIERFÄHIGKEITSTESTS 21
ρ = .461 signifikant größer als für gemischte und für Fachhochschulstichproben (ρ = .346;
p = < .001). Außerdem werden in Zeitschriftenartikeln mit Peer-Review Validitäten
berichtet, die im Schnitt um Δρ = .093 (p < .001) höher ausfallen als in anderen
Publikationsarten. Für die übrigen Moderatorvariablen finden sich keine generalisierbaren
Effekte (vgl. Tab. 5).
Tabelle 4
Analyse der kategorialen Moderatoren Studienrichtung und (angestrebter)
Studienabschluss (Korrekturen: Kriteriumsunreliabilität, Variabilitätseinschränkung)
Studienrichtung
N
K
ρ
SEFE
95 % KIFE
Anglistik
91
1
.622
.117
[.393, .851]
Sozialwissenschaften
447
4
.510
.052
[.409, .611]
Rechtswissenschaften
733
4
.498
.049
[.402, .595]
Medizin
2109
12
.471
.025
[.423, .520]
Ingenieurwissenschaften
467
6
.465
.045
[.378, .553]
Naturwissenschaften
1243
13
.437
.027
[.383, .491]
Produktionsmanagementa
48
2
.428
.164
[.106, .749]
Wirtschaftswissenschaften
2678
10
.376
.020
[.337, .415]
Informatik
594
2
.347
.039
[.270, .424]
(angestrebter) Studienabschluss
N
K
ρ
SEFE
95 % KIFE
Bachelor
3163
24
.441
.019
[.404, .478]
Master
936
3
.457
.036
[.387, .528]
Staatsexamen
1619
14
.457
.028
[.403, .512]
Diplom
2692
13
.390
.019
[.352, .428]
N = Personen in der Gesamtstichprobe, K = Anzahl der unabhängigen Stichproben,
ρ = mittlere korrigierte Validität, SEFE = Standardfehler von ρ (Modell mit festen
Effekten), 95 % KIFE = 95 %-Konfidenzintervall um ρ (feste Effekte)
a Der Studiengang Produktionsmanagement deckt zu gleichen Teilen wirtschafts- und
ingenieurwissenschaftliche Inhalte ab (vgl. Maaß, 2008), weshalb er hier separat betrachtet
wird.
VALIDITÄT VON STUDIERFÄHIGKEITSTESTS 22
Tabelle 5
Moderatorenanalyse für kontinuierliche und dichotome (Dummy-kodierte) Variablen
K
b
SE(b)
Qbetween
(df = 1)
p
Publikationsjahr
54
.008
.003
10.7
.001*
Eine vs. mehrere Hochschulen
54
.008
.023
0.1
.724
Sonstige vs. Journalartikel mit Peer-Review
54
.093
.024
14.9
<.001*
Keine Auswahlfunktion vs.
Auswahlfunktion
54
.013
.023
0.3
.577
Einzel-/Zwischennoten vs. Abschlussnoten
54
.054
.029
3.5
.062
Jahre zwischen Testung und
Kriteriumserfassung
46
.049
.014
12.0
<.001*
Sonstige vs. reine Universitätsstichproben
54
.115
.025
20.5
<.001*
Sonstige/Mischtests vs. reine Fähigkeitstests
54
.059
.025
5.6
.018
Die Bonferroni-Adjustierung des α-Niveaus ergibt * für α < .005.
Inkrementelle Validität
Für 31 Stichproben aus insgesamt 13 Artikeln wurden zusätzlich Informationen zur
prognostischen Validität von HZB-Noten sowie von HZB-Noten zusammen mit
Studierfähigkeitstestleistungen berichtet (n = 3999). Für die Korrelation von HZB- und
Studiennoten ergibt sich ein metaanalytisches Mittel von ρ = .447 (korrigiert für die
Unreliabilität der Studiennoten). Für die gemeinsame Validität von HZB-Noten und
Studierfähigkeitstests bezüglich der Studiennoten beträgt das metaanalytische Mittel
ρ = .530 (ebenfalls korrigiert für Kriteriumsunreliabilität). Die Differenz der quadrierten
mittleren Validitäten ergibt als geschätzte inkrementelle Validität ΔR² = .530²
.447² = .081. Die Leistungen im Studierfähigkeitstest klären also etwa 8 % zusätzliche
Studienerfolgsvarianz über die HZB-Noten hinaus auf. Zu beachten ist dabei, dass in den
hier untersuchten 31 Stichproben die fachspezifischen Studierfähigkeitstests eine
numerisch niedrigere Validität hatten (ρ = .365, korrigiert für Kriteriumsunreliabilität) als
die 54 Stichproben der oben berichteten Gesamtanalyse = .390, korrigiert für
VALIDITÄT VON STUDIERFÄHIGKEITSTESTS 23
Kriteriumsunreliabilität, vgl. Tab. 2), so dass die inkrementelle Validität womöglich
unterschätzt wird.
5
Diskussion
Die vorliegende Metaanalyse zeigt, dass die prädiktive Validität von fachspezifischen
Studierfähigkeitstests im deutschsprachigen Raum weiterhin gut ist und untermauert damit
die Empfehlung der Deutschen Gesellschaft für Psychologie (2018b),
studiengangspezifische Eignungstests im Rahmen von Auswahlverfahren zu verwenden.
Die zentralen Befunde der 12 Jahre zurückliegenden Metaanalyse (Hell et al., 2007) ließen
sich mit dem neuen Studienpool mit 54 Stichproben gut replizieren. Die operative
Validität (also die für selektionsbedingte Variabilitätseinschränkung und
Kriteriumsunreliabilität korrigierte Korrelation) liegt bei ρ = .427 und somit im
mittelhohen Bereich (.3 < ρ .5 nach Cohen, 1988). Validitäten in diesem Bereich finden
sich beispielsweise auch für die Studienerfolgsprognose durch deutsche Abiturnoten
(Trapmann et al., 2007) und für die Berufserfolgsprognose durch Leistungstests (vgl.
Sackett et al., 2008). Für Interviews als Auswahlverfahren für Studierende zeigen sich im
Vergleich dazu lediglich kleine Effekte (.1 < ρ .3 nach Cohen, 1988; vgl. Hell et al.,
2008).
Die inkrementelle Validität von fachspezifischen Studierfähigkeitstests konnte
anhand von 31 Stichproben untersucht werden. Nach Berücksichtigung der HZB-Note (mit
R² = .447² = 20 %) kann die Testleistung etwa 8 % Studiennotenvarianz zusätzlich
erklären. Dieser Wert liegt im erwarteten Wertekorridor und spricht dafür, dass
fachspezifische Studierfähigkeitstests einen Mehrwert über Abiturnoten hinaus bieten
können, insbesondere bei niedrigen Selektionsquoten (vgl. Hell et al., 2008). Die
5
Die (unreliabilitätskorrigierte) Validität der HZB-Noten ρ = .447 liegt in den 31 Stichproben leicht unter
dem metaanalytischen (deutschen) Mittel von ρ = .467 (k = 42, n = 45860; Trapmann et al., 2007).
VALIDITÄT VON STUDIERFÄHIGKEITSTESTS 24
gemeinsame operative Validität von Studierfähigkeitstests und HZB-Note liegt im hohen
Bereich ρ > .5 nach Cohen (1988).
Studierfähigkeitstests für sozialwissenschaftliche, juristische und medizinische
Studiengänge weisen im Schnitt die höchsten Validitäten auf. Der Studienabschnitt im
Sinne des Zeitabstands zwischen Testung und Studiennotenerhebung war ebenfalls ein
signifikanter Moderator: Je größer der Zeitabstand ist, desto kleiner fallen im Schnitt die
Validitäten aus. Dies deckt sich mit längsschnittlichen Studien (Höft & Schuster, 2014;
Kurz et al., 2014). Beim Vergleich von Testverfahren sollte somit auch der Zeitabstand
berücksichtigt werden.
Die Testung im Rahmen eines Selektionsprozesses moderierte die Validität dagegen
nicht. Auch für die Heterogenität der Stichproben in Bezug auf unterschiedliche
Hochschulen fand sich anders als bei Hell et al. (2007) kein signifikanter Effekt.
Stattdessen waren Tests, die an Universitäten eingesetzt wurden, im Schnitt valider als
Tests, die überwiegend an Fachhochschulen genutzt wurden. Dies kann möglicherweise
dadurch erklärt werden, dass Studiengänge an Fachhochschulen einen höheren
Praxisbezug aufweisen (vgl. Höft & Schuster, 2014) und die gängigen
Studierfähigkeitstests stark auf Fähigkeiten fokussieren, die für die stärker
forschungsorientierten Studieninhalte an Universitäten relevant sind. Bei neueren Studien
war eine leichte Validitätszunahme zu beobachten; dies könnte ein Indiz für eine
erfolgreiche Pflege und (Weiter-)Entwicklung der Testinstrumente sein. Dafür spricht
auch, dass beispielsweise die wirtschaftswissenschaftlichen Testverfahren deskriptiv
höhere Validitäten erzielen als in der Metaanalyse von Hell et al. (2007).
Besonders wichtig ist auch die Erkenntnis, dass nicht jeder fachspezifische
Studierfähigkeitstest, der nach wissenschaftlichen Kriterien entwickelt wurde, auch
automatisch eine hohe Validität hat, wie die Studie von Höft und Schuster (2014) zeigt.
VALIDITÄT VON STUDIERFÄHIGKEITSTESTS 25
Daher sollte auch weiterhin für jede konkrete (Studierenden-)Auswahl die Validität
evaluiert werden.
Wünschenswert ist an dieser Stelle zudem, dass Validitätsbefunde möglichst
vollständig und einheitlich berichtet werden. Bei der Kodierung begegneten wir in vielen
Studien sehr fragmentarisch berichteten Ergebnissen. Mal fehlten Angaben zur
Stichprobengröße und zu den Messzeitpunkten, mal wurde nur die Validität für Test und
HZB-Note gemeinsam beziffert, jedoch nicht für die Prädiktoren im Einzelnen (und auch
selten die Korrelation zwischen HZB-Note und Testleistung).
Die 2007er Metaanalyse (Hell et al., 2007) basiert auf N = 45091 Personen, während
die vorliegende Metaanalyse dagegen Daten von „nur“ N = 8410 Personen aggregiert. Die
Zahl der eingeschlossenen Studien bzw. Stichproben ist in der vorliegenden Studie
allerdings deutlich größer (K = 54 vs. K = 36). Es „fehlen“ die sehr umfangreichen
Stichproben aus medizinischen Studiengängen (z.B. n = 12496; Trost, 1998), dafür ist die
Zahl der Personen in nichtmedizinischen Studiengängen mehr als dreimal so hoch
(n = 6301 vs. n = 1873). Somit kann die vorliegende Studie insbesondere in den
nichtmedizinischen Studienfeldern zusätzliche Informationen bezüglich der Validität von
Auswahltests liefern. Die Vielfalt der Fächer, Studiendesigns und Testverfahren, die in die
vorliegende Metaanalyse einflossen, ist eine Stärke dieser Übersichtsarbeit.
Limitationen
Studiennoten sind ein zentrales Erfolgskriterium. Ihnen kommt im Zuge von Bologna
große Bedeutung zu, da nun bereits die Leistungen ab dem ersten Semester in die
Abschlussnote einfließen. Andere Kriterien wie erfolgreicher Studienabschluss,
Studienzufriedenheit und Studiendauer wurden zwar in einzelnen Studien untersucht,
können derzeit aber aufgrund der geringen Studienzahl noch nicht metaanalytisch
betrachtet werden.
VALIDITÄT VON STUDIERFÄHIGKEITSTESTS 26
Zur Bestimmung der operationalen Validität wurden die Validitätskoeffizienten wie
allgemein üblich für die Unreliabilität des Kriteriums (und auch für die selektionsbedingte
Variabilitätseinschränkung der Leistungen) korrigiert (vgl. Sackett et al., 2008). Für die
Unreliabilitätskorrektur wurde dabei für alle Studien der gleiche Reliabilitätswert r = .83
angenommen (vgl. Kuncel et al., 2001, 2004). In der Literatur finden sich sowohl höhere
(z.B. Beatty, Walmsley, Sackett, Kuncel & Koch, 2015 für US-amerikanische Noten) als
auch niedrigere Schätzwerte (z.B. Greiff, 2006 für deutsche Hochschulnoten). Da die
Korrektur in der vorliegenden Arbeit analog zur Metaanalyse von Hell et al. (2007)
durchgeführt wurde, bleiben die jeweiligen (korrigierten) Ergebnisse optimal vergleichbar.
Dass Effekte in manchen Arbeiten nur selektiv berichtet wurden, stellt eine
potenzielle Gefahr für die Generalisierbarkeit der vorliegenden Metaanalyse dar. Unter
den nicht eingeschlossenen Stichproben finden sich vereinzelt Studien mit sehr kleinen
Effekten, welche lediglich als nicht signifikant berichtet werden (z.B. Krex, 2008). Der
metaanalytische Mittelwert würde entsprechend wohl etwas geringer ausfallen, wenn diese
kleinen Stichproben zusätzlich mit eingeschlossen werden könnten. Zugleich sind unter
den nicht eingeschlossenen Studien auch Arbeiten, die zwar Validitätshinweise liefern,
jedoch abweichende Erfolgsmaße betrachten (z.B. Hissbach, Klusmann & Hampe, 2011).
Der metaanalytische Mittelwert würde entsprechend gestützt und möglicherweise sogar
etwas erhöht werden, wenn diese Validitätsbefunde mit eingeschlossen werden könnten.
Eine selektive Publikation positiver Ergebnisse ist im Sinne des publication bias denkbar
(vgl. Schwarzer et al., 2015). Die Moderatorenanalyse liefert einen Hinweis auf derartige
Verzerrungen, denn die Validitäten in Zeitschriftenartikeln mit Peer-Review fallen
signifikant höher aus als in anderen Publikationsarten. Der Funnelplot und die trim and
fill-Analyse deuten jedoch nicht auf eine systematische Überschätzung der mittleren
Validität hin.
VALIDITÄT VON STUDIERFÄHIGKEITSTESTS 27
Als Ausreißer im Funnelplot fällt der niedrige Validitätskoeffizient 𝑟̅ = .003 aus der
Studie von Höft und Schuster (2014) auf, der auf den Daten von n = 302
Bachelorstudierenden beruht. Zur Vorhersage der Bachelorabschlussnote wurden als
fachspezifischer Studierfähigkeitstest Teile eines umfassenderen kognitiven
Fähigkeitstests verwendet (Pösse & Klinck, 2007). Für die augenscheinlich abstrakteren
Subtests „Formanalogien“, „Datenvergleich“ und „Verbalanalogien“ fanden sich in der
Studie sogar erwartungswidrige Vorzeichen bei den Validitäten. Die fachbezogeneren
Subtests „Vorschriften“ und „Textrechnen“ zeigten aber immerhin signifikante positive
Zusammenhänge mit der Leistung im ersten Studientrimester. Die Ergebnisse machen
jedenfalls deutlich, dass nicht jeder Fähigkeitstest automatisch eine valide
Studienerfolgsprognose erlaubt. Entsprechend wurde das Testverfahren an der
betreffenden Hochschule zwischenzeitlich überarbeitet und durch neue Teile ergänzt, die
inhaltlich einen stärkeren Bezug zu den Studieninhalten haben (Höft & Ambiel, 2017).
Dies unterstreicht die Bedeutung von Validierungsstudien, die eine fortlaufende Pflege
und Anpassung der Auswahlinstrumente ermöglichen. In unsere Metaanalyse ging die von
Höft und Schuster (2014) berichtete Nullkorrelation selbstverständlich ein. Insgesamt
liegen also keine Hinweise auf eine systematische Unter- oder Überschätzung der
aggregierten Validität vor.
Die Studienbasis für die Schätzung der inkrementellen Testvalidität über die HZB-
Noten hinaus ist nur etwa halb so groß wie die der Gesamtanalyse. Angesichts der
numerisch niedrigeren Testvalidität in den verwendbaren Studien wäre es vorstellbar, dass
validere Tests eine noch höhere inkrementelle Validität besitzen. Andererseits wurde zur
gemeinsamen Vorhersage des Studienerfolgs durch HZB-Note und Testleistung in den
meisten Fällen die beste Linearkombination der beiden Prädiktoren verwendet. Dies führt
zu einer Überanpassung der Regressionsmodelle. Eine Kreuzvalidierung ergibt
VALIDITÄT VON STUDIERFÄHIGKEITSTESTS 28
gewöhnlich etwas niedrigere Validitäten (konkrete Berechnungen siehe Zimmerhofer,
2008).
Fazit
Fachspezifische Studierfähigkeitstests sind ein valides Instrument zur
Studierendenauswahl, das als Alternative wie auch als Ergänzung zur HZB-Note
eingesetzt werden kann. Die vorliegenden Befunde sind für Praxis und Forschung
gleichermaßen relevant. Es ergeben sich deutliche Hinweise bezüglich der guten
prädiktiven Validität von Studierfähigkeitstests in verschiedenen Fachbereichen. Die
Vorhersage von Studienerfolg in Masterstudiengängen ist ein vielversprechender
Schwerpunkt für zukünftige Forschung, da es hierzu bislang nur wenige Studien gibt und
mit den Bachelornoten ein weiterer interessanter Prädiktor existiert (Troche, Mosimann &
Rammsayer, 2014). Perspektivisch gilt es zudem, Validitätsuntersuchungen auf weitere
Erfolgskriterien (wie z.B. Studiendauer, -zufriedenheit, -abschluss) auszuweiten. Studien
zur Testfairness (vgl. Bergholz & Stegt, 2018; Fischer, Schult & Hell, 2013) sollten den
Einsatz von Auswahltests begleiten.
Fachspezifische Studierfähigkeitstests sind jedoch keine Selbstläufer. Ihre
Konstruktion ist aufwändig. Bei der Entwicklung wie auch bei der fortlaufenden Pflege
müssen inhaltliche, organisatorische, rechtliche und nicht zuletzt psychometrische Aspekte
berücksichtigt werden. Daher sollten fachspezifische Studierfähigkeitstests stets mit Hilfe
psychologischer Expertinnen und Experten und unter Berücksichtigung von
wissenschaftlichen Standards der Testentwicklung (DIN 33430, ITC) entwickelt werden.
Aus ökonomischen Gründen wie auch zur besseren Vergleichbarkeit der Ergebnisse
empfehlen sich hochschulübergreifende Lösungen. So lassen sich Zulassungsverfahren
entwickeln, die prospektiven Studierenden und auswählenden Hochschulen einen
validitätsbezogenen Mehrwert bieten.
VALIDITÄT VON STUDIERFÄHIGKEITSTESTS 29
Literatur
Arendasy, M., Sommer, M. & FeldhammerKahr, M. (2016). MedAT:
Kurzzusammenfassung 20132016. Graz: Universität Graz.
Beatty, A. S., Walmsley, P. T., Sackett, P. R., Kuncel, N. R. & Koch, A. J. (2015). The
reliability of college grades. Educational Measurement: Issues and Practice, 34(4),
3140. doi:10.1111/emip.12096
*Bergholz, L. & Stegt, S. J. (2018). Validität und Fairness eines Studierfähigkeitstests für
Rechtswissenschaften. Zeitschrift für Hochschulentwicklung, 13(4), 5797.
Bundesverfassungsgericht [BVerfG] (2018). Urteil des Ersten Senats vom 19. Dezember
2017 1 BvL 3/14 Rn. (1 253). Zugriff am 7.11.2018. Verfügbar unter
http://www.bverfg.de/e/ls20171219_1bvl000314.html
*Buschhüter, D., Spoden, C. & Borowski, A. (2017). Studienerfolg im Physikstudium:
Inkrementelle Validität physikalischen Fachwissens und physikalischer Kompetenz.
Zeitschrift für Didaktik der Naturwissenschaften, 23(1), 127141.
doi:10.1007/s40573-017-0062-7
Cohen, J. (1988). Statistical power analysis for the behavioral sciences (2. Aufl.).
Hillsdale, NJ: Erlbaum.
*Damaschke, M. (2016). Qualitätssicherung der Studierendenauswahl: Test für
Medizinische Studiengänge (TMS) aus Sicht von Studienbewerbern, Studierenden und
Absolventen des Studienganges Humanmedizin. Unveröffentlichte Dissertation,
Ruprecht-Karls-Universität Heidelberg.
Deidesheimer Kreis (1997). Hochschulzulassung und Studieneignungstests. Göttingen:
Vandenhoek und Ruprecht.
Deutsche Gesellschaft für Psychologie (2018a). Aktuelle Mitteilungen, 14(52).
Deutsche Gesellschaft für Psychologie (2018b). Erfolgreich im Studium? DGPs für
studiengangspezifische Eignungstests (Pressemitteilung 03.09.2018). Zugriff am
VALIDITÄT VON STUDIERFÄHIGKEITSTESTS 30
15.11.2018. Verfügbar unter https://www.dgps.de/uploads/media/DGPs-
Presseinformation_03-09-2018.pdf
*Dlugosch, S. (2005). Prognose von Studienerfolg: dargestellt am Beispiel des
Auswahlverfahrens der Bucerius Law School. Herzogenrath: Shaker
Duval, S. J. (2005). The trim and fill method. In: H. R. Rothstein, A. J. Sutton & M.
Borenstein (Hrsg.), Publication bias in meta-analysis: Prevention, assessment, and
adjustments (S. 127144). Chichester: Wiley
*Fischer, F., Schult, J. & Hell, B. (2015). Unterschätzung der Studienleistungen von
Frauen durch Studierfähigkeitstests: Erklärbar durch Persönlichkeitseigenschaften?
Diagnostica, 61, 3446. doi:10.1026/0012-1924/a000120
Fischer, F. T., Schult, J. & Hell, B. (2013). Sex-specific differential prediction of college
admission tests: A meta-analysis. Journal of Educational Psychology, 105, 478488.
doi:10.1037/a0031956
*Formazin, M., Schroeders, U., Köller, O., Wilhelm, O. & Westmeyer, H. (2011).
Studierendenauswahl im Fach Psychologie. Psychologische Rundschau, 62, 221236.
doi:10.1026/0033-3042/a000093
*Frankenberger, R. (2013). Kritische Übergänge: Theoretische Überlegungen und
empirische Befunde zur Frage der Studierfähigkeit. Tübinger Beiträge zur
Hochschuldidaktik, 9(3).
*Freyer, K. (2013). Zum Einfluss von Studieneingangsvoraussetzungen auf den
Studienerfolg Erstsemesterstudierender im Fach Chemie. Berlin: Logos.
*Greiff, S. (2006). Prädiktoren des Studienerfolgs. Duisburg: WiKu-Verlag
*Hänsgen, K.-D. (2012) EMS als Self Assessment ungeeignet? Zu den Ergebnissen des
Eignungstests für das Medizinstudium (EMS) in Genf 20102012. Freiburg, Schweiz:
Zentrum für Testentwicklung und Diagnostik.
VALIDITÄT VON STUDIERFÄHIGKEITSTESTS 31
*Hänsgen, K.-D., Eggli, P. & Wechsler, K. (2007). Numerus clausus und Eignungstest
das richtige Konzept? (Vortrag). Vortrag Journee de reflexion FMH, Bern,
07.12.2007. Zugriff am 8.11.2018. Verfügbar unter
https://www3.unifr.ch/ztd/ems/doc/emseval07.pdf
*Heene, M. (2007). Konstruktion und Evaluation eines Studierendenauswahlverfahrens
für Psychologie an der Universität Heidelberg. Unveröffentlichte Dissertation,
Ruprecht-Karls-Universität Heidelberg.
Hell, B., Trapmann, S. & Schuler, H. (2007). Eine Metaanalyse der Validität von
fachspezifischen Studierfähigkeitstests im deutschsprachigen Raum. Empirische
Pädagogik, 21, 251270.
Hell, B., Trapmann, S. & Schuler, H. (2008). Synopse der Hohenheimer Metaanalysen zur
Prognostizierbarkeit des Studienerfolgs und Implikationen für die Auswahl- und
Beratungspraxis. In H. Schuler & B. Hell (Hrsg.), Studierendenauswahl und
Studienentscheidung (S. 4354). Göttingen: Hogrefe.
Hissbach, J. C., Klusmann, D. & Hampe, W. (2011). Dimensionality and predictive
validity of the HAM-Nat, a test of natural sciences for medical school admission.
BMC Medical Education, 11, 83. doi:10.1186/1472-6920-11-83
Höft, S. & Ambiel, D. (2017, September). Studienerfolg an der Hochschule der BA:
Vorhersagequalität unterschiedlicher Prädiktoren im Kohortenvergleich.
Posterpräsentation auf der 14. Arbeitstagung der Fachgruppe Differentielle
Psychologie, Persönlichkeitspsychologie und Psychologische Diagnostik (DPPD) in
München.
*Höft, S. & Schuster, G. (2014). Vorhersage des Studienerfolgs an der Hochschule der
Bundesagentur für Arbeit auf Grundlage der Studieneingangskriterien „Schulnote“
und „Fachspezifischer Studierfähigkeitstest“. In P. Guggemos, M. Müller & M.
Rübner (Hrsg.), Herausforderungen und Erfolgsfaktoren beschäftigungsorientierter
VALIDITÄT VON STUDIERFÄHIGKEITSTESTS 32
Beratung. Beiträge aus der Beratungsforschung (S. 210237). Landau: Verlag
Empirische Pädagogik.
Hunter, J. E. & Schmidt, F. L. (2004). Methods of meta-analysis: Correcting error and
bias in research findings (2nd ed.). Thousand Oaks, CA: Sage.
Janke, S. & Dickhäuser, O. (2018). Zur prognostischen Güte von Zulassungskriterien im
Psychologiestudium für Studienerfolgsindikatoren. Psychologische Rundschau, 69,
160168. doi:10.1026/0033-3042/a000383
*Kadmon, G. & Kadmon, M. (2016). Studienleistung von Studierenden mit den besten
versus mittelmäßigen Abiturnoten: Gleicht der Test für Medizinische Studiengänge
(TMS) ihre Prognosen aus? GMS Journal for Medical Education, 33(1), Doc7.
doi:10.3205/zma001006
*Kothe, C., Hissbach, J. & Hampe, W. (2013). Das Hamburger Auswahlverfahren in der
Zahnmedizin-Einführung des HAM-Nat als fachspezifischer Studierfähigkeitstest.
GMS Journal for Medical Education, 30(4), Doc46. doi:10.3205/zma000889
*Krex, L. (2008). Studienerfolgsprognose in der Bundeswehr-Evaluation vorhandener und
zukünftiger Prädiktoren. Unveröffentlichte Dissertation, Rheinische Friedrich-
Wilhelms-Universität zu Bonn.
Kuncel, N. R., Hezlett, S. A. & Ones, D. S. (2001). A comprehensive metaanalysis of the
predictive validity of the graduate record examinations: Implications for graduate
student selection and performance. Psychological Bulletin, 127, 162181.
doi:10.1037//0033-2909.127.1.162
Kuncel, N. R., Hezlett, S. A. & Ones, D. S. (2004). Academic performance, career
potential, creativity, and job performance: Can one construct predict them all? Journal
of Personality and Social Psychology, 86, 148161. doi:10.1037/0022-3514.86.1.148
*Kurz, G., Metzger, G. & Linsner, M. (2014). Studienerfolg und seine Prognose: eine
Fallstudie in Ingenieurstudiengängen der Hochschule für Angewandte Wissenschaften
VALIDITÄT VON STUDIERFÄHIGKEITSTESTS 33
Esslingen. In M. Rentschler & G. Metzger (Hrsg.), Perspektiven angewandter
Hochschuldidaktik: Studien und Erfahrungsberichte (S. 1379). Aachen: Shaker.
*Lengenfelder, P., Baumann, U., Allesch, C. & Nuerk, H.-C. (2008). Studierendenauswahl
an der Universität Salzburg: Konzeption und Validität. In H. Schuler & B. Hell
(Hrsg.), Studierendenauswahl und Studienentscheidung (S. 192203). Göttingen:
Hogrefe.
Lotz, C. & Sparfeldt, J. R. (2017). Does test anxiety increase as the exam draws near?
Students’ state test anxiety recorded over the course of one semester. Personality and
Individual Differences, 104, 397400. doi:10.1016/j.paid.2016.08.032
*Maaß, S. (2008). Inhaltliche Aspekte des Fachspezifischen Studierfähigkeitstests. In M.
Rentschler & H.-P. Voss (Hrsg.), Studieneignung und Studierendenauswahl
Untersuchungen und Erfahrungsberichte (S. 7193). Aachen: Shaker
*Mallinger, R., Holzbaur, C., Dierich, M., Heidegger, M., Hänsgen, K.-D. & Spicher, B.
(2007). EMS: Eignungstest für das Medizinstudium in Österreich. Freiburg, Schweiz:
Zentrum für Testentwicklung und Diagnostik.
Moher, D., Liberati, A., Tetzlaff, J. & Altman, D. G. (2009). Preferred reporting items for
systematic reviews and meta-analyses: The PRISMA statement. PLoS Med, 6(7):
e1000097. doi:10.1371/journal.pmed1000097
Moosbrugger, H., Jonkisz, E. & Fucks, S. (2006). Studierendenauswahl durch die
Hochschulen: Ansätze zur Prognostizierbarkeit des Studienerfolgs am Beispiel des
Studiengangs Psychologie. Report Psychologie, 3, 114123.
*Müller, J., Stender, A., Fleischer, J., Borowski, A., Dammann, E., Lang, M. & Fischer, H.
E. (2018). Mathematisches Wissen von Studienanfängern und Studienerfolg.
Zeitschrift für Didaktik der Naturwissenschaften, 24, 183199. doi:10.1007/s40573-
018-0082-y
VALIDITÄT VON STUDIERFÄHIGKEITSTESTS 34
*Nickolaus, R. & Abele, S. (2009). Chancen und Grenzen eines differenzierteren Ansatzes
zur Hochschulbewerberauswahl. Das Hochschulwesen, 57(3), 8188.
Pösse, B. & Klinck, D. (2007). Testserie für Abiturienten und Hochschüler (MOT) im
Rahmen des Auswahlverfahrens für die Studiengänge an der Hochschule für
Bundesagentur für Arbeit. Information Nr. 66 des Psychologischen Dienstes.
Nürnberg: Bundesagentur für Arbeit.
R Core Team (2018). R: A language and environment for statistical computing. Wien: R
Foundation for Statistical Computing. Zugriff am 11.1.2019. Verfügbar unter
https://www.R-project.org
Sackett, P. R., Borneman, M. J. & Connelly, B. S. (2008). High stakes testing in higher
education and employment: appraising the evidence for validity and fairness.
American Psychologist, 63(4), 215227. doi:10.1037/0003-066X.63.4.215
*Schachtschneider, Y. (2016). Studieneingangsvoraussetzungen und Studienerfolg im
Fach Biologie. Berlin: Logos.
Schmidt, F. L., Le, H. & Oh, I.-S. (2009). Correcting for the distorting effects of study
artifacts in meta-analysis. In H. Cooper & L. V. Hedges (Hrsg.), The handbook of
research synthesis (2nd ed., S. 317333). New York: Russell Sage Foundation.
Schmidt, F. L., Oh, I.-S. & Hayes, T. L. (2009). Fixed- versus random-effects models in
meta-analysis: Model properties and an empirical comparison of differences in results.
British Journal of Mathematical and Statistical Psychology, 62, 91128.
doi:10.1348/000711007X255327
Schuler, H. & Schult, J. (2018). Prädiktoren von Studien- und Berufserfolg. In D. H. Rost,
J. R. Sparfeldt & S. R. Buch (Hrsg.), Handwörterbuch Pädagogische Psychologie (5.
Aufl., S. 645653). Weinheim: Beltz.
*Schult, J. (2018). Bereit für Bologna? Test- und notenbasierte Erfolgsprognose im
Masterstudium. Zugriff am 12.11.2018. Verfügbar unter https://osf.io/k9bg5
VALIDITÄT VON STUDIERFÄHIGKEITSTESTS 35
Schult, J., Fischer, F. T. & Hell, B. (2016). Tests of scholastic aptitude cover reasoning
facets sufficiently. European Journal of Psychological Assessment, 32, 215219.
doi:10.1027/1015-5759/a000247
Schwarzer, G., Carpenter, J. R. & Rücker, G. (2015). Meta-analysis with R. Cham:
Springer. doi:10.1007/978-3-319-21416-0
Schwibbe, A., Lackamp, J., Knorr, M., Hissbach, J., Kadmon, M. & Hampe, W. (2018).
Medizinstudierendenauswahl in Deutschland. Bundesgesundheitsblatt
Gesundheitsforschung Gesundheitsschutz, 61, 178186. doi:10.1007/s00103-017-
2670-2
*Stegt, S. J. & Bergholz, L. (2018). Vorhersage des Studienerfolgs in konsekutiven
Masterstudiengängen mithilfe eines kognitiven Eignungstests. Hochschulmanagement,
13(4), 101107.
Stemler, S. E. (2012). What should university admissions tests predict? Educational
Psychologist, 47, 517. doi:10.1080/00461520.2011.611444
Trapmann, S., Hell, B., Weigand, S. & Schuler, H. (2007). Die Validität von Schulnoten
zur Vorhersage des Studienerfolgs eine Metaanalyse. Zeitschrift für Pädagogische
Psychologie, 21, 1127. doi:10.1024/1010-0652.21.1.11
Troche, S., Mosimann, M. & Rammsayer, T. (2014). Die Vorhersage des Studienerfolgs
im Masterstudiengang Psychologie durch Schul- und Bachelorstudienleistungen.
Beiträge zur Hochschulforschung, 36(1), 3045.
Trost, G. (Hrsg.) (1998). Evaluation des Tests für medizinische Studiengänge (TMS):
Synopse der Ergebnisse. Bonn: Institut für Test- und Begabungsforschung.
Viechtbauer, W. (2010). Conducting meta-analyses in R with the metafor package.
Journal of Statistical Software, 36(3), 148. Zugriff am 11.1.2019. Verfügbar unter
http://www.jstatsoft.org/v36/i03/
VALIDITÄT VON STUDIERFÄHIGKEITSTESTS 36
Viechtbauer, W. (2019). Hunter and Schmidt method. Zugriff am 1.2.2019
http://www.metafor-project.org/doku.php/tips:hunter_schmidt_method
*Wahl, I. & Walenta, C. (2017). Evaluierung des Aufnahmeverfahrens eines
Fernstudiengangs anhand des Studienerfolges: Vorhersage des Studienerfolges durch
studienbezogene Lerntests, Englischtests, objektive Leistungsmotivationstests,
Intelligenztests und Eignungsinterviews. Zeitschrift für Evaluation, 16(1), 7396.
*Werwick, K., Winkler-Stuck, K. & Robra, B. P. (2018). From HAM-Nat to the
“Physikum” – Analysis of the study success parameters before and after the
introduction of a science test in the approval procedure. GMS Journal for Medical
Education, 35(3), Doc30. doi:10.3205/zma001176
Winkel, O. (2010). Higher education reform in Germany: How the aims of the Bologna
process can be simultaneously supported and missed. International Journal of
Educational Management, 24, 303313. doi:10.1108/09513541011045245
*Zimmerhofer, A. (2008). Studienberatung im deutschen Hochschulsystem auf der Basis
psychologischer Tests: Studienfachprofile, Vorhersagevalidität und Akzeptanz.
Unveröffentlichte Dissertation, Rheinisch-Westfälische Technische Hochschule
Aachen.
Die mit einem Stern versehenen Literatureinträge bezeichnen die Studien, die in die
Metaanalyse aufgenommen wurden.
... Während die Vorhersage des Studienerfolgs im Bachelor bereits vielfach untersucht wurde (vgl. Schult, Hofmann & Stegt, 2019), gibt es zur prognostischen Validität von Auswahlkriterien für das konsekutive Masterstudium kaum Forschungsbefunde aus dem deutschen Hochschulbetrieb. Entsprechend finden sich für das Masterstudium auch keine gesicherten Befunde zu Gruppenunterschieden bei der Leistungsprognose, die sich auf Personenmerkmale wie beispielsweise das Geschlecht beziehen. ...
... (k = 7, n = 441; Hell et al., 2007) und für neuere Studien ab 2005 ρ = .38 (k = 10, n = 2,678; Schult et al., 2019) fanden. Für die Erfolgsprognose im Masterstudium zeigen sich in internationalen Studien etwas höhere Werte (Kuncel & Hezlett, 2007), z.B. für den Graduate Management Admission Test (GMAT) ρ = .47 ...
... Der Test ist somit weniger valide als wirtschaftswissenschaftliche Studierfähigkeitstests im Bachelor-oder Grundstudium (vgl. Hell et al., 2007;Schult et al., 2019). Aufgrund der fortgeschrittenen Studienerfahrung im Master sowie der möglichen Selbstselektion der Studierenden erklärt der Kompetenztest vermutlich nicht mehr Studienleistungsvarianz. Eine inkrementelle Validität der Kompetenztestleistung über die Bachelor-Noten hinaus konnte nicht gefunden werden. ...
Article
Fachspezifische Studierfähigkeitstests haben sich auch im deutschsprachigen Raum als valide Prädiktoren des Bachelorstudienerfolgs und somit als hilfreiche standardisierte Auswahlinstrumente erwiesen. Anhand der Daten des Nationalen Bildungspanels (NEPS) wurde untersucht, ob sich ein vergleichbares Muster auch für das konsekutive Masterstudium zeigt. Die Analysestichprobe umfasste 118 Studierende der Wirtschaftswissenschaften, die zum Ende ihres Bachelorstudiums einen fachspezifischen Kompetenztest bearbeiteten und ein Masterstudium aufnahmen. Der Test zeigte eine niedrige Validität (r = –.23) bezüglich der Masternoten. Es zeigte sich dabei keine inkrementelle Validität über die Bachelornote hinaus. Bei gleichem Testscore waren Frauen im Schnitt um 0.17 Notenpunkte besser als Männer. Die Ergebnisse sprechen gegen den Einsatz des wissenslastigen Fähigkeitstests zur Studierendenauswahl im Master. Gelingensfaktoren für eine erfolgreiche Studierendenauswahl werden im Kontext von Prädiktorenkombinationen diskutiert.
... Die meisten zur Fremdselektion eingesetzten Auswahlverfahren ("Eignungstests") umfassen spezifisches Fachwissen und kognitive Fähigkeiten (Kuncel, Hezlett & Ones, 2001) und haben sich als valide Prädiktoren für Studienund Berufserfolg herausgestellt, sogar über schulische Abschlussnoten hinaus (Kuncel & Hezlett, 2010;Sawyer, 2013;Schult, Hofmann & Stegt, 2019). ...
... Zusammenfassend lässt sich sagen, dass besonders die kognitiv-sprachlichen Merkmale sowie die Gewissenhaftigkeit, erfasst in Verfahren zur Fremdselektion, bedeutsame Beiträge zur Auswahl geeigneter Studierender im Lehramtsstudium leisten, welche nicht durch den GPA abgedeckt sind. Dies steht im Einklang mit meta-analytischen Befunden von Schult et al. (2019). ...
Article
Full-text available
Zusammenfassung. Studienplätze werden im deutschsprachigen Raum nach unterschiedlichen Kriterien vergeben, beispielsweise auf Basis schulischer Abschlussnoten oder Ergebnissen psychologischer Diagnostica, die eine Selbstselektion bewirken oder zur Fremdselektion eingesetzt werden. Die Studie vergleicht Möglichkeiten der Selektion und deren Validität für den Studien- und Praxiserfolg: Schulische Abschlussnoten, Self-Assessments und Eignungstests. Zusätzlich wird die Selbstselektion während des Bewerbungsprozesses untersucht. Grundlage der Untersuchung stellt eine 2015 initiierte Längsschnittstudie in Lehramtsstudien dar, in der (angehende) Studierende ( n Teilstichprobe 1 = 199; n Teilstichprobe 2 = 129) zu fünf Zeitpunkten befragt wurden. Es zeigt sich, dass im Bewerbungsprozess über 40 % Selbstselektion stattfindet. Zur Vorhersage von Studienerfolg können Sprachkompetenz und Gewissenhaftigkeit – erhoben im Eignungstest – Varianz über Abschlussnoten hinaus aufklären. Selbsteingeschätzte Praxisleistungen können durch fachspezifische Interessen – erhoben in Self-Assessments – und Persönlichkeitsmerkmale vorhergesagt werden, nicht jedoch durch Abschlussnoten. Die vorliegende Studie zeigt, dass Abschlussnoten zwar herkömmliche Kriterien von Studienerfolg vorhersagen, standardisierte Tests aber inkrementelle Validität und Vorhersagen für breitere Kriterien leisten können.
... Schuler & Schult, 2018). Da sich aber ein positiver Zusammenhang zwischen Bachelor-und Master-Studienleistungen zeigt und Bachelor-Noten unaufwändig erfassbar sind, werden sie häufig für die Zulassung zum Master-Studium als Auswahlkriterium herangezogen (Schult, Hofmann & Stegt, 2019). Zuverlässige Auswahlkriterien sind gerade auch im Fach Psychologie nötig, da die große Mehrheit der Bachelor-Studierenden den Master-Abschluss anstrebt, die Zahl der Master-Studienplätze jedoch um mindestens 16 % zu klein ist (Antoni, 2019, S. 10). ...
... Auch wenn inzwischen mehrere Jahrgänge ihr Master-Studium mehr oder weniger erfolgreich abgeschlossen haben, klafft immer noch eine empirische Lücke bei der prognostischen Validität von Bachelor-Noten hinsichtlich des Erfolgs im Master-Studium. Angesichts der umfänglichen Daten der Studierendensekretariate und der Relevanz für die Qualitätsentwicklung der Hochschulen besteht hier dringender Forschungsbedarf (Schult et al., 2019). Eine transparente Dokumentation der Zusammenhänge zwischen Bachelorund Master-Noten wäre als Benchmark für zukünftige Zulassungstests enorm wichtig und könnte jedenfalls genutzt werden, um die Qualitätssicherung schriftlicher Prüfungen langfristig zu evaluieren. ...
... Except for admission to medical degrees, aptitude tests are not common in German-speaking countries (Austria, Germany, Switzerland). Still, two meta-analyses for these countries are generally in line with results from international research and underline the predictive validity of subject-specific admission tests (Hell et al., 2007a;Schult et al., 2019). The most notable test development for psychology-specific admissions in Germany has been reported by Formazin et al. [2011; but see also Schmidt-Atzert (2005) and Heene (2007)]. ...
Article
Full-text available
Extensive evidence clearly endorses the use of standardized reasoning ability tests and subject-specific knowledge tests as valid and useful tools for admission-restricted study programs. Yet, tests are still rarely applied for university admission in Germany. Instead, current admission practices are predominantly based on grade point average (GPA) achieved in high school. In the present study, we report the development and validation of a test battery for admission into bachelor’s degree programs in psychology for German universities. Its compilation is driven by evidence from international validity generalization, consensual models of cognitive abilities, and a taxonomy of the B.Sc. psychology degree in Germany. It consists of three subtests for reasoning ability, two tests that tap relevant declarative knowledge, and two psychology-specific text comprehension tests. N = 371 freshmen from five German universities completed the tests and university GPA was retrieved 2.5 years later. We use confirmatory factor analyses and structural equation modeling to investigate the construct and criterion validity of the test battery. The results indicate that individual tests, as well as the test battery, meet psychometric requirements. As expected, the test battery predicts university GPA substantially and incrementally beyond high school GPA. The results illustrate the substantial added value that standardized achievement tests provide in university admissions.
... These abilities can be grouped under the three dimensions "reasoning", "visual-spatial information-processing", and "memory" (Trost et al., 1998). Its predictive validity for study outcomes in the pre-clinical as well as clinical phases has been demonstrated in numerous studies, although these studies include no student cohort data after 2013 or any multicenter data including complete cohorts (Hänsgen & Spicher, 2001;Hell et al., 2007;Schult et al., 2019;Stumpf & Nauels, 1990;Trost et al., 1998). ...
Article
Full-text available
Prior work experience in a relevant medical profession is an important admission criterion currently used at many German medical schools in addition to cognitive criteria. In other countries, work experience is often considered in later admission stages (e.g., interviews with pre-selected subgroups of applicants). However, evidence for its predictive validity for study success in addition to cognitive admission criteria is currently lacking. We therefore assessed whether completed vocational training in a relevant medical profession can predict study performance in the first two years of study in addition to cognitive admission criteria. Admission and study performance data of all currently enrolled medical students at two German medical schools (Göttingen and Heidelberg) beginning with the 2013/14 cohort were retrospectively analyzed. Cognitive admission criteria in our sample were GPA grades and a cognitive test (“Test für Medizinische Studiengänge”, TMS). We defined the study outcome parameter as the mean percentile rank over all performance data points over the first two years of study for each location, respectively. A multi-level model with varying intercepts by location, GPA, TMS, vocational training, and sex as predictors accounted for 14.5% of the variance in study outcome. A positive predictive association with study outcome was found for vocational training (ß = 0.33, p = .008) beyond GPA (ß = 0.38, p < .001) and TMS (ß = 0.26, p < .001). Our results support the use of prior vocational training as a selection criterion for medical studies potentially adding predictive validity to cognitive criteria.
... Teilweise zeigt sich sogar eine höhere prognostische Validität von Kenntnistests als von Studierfähigkeitstests (Kunina, Wilhelm, Formazin, Jonkmann & Schroeders, 2007;Tarazona, 2006). Die über die HZB-Note hinausgehende inkrementelle Validität fachspezifischer Studierfähigkeitstests liegt bei etwa ΔR² = 0.08 (Schult, Hofmann & Stegt, 2019). Auch die hohe Akzeptanz fachspezifischer Kenntnistests bei Studieninteressierten ist explizit als Vorteil zu nennen (Tarazona, 2006). ...
Article
Zusammenfassung: Mit dem Urteil des Bundesverfassungsgerichts vom Dezember 2017 ist es Hochschulen in Deutschland zukünftig untersagt, Bewerber_innen auf einen Studienplatz allein unter Rückgriff auf die Note der Hochschulzugangsberechtigung auszuwählen. Hochschulen stehen daher vor der Herausforderung, Auswahlverfahren zu entwickeln, die die Eignung der Bewerber_innen feststellen und hierauf aufbauend die "besten Bewerber_innen" für einen Studiengang zulassen. Im Beitrag werden theoretische Fundierung und empiri-sche Befunde eines Auswahlverfahrens für Bewerber_innen auf ein Lehramtsstudium vorgestellt. Das Verfahren erhebt neben kognitiven Fähigkeiten auch Vorwissen, außerschulisches Engagement, Interesse, Motivation und pädagogische Vorerfahrungen von Studieninteres-sierten. Die auf diese Weise im Auswahlverfahren erhobene Studieneignung korreliert positiv mit der späteren Studienleistung der Bewer-ber_innen. Schlüsselwörter: Auswahlverfahren, Eignung, Hochschulstudium, Lehrerbildung Suitability and Admission of Applicants to Higher Education. Evaluation of a Selection Procedure for a Teacher Degree Program Abstract: After a ruling by the German Federal Constitutional Court in December 2017, universities in Germany will in future be prohibited from selecting applicants for a place of study solely on the basis of their grade in their higher education entrance qualification. Universities are therefore faced with the challenge of developing selection procedures that determine the suitability of applicants and which select the "best candidates" for entrance. This paper presents the theoretical foundations and empirical results of a selection procedure for applicants to a teaching degree program. In addition to cognitive abilities, that procedure also assesses prior knowledge and the extracurricular commitment, interest, motivation, and prior pedagogical experience of prospective students. The aptitude for study determined in this way in the selection procedure correlates positively with the later academic performance of the applicants.
... Die Note der Hochschulzugangsberechtigung (HZB) ist dann ein wichtiges und oft auch das einzige Kriterium zur Vergabe der Studienplätze. Die HZB-Note sagt den Studienerfolg gut vorher (Schult et al. 2019;Trapmann et al. 2007), sie bringt aber auch Probleme mit sich. Ein Problem besteht darin, dass HZB-Noten nur bedingt vergleichbar sind, wenn sie aus verschiedenen (Bundes )Ländern stammen (Neumann et al. 2009). ...
Article
For some bachelor programmes in economics there are more applicants than places. Therefore, universities use local admission procedures. Since the grade point average in high school graduation of different schools and states is only comparable to a limited extent, other criteria such as field-specific aptitude tests are sometimes used. This study examines the predictive power of a field-specific aptitude test for economics. A German university provided anonymized data on the academic success of students (n = 142). The test results predicted the average grade after two semesters, the average grade at the pre-Bachelor examination, and the average grade after four semesters well and provided incremental predictive validity beyond the grade point average in high school graduation. The text comprehension module possessed the highest predictive power, whereas the analogies module was only related to the grade average after four semesters.
... Für den so gemessenen Studienerfolg ist fächerübergreifend die HZB-Note in vielen Studien einer der besten Prädiktoren (Heine et al. 2006;Robbins et al. 2004;Trapmann et al. 2007). Eine noch höhere oder mindestens ähnlich hohe prädiktive Validität (und auch inkrementelle Validität zusätzlich zur HZB-Note) kann jedoch ebenso über so genannte studienfachbezogene Kenntnistests -welche explizit fachspezifisches Vorwissen und nicht allgemeine Intelligenz erheben -erzielt werden Schult et al. 2019;Tarazona 2006). Dies gilt insbesondere für mathematikspezifische Kenntnistests, die sich oft als sehr gute Prädiktoren für Studienerfolg sowohl im Mathematik(-Lehramts-)Studium (Hailikari et al. 2008;Kolter et al. 2018;Pustelnik 2018;Rach und Heinze 2017;Rach und Ufer 2020) als auch in verwandten Studiengängen mit hohem Mathematikanteil erweisen (Buschhüter et al. 2017;Greefrath et al. 2017;Laging und Voßkamp 2017;Müller et al. 2018). ...
Article
Full-text available
In line with the fact that many universities have to select the “right students” for a teacher training program as the number of student applicants increases and that, according to a ruling by the German Federal Constitutional Court in December 2017, this selection must not be based solely on the university entrance qualification grade, reliable instruments are needed to support university selection processes. With regard to later academic success, subject-specific knowledge tests have a particularly good prognostic validity; for teachers, subject-specific content knowledge is even considered a predictor of professional success. In addition to symbolic, formal and technical (declarative and procedural) knowledge about mathematical content (particularly of lower secondary level), which is predominantly operationalized in most of the mathematics specific tests used at the beginning of study, university lecturers also consider knowledge about process-related skills in arguing and proving, problem solving, modelling and communicating to be essential prerequisites for successful studies. However, there is no empirically proven instrument for the selection of applicants for a mathematics teacher training program that systematically assesses this prior knowledge. The paper therefore discusses the development of a test instrument that operationalizes content- and process-related mathematical prior knowledge for lower secondary level. Key results are: School-related mathematical prior content knowledge of test persons with high school diploma can be reliably and validly assessed in this breadth using tasks in multiple-choice format (being highly objective) as part of a classical paper-pencil test. Such a mathematics test provides differentiated information about content knowledge, which is only rarely explained by school grades or general cognitive abilities. The mathematics test provides a complementary basis for admission decisions and didactical developments of university courses.
Article
Die Auswahl von Promovierenden ist für Wissenschaftsorganisationen von hoher Relevanz. Dennoch existieren bisher kaum Studien zu diesen Prozessen. Die Arbeit adressiert diese Lücke, indem sie Akzeptanzurteile für Auswahlverfahren bei N = 170 potenziell Bewerbenden erfragte. Frei geführte Auswahlgespräche, berufliche Erfahrungen, Arbeitsproben und strukturierte Auswahlgespräche erhielten die höchsten Akzeptanzwerte. Persönlichkeitseigenschaften der Befragten und vorher erbrachte Leistungen in den Verfahren hatten keinen signifikanten Einfluss auf die Akzeptanzurteile. Welche Verfahren eingesetzt werden, hatte Einfluss auf eine mögliche Bewerbungsabsicht. Zusätzlich wurde bei N = 164 Promovierenden erhoben, wie diese tatsächlich ausgewählt wurden. Promotionsstellen wurden am häufigsten durch frei geführte Auswahlgespräche und persönliche Kontakte besetzt. Es werden Implikationen für die Gestaltung von Auswahlverfahren von Promovierenden mit Blick auf Akzeptanz, Validität und Fairness diskutiert.
Article
Full-text available
The present study examines the prognostic validity and gender fairness of a written admissions procedure for law studies in which the A-level is combined with a specific admissions test. Gender fairness is analyzed by means of two different methods. The data of 579 graduates of the Bucerius Law School are investigated. The results show that the admissions procedure and the admissions test are valid and fair. On the subtest level, the picture is more varied: the specific and complex subtests in this study are more valid and fair than the unspecific subtests.
Article
Full-text available
Background/Objectives: For the winter semester 2012/13, the Medical School of Otto-von-Guericke University Magdeburg introduced the Nat test (Hamburg Assessment Test for Medical Degrees - Natural Sciences Section) for the selection of its study applicants with the aim of improving the academic success of their students in the pre-clinical part which has a heavy emphasis on natural sciences. The study examines the extent to which the new University Selection Procedure (AdH), influences two criteria for measuring students’ success, compliance with the standard period of study up until the first part of the medical state exam (M1) and its result. Methodology: A comparison of above-mentioned parameters for measuring student success for the matriculation years 2008-2011 (no HAM-Nat test, Pre-Matriculation) and those of the matriculation years Medicine, 2012-2014 (Nat-Matriculation), whose students have passed the HAM-Nat test in the selection process of the university. In addition, it was taken into account the number of course certificates gained within the standard time period. In the Nat-Matriculation, the HAM-Nat results were merged with the associated M1 exam results. Results: The proportion of AdH students who were admitted to the Physikum (first part of the medical state exam (M1)) within the standard period of study only increased slightly in the period studied. Within the AdH group, 70% of the Pre-Matriculation group gained entry to the second phase of studies without delay, rising to 78% in the AdH-group of the Nat-Matriculation. For all admission groups taken together, the overall grades for the first section of the medical state exam 2010-2016 show a positive trend, regardless of the selection procedure. The proportion of correctly answered questions in the nationwide M1 increased accordingly in the period studied. The better those matriculating had performed in the HAM-Nat test, the better their results were in the written and oral parts of the first part of the medical state exam. Conclusion: Although a significant proportion of students in the AdH group had obtained their place of study only on the basis of their test result and the score in the HAM-Nat test only weakly correlated with the school leaving grade (Abitur), the quantifiable study success parameters to date - in an albeit short observation period before and after introduction of the test - improved slightly. The number of Nat-Matriculations is too low to be able to assess the effect of the HAM-Nat test bearing in mind natural fluctuations. Nevertheless, the HAM-Nat test as an instrument of selection also made it possible for candidates with originally insufficient Abitur grades to gain admission without negative effects on the study success of the AdH cohort. Keywords: Selection procedure, HAM-Nat, medical studies, AdH, selection of applicants for studying medicine, 1st section of the medical state exam
Article
Full-text available
In the present study, we investigated the predictive power of three kinds of university admission criteria used to select students who enlisted to study in German bachelor programs in the field of psychology. The admission criteria investigated were grade point average, single grades in mathematics and English, as well as practical experiences in jobs related to psychology. We used the data of 10,605 university applicants from five bachelor cohorts of a German university to investigate whether the different admission criteria would differentially predict academic success operationalized by the first grade in statistics at university, the final grade point average of the bachelor degree, and the duration of studies. Path analyses showed that grade point average was the only valid predictor for indicators of academic success indicated by grades, while none of the admission criteria were predictive of the duration of studies. Furthermore, we found that a stronger weighting of grade point average that simultaneously weakened the influence of other admission criteria on the admission process also increased the predictive power of the predictor set for graded academic success. In sum, this study illustrates the benefits of evidence-based university admission procedures and discusses the limits of such procedures set by federal law.
Article
Full-text available
The German Constitutional Court is currently reviewing whether the actual study admission process in medicine is compatible with the constitutional right of freedom of profession, since applicants without an excellent GPA usually have to wait for seven years. If the admission system is changed, politicians would like to increase the influence of psychosocial criteria on selection as specified by the Masterplan Medizinstudium 2020.What experiences have been made with the actual selection procedures? How could Situational Judgement Tests contribute to the validity of future selection procedures to German medical schools?High school GPA is the best predictor of study performance, but is more and more under discussion due to the lack of comparability between states and schools and the growing number of applicants with top grades. Aptitude and knowledge tests, especially in the natural sciences, show incremental validity in predicting study performance. The measurement of psychosocial competencies with traditional interviews shows rather low reliability and validity. The more reliable multiple mini-interviews are superior in predicting practical study performance. Situational judgement tests (SJTs) used abroad are regarded as reliable and valid; the correlation of a German SJT piloted in Hamburg with the multiple mini-interview is cautiously encouraging.A model proposed by the Medizinischer Fakultätentag and the Bundesvertretung der Medizinstudierenden considers these results. Student selection is proposed to be based on a combination of high school GPA (40%) and a cognitive test (40%) as well as an SJT (10%) and job experience (10%). Furthermore, the faculties still have the option to carry out specific selection procedures.
Article
For many master’s programmes in business administration and economics there are more applicants than places. Therefore universities have to select their students. Due to the poor comparability of grade point averages in bachelor degrees of different universities, some universities use admission tests. In this study, the prognostic validity of a cognitive admission test is investigated. Two German universities provided data regarding study success of students in business administration and economics (n=841) who were selected by the admission test. The test results predicted the final master grades well, duration of studies was less well predicted. Planning competency and quantitative abilities were the best predictors of study success.
Preprint
Fachspezifische Studierfähigkeitstests haben sich auch im deutschsprachigen Raum als valide Prädiktoren des Bachelorstudienerfolgs und somit als hilfreiche Auswahlinstrumente erwiesen. Anhand der Daten des Nationalen Bildungspanels (NEPS) wurde untersucht, ob sich ein vergleichbares Muster auch für das konsekutive Masterstudium zeigt. Die Analysestichprobe umfasste 95 Studierende der Wirtschaftswissenschaften, die zum Ende ihres Bachelorstudiums einen fachspezifischen Kompetenztest bearbeiteten und ein Masterstudium aufnahmen. Der Test zeigte eine mittelhohe Validität (unkorrigiertes r = –.30) bezüglich der Masternoten zwei Jahre später. Eine inkrementelle Validität über Hochschulzugangsberechtigungsnoten und Bachelornoten hinaus zeigte sich ebenso wenig wie eine geschlechtsspezifische differenzielle Prognose. Die Ergebnisse sprechen dafür, dass fachliche Fähigkeitstests aufgrund ihrer prädiktiven Validität für die Auswahl im Masterstudium geeignet sind, die durch die Bologna-Reform zur Herausforderung für Studieninteressierte wie auch Hochschulen geworden ist.
Article
Bei Studierenden der Fächer Bauingenieurwesen, Biologie, Chemie und Physik wird untersucht, ob mit einem fächerübergreifenden Test zur Erfassung mathematischen Wissens der Studienerfolg zum Ende des ersten Semesters besser vorhergesagt werden kann, als nur mit der Abitur- und Mathematiknote; Studienerfolg ist als gemittelte Klausurleistung am Ende des ersten Semesters operationalisiert. Der Test wurde zu Beginn des Wintersemesters 2016/17 an einer Kohorte (N = 751) von Studienanfängern eingesetzt. Für alle Fächer wird gezeigt, dass das mathematische Wissen auch unter Kontrolle der Schulleistungen prädiktiv für Studienerfolg ist und dass es inkrementelle Varianz gegenüber der Abiturnote und der Mathematiknote aufklärt. Die so durchgeführte Prognose von Studienerfolg eröffnet die Möglichkeit, Studienberatung zu verbessern und Hinweise für die Inhalte vorbereitender und semesterbegleitender Veranstaltungen zu generieren. Anhand des mathematischen Wissens der Studierenden lässt sich eine Bezugsnorm ableiten, die als Grundlage für zukünftige Gruppendiagnostik dienen kann.
Article
Die Bedeutung ausreichender mathematischer Kenntnisse und Fähigkeiten als inhaltsbezogene Studienanforderungen des Physikstudiums ist unbestritten. Demgegenüber wird die Relevanz fachphysikalischer Studienanforderungen von Dozierenden teilweise angezweifelt. Auch bei Vorkursen zum Physikstudium steht nur sehr selten die Förderung physikspezifischer Kompetenzen oder physikalischen Fachwissens im Vordergrund. Dennoch geben bisherige Forschungsergebnisse aus der US-amerikanischen Literatur Anlass zu der Annahme, dass auch fachphysikalische Anforderungen für erfolgreiche Leistungen im Physikstudium relevant sind. Bisher mangelt es an empirischer Evidenz für die Übertragbarkeit dieses Ergebnisses auf das Physikstudium in Deutschland. Dementsprechend wurde in der vorliegenden Studie untersucht, inwiefern hier Physikkompetenz und physikalisches Fachwissen gegenüber mathematischen Kenntnissen und Fähigkeiten inkrementelle Validität in Bezug auf Studienerfolg aufweisen. Die Ergebnisse ermöglichen eine qualifiziertere Beantwortung der Frage, ob physikbezogene Förderangebote stärker in die Studieneingangsphase integriert werden sollten.