ArticlePDF Available

Leisten fachspezifische Studierfähigkeitstests im deutschsprachigen Raum eine valide Studienerfolgsprognose? Ein metaanalytisches Update

Authors:
  • Institute for Educational Analysis Baden-Württemberg
  • ITB Consulting GmbH
  • ITB Consulting GmbH

Abstract

Fachspezifische Studierfähigkeitstests werden in mehreren zulassungsbeschränkten Studiengängen als Auswahlinstrument eingesetzt. Eine Metaanalyse von Hell, Trapmann und Schuler (2007) ermittelte eine hohe prognostische Validität solcher Tests. Seitdem hat es allerdings umfassende Veränderungen des Bildungssystems (z.B. Bologna-Prozess, Änderungen der Schulsysteme) sowie eine stete Weiterentwicklung der Testverfahren gegeben. Zur Klärung der Frage, ob fachspezifische Studierfähigkeitstests nach wie vor eine gute Erfolgsprognose liefern, schreibt die vorliegende Arbeit die Metaanalyse von Hell et al. (2007) fort. Die prognostische Validität im deutschsprachigen Raum ist stabil geblieben (ρ = .427, K = 54 Stichproben, N = 8410 Personen). Es fanden sich höhere Validitäten bei neueren Studien, Zeitschriftenartikeln mit Peer-Review, universitären Stichproben sowie bei kürzerem Abstand zwischen Test und Studiennotenerfassung. Zudem zeigten sich Fachunterschiede bezüglich der prognostischen Validität beispielsweise zugunsten von Sozialwissenschaften (ρ = .510). Die Studierfähigkeitstests besitzen außerdem eine inkrementelle Validität über die Abiturnote hinaus (ΔR2 = .081, k = 31, n = 3999). Die Befunde sprechen dafür, dass die Testverfahren einen hilfreichen Beitrag zur erfolgreichen Studierendenauswahl liefern (als Alternative oder Ergänzung zur Abiturnote).
Running Head: VALIDITÄT VON STUDIERFÄHIGKEITSTESTS
Leisten fachspezifische Studierfähigkeitstests im deutschsprachigen Raum eine valide
Studienerfolgsprognose? Ein metaanalytisches Update
Johannes Schult*
Institut für Bildungsanalysen Baden-Württemberg, Stuttgart
Arvid Hofmann und Stephan J. Stegt
ITB Consulting, Bonn
Diese Artikelfassung entspricht nicht vollständig dem in der Zeitschrift für
Entwicklungspsychologie und Pädagogische Psychologie veröffentlichten Artikel unter
doi:10.1026/0049-8637/a000204. Dies ist nicht die Originalversion des Artikels und kann
daher nicht zur Zitierung herangezogen werden. Bitte verbreiten oder zitieren Sie diesen
Artikel nicht ohne Zustimmung des Autors.
*Korrespondierender Autor: Dr. Johannes Schult, Institut für Bildungsanalysen Baden-
Württemberg, Heilbronner Straße 172, D-70191 Stuttgart, Telefon: 0711 6642-3102, Fax:
0711 6642-3098, E-Mail: jutze@jutze.com
Autorenhinweis zu möglichen Interessenkonflikten: Arvid Hofmann und Dr. Stephan J.
Stegt sind Human Resources Consultant bzw. Gesellschafter der Firma ITB Consulting,
welche mehrere der in der Metaanalyse betrachteten Tests entwickelt hat.
VALIDITÄT VON STUDIERFÄHIGKEITSTESTS 2
Zusammenfassung
Fachspezifische Studierfähigkeitstests werden in mehreren zulassungsbeschränkten
Studiengängen als Auswahlinstrument eingesetzt. Eine Metaanalyse von Hell, Trapmann
und Schuler (2007) ermittelte eine hohe prognostische Validität solcher Tests. Seitdem hat
es allerdings umfassende Veränderungen des Bildungssystems (z.B. Bologna-Prozess,
Änderungen der Schulsysteme) sowie eine stete Weiterentwicklung der Testverfahren
gegeben. Zur Klärung der Frage, ob fachspezifische Studierfähigkeitstests nach wie vor
eine gute Erfolgsprognose liefern, schreibt die vorliegende Arbeit die Metaanalyse von
Hell et al. (2007) fort. Die prognostische Validität im deutschsprachigen Raum ist stabil
geblieben (ρ = .427, K = 54 Stichproben, N = 8410 Personen). Es fanden sich höhere
Validitäten bei neueren Studien, Zeitschriftenartikeln mit Peer-Review, universitären
Stichproben sowie bei kürzerem Abstand zwischen Test und Studiennotenerfassung.
Zudem zeigten sich Fachunterschiede bezüglich der prognostischen Validität
beispielsweise zugunsten von Sozialwissenschaften (ρ = .510). Die Studierfähigkeitstests
besitzen außerdem eine inkrementelle Validität über die Abiturnote hinaus (ΔR² = .081,
k = 31, n = 3999). Die Befunde sprechen dafür, dass die Testverfahren einen hilfreichen
Beitrag zur erfolgreichen Studierendenauswahl liefern (als Alternative oder Ergänzung zur
Abiturnote).
Schlüsselwörter: Studierfähigkeitstest, Validität, Studierendenauswahl, Studienerfolg,
Prognose
VALIDITÄT VON STUDIERFÄHIGKEITSTESTS 3
Do subject-specific admission tests in German-speaking countries provide a valid
prediction of academic performance? A meta-analytic update
Abstract
Subject-specific college admission tests are used for student selection in fields with
restricted admission. A meta-analysis by Hell, Trapmann and Schuler (2007) found a high
predictive validity of such tests. Since then, there have been various changes in the
educational system (e.g., the Bologna process, changes in schooling) and an ongoing
development of testing procedures. The present study continues the meta-analysis of Hell
et al. (2007) in order to find out whether subject-specific college admission tests still
provide a good prediction of educational success. The predictive validity remained stable
in German-speaking countries (ρ = .427, K = 54 samples, N = 8410 persons). Validities
were higher in newer studies, peer-reviewed journal articles, university samples, and
studies with a shorter time between testing and assessment of college grades. Furthermore,
the predictive validity differed between fields of study, for example in favour of the social
sciences (ρ = .510). College admission tests also have incremental validity over and above
high school grades (ΔR² = .081, k = 31, n = 3999). These findings support the notion that
the admission tests contribute to an effectual student selection (as an alternative or
additionally to high school grades).
Keywords: admission test, validity, student selection, academic performance, prediction
VALIDITÄT VON STUDIERFÄHIGKEITSTESTS 4
Leisten fachspezifische Studierfähigkeitstests im deutschsprachigen Raum eine valide
Studienerfolgsprognose? Ein metaanalytisches Update
Gibt es mehr Bewerbungen als zu vergebende Studienplätze, braucht es sinnvolle
Verfahren, um nach festgelegten Kriterien die am besten geeigneten Bewerberinnen und
Bewerber zum Studium zuzulassen. Die Note der Hochschulzugangsberechtigung (HZB)
dient häufig als wichtiges, oft auch einziges Kriterium bei der Studienplatzvergabe im
Sinne der Bestenauslese. Schulnoten sind valide Prädiktoren des Studienerfolgs
(Trapmann, Hell, Weigand & Schuler, 2007), obgleich sie eigentlich keine prospektive
Diagnose darstellen (Schuler & Schult, 2018). Problematisch ist, dass die HZB-Noten aus
verschiedenen (Bundes-) Ländern nur bedingt vergleichbar sind. In diesem Sinne
entschied das Bundesverfassungsgericht (BVerfG), dass Hochschulen Studienplätze im
Falle einer bundesweiten Zulassungsbeschränkung „nicht allein und auch nicht ganz
überwiegend nach dem Kriterium der Abiturnoten“ vergeben dürfen (BVerfG, 2017,
Abs. 209). Fachspezifische Studierfähigkeitstests stellen ein wichtiges ergänzendes bzw.
alternatives Auswahlinstrument dar. Einen ersten Überblick über die prognostische
Validität solcher Testverfahren bietet die Metaanalyse von Hell, Trapmann und Schuler
(2007), die die Forschungslage von 1980 bis 2005 zusammenfasst. Mit der vorliegenden
Metaanalyse überprüfen wir, wie sich die Validität von fachspezifischen
Studierfähigkeitstests im Zuge der nachfolgenden Veränderungen der Bildungslandschaft
(z.B. Bologna-Prozess) entwickelt hat.
Begriffsklärung und Definition
Die Begriffe „fachspezifischer Studierfähigkeitstest“, „studienfachspezifischer
Fähigkeitstest“ oder „studienfeldbezogener Test“ werden weitgehend synonym verwendet.
Wir definieren den Begriff „fachspezifischer Studierfähigkeitstest“ in Anlehnung an den
Deidesheimer Kreis (1997) wie folgt: Ein fachspezifischer Studierfähigkeitstest ist ein Test
VALIDITÄT VON STUDIERFÄHIGKEITSTESTS 5
zur Messung derjenigen Fähigkeiten und Fertigkeiten, die zur Bewältigung der
Anforderungen eines bestimmten Studiengangs besonders wichtig sind. Ein
fachspezifischer Studierfähigkeitstest wird für einen einzelnen Studiengang entwickelt
oder für eine Gruppe von Studiengängen mit ähnlichen Anforderungen. Der Schwerpunkt
liegt auf der Messung kognitiver Fähigkeiten. Einstellungen, Interessen, Motive oder
allgemeine Persönlichkeitseigenschaften werden nicht direkt erfasst.
Ein fachspezifischer Studierfähigkeitstest beinhaltet komplexe fachbezogene
Problemlöseaufgaben. Mit diesen Problemlöseaufgaben „wird eine Simulation typischer
Lern- und sonstiger Anforderungssituationen der betreffenden Studiengänge angestrebt“
(Deidesheimer Kreis, 1997, S. 109). Sie werden häufig kombiniert mit Aufgaben zur
Messung allgemeiner kognitiver Fähigkeiten, wie sie in Intelligenztests zum Einsatz
kommen. In einem fachspezifischen Studierfähigkeitstest im engeren Sinne werden keine
Kenntnisse abgefragt.
Daneben gibt es Verfahren, die in Veröffentlichungen ebenfalls als fachspezifische
Studierfähigkeitstests bezeichnet werden, die aber andere bzw. zusätzliche
Aufgabenformate beinhalten, beispielsweise die Abfrage von Kenntnissen, das Schreiben
eines Essays oder die Abfrage von Inhalten des ersten Studienjahres in einer Klausur, auf
die man sich vor dem Test mit Lehrbüchern vorbereiten muss. Diese Verfahren haben wir
als „Sonstige/Mischtests“ in die Metaanalyse aufgenommen.
Eine erweiterte Definition, die über die des Deidesheimer Kreises hinausgeht und
u.a. auch die Mischtests umfasst, könnte wie folgt lauten: Ein fachspezifischer
Studierfähigkeitstest misst kognitive Fähigkeiten und Fertigkeiten, die für akademischen
Erfolg in einem spezifischen Studiengang oder Studienfeld besonders wichtig sind. Er
beinhaltet fachspezifische komplexe Problemlöseaufgaben, die mit weiteren Elementen
wie fachunspezifischen Problemlöseaufgaben oder Kenntnisabfragen kombiniert werden
können.
VALIDITÄT VON STUDIERFÄHIGKEITSTESTS 6
Da allgemeine Studierfähigkeitstests gemäß dem Hochschulrahmengesetz in
Deutschland nicht für die Studierendenauswahl eingesetzt werden dürfen, stehen in der
Forschungsliteratur und somit auch in der vorliegenden Metaanalyse fachspezifische
Studierfähigkeitstests im Fokus.
1
Konstruktionsprinzipien und Qualitätsstandards
Die Konstruktion eines fachspezifischen Studierfähigkeitstests sollte auf einer Analyse der
Anforderungen basieren, die das jeweilige Studium an die Studierenden stellt (vgl.
Moosbrugger, Jonkisz & Fucks, 2006). Diese Anforderungsanalyse kann beispielsweise in
Form von Workshops mit Hochschulmitarbeitenden erfolgen oder durch die
Berücksichtigung einschlägiger Studien. Vor der Implementierung des Tests sollte eine
empirische Erprobung der Aufgaben mit Personen der Zielgruppe stattfinden, um
Indikatoren der Testgüte zu ermitteln und den Test anhand der Gütekriterien zu
optimieren, beispielsweise durch die Anpassung des Schwierigkeitsniveaus.
Messeigenschaften wie die Reliabilität sowie Zusammenhänge mit relevanten
Außenkriterien sollten kontinuierlich ermittelt werden. Soweit irgend möglich, sollte die
Prognosekraft des Tests bezüglich des Studienerfolgs empirisch überprüft werden.
Konstruktion und Evaluation sollten von psychologischem Fachpersonal mit
eignungsdiagnostischer Expertise vorgenommen oder zumindest begleitet werden, unter
Berücksichtigung nationaler und internationaler Standards der Testentwicklung (z.B. DIN
33430, Richtlinien der International Test Commission [ITC]).
1
Allgemeine Fähigkeitstests werden lediglich zu Forschungs- und Beratungszwecken eingesetzt, wobei der
Zusatznutzen über fachspezifische Tests hinaus fraglich ist (Schult, Fischer & Hell, 2016).
VALIDITÄT VON STUDIERFÄHIGKEITSTESTS 7
Studierfähigkeitstests im Auswahlprozess und in der Forschung
Die Metaanalyse von Hell et al. (2007) fasst die Validitätsbefunde für den
deutschsprachigen Raum von 1980 bis 2005 zusammen. Basierend auf neun Studien mit
K = 36 Stichproben (N = 45091 Personen) betrug die mittlere (ungewichtete) Korrelation
zwischen Testleistung und Studiennoten r = .321. Das gewichtete metaanalytische Mittel
betrug nach der Korrektur der Kriteriumsunreliabilität ρ = .436 und nach zusätzlicher
Korrektur für selektionsbedingte Variabilitätseinschränkung ρ = .478. Fachspezifische
Studierfähigkeitstests waren zu Beginn des Bologna-Prozesses somit valide Prädiktoren
des Studienerfolgs. In der Metaanalyse fanden sich weiterhin Studienfachunterschiede
(von ρ = .325 für Wirtschaftswissenschaften bis zu ρ = .507 für Humanmedizin),
uneinheitliche Studienabschnittsunterschiede sowie höhere Validitäten für Untersuchungen
von hochschulübergreifenden Stichproben. Für die inkrementelle Validität von
Studierfähigkeitstests über die HZB-Note wurde basierend auf den metaanalytischen
Befunden ein Wertekorridor zwischen 6.6 % und 10.2 % geschätzt (abhängig von der
Prädiktor-Interkorrelation; Hell, Trapmann & Schuler, 2008).
Das Interesse an (deutschsprachigen) Studierfähigkeitstests hat seither nicht
abgenommen; standardisierte Testverfahren haben eher noch an Bedeutung gewonnen.
Aktuell nutzt beispielsweise die deutliche Mehrheit der Medizinfakultäten staatlicher
Hochschulen in Deutschland Studierfähigkeitstests zur Studierendenauswahl (Schwibbe et
al., 2018). Bei der Zulassung zum Psychologie-Studium können in allen Bundesländern
Auswahltests berücksichtigt werden (Janke & Dickhäuser, 2018). Darüber hinaus kommen
in anderen Fachrichtungen ebenfalls gezielt Studierfähigkeitstests zum Einsatz, wenn die
Nachfrage die Zahl der verfügbaren Studienplätze überschreitet. Auch in Österreich und
der Schweiz muss zur Wahrung der Studienqualität die Zulassung in Fächern wie
beispielsweise Medizin beschränkt werden; dabei werden fachspezifische
VALIDITÄT VON STUDIERFÄHIGKEITSTESTS 8
Studierfähigkeitstests als Auswahlinstrument eingesetzt (Arendasy, Sommer &
Feldhammer-Kahr, 2016; Hänsgen, 2012).
Die Konzeption und Pflege von Studierfähigkeitstests ist eine fortlaufende Aufgabe
und Herausforderung. Bei Auswahltests müssen stetig neue Aufgaben entwickelt werden,
damit das Testmaterial nicht einfach auswendig gelernt werden kann.
Studienanforderungen können sich im Laufe der Zeit ändern, was ebenfalls eine
Anpassung der Testinhalte notwendig macht. Die Validität fachspezifischer
Studierfähigkeitstests muss also kontinuierlich überprüft werden. Entsprechend gab es in
den Jahren seit der ersten Metaanalyse (Hell et al., 2007) nicht weniger, sondern mehr
Untersuchungen sowohl zu neuen Testverfahren, als auch zu etablierten
Auswahlinstrumenten wie dem Test für Medizinische Studiengänge (TMS). Zu beachten
ist dabei, dass in den letzten zwölf Jahren auch vermehrt Studien durchgeführt wurden, bei
denen die prädiktive Validität von Studierfähigkeitstests untersucht wurde, ohne dass das
Testergebnis für die Zulassung relevant war (z.B. Hänsgen, 2012). Ein Vorteil davon ist,
dass die Prognose auch für Studierende mit schlechten Testergebnissen untersucht werden
kann, ohne dass man auf Korrekturen für Einschränkungen der Variabilität zurückgreifen
muss. Ein Nachteil dieser Studien ist jedoch, dass die Testsituation eine andere ist. Denn in
Auswahlverfahren hängt die persönliche Zukunft vom Abschneiden im Test ab. Die
Bewerberinnen und Bewerber bemühen sich, die bestmögliche Leistung zu erbringen. Die
Testbearbeitung erfolgt vermutlich konzentrierter, aber auch unter größerer Anspannung.
Probeklausuren erzeugen beispielsweise weniger Leistungsängstlichkeit als vergleichbare
benotete Prüfungen (Lotz & Sparfeldt, 2017). Inzwischen liegen hinreichend viele Studien
vor, dass ein metaanalytischer Vergleich der unterschiedlichen Testsituationen stattfinden
kann.
Studierende begegnen den Tests heute vermutlich besser informiert und vorbereitet
als früher. Denn die Tests sind weiter verbreitet und es gibt zahlreiche online verfügbare
VALIDITÄT VON STUDIERFÄHIGKEITSTESTS 9
Informationen zu den Tests sowie Vorbereitungsmöglichkeiten. Wie etwaige
Übungseffekte die prognostische Validität dabei verändern, ist noch unklar. Studien aus
den Vereinigten Staaten, in denen um Studierfähigkeitstests eine regelrechte
Vorbereitungsindustrie entstanden ist, deuten jedoch nicht auf gravierende
Validitätsschwankungen hin (vgl. Sackett, Borneman & Connelly, 2008). Auch auf Seiten
der Testentwicklung und -durchführung gab es in den letzten Jahren Veränderungen. Die
Testverfahren wurden stetig weiterentwickelt, so dass inzwischen auch jenseits der
Medizin großflächig und fortlaufend Studierfähigkeitstests eingesetzt werden (vgl. Hell et
al., 2007).
Studienerfolgskriterien
Die prädiktive Validität von Auswahlverfahren hängt davon ab, welche
Studienerfolgskriterien betrachtet werden. In der Testevaluationsforschung wie auch für
die Studierenden selbst sind Noten (nicht nur wegen ihrer einfach erfassbaren numerischen
Form) von zentraler Bedeutung. Im Zuge des Bologna-Prozesses findet nun eine
Kreditierung jedes Leistungsmoduls statt und Prüfungen aus allen Semestern fließen in die
Endnote ein (vgl. Winkel, 2010). Studiennoten hängen dabei positiv mit anderen
Erfolgskriterien wie Studienabschluss, Studiendauer, Studienzufriedenheit und
anschließenden Berufschancen zusammen (vgl. Stemler, 2012). Auch wenn es Hinweise
gibt, dass Studierfähigkeitstests diese Kriterien vorhersagen können (insbesondere
Studienabschluss, vgl. Kurz, Metzger & Linsner, 2014), reicht die Studienzahl bislang
nicht für eine umfängliche metaanalytische Aggregation. Zudem gibt es methodische
Herausforderungen bei der Erfassung des Kriteriums Abschluss bzw. Abbruch. Im
Studienverlauf kann zwischen (weiterhin) immatrikulierten und exmatrikulierten Personen
unterschieden werden (z.B. Nickolaus & Abele, 2009). Unter den Exmatrikulierten
befinden sich allerdings auch Hochschulwechsler, die ihr Studium an einem anderen Ort
fortsetzen. Um Personen dahingehend zu unterscheiden, ob sie ihr Studium mit oder ohne
VALIDITÄT VON STUDIERFÄHIGKEITSTESTS 10
Abschluss beenden, braucht es langen Atem (vgl. Kurz et al., 2014). Teilweise wird
deshalb auch das Kriterium „Abschluss in Regelstudienzeit“ betrachtet (z.B. Kadmon &
Kadmon, 2016). Gerade bei vorselegierten Stichproben sind die Abbruchquoten außerdem
eher niedrig. Eine zuverlässige Studienabschlussprognose ist dann nur mit großen
Kohorten möglich. Hier besteht sicherlich Forschungsbedarf für zukünftige Großprojekte
(vgl. Deutsche Gesellschaft für Psychologie, 2018a, S. 45).
Ziele und Fragestellungen
Ziel der vorliegenden Metaanalyse ist die Fortschreibung der Arbeit von Hell et al. (2007)
anhand von Validitätsstudien, die zwischenzeitlich durchgeführt wurden. Wir erwarten
eine weitgehende Replikation der Befunde, also mittelstarke bis starke Zusammenhänge
zwischen Testleistungen und Studienleistungen mit Korrelationen zwischen r = .3 und
r = .5. Als potenzielle Moderatoren wurden von Hell et al. (2007) (1) das Publikationsjahr,
(2) die Heterogenität der Stichprobe in Bezug auf unterschiedliche Hochschulen, (3) die
Art der Publikation (Zeitschriftenartikel mit Peer-Review vs. Sonstige), (4) die
Erhebungsbedingung (Selektionsfunktion vs. keine Selektionsfunktion) sowie (5) das
Studienfach bzw. die Fachrichtung übernommen. Während Hell et al. (2007) den
Studienabschnitt als Moderator untersuchten, testeten wir (6) die (angestrebte)
Abschlussart, (7) die Zeit zwischen Testung und Kriteriumserfassung sowie (8) den
Vergleich von Einzel-/Zwischennoten mit Abschlussnoten als Moderatoren. Außerdem
wurde untersucht, ob es Unterschiede bezüglich (9) der Hochschulart (reine
Universitätsstichproben vs. andere) sowie (10) der Testart (reine Fähigkeitstests vs.
Sonstige/Mischtests) gibt. Zusätzlich erfolgte zur Bestimmung der inkrementellen
Validität fachspezifischer Studierfähigkeitstests eine Gegenüberstellung der
metaanalytischen Validität von Abiturnoten alleine und von Abiturnoten und
Testergebnissen zusammen.
VALIDITÄT VON STUDIERFÄHIGKEITSTESTS 11
Methode
Literatursuche
Ziel der verwendeten Suchstrategie war es, alle aktuellen Studien zur prädiktiven Validität
fachspezifischer Studierfähigkeitstests im deutschsprachigen Raum zu identifizieren.
Einschlusskriterien waren entsprechend a) die Verwendung eines fachspezifischen
Fähigkeitstests, b) ein längsschnittliches Untersuchungsdesign, c) (mindestens) eine
berichtete Korrelation der Testleistung mit dem Erfolgskriterium Studiennoten, d)
Publikation seit 2005, e) Testzeitpunkt nach 1990
2
sowie f) Studierendenstichproben von
Hochschulen in Deutschland, Österreich oder der Schweiz. Der Zeitraum wurde gewählt,
um eine nahtlose Fortschreibung der Metaanalyse von Hell et al. (2007) zu ermöglichen.
Zugleich wurden Studien bzw. Stichproben ausgeschlossen, die bereits bei Hell et al.
(2007) eingeschlossen wurden, damit die Ergebnisse der damaligen und der vorliegenden
neuen Metaanalyse unabhängig voneinander betrachtet und verglichen werden können.
Zuerst wurden die Datenbanken PsycINFO und PSYNDEX durchsucht (65 Treffer;
Stand: 2. Dezember 2018). Dabei wurde die folgende Suchanfrage verwendet für Treffer
ab 2005: Studierfähigkeitstest* OR ((Eignungstest* AND Studium)) OR (((Leistungstest*
OR Testleistung*) AND Studierendenauswahl*)) OR (((Leistungstest* OR Testleistung*)
AND (Studienfeldspezifisch* OR Studienfachspezifisch*))) OR
Studierendenauswahlverfahren OR Studieneingangstest OR ((EMS AND "Eignungstest
für das Medizinstudium")) OR ((TMS AND "Test für Medizinische Studiengänge")) OR
((Fachspezifisch* AND Eignungstest*)) OR ((Auswahlverfahren AND (Studium OR
Studienerfolg))) OR Studienerfolgsprognose. Weiterhin wurden die Studien gesichtet, die
laut Google Scholar die Metaanalyse von Hell et al. (2007) zitieren (76 Treffer, Stand: 2.
2
Wie schon Hell et al. (2007) beschränken wir uns auf „neuere“ Studien, um Verzerrungen durch historische
Unterschiede bei der Testkonstruktion, bei den Studiengängen und bei der Studierendenpopulation zu
vermeiden.
VALIDITÄT VON STUDIERFÄHIGKEITSTESTS 12
Dezember 2018). Da es sich bei der Metaanalyse von Hell et al. (2007) um die vermutlich
einschlägigste Arbeit zum Thema handelt, hielten wir die explizite Betrachtung der
zitierenden Arbeiten für sinnvoll, zumal so auch weitere „graue“ Literatur wie
Dissertationen und technische Berichte ermittelt werden konnte. Über die Sichtung von
Referenzen einschlägiger Artikel sowie thematisch verwandter Arbeiten wurde
anschließend weiter nach passenden Studien gesucht. Nach Sichtung der Suchergebnisse
wurden 46 Studien kodiert, von denen 28 letztlich in die Metaanalyse eingeschlossen
werden konnten. Das Flussdiagramm in Abbildung 1 zeigt die verschiedenen Phasen der
Literaturrecherche.
Abbildung 1. PRISMA-Flussdiagramm für die verschiedenen Phasen der systematischen
Metaanalyse (vgl. Moher, Liberati, Tetzlaff & Altman, 2009) * = Mehrfachnennungen
möglich
VALIDITÄT VON STUDIERFÄHIGKEITSTESTS 13
Kodierung
Die ausgewählten Studien wurden von den ersten beiden Autoren mithilfe eines
Kodierschemas unabhängig voneinander kodiert. Dabei lagen die Werte der
Intraklassenkorrelationskoeffizienten bei mindestens intervallskalierten Variablen im
Bereich von 0.92 bis 1 und die Werte für Cohens к für die kategorialen Variablen im
Bereich von 0.48
3
und 1. Uneinheitliche Kodierungen wurden vom dritten Autor gesichtet
und geklärt. Wurden Validitäten für mehrere Kriterien berichtet, wurde die zeitlich
späteste Studienleistung gewählt. Bei unklaren oder gleichzeitigen Zeitpunkten der
Erfolgsdiagnose wurden die Validitätskoeffizienten nach Fishers z-Transformation
gemittelt. Lagen Validitäten für überlappende Teilstichproben vor, wurde die Korrelation
aus der größten Stichprobe gewählt.
Analyseplan
Die Metaanalyse wurde in R 3.5.2 (R Core Team, 2018) mit dem Paket metafor 2.0-0
(Viechtbauer, 2010) gerechnet nach der Strategie von Hunter und Schmidt (2004; vgl.
Viechtbauer, 2019). Für die Metaanalyse werden Modelle mit festen Effekten (fixed
effects, FE) und mit Zufallseffekten (random effects, RE) berichtet (vgl. Schmidt, Oh &
Hayes, 2009). Die Moderatorenanalysen basieren analog zu Hell et al. (2007) auf FE-
Modellen. Die Datenmatrix und die Auswertungssyntax stehen online unter
https://osf.io/n6dmx/.
Zur Schätzung der operativen Validität wurde die Metaanalyse mit den für die
Variabilitätseinschränkung durch Selektionseffekte (restriction of range) und für
Kriteriumsunreliabilität korrigierten Korrelationskoeffizienten durchgeführt (vgl. Schmidt,
Le & Oh, 2009). Die Variabilitätseinschränkung durch Selektionseffekte betrug für
3
Bei der Variable „Wie setzt sich die Stichprobe bezüglich des akademischen Rahmens zusammen?“ (z.B.
„eine Hochschule, mehrere Jahrgänge“, in der Analyse später dichotomisiert zu „eine/mehrere
Hochschulen“) mit к = 0.48 wurde die Kodieranweisung von den Beurteilern unterschiedlich aufgefasst. Die
übrigen Variablen zeigen ein Cohens к von mindestens 0.66.
VALIDITÄT VON STUDIERFÄHIGKEITSTESTS 14
Studien, in denen der Test Auswahlfunktion hatte, zwischen u = 0.68 und u = 1.03
(M = 0.83, SD = 0.14, k = 13). Dabei entspricht u dem Verhältnis der Standardabweichung
der Testleistungen der ausgewählten Studierenden zur Standardabweichung der
Testleistungen aller Bewerberinnen und Bewerber (Schmidt, Le & Oh, 2009). Wenn in
einem Bewerbungsverfahren die Testleistungen aller Teilnehmenden mit SD = 1 streuen
und in der dann ausgewählten Stichprobe (in der die schwächsten Testleistungen
systematisch fehlen) die Testleistungen nur noch mit SD = 0.8 streuen, ergibt sich u =
0.8/1 = 0.8. Für diejenigen Studien zu Tests mit Auswahlfunktion, bei denen die
Variabilitätseinschränkung nicht bestimmt werden konnte, verwendeten wir als Schätzung
das gewichtete Mittel u = 0.83. Im Vergleich dazu kamen Hell et al. (2007) auf u = 0.889.
Für Studien zu Tests ohne Auswahlfunktion fand keine Korrektur für Selektionseffekte
statt (u = 1), was sich auch mit den empirischen Befunden deckt, die keine
Variabilitätseinschränkung enthalten (z.B. Schult, 2018). Als Schätzung für die Reliabilität
der Studiennoten wurde zur optimalen Vergleichbarkeit wie bei Hell et al. (2007) der
Reliabilitätswert r = .83 verwendet (vgl. Kuncel et al., 2001, 2004).
Zusammen mit dem Funnelplot betrachteten wir die trim and fill-Analyse, um
abzuschätzen, wie weit ein möglicher publication bias die Validitätsschätzung verzerrt
(Duval, 2005). Als allgemeiner Test auf Heterogenität wurde die Q-Statistik betrachtet
(vgl. Schwarzer, Carpenter & Rücker, 2015). Die zehn Moderatoren wurden mithilfe von
Q-Statistiken für die Prüfung auf erklärte Varianz und auf verbleibende Restvarianz
untersucht. Als Signifikanzniveau wurde α = .05 gewählt, wobei in der
Moderatorenanalyse durch die Bonferroni-Korrektur für multiple Tests das
Vergleichsniveau α = .05/10 = .005 beträgt.
Zuletzt wurde, soweit in den Originalstudien verfügbar, noch die prognostische
Validität der HZB-Noten sowie die Validität der Kombination aus Studierfähigkeitstests
und HZB-Noten geschätzt, um die inkrementelle Validität der Testleistungen über die
VALIDITÄT VON STUDIERFÄHIGKEITSTESTS 15
HZB-Noten hinaus zu untersuchen. Dabei wurde nur die Korrektur für
Kriteriumsunreliabilität durchgeführt, weil insbesondere für die HZB-Test-Kombination
belastbare Daten zur selektionsbedingten Variabilitätseinschränkung fehlen. Die
inkrementelle Validität wird häufig als Zuwachs an erklärter Kriteriumsvarianz berichtet.
Sie wurde in der vorliegenden Arbeit entsprechend berechnet als ΔR² = ρ²HZB+Test ρ²HZB.
Ergebnisse
Im Rahmen der Literaturrecherche konnten 28 Studien identifiziert werden, die die
Einschlusskriterien erfüllten (vgl. Tab. 1). K = 54 Stichproben mit N = 8410 Personen
flossen in die vorliegende Metaanalyse ein. Ohne Korrekturen beträgt der gewichtete
mittlere Effekt r = .355. Die Validitätskoeffizienten reichen dabei von r = .003 bis r = .676
(SD = .141). Nach der Korrektur für die Unreliabilität des Kriteriums Studiennoten liegt
das metaanalytische Mittel bei ρ = .390. Die Metaanalyse der operativen Validität
(korrigiert für Kriteriumsunreliabilität und selektionsbedingte Variabilitätseinschränkung)
beträgt schließlich ρ = .427 (vgl. den Forestplot in Abb. 2 sowie Tab. 2). Sowohl das
95 %-Konfidenz- als auch das 90 %-Kredibilitätsintervall liegen jeweils deutlich über
Null. Somit kann eine positive Validität für die fachspezifischen Studierfähigkeitstests
generalisiert werden.
Tabelle 1
Übersicht über die eingeschlossenen Stichproben
Quelle
Stichprobe
n
r
A
ρ
Bergholz & Stegt (2018)
Jura, Frauen
201
.33
.640
.516
Bergholz & Stegt (2018)
Jura, Männer
378
.33
.668
.494
Buschhüter et al. (2017)
Physik, Stichprobe A
106
.44
.911
.483
Damaschke (2016)
Medizin
72
.298
.769
.387
Dlugosch (2005)
Jura, Studienjahr 2000
63
.53
.683
.776
Dlugosch (2005)
Jura, Studienjahr 2001
91
.18
.657
.274
Fischer et al. (2015)
Naturwissenschaften, Frauen
129
.26
.911
.285
VALIDITÄT VON STUDIERFÄHIGKEITSTESTS 16
Fischer et al. (2015)
Naturwissenschaften, Männer
140
.38
.911
.417
Fischer et al. (2015)
Wirtschaftswissenschaften, Frauen
169
.41
.911
.450
Fischer et al. (2015)
Wirtschaftswissenschaften,
Männer
187
.49
.911
.538
Formazin et al. (2011)
Psychologie
79
.33
.772
.428
Frankenberger (2013)
Politikwissenschaft 20102013
56
.437
.782
.559
Freyer (2013)
Berlin, Chemie
88
.287
.911
.315
Freyer (2013)
Berlin, Lehramt
29
.320
.911
.351
Freyer (2013)
Essen, Chemie
63
.369
.911
.405
Freyer (2013)
Essen, Lehramt
31
.676
.911
.742
Freyer (2013)
München, Chemie
180
.270
.911
.296
Freyer (2013)
München, Lehramt
68
.211
.911
.232
Greiff (2006)
Verschiedene, 02/2000
298
.255
.911
.280
Greiff (2006)
Verschiedene, 05/2001
323
.338
.911
.371
Greiff (2006)
Verschiedene, 11/2000
196
.262
.911
.288
Hänsgen (2012)
Humanmedizin, Kohorte 2010
239
.49
.911
.538
Hänsgen et al. (2007)
Humanmedizin
440
.328a
.746
.440
Heene (2007)
Psychologie
66
.161b
.911
.177
Höft & Schuster (2014)
Arbeitsmarktmanagement /
Beschäftigungsorientierte
Beratung und Fallmanagement
302
.003
.759
.004
Kadmon & Kadmon (2016)
Medizin, Abiturnote 1,0
195
.433
.781
.554
Kadmon & Kadmon (2016)
Medizin, Abiturnote 2,02,3
94
.446
.783
.570
Kothe et al. (2013)
Zahnmedizin, WS 2006/07
47
.025b
.911
.027
Kothe et al. (2013)
Zahnmedizin, WS 2007/08
39
.153b
.911
.167
Kothe et al. (2013)
Zahnmedizin, WS 2009/10
34
.190b
.763
.249
Kothe et al. (2013)
Zahnmedizin, WS 2010/11
32
.308b
.770
.400
Krex (2008)
Ingenieurwissenschaften
94
.20
.911
.220
Kurz et al. (2014)
Bachelor Fahrzeugtechnik
42
.242
.911
.266
Kurz et al. (2014)
Bachelor Maschinenbau
49
.55
.911
.604
Kurz et al. (2014)
Diplom Fahrzeugtechnik
64
.309
.911
.339
Kurz et al. (2014)
Diplom Maschinenbau
41
.476
.911
.522
Lengenfelder et al. (2008)
Psychologie
246
.508b
.790
.643
Maaß (2008)
Produktionsmanagement, SS 2007
22
.44
.932
.472
Maaß (2008)
Produktionsmanagement, WS
2006/07
26
.23
.655
.351
Mallinger et al. (2007)
Medizin, Frauen
273
.41
.705
.582
VALIDITÄT VON STUDIERFÄHIGKEITSTESTS 17
Mallinger et al. (2007)
Medizin, Männer
325
.40
.729
.549
Müller et al. (2018)
Bauingenieurwesen
177
.58
.911
.637
Müller et al. (2018)
Biologie
116
.35
.911
.384
Müller et al. (2018)
Chemie
156
.65
.911
.713
Müller et al. (2018)
Physik
76
.66
.911
.724
Nickolaus & Abele (2009)
Anglistik
91
.49
.788
.622
Schachtschneider (2016)
Lehramt Biologie, Längsschnitt
61
.454
.911
.498
Schult (2018)
Wirtschaftswissenschaften
95
.30
.911
.329
Stegt & Bergholz (2018)
Betriebswirtschaftslehre
646
.35
.778
.450
Stegt & Bergholz (2018)
Volkswirtschaftslehre
195
.45
.804
.560
Wahl & Walenta (2017)
Betriebswirtschaft und
Wirtschaftspsychologie
267
.39
.777
.502
Werwick et al. (2018)
Humanmedizin, M1 20142016
319c
.31
.770
.403
Zimmerhofer (2008)
Informatik, Hauptfach
182
.345b
.911
.378
Zimmerhofer (2008)
Informatik, Nebenfach
412
.304b
.911
.333
n = Stichprobengröße, r = Korrelation zwischen Testleistung und Studiennoten, A =
Korrekturfaktor (vgl. Schmidt, Le & Oh, 2009), ρ = operative Validität (korrigiert für
Kriteriumsunreliabilität und selektionsbedingte Variabilitätseinschränkung).
a Gemittelte Korrelation; aus den berichteten, für Variabilitätseinschränkung korrigierten
Validitäten wurde die unkorrigierte Korrelation geschätzt (mit u = 0.83).
b Gemittelte Korrelation
c Werwick (persönliche Kommunikation am 8.11.2018)
Tabelle 2
Validität von fachspezifischen Studierfähigkeitstests
Korrektur
N
K
ρ
SEFE
95 %
KIFE
SERE
95 %
KIRE
I²
90 %
KRRE
Kriteriumsunreliabilität
8410
54
.390
.010
[.369,
.410]
.022
[.347,
.433]
66.77 %
[.205,
.574]
Kriteriumsunreliabilität,
Variabilitätseinschränkung
8410
54
.427
.012
[.405,
.450]
.024
[.380,
.475]
67.75 %
[.220,
.635]
N = Personen in der Gesamtstichprobe, K = Anzahl der unabhängigen Stichproben,
ρ = mittlere korrigierte Validität, SEFE = Standardfehler von ρ (Modell mit festen
Effekten), 95 % KIFE = 95 %-Konfidenzintervall um ρ (feste Effekte),
SERE = Standardfehler von ρ (Modell mit Zufallseffekten), 95 % KIRE = 95 %-
Konfidenzintervall um ρ (Zufallseffekte), I² = Anteil der Variabilität, der auf heterogene
Studien zurückzuführen ist und nicht auf den Stichprobenfehler, 90 % KRRE = 90 %-
Kredibilitätsintervall um ρ.
VALIDITÄT VON STUDIERFÄHIGKEITSTESTS 18
Abbildung 2. Der Forestplot zeigt die operativen Validitäten (Korrelationen zwischen
Testleistung und Studienerfolg, korrigiert für Kriteriumsunreliabilität und
selektionsbedingte Variabilitätseinschränkung) der eingeschlossenen Studien mit dem
jeweils dazugehörigen 95%-Konfidenzintervall.
Bergholz & Stegt (2018) Frauen
Bergholz & Stegt (2018) Männer
Buschhüter et al. (2017) Stichprobe A
Damaschke (2016)
Dlugosch (2005) 2000
Dlugosch (2005) 2001
Fischer et al. (2015) Nat.-Wiss. Frauen
Fischer et al. (2015) Nat.-Wiss. Männer
Fischer et al. (2015) Wiwi Frauen
Fischer et al. (2015) Wiwi Männer
Formazin et al. (2011)
Frankenberger (2013)
Freyer (2013) Berlin Chemie
Freyer (2013) Berlin Lehramt
Freyer (2013) Essen Chemie
Freyer (2013) Essen Lehramt
Freyer (2013) München Chemie
Freyer (2013) München Lehramt
Greiff (2006) 02/2000
Greiff (2006) 05/2001
Greiff (2006) 11/2000
Hänsgen (2012)
Hänsgen et al. (2007)
Heene (2007)
Höft & Schuster (2014)
Kadmon & Kadmon (2016) Abi 1.0
Kadmon & Kadmon (2016) Abi 2.02.3
Kothe et al. (2013) WS 2006/07
Kothe et al. (2013) WS 2007/08
Kothe et al. (2013) WS 2009/10
Kothe et al. (2013) WS 2010/11
Krex (2008) Ingenieurwissenschaften
Kurz et al. (2014) Bachelor Fahrzeugtechnik
Kurz et al. (2014) Bachelor Maschinenbau
Kurz et al. (2014) Diplom Fahrzeugtechnik
Kurz et al. (2014) Diplom Maschinenbau
Lengenfelder et al. (2008)
Maaß (2008) SS 2007
Maaß (2008) WS 2006/07
Mallinger et al. (2007) Frauen
Mallinger et al. (2007) Männer
Müller et al. (2018) Bauingenieurwesen
Müller et al. (2018) Biologie
Müller et al. (2018) Chemie
Müller et al. (2018) Physik
Nickolaus & Abele (2009)
Schachtschneider (2016)
Schult (2018)
Stegt & Bergholz (2018) BWL
Stegt & Bergholz (2018) VWL
Wahl & Walenta (2017)
Werwick et al. (2018)
Zimmerhofer (2008) Hauptfach
Zimmerhofer (2008) Nebenfach
Gesamt
-0.25
0
0.25
0.5
0.75
1
Effektstärke (operative Validität)
VALIDITÄT VON STUDIERFÄHIGKEITSTESTS 19
Der Funnelplot in Abbildung 3 zeigt die Verteilung der Effektstärken in Abhängigkeit des
Standardfehlers. Es gibt wenige Ausreißer, die teils nach oben und teils nach unten
abweichen. Entsprechend schätzt die trim and fill-Analyse, dass keine Stichproben auf der
linken Seite fehlen. Der signifikante Homogenitätstest (Qtotal(53) = 168.7, p < .001;
I² = 67.75 %; vgl. Tab. 3) deutet jedoch auf mögliche Moderatoreneffekte hin.
Abbildung 3. Der Funnelplot zeigt die operativen Validitäten (Korrelationen zwischen
Testleistung und Studienerfolg, korrigiert für Kriteriumsunreliabilität und
selektionsbedingte Variabilitätseinschränkung) in Abhängigkeit der dazugehörigen
Standardfehler. Bei Abwesenheit von Moderatoreffekten und publication bias würde man
erwarten, dass 95% der Effektstärken im mittleren Dreieck (gepunktete Linien) liegen.
Effektstärke (operative Validität)
Standardfehler
0.267
0.2
0.133
0.067
0
-0.2
-0
0.2
0.4
0.6
0.8
1
VALIDITÄT VON STUDIERFÄHIGKEITSTESTS 20
Tabelle 3
Q-Test für die Gesamtanalyse, für den Moderator Studienfach sowie für den Moderator
(angestrebter) Studienabschluss
Qtotal
df
p
Qbetween
df
p
Qwithin
df
p
Q-Test gesamt
168.7
53
<.001
Moderator Studienfach
22.1
8
.0047*
146.5
45
<.001*
Moderator
Studienabschluss
6.1
3
.109
162.6
50
<.001*
Die Bonferroni-Adjustierung des α-Niveaus ergibt * für α < .005.
Moderatorenanalyse
Wie schon in der Metaanalyse von Hell et al. (2007) zeigen sich erneut
Validitätsunterschiede zwischen verschiedenen Fachrichtungen (Q(8) = 22.1, p < .005, vgl.
Tab. 3). Erneut fällt die mittlere Validität in medizinischen Studiengängen höher aus als in
den Wirtschaftswissenschaften. In den Sozialwissenschaften (inkl. Psychologie) und in
den Rechtswissenschaften finden sich sogar noch höhere Validitäten, während die
Ingenieur- und die Naturwissenschaften im mittleren Bereich von .47 > ρ > .43 liegen (vgl.
Tab. 4).
4
Zwischen unterschiedlichen (angestrebten) Abschlüssen gibt es dagegen keine
signifikanten Unterschiede (vgl. Tab. 3 und 4).
Das Publikationsjahr zeigt einen positiven Zusammenhang mit den berichteten
Effektstärken (b = .008, p = .001): Neuere Studien weisen etwas höhere Validitäten auf. Je
länger der Zeitraum zwischen Test und Kriteriumserfassung ist, desto niedriger fallen
dagegen die Validitäten aus (b = .049, p < .001). Vom ersten bis zum sechsten Semester
eines Studiums entspräche das einer Abnahme von knapp Δρ = .25. Prognosen über einen
längeren Zeitraum sind also schwieriger zu treffen als Prognosen über einen kurzen
Zeitraum. Im Schnitt sind die Validitätskoeffizienten für rein universitäre Stichproben mit
4
Da für Anglistik (Nickolaus & Abele, 2009), Produktionsmanagement (Maaß, 2008) und Informatik
(Zimmerhofer, 2008) nur jeweils eine Primärstudie vorlag (mit maximal k = 2 Stichproben), sehen wir in
diesen Fachrichtungen von einer Interpretation ab.
VALIDITÄT VON STUDIERFÄHIGKEITSTESTS 21
ρ = .461 signifikant größer als für gemischte und für Fachhochschulstichproben (ρ = .346;
p = < .001). Außerdem werden in Zeitschriftenartikeln mit Peer-Review Validitäten
berichtet, die im Schnitt um Δρ = .093 (p < .001) höher ausfallen als in anderen
Publikationsarten. Für die übrigen Moderatorvariablen finden sich keine generalisierbaren
Effekte (vgl. Tab. 5).
Tabelle 4
Analyse der kategorialen Moderatoren Studienrichtung und (angestrebter)
Studienabschluss (Korrekturen: Kriteriumsunreliabilität, Variabilitätseinschränkung)
Studienrichtung
N
K
ρ
SEFE
95 % KIFE
Anglistik
91
1
.622
.117
[.393, .851]
Sozialwissenschaften
447
4
.510
.052
[.409, .611]
Rechtswissenschaften
733
4
.498
.049
[.402, .595]
Medizin
2109
12
.471
.025
[.423, .520]
Ingenieurwissenschaften
467
6
.465
.045
[.378, .553]
Naturwissenschaften
1243
13
.437
.027
[.383, .491]
Produktionsmanagementa
48
2
.428
.164
[.106, .749]
Wirtschaftswissenschaften
2678
10
.376
.020
[.337, .415]
Informatik
594
2
.347
.039
[.270, .424]
(angestrebter) Studienabschluss
N
K
ρ
SEFE
95 % KIFE
Bachelor
3163
24
.441
.019
[.404, .478]
Master
936
3
.457
.036
[.387, .528]
Staatsexamen
1619
14
.457
.028
[.403, .512]
Diplom
2692
13
.390
.019
[.352, .428]
N = Personen in der Gesamtstichprobe, K = Anzahl der unabhängigen Stichproben,
ρ = mittlere korrigierte Validität, SEFE = Standardfehler von ρ (Modell mit festen
Effekten), 95 % KIFE = 95 %-Konfidenzintervall um ρ (feste Effekte)
a Der Studiengang Produktionsmanagement deckt zu gleichen Teilen wirtschafts- und
ingenieurwissenschaftliche Inhalte ab (vgl. Maaß, 2008), weshalb er hier separat betrachtet
wird.
VALIDITÄT VON STUDIERFÄHIGKEITSTESTS 22
Tabelle 5
Moderatorenanalyse für kontinuierliche und dichotome (Dummy-kodierte) Variablen
K
b
SE(b)
Qbetween
(df = 1)
p
Publikationsjahr
54
.008
.003
10.7
.001*
Eine vs. mehrere Hochschulen
54
.008
.023
0.1
.724
Sonstige vs. Journalartikel mit Peer-Review
54
.093
.024
14.9
<.001*
Keine Auswahlfunktion vs.
Auswahlfunktion
54
.013
.023
0.3
.577
Einzel-/Zwischennoten vs. Abschlussnoten
54
.054
.029
3.5
.062
Jahre zwischen Testung und
Kriteriumserfassung
46
.049
.014
12.0
<.001*
Sonstige vs. reine Universitätsstichproben
54
.115
.025
20.5
<.001*
Sonstige/Mischtests vs. reine Fähigkeitstests
54
.059
.025
5.6
.018
Die Bonferroni-Adjustierung des α-Niveaus ergibt * für α < .005.
Inkrementelle Validität
Für 31 Stichproben aus insgesamt 13 Artikeln wurden zusätzlich Informationen zur
prognostischen Validität von HZB-Noten sowie von HZB-Noten zusammen mit
Studierfähigkeitstestleistungen berichtet (n = 3999). Für die Korrelation von HZB- und
Studiennoten ergibt sich ein metaanalytisches Mittel von ρ = .447 (korrigiert für die
Unreliabilität der Studiennoten). Für die gemeinsame Validität von HZB-Noten und
Studierfähigkeitstests bezüglich der Studiennoten beträgt das metaanalytische Mittel
ρ = .530 (ebenfalls korrigiert für Kriteriumsunreliabilität). Die Differenz der quadrierten
mittleren Validitäten ergibt als geschätzte inkrementelle Validität ΔR² = .530²
.447² = .081. Die Leistungen im Studierfähigkeitstest klären also etwa 8 % zusätzliche
Studienerfolgsvarianz über die HZB-Noten hinaus auf. Zu beachten ist dabei, dass in den
hier untersuchten 31 Stichproben die fachspezifischen Studierfähigkeitstests eine
numerisch niedrigere Validität hatten (ρ = .365, korrigiert für Kriteriumsunreliabilität) als
die 54 Stichproben der oben berichteten Gesamtanalyse = .390, korrigiert für
VALIDITÄT VON STUDIERFÄHIGKEITSTESTS 23
Kriteriumsunreliabilität, vgl. Tab. 2), so dass die inkrementelle Validität womöglich
unterschätzt wird.
5
Diskussion
Die vorliegende Metaanalyse zeigt, dass die prädiktive Validität von fachspezifischen
Studierfähigkeitstests im deutschsprachigen Raum weiterhin gut ist und untermauert damit
die Empfehlung der Deutschen Gesellschaft für Psychologie (2018b),
studiengangspezifische Eignungstests im Rahmen von Auswahlverfahren zu verwenden.
Die zentralen Befunde der 12 Jahre zurückliegenden Metaanalyse (Hell et al., 2007) ließen
sich mit dem neuen Studienpool mit 54 Stichproben gut replizieren. Die operative
Validität (also die für selektionsbedingte Variabilitätseinschränkung und
Kriteriumsunreliabilität korrigierte Korrelation) liegt bei ρ = .427 und somit im
mittelhohen Bereich (.3 < ρ .5 nach Cohen, 1988). Validitäten in diesem Bereich finden
sich beispielsweise auch für die Studienerfolgsprognose durch deutsche Abiturnoten
(Trapmann et al., 2007) und für die Berufserfolgsprognose durch Leistungstests (vgl.
Sackett et al., 2008). Für Interviews als Auswahlverfahren für Studierende zeigen sich im
Vergleich dazu lediglich kleine Effekte (.1 < ρ .3 nach Cohen, 1988; vgl. Hell et al.,
2008).
Die inkrementelle Validität von fachspezifischen Studierfähigkeitstests konnte
anhand von 31 Stichproben untersucht werden. Nach Berücksichtigung der HZB-Note (mit
R² = .447² = 20 %) kann die Testleistung etwa 8 % Studiennotenvarianz zusätzlich
erklären. Dieser Wert liegt im erwarteten Wertekorridor und spricht dafür, dass
fachspezifische Studierfähigkeitstests einen Mehrwert über Abiturnoten hinaus bieten
können, insbesondere bei niedrigen Selektionsquoten (vgl. Hell et al., 2008). Die
5
Die (unreliabilitätskorrigierte) Validität der HZB-Noten ρ = .447 liegt in den 31 Stichproben leicht unter
dem metaanalytischen (deutschen) Mittel von ρ = .467 (k = 42, n = 45860; Trapmann et al., 2007).
VALIDITÄT VON STUDIERFÄHIGKEITSTESTS 24
gemeinsame operative Validität von Studierfähigkeitstests und HZB-Note liegt im hohen
Bereich ρ > .5 nach Cohen (1988).
Studierfähigkeitstests für sozialwissenschaftliche, juristische und medizinische
Studiengänge weisen im Schnitt die höchsten Validitäten auf. Der Studienabschnitt im
Sinne des Zeitabstands zwischen Testung und Studiennotenerhebung war ebenfalls ein
signifikanter Moderator: Je größer der Zeitabstand ist, desto kleiner fallen im Schnitt die
Validitäten aus. Dies deckt sich mit längsschnittlichen Studien (Höft & Schuster, 2014;
Kurz et al., 2014). Beim Vergleich von Testverfahren sollte somit auch der Zeitabstand
berücksichtigt werden.
Die Testung im Rahmen eines Selektionsprozesses moderierte die Validität dagegen
nicht. Auch für die Heterogenität der Stichproben in Bezug auf unterschiedliche
Hochschulen fand sich anders als bei Hell et al. (2007) kein signifikanter Effekt.
Stattdessen waren Tests, die an Universitäten eingesetzt wurden, im Schnitt valider als
Tests, die überwiegend an Fachhochschulen genutzt wurden. Dies kann möglicherweise
dadurch erklärt werden, dass Studiengänge an Fachhochschulen einen höheren
Praxisbezug aufweisen (vgl. Höft & Schuster, 2014) und die gängigen
Studierfähigkeitstests stark auf Fähigkeiten fokussieren, die für die stärker
forschungsorientierten Studieninhalte an Universitäten relevant sind. Bei neueren Studien
war eine leichte Validitätszunahme zu beobachten; dies könnte ein Indiz für eine
erfolgreiche Pflege und (Weiter-)Entwicklung der Testinstrumente sein. Dafür spricht
auch, dass beispielsweise die wirtschaftswissenschaftlichen Testverfahren deskriptiv
höhere Validitäten erzielen als in der Metaanalyse von Hell et al. (2007).
Besonders wichtig ist auch die Erkenntnis, dass nicht jeder fachspezifische
Studierfähigkeitstest, der nach wissenschaftlichen Kriterien entwickelt wurde, auch
automatisch eine hohe Validität hat, wie die Studie von Höft und Schuster (2014) zeigt.
VALIDITÄT VON STUDIERFÄHIGKEITSTESTS 25
Daher sollte auch weiterhin für jede konkrete (Studierenden-)Auswahl die Validität
evaluiert werden.
Wünschenswert ist an dieser Stelle zudem, dass Validitätsbefunde möglichst
vollständig und einheitlich berichtet werden. Bei der Kodierung begegneten wir in vielen
Studien sehr fragmentarisch berichteten Ergebnissen. Mal fehlten Angaben zur
Stichprobengröße und zu den Messzeitpunkten, mal wurde nur die Validität für Test und
HZB-Note gemeinsam beziffert, jedoch nicht für die Prädiktoren im Einzelnen (und auch
selten die Korrelation zwischen HZB-Note und Testleistung).
Die 2007er Metaanalyse (Hell et al., 2007) basiert auf N = 45091 Personen, während
die vorliegende Metaanalyse dagegen Daten von „nur“ N = 8410 Personen aggregiert. Die
Zahl der eingeschlossenen Studien bzw. Stichproben ist in der vorliegenden Studie
allerdings deutlich größer (K = 54 vs. K = 36). Es „fehlen“ die sehr umfangreichen
Stichproben aus medizinischen Studiengängen (z.B. n = 12496; Trost, 1998), dafür ist die
Zahl der Personen in nichtmedizinischen Studiengängen mehr als dreimal so hoch
(n = 6301 vs. n = 1873). Somit kann die vorliegende Studie insbesondere in den
nichtmedizinischen Studienfeldern zusätzliche Informationen bezüglich der Validität von
Auswahltests liefern. Die Vielfalt der Fächer, Studiendesigns und Testverfahren, die in die
vorliegende Metaanalyse einflossen, ist eine Stärke dieser Übersichtsarbeit.
Limitationen
Studiennoten sind ein zentrales Erfolgskriterium. Ihnen kommt im Zuge von Bologna
große Bedeutung zu, da nun bereits die Leistungen ab dem ersten Semester in die
Abschlussnote einfließen. Andere Kriterien wie erfolgreicher Studienabschluss,
Studienzufriedenheit und Studiendauer wurden zwar in einzelnen Studien untersucht,
können derzeit aber aufgrund der geringen Studienzahl noch nicht metaanalytisch
betrachtet werden.
VALIDITÄT VON STUDIERFÄHIGKEITSTESTS 26
Zur Bestimmung der operationalen Validität wurden die Validitätskoeffizienten wie
allgemein üblich für die Unreliabilität des Kriteriums (und auch für die selektionsbedingte
Variabilitätseinschränkung der Leistungen) korrigiert (vgl. Sackett et al., 2008). Für die
Unreliabilitätskorrektur wurde dabei für alle Studien der gleiche Reliabilitätswert r = .83
angenommen (vgl. Kuncel et al., 2001, 2004). In der Literatur finden sich sowohl höhere
(z.B. Beatty, Walmsley, Sackett, Kuncel & Koch, 2015 für US-amerikanische Noten) als
auch niedrigere Schätzwerte (z.B. Greiff, 2006 für deutsche Hochschulnoten). Da die
Korrektur in der vorliegenden Arbeit analog zur Metaanalyse von Hell et al. (2007)
durchgeführt wurde, bleiben die jeweiligen (korrigierten) Ergebnisse optimal vergleichbar.
Dass Effekte in manchen Arbeiten nur selektiv berichtet wurden, stellt eine
potenzielle Gefahr für die Generalisierbarkeit der vorliegenden Metaanalyse dar. Unter
den nicht eingeschlossenen Stichproben finden sich vereinzelt Studien mit sehr kleinen
Effekten, welche lediglich als nicht signifikant berichtet werden (z.B. Krex, 2008). Der
metaanalytische Mittelwert würde entsprechend wohl etwas geringer ausfallen, wenn diese
kleinen Stichproben zusätzlich mit eingeschlossen werden könnten. Zugleich sind unter
den nicht eingeschlossenen Studien auch Arbeiten, die zwar Validitätshinweise liefern,
jedoch abweichende Erfolgsmaße betrachten (z.B. Hissbach, Klusmann & Hampe, 2011).
Der metaanalytische Mittelwert würde entsprechend gestützt und möglicherweise sogar
etwas erhöht werden, wenn diese Validitätsbefunde mit eingeschlossen werden könnten.
Eine selektive Publikation positiver Ergebnisse ist im Sinne des publication bias denkbar
(vgl. Schwarzer et al., 2015). Die Moderatorenanalyse liefert einen Hinweis auf derartige
Verzerrungen, denn die Validitäten in Zeitschriftenartikeln mit Peer-Review fallen
signifikant höher aus als in anderen Publikationsarten. Der Funnelplot und die trim and
fill-Analyse deuten jedoch nicht auf eine systematische Überschätzung der mittleren
Validität hin.
VALIDITÄT VON STUDIERFÄHIGKEITSTESTS 27
Als Ausreißer im Funnelplot fällt der niedrige Validitätskoeffizient 𝑟̅ = .003 aus der
Studie von Höft und Schuster (2014) auf, der auf den Daten von n = 302
Bachelorstudierenden beruht. Zur Vorhersage der Bachelorabschlussnote wurden als
fachspezifischer Studierfähigkeitstest Teile eines umfassenderen kognitiven
Fähigkeitstests verwendet (Pösse & Klinck, 2007). Für die augenscheinlich abstrakteren
Subtests „Formanalogien“, „Datenvergleich“ und „Verbalanalogien“ fanden sich in der
Studie sogar erwartungswidrige Vorzeichen bei den Validitäten. Die fachbezogeneren
Subtests „Vorschriften“ und „Textrechnen“ zeigten aber immerhin signifikante positive
Zusammenhänge mit der Leistung im ersten Studientrimester. Die Ergebnisse machen
jedenfalls deutlich, dass nicht jeder Fähigkeitstest automatisch eine valide
Studienerfolgsprognose erlaubt. Entsprechend wurde das Testverfahren an der
betreffenden Hochschule zwischenzeitlich überarbeitet und durch neue Teile ergänzt, die
inhaltlich einen stärkeren Bezug zu den Studieninhalten haben (Höft & Ambiel, 2017).
Dies unterstreicht die Bedeutung von Validierungsstudien, die eine fortlaufende Pflege
und Anpassung der Auswahlinstrumente ermöglichen. In unsere Metaanalyse ging die von
Höft und Schuster (2014) berichtete Nullkorrelation selbstverständlich ein. Insgesamt
liegen also keine Hinweise auf eine systematische Unter- oder Überschätzung der
aggregierten Validität vor.
Die Studienbasis für die Schätzung der inkrementellen Testvalidität über die HZB-
Noten hinaus ist nur etwa halb so groß wie die der Gesamtanalyse. Angesichts der
numerisch niedrigeren Testvalidität in den verwendbaren Studien wäre es vorstellbar, dass
validere Tests eine noch höhere inkrementelle Validität besitzen. Andererseits wurde zur
gemeinsamen Vorhersage des Studienerfolgs durch HZB-Note und Testleistung in den
meisten Fällen die beste Linearkombination der beiden Prädiktoren verwendet. Dies führt
zu einer Überanpassung der Regressionsmodelle. Eine Kreuzvalidierung ergibt
VALIDITÄT VON STUDIERFÄHIGKEITSTESTS 28
gewöhnlich etwas niedrigere Validitäten (konkrete Berechnungen siehe Zimmerhofer,
2008).
Fazit
Fachspezifische Studierfähigkeitstests sind ein valides Instrument zur
Studierendenauswahl, das als Alternative wie auch als Ergänzung zur HZB-Note
eingesetzt werden kann. Die vorliegenden Befunde sind für Praxis und Forschung
gleichermaßen relevant. Es ergeben sich deutliche Hinweise bezüglich der guten
prädiktiven Validität von Studierfähigkeitstests in verschiedenen Fachbereichen. Die
Vorhersage von Studienerfolg in Masterstudiengängen ist ein vielversprechender
Schwerpunkt für zukünftige Forschung, da es hierzu bislang nur wenige Studien gibt und
mit den Bachelornoten ein weiterer interessanter Prädiktor existiert (Troche, Mosimann &
Rammsayer, 2014). Perspektivisch gilt es zudem, Validitätsuntersuchungen auf weitere
Erfolgskriterien (wie z.B. Studiendauer, -zufriedenheit, -abschluss) auszuweiten. Studien
zur Testfairness (vgl. Bergholz & Stegt, 2018; Fischer, Schult & Hell, 2013) sollten den
Einsatz von Auswahltests begleiten.
Fachspezifische Studierfähigkeitstests sind jedoch keine Selbstläufer. Ihre
Konstruktion ist aufwändig. Bei der Entwicklung wie auch bei der fortlaufenden Pflege
müssen inhaltliche, organisatorische, rechtliche und nicht zuletzt psychometrische Aspekte
berücksichtigt werden. Daher sollten fachspezifische Studierfähigkeitstests stets mit Hilfe
psychologischer Expertinnen und Experten und unter Berücksichtigung von
wissenschaftlichen Standards der Testentwicklung (DIN 33430, ITC) entwickelt werden.
Aus ökonomischen Gründen wie auch zur besseren Vergleichbarkeit der Ergebnisse
empfehlen sich hochschulübergreifende Lösungen. So lassen sich Zulassungsverfahren
entwickeln, die prospektiven Studierenden und auswählenden Hochschulen einen
validitätsbezogenen Mehrwert bieten.
VALIDITÄT VON STUDIERFÄHIGKEITSTESTS 29
Literatur
Arendasy, M., Sommer, M. & FeldhammerKahr, M. (2016). MedAT:
Kurzzusammenfassung 20132016. Graz: Universität Graz.
Beatty, A. S., Walmsley, P. T., Sackett, P. R., Kuncel, N. R. & Koch, A. J. (2015). The
reliability of college grades. Educational Measurement: Issues and Practice, 34(4),
3140. doi:10.1111/emip.12096
*Bergholz, L. & Stegt, S. J. (2018). Validität und Fairness eines Studierfähigkeitstests für
Rechtswissenschaften. Zeitschrift für Hochschulentwicklung, 13(4), 5797.
Bundesverfassungsgericht [BVerfG] (2018). Urteil des Ersten Senats vom 19. Dezember
2017 1 BvL 3/14 Rn. (1 253). Zugriff am 7.11.2018. Verfügbar unter
http://www.bverfg.de/e/ls20171219_1bvl000314.html
*Buschhüter, D., Spoden, C. & Borowski, A. (2017). Studienerfolg im Physikstudium:
Inkrementelle Validität physikalischen Fachwissens und physikalischer Kompetenz.
Zeitschrift für Didaktik der Naturwissenschaften, 23(1), 127141.
doi:10.1007/s40573-017-0062-7
Cohen, J. (1988). Statistical power analysis for the behavioral sciences (2. Aufl.).
Hillsdale, NJ: Erlbaum.
*Damaschke, M. (2016). Qualitätssicherung der Studierendenauswahl: Test für
Medizinische Studiengänge (TMS) aus Sicht von Studienbewerbern, Studierenden und
Absolventen des Studienganges Humanmedizin. Unveröffentlichte Dissertation,
Ruprecht-Karls-Universität Heidelberg.
Deidesheimer Kreis (1997). Hochschulzulassung und Studieneignungstests. Göttingen:
Vandenhoek und Ruprecht.
Deutsche Gesellschaft für Psychologie (2018a). Aktuelle Mitteilungen, 14(52).
Deutsche Gesellschaft für Psychologie (2018b). Erfolgreich im Studium? DGPs für
studiengangspezifische Eignungstests (Pressemitteilung 03.09.2018). Zugriff am
VALIDITÄT VON STUDIERFÄHIGKEITSTESTS 30
15.11.2018. Verfügbar unter https://www.dgps.de/uploads/media/DGPs-
Presseinformation_03-09-2018.pdf
*Dlugosch, S. (2005). Prognose von Studienerfolg: dargestellt am Beispiel des
Auswahlverfahrens der Bucerius Law School. Herzogenrath: Shaker
Duval, S. J. (2005). The trim and fill method. In: H. R. Rothstein, A. J. Sutton & M.
Borenstein (Hrsg.), Publication bias in meta-analysis: Prevention, assessment, and
adjustments (S. 127144). Chichester: Wiley
*Fischer, F., Schult, J. & Hell, B. (2015). Unterschätzung der Studienleistungen von
Frauen durch Studierfähigkeitstests: Erklärbar durch Persönlichkeitseigenschaften?
Diagnostica, 61, 3446. doi:10.1026/0012-1924/a000120
Fischer, F. T., Schult, J. & Hell, B. (2013). Sex-specific differential prediction of college
admission tests: A meta-analysis. Journal of Educational Psychology, 105, 478488.
doi:10.1037/a0031956
*Formazin, M., Schroeders, U., Köller, O., Wilhelm, O. & Westmeyer, H. (2011).
Studierendenauswahl im Fach Psychologie. Psychologische Rundschau, 62, 221236.
doi:10.1026/0033-3042/a000093
*Frankenberger, R. (2013). Kritische Übergänge: Theoretische Überlegungen und
empirische Befunde zur Frage der Studierfähigkeit. Tübinger Beiträge zur
Hochschuldidaktik, 9(3).
*Freyer, K. (2013). Zum Einfluss von Studieneingangsvoraussetzungen auf den
Studienerfolg Erstsemesterstudierender im Fach Chemie. Berlin: Logos.
*Greiff, S. (2006). Prädiktoren des Studienerfolgs. Duisburg: WiKu-Verlag
*Hänsgen, K.-D. (2012) EMS als Self Assessment ungeeignet? Zu den Ergebnissen des
Eignungstests für das Medizinstudium (EMS) in Genf 20102012. Freiburg, Schweiz:
Zentrum für Testentwicklung und Diagnostik.
VALIDITÄT VON STUDIERFÄHIGKEITSTESTS 31
*Hänsgen, K.-D., Eggli, P. & Wechsler, K. (2007). Numerus clausus und Eignungstest
das richtige Konzept? (Vortrag). Vortrag Journee de reflexion FMH, Bern,
07.12.2007. Zugriff am 8.11.2018. Verfügbar unter
https://www3.unifr.ch/ztd/ems/doc/emseval07.pdf
*Heene, M. (2007). Konstruktion und Evaluation eines Studierendenauswahlverfahrens
für Psychologie an der Universität Heidelberg. Unveröffentlichte Dissertation,
Ruprecht-Karls-Universität Heidelberg.
Hell, B., Trapmann, S. & Schuler, H. (2007). Eine Metaanalyse der Validität von
fachspezifischen Studierfähigkeitstests im deutschsprachigen Raum. Empirische
Pädagogik, 21, 251270.
Hell, B., Trapmann, S. & Schuler, H. (2008). Synopse der Hohenheimer Metaanalysen zur
Prognostizierbarkeit des Studienerfolgs und Implikationen für die Auswahl- und
Beratungspraxis. In H. Schuler & B. Hell (Hrsg.), Studierendenauswahl und
Studienentscheidung (S. 4354). Göttingen: Hogrefe.
Hissbach, J. C., Klusmann, D. & Hampe, W. (2011). Dimensionality and predictive
validity of the HAM-Nat, a test of natural sciences for medical school admission.
BMC Medical Education, 11, 83. doi:10.1186/1472-6920-11-83
Höft, S. & Ambiel, D. (2017, September). Studienerfolg an der Hochschule der BA:
Vorhersagequalität unterschiedlicher Prädiktoren im Kohortenvergleich.
Posterpräsentation auf der 14. Arbeitstagung der Fachgruppe Differentielle
Psychologie, Persönlichkeitspsychologie und Psychologische Diagnostik (DPPD) in
München.
*Höft, S. & Schuster, G. (2014). Vorhersage des Studienerfolgs an der Hochschule der
Bundesagentur für Arbeit auf Grundlage der Studieneingangskriterien „Schulnote“
und „Fachspezifischer Studierfähigkeitstest“. In P. Guggemos, M. Müller & M.
Rübner (Hrsg.), Herausforderungen und Erfolgsfaktoren beschäftigungsorientierter
VALIDITÄT VON STUDIERFÄHIGKEITSTESTS 32
Beratung. Beiträge aus der Beratungsforschung (S. 210237). Landau: Verlag
Empirische Pädagogik.
Hunter, J. E. & Schmidt, F. L. (2004). Methods of meta-analysis: Correcting error and
bias in research findings (2nd ed.). Thousand Oaks, CA: Sage.
Janke, S. & Dickhäuser, O. (2018). Zur prognostischen Güte von Zulassungskriterien im
Psychologiestudium für Studienerfolgsindikatoren. Psychologische Rundschau, 69,
160168. doi:10.1026/0033-3042/a000383
*Kadmon, G. & Kadmon, M. (2016). Studienleistung von Studierenden mit den besten
versus mittelmäßigen Abiturnoten: Gleicht der Test für Medizinische Studiengänge
(TMS) ihre Prognosen aus? GMS Journal for Medical Education, 33(1), Doc7.
doi:10.3205/zma001006
*Kothe, C., Hissbach, J. & Hampe, W. (2013). Das Hamburger Auswahlverfahren in der
Zahnmedizin-Einführung des HAM-Nat als fachspezifischer Studierfähigkeitstest.
GMS Journal for Medical Education, 30(4), Doc46. doi:10.3205/zma000889
*Krex, L. (2008). Studienerfolgsprognose in der Bundeswehr-Evaluation vorhandener und
zukünftiger Prädiktoren. Unveröffentlichte Dissertation, Rheinische Friedrich-
Wilhelms-Universität zu Bonn.
Kuncel, N. R., Hezlett, S. A. & Ones, D. S. (2001). A comprehensive metaanalysis of the
predictive validity of the graduate record examinations: Implications for graduate
student selection and performance. Psychological Bulletin, 127, 162181.
doi:10.1037//0033-2909.127.1.162
Kuncel, N. R., Hezlett, S. A. & Ones, D. S. (2004). Academic performance, career
potential, creativity, and job performance: Can one construct predict them all? Journal
of Personality and Social Psychology, 86, 148161. doi:10.1037/0022-3514.86.1.148
*Kurz, G., Metzger, G. & Linsner, M. (2014). Studienerfolg und seine Prognose: eine
Fallstudie in Ingenieurstudiengängen der Hochschule für Angewandte Wissenschaften
VALIDITÄT VON STUDIERFÄHIGKEITSTESTS 33
Esslingen. In M. Rentschler & G. Metzger (Hrsg.), Perspektiven angewandter
Hochschuldidaktik: Studien und Erfahrungsberichte (S. 1379). Aachen: Shaker.
*Lengenfelder, P., Baumann, U., Allesch, C. & Nuerk, H.-C. (2008). Studierendenauswahl
an der Universität Salzburg: Konzeption und Validität. In H. Schuler & B. Hell
(Hrsg.), Studierendenauswahl und Studienentscheidung (S. 192203). Göttingen:
Hogrefe.
Lotz, C. & Sparfeldt, J. R. (2017). Does test anxiety increase as the exam draws near?
Students’ state test anxiety recorded over the course of one semester. Personality and
Individual Differences, 104, 397400. doi:10.1016/j.paid.2016.08.032
*Maaß, S. (2008). Inhaltliche Aspekte des Fachspezifischen Studierfähigkeitstests. In M.
Rentschler & H.-P. Voss (Hrsg.), Studieneignung und Studierendenauswahl
Untersuchungen und Erfahrungsberichte (S. 7193). Aachen: Shaker
*Mallinger, R., Holzbaur, C., Dierich, M., Heidegger, M., Hänsgen, K.-D. & Spicher, B.
(2007). EMS: Eignungstest für das Medizinstudium in Österreich. Freiburg, Schweiz:
Zentrum für Testentwicklung und Diagnostik.
Moher, D., Liberati, A., Tetzlaff, J. & Altman, D. G. (2009). Preferred reporting items for
systematic reviews and meta-analyses: The PRISMA statement. PLoS Med, 6(7):
e1000097. doi:10.1371/journal.pmed1000097
Moosbrugger, H., Jonkisz, E. & Fucks, S. (2006). Studierendenauswahl durch die
Hochschulen: Ansätze zur Prognostizierbarkeit des Studienerfolgs am Beispiel des
Studiengangs Psychologie. Report Psychologie, 3, 114123.
*Müller, J., Stender, A., Fleischer, J., Borowski, A., Dammann, E., Lang, M. & Fischer, H.
E. (2018). Mathematisches Wissen von Studienanfängern und Studienerfolg.
Zeitschrift für Didaktik der Naturwissenschaften, 24, 183199. doi:10.1007/s40573-
018-0082-y
VALIDITÄT VON STUDIERFÄHIGKEITSTESTS 34
*Nickolaus, R. & Abele, S. (2009). Chancen und Grenzen eines differenzierteren Ansatzes
zur Hochschulbewerberauswahl. Das Hochschulwesen, 57(3), 8188.
Pösse, B. & Klinck, D. (2007). Testserie für Abiturienten und Hochschüler (MOT) im
Rahmen des Auswahlverfahrens für die Studiengänge an der Hochschule für
Bundesagentur für Arbeit. Information Nr. 66 des Psychologischen Dienstes.
Nürnberg: Bundesagentur für Arbeit.
R Core Team (2018). R: A language and environment for statistical computing. Wien: R
Foundation for Statistical Computing. Zugriff am 11.1.2019. Verfügbar unter
https://www.R-project.org
Sackett, P. R., Borneman, M. J. & Connelly, B. S. (2008). High stakes testing in higher
education and employment: appraising the evidence for validity and fairness.
American Psychologist, 63(4), 215227. doi:10.1037/0003-066X.63.4.215
*Schachtschneider, Y. (2016). Studieneingangsvoraussetzungen und Studienerfolg im
Fach Biologie. Berlin: Logos.
Schmidt, F. L., Le, H. & Oh, I.-S. (2009). Correcting for the distorting effects of study
artifacts in meta-analysis. In H. Cooper & L. V. Hedges (Hrsg.), The handbook of
research synthesis (2nd ed., S. 317333). New York: Russell Sage Foundation.
Schmidt, F. L., Oh, I.-S. & Hayes, T. L. (2009). Fixed- versus random-effects models in
meta-analysis: Model properties and an empirical comparison of differences in results.
British Journal of Mathematical and Statistical Psychology, 62, 91128.
doi:10.1348/000711007X255327
Schuler, H. & Schult, J. (2018). Prädiktoren von Studien- und Berufserfolg. In D. H. Rost,
J. R. Sparfeldt & S. R. Buch (Hrsg.), Handwörterbuch Pädagogische Psychologie (5.
Aufl., S. 645653). Weinheim: Beltz.
*Schult, J. (2018). Bereit für Bologna? Test- und notenbasierte Erfolgsprognose im
Masterstudium. Zugriff am 12.11.2018. Verfügbar unter https://osf.io/k9bg5
VALIDITÄT VON STUDIERFÄHIGKEITSTESTS 35
Schult, J., Fischer, F. T. & Hell, B. (2016). Tests of scholastic aptitude cover reasoning
facets sufficiently. European Journal of Psychological Assessment, 32, 215219.
doi:10.1027/1015-5759/a000247
Schwarzer, G., Carpenter, J. R. & Rücker, G. (2015). Meta-analysis with R. Cham:
Springer. doi:10.1007/978-3-319-21416-0
Schwibbe, A., Lackamp, J., Knorr, M., Hissbach, J., Kadmon, M. & Hampe, W. (2018).
Medizinstudierendenauswahl in Deutschland. Bundesgesundheitsblatt
Gesundheitsforschung Gesundheitsschutz, 61, 178186. doi:10.1007/s00103-017-
2670-2
*Stegt, S. J. & Bergholz, L. (2018). Vorhersage des Studienerfolgs in konsekutiven
Masterstudiengängen mithilfe eines kognitiven Eignungstests. Hochschulmanagement,
13(4), 101107.
Stemler, S. E. (2012). What should university admissions tests predict? Educational
Psychologist, 47, 517. doi:10.1080/00461520.2011.611444
Trapmann, S., Hell, B., Weigand, S. & Schuler, H. (2007). Die Validität von Schulnoten
zur Vorhersage des Studienerfolgs eine Metaanalyse. Zeitschrift für Pädagogische
Psychologie, 21, 1127. doi:10.1024/1010-0652.21.1.11
Troche, S., Mosimann, M. & Rammsayer, T. (2014). Die Vorhersage des Studienerfolgs
im Masterstudiengang Psychologie durch Schul- und Bachelorstudienleistungen.
Beiträge zur Hochschulforschung, 36(1), 3045.
Trost, G. (Hrsg.) (1998). Evaluation des Tests für medizinische Studiengänge (TMS):
Synopse der Ergebnisse. Bonn: Institut für Test- und Begabungsforschung.
Viechtbauer, W. (2010). Conducting meta-analyses in R with the metafor package.
Journal of Statistical Software, 36(3), 148. Zugriff am 11.1.2019. Verfügbar unter
http://www.jstatsoft.org/v36/i03/
VALIDITÄT VON STUDIERFÄHIGKEITSTESTS 36
Viechtbauer, W. (2019). Hunter and Schmidt method. Zugriff am 1.2.2019
http://www.metafor-project.org/doku.php/tips:hunter_schmidt_method
*Wahl, I. & Walenta, C. (2017). Evaluierung des Aufnahmeverfahrens eines
Fernstudiengangs anhand des Studienerfolges: Vorhersage des Studienerfolges durch
studienbezogene Lerntests, Englischtests, objektive Leistungsmotivationstests,
Intelligenztests und Eignungsinterviews. Zeitschrift für Evaluation, 16(1), 7396.
*Werwick, K., Winkler-Stuck, K. & Robra, B. P. (2018). From HAM-Nat to the
“Physikum” – Analysis of the study success parameters before and after the
introduction of a science test in the approval procedure. GMS Journal for Medical
Education, 35(3), Doc30. doi:10.3205/zma001176
Winkel, O. (2010). Higher education reform in Germany: How the aims of the Bologna
process can be simultaneously supported and missed. International Journal of
Educational Management, 24, 303313. doi:10.1108/09513541011045245
*Zimmerhofer, A. (2008). Studienberatung im deutschen Hochschulsystem auf der Basis
psychologischer Tests: Studienfachprofile, Vorhersagevalidität und Akzeptanz.
Unveröffentlichte Dissertation, Rheinisch-Westfälische Technische Hochschule
Aachen.
Die mit einem Stern versehenen Literatureinträge bezeichnen die Studien, die in die
Metaanalyse aufgenommen wurden.
... Zahner et al. (2012) recommend not using HSGPA alone in predicting college success but using additional criteria. Among the different selection criteria, especially scholastic aptitude tests became prominent, mainly because they are characterized by a high prognostic validity (Bejar & Blew, 1981;Mauger & Kolmodin, 1975;House & Keeley, 1997;Kuncel et al., 2005;Hell et al., 2007;Schult et al., 2019). Moreover, they elicit positive applicant reactions (Denker, Schütte, Kersting & Stegt, 2023), especially because candidates perceive them as valid, increasing their reputation and acceptance. ...
... was found. In a more recent meta-analysis including samples of German-speaking colleges and universities (Schult, Hofmann & Stegt, 2019), these findings were replicated and updated with a broader scope. For K = 54 samples (N = 8410), a weighted and corrected meta-analytic mean of ρ =.44 was shown, and the average uncorrected correlation between test performance and college grades was r = .36. ...
... By now, it is commonly presumed that aptitude tests can be a valuable addition to HSGPA and that combining both predictors in admission processes can induce the best prognostic values for college success. However, not every test is suitable for predicting success in secondary education (Schult et al., 2019). Therefore, it is recommendable to develop scholastic aptitude tests according to aptitude-diagnostic standards and evaluate them in line with those. ...
Article
The present study evaluates the PhaST, a scholastic aptitude test for pharmaceutical studies, which encompasses tasks on cognitive skills and scientific knowledge. The analyses focus on the test's predictive and incremental validity beyond the high school grade point average. Test data from a low-stakes and a high-stakes situation and average university grades from basic studies and advanced studies in pharmacy were analyzed. The results confirm the value of PhaST in predicting academic success throughout the first years of pharmacy education on its own and in addition to high school average grades. Future research should include the results of the second state examination, which is the final examination required to terminate pharmacy education.
... Sie stellt hier oftmals das wichtigste bzw. einzige Kriterium dar (Formazin et al., 2011;Haase et al., 2022;Schult et al., 2019). Die HZB-Note ist ein valider Prädiktor zur Vorhersage von Studienerfolg. ...
... Trotz dieser Vorhersagekraft ist die alleinige Verwendung der HZB-Note nicht unproblematisch: So sind die Abiturnoten zwischen verschiedenen Bundesländern und Schulformen wenig vergleichbar Schult et al., 2019). Die Note hängt z. ...
... Zugute kommt Interviews, dass diese unter den Bewerber_innen besonders akzeptiert sind (Hell & Schuler, 2005;Stegt et al., 2018), eine erste Bindung zwischen auswählender Organisation und Bewerber_innen entstehen lassen und sich auch weitere Eigenschaften, wie z. B. soziale Kompetenzen, durch Interviews erfassen lassen (Schult et al., 2019). Aufgrund der typischerweise sehr hohen Bewerber_innenzahl im Fach Psychologie sind Interviews jedoch kaum ökonomisch durchführbar und eignen sich zusammenfassend eher nicht zur Studierendenauswahl an Universitäten. ...
Article
Full-text available
Zusammenfassung: Das Studium der Psychologie ist in Deutschland äußerst beliebt. Aufgrund begrenzt verfügbarer Studienplätze ist eine Auswahl der Bewerber_innen notwendig. Zur Selektion geeigneter Bewerber_innen wurde bisher vorwiegend die Note der Hochschulzugangsberechtigung verwendet. Dies ist seit einem Urteil des Bundesverfassungsgerichts von 2017 nicht mehr zulässig. Das Land Berlin erteilte daher den Auftrag zur Entwicklung eines Studierfähigkeitstests für das Fach Psychologie. Aufbauend auf einer ausführlichen Anforderungsanalyse wurde der Berliner Studierfähigkeitstest – Psychologie zur Erfassung studienfachbezogener Studierfähigkeit entwickelt und an zwei Konstruktionsstichproben revidiert. Die Messwerte des BSF-P zeigen gute Reliabilität und Validität und können zur Auswahl von Studierenden verwendet werden. Der Einsatz des Verfahrens erlaubt zudem eine faire Auswahl von Bewerber_innen und führt langfristig zu einer diverseren Studierendenschaft im Fach Psychologie.
... In this context, specific aptitude tests measuring cognitive abilities and/or specific knowledge are often used as a selection criterion since many years. Numerous studies indicate that cognitive abilities predict school performance (Roth et al., 2015), educational attainment (Deary et al., 2007), training success, job performance (Schmidt and Hunter, 1998;Hülsheger et al., 2007;Kramer, 2009), and success in university studies (Hell et al., 2007;Schult et al., 2019). In general intelligence can be defined as a broad cognitive ability that includes the understanding of complex ideas, adaptability to environmental conditions, learning from experience, and problem solving through analysis (cf. ...
... Previous studies showed that the test scores from both possess predictive validity and the included items suitable psychometric properties in terms of internal consistency (Hell et al., 2007;Hissbach et al., 2011;Kadmon et al., 2012;Werwick et al., 2015;Schult et al., 2019). As all of these studies exclusively deal with only one of the tests, there is currently no evidence concerning the construct validity between their test scores. ...
Article
Full-text available
Standardized ability tests that are associated with intelligence are often used for student selection. In Germany two different admission procedures to select students for medical studies are used simultaneously; the TMS and the HAM-Nat. Due to this simultaneous use of both a detailed analysis of the construct validity is mandatory. Therefore, the aim of the study is the construct validation of both selection procedures by using data of 4,528 participants (Mage = 20.42, SD = 2.74) who took part in a preparation study under low stakes conditions. This study compares different model specifications within the correlational structure of intelligence factors as well as analysis the g-factor consistency of the admission tests. Results reveal that all subtests are correlated substantially. Furthermore, confirmatory factor analyses demonstrate that both admission tests (and their subtests) are related to g as well as to a further test-specific-factor. Therefore, from a psychometric point of view, the simultaneous use of both student selection procedures appears to be legitimate.
... bei denen sich die Schulleistung nicht als prädiktiv erweist (Chung et al., 2022). Generell können fachspezifische Tests zu Studienbeginn als Alternative oder Ergänzung zur Abiturnote genutzt werden (Schult et al., 2019). ...
Article
Full-text available
Mathematica Didactica 47(1). Im Rahmen von Vorkursen wurden verschiedene kognitive und affektive Merkmale von angehenden Studierenden unterschiedlicher Mathematikstudiengänge erhoben. Basierend auf den Ausprägungen der untersuchten Merkmale wer-den Gruppenprofile für die verschiedenen Studiengänge erstellt. Hauptfachstudierende wiesen in dieser Studie deutlich höhere Mathematikleistungen auf als Lehramtsstudierende der Sekundarstufen und diese wiederum als Grundschullehramtsstudierende. Bei den affektiven Merkmalen (Interesse, Selbstwirk-samkeitserwartung und Selbstregulation) zeigten Hauptfachstudierende ein erhöhtes Fachinteresse, während Lehramtsstudierenden höhere Werte für die Selbstregulation erreichten. In the context of preparatory courses, we surveyed cognitive and affective characteristics of prospective students in different mathematics degree programs. Group profiles for the different majors are created based on the expression of the studied characteristics. In this study, students majoring in mathematics showed significantly higher mathematics achievement than students majoring in secondary education, and these in turn than students majoring in elementary education. On affective characteristics (interest, self-efficacy, and self-regulation), mathematics majors showed higher interest, while prospective teacher students scored higher on self-regulation.
... Taken together, it is important to bear in mind that differ ent orientation systems may yield differential predictive validities. While aptitude tests assessing studyrelated com petencies can be considered as prognostic tools for achieve ment at university (Schult et al., 2019), test assessing in terestmajorfit are likely better suited to address study success in terms of satisfaction and motivation. Effectively pre dicting retention in turn likely calls for a combination of both aptitude and interestmajorfit tests. ...
... Likewise, these characteristics were emphasized in the "Masterplan Medizinstudium 2020", a 2017 resolution by the federal and regional governments of Germany to regulate the reformation of medical curricula [4]. One of the directives in the resolution was to not exclusively focus on high-school grades or results of aptitude tests [5] but to attach more importance to personal characteristics in the admission process [4]. The current main methods used to evaluate such characteristics are traditional or multiple mini-interviews (MMIs) [6] and professional pre-qualifications (i.e. completed vocational training, volunteer work). ...
Article
Full-text available
Objectives: Situational Judgement Tests (SJT) are a cost-efficient method for the assessment of personal characteristics (e.g., empathy, professionalism, ethical thinking) in medical school admission. Recently, complex open-ended response format SJTs have become more feasible to conduct. However, research on their applicability to a German context is missing. This pilot study tests the acceptability, reliability, subgroup differences, and validity of an online SJT with open-ended response format developed in Canada (“Casper”). Methods: German medical school applicants and students from Hamburg were invited to take Casper in 2020 and 2021. The test consisted of 12 video- and text-based scenarios, each followed by three open-ended questions. Participants subsequently evaluated their test experience in an online survey. Data on sociodemographic characteristics, other admission criteria (Abitur, TMS, HAM-Nat, HAM-SJT) and study success (OSCE) was available in a central research database (stav). Results: The full sample consisted of 582 participants. Test-takers’ global perception of Casper was positive. Internal consistency was satisfactory in both years (α=0.73; 0.82) while interrater agreement was moderate (ICC(1,2)=0.54). Participants who were female (d=0.37) or did not have a migration background (d=0.40) received higher scores. Casper scores correlated with HAM-SJT (r=.18) but not with OSCE communication stations performance. The test was also related to Abitur grades (r=-.15), the TMS (r=.18), and HAM-Nat logical reasoning scores (r=.23). Conclusion: This study provides positive evidence for the acceptability, internal consistency, and convergent validity of Casper. The selection and training of raters as well as the scenario content require further observation and adjustments to a German context to improve interrater reliability and predictive validity.
... To meet this objective, various selection criteria have been used over the past few years, ranging from easily accessible measures like high school grade point average (GPA) to more complex criteria like situational judgement tests, multiple mini-interviews, or admission tests (Schwibbe et al., 2018). The latter are predominantly used to capture applicants' cognitive abilities and, thus, predict academic achievement above conventional measures like GPA (e.g., Schult et al., 2019). ...
Article
Full-text available
Admission tests are among the most widespread and effective criteria for student selection in medicine in Germany. As such, the Test for Medical Studies (TMS) and the Hamburg Assessment Test for Medicine, Natural Sciences (HAM-Nat) are two major selection instruments assessing applicants’ discipline-specific knowledge and cognitive abilities. Both are currently administered in a paper-based format and taken by a majority of approximately 40,000 medicine applicants under high-stakes conditions yearly. Computer-based formats have not yet been used in the high-stakes setting, although this format may optimize student selection processes substantially. For an effective transition to computer-based testing, the test formats’ equivalence (i.e., measurement invariance) is an essential prerequisite. The present study examines measurement invariance across test formats for both the TMS and HAM-Nat. Results are derived from a large, representative sample of university applicants in Germany. Measurement invariance was examined via multiple-group confirmatory factor analysis. Analyses demonstrated partial scalar invariance for both admission tests indicating initial evidence of equivalence across test formats. Generalizability of the results is examined, and implications for the transition to computer-based testing are discussed.
... In general, medical schools seek to identify the best and most motivated candidates to recruit their students (Turner and Nicholson, 2011) and frequently use aptitude test results as one important criterion to this aim. Despite their wide use and documented validity (e.g., Patterson et al., 2016;Schult et al., 2019), aptitude tests have been criticized to potentially disadvantage some candidate groups over others. For example, aptitude tests have been suspected to create unequal opportunity for candidate groups who might have limited access to preparatory activities, for example due to limited time for dedicated study or high cost (Laurence et al., 2013;Gliatto et al., 2016;Kumar et al., 2018). ...
Article
Full-text available
Background Aptitude tests are widely used for selecting medical students. Although their validity has been well documented, aptitude tests are sometimes suspected to create unequal opportunity for candidate groups with lower socioeconomic status due to limited resources (i.e., time, money, support) for preparatory activities. This study aims to explore how preparatory activities and money spent on preparation affect the results of the German aptitude Test for Medical Studies (TMS). Methods A standardized questionnaire was administered to all medical school applicants who sat the TMS in 2018. Participants were asked about the amount of time and money spent on different preparatory activities (i.e., information booklet, books, computer, study groups, and fee-based training courses) and their level of motivation during preparation. Univariate and multivariate multiple regressions were used to examine the influence of these variables on the TMS test score and its subtests. Results N = 7903 participants completed the questionnaire. Only preparation with books and training courses were significantly associated with an increase in the TMS total score. Self-reported motivation during preparation had a larger effect on test scores than money spent on preparation. However, all effect sizes were rather small. At the subtest level, preparation with books was the only activity which was significantly associated with an improvement in all subtests. The complex field-specific subtests were less associated with preparation than the less complex subtests. Conclusion The findings indicate that motivation may be a more important predictor for success in the TMS than money spent on preparation. As books were the most effective and cost-efficient way of preparation, financial investments for test preparation do not appear to yield significant advantages, which is an important prerequisite for equal opportunity. Using more field-specific subtests and cost-free online training opportunities could be useful in further improving equal opportunity.
Article
Full-text available
The present study examines the prognostic validity and gender fairness of a written admissions procedure for law studies in which the A-level is combined with a specific admissions test. Gender fairness is analyzed by means of two different methods. The data of 579 graduates of the Bucerius Law School are investigated. The results show that the admissions procedure and the admissions test are valid and fair. On the subtest level, the picture is more varied: the specific and complex subtests in this study are more valid and fair than the unspecific subtests.
Article
Full-text available
Background/Objectives: For the winter semester 2012/13, the Medical School of Otto-von-Guericke University Magdeburg introduced the Nat test (Hamburg Assessment Test for Medical Degrees - Natural Sciences Section) for the selection of its study applicants with the aim of improving the academic success of their students in the pre-clinical part which has a heavy emphasis on natural sciences. The study examines the extent to which the new University Selection Procedure (AdH), influences two criteria for measuring students’ success, compliance with the standard period of study up until the first part of the medical state exam (M1) and its result. Methodology: A comparison of above-mentioned parameters for measuring student success for the matriculation years 2008-2011 (no HAM-Nat test, Pre-Matriculation) and those of the matriculation years Medicine, 2012-2014 (Nat-Matriculation), whose students have passed the HAM-Nat test in the selection process of the university. In addition, it was taken into account the number of course certificates gained within the standard time period. In the Nat-Matriculation, the HAM-Nat results were merged with the associated M1 exam results. Results: The proportion of AdH students who were admitted to the Physikum (first part of the medical state exam (M1)) within the standard period of study only increased slightly in the period studied. Within the AdH group, 70% of the Pre-Matriculation group gained entry to the second phase of studies without delay, rising to 78% in the AdH-group of the Nat-Matriculation. For all admission groups taken together, the overall grades for the first section of the medical state exam 2010-2016 show a positive trend, regardless of the selection procedure. The proportion of correctly answered questions in the nationwide M1 increased accordingly in the period studied. The better those matriculating had performed in the HAM-Nat test, the better their results were in the written and oral parts of the first part of the medical state exam. Conclusion: Although a significant proportion of students in the AdH group had obtained their place of study only on the basis of their test result and the score in the HAM-Nat test only weakly correlated with the school leaving grade (Abitur), the quantifiable study success parameters to date - in an albeit short observation period before and after introduction of the test - improved slightly. The number of Nat-Matriculations is too low to be able to assess the effect of the HAM-Nat test bearing in mind natural fluctuations. Nevertheless, the HAM-Nat test as an instrument of selection also made it possible for candidates with originally insufficient Abitur grades to gain admission without negative effects on the study success of the AdH cohort. Keywords: Selection procedure, HAM-Nat, medical studies, AdH, selection of applicants for studying medicine, 1st section of the medical state exam
Article
Full-text available
In the present study, we investigated the predictive power of three kinds of university admission criteria used to select students who enlisted to study in German bachelor programs in the field of psychology. The admission criteria investigated were grade point average, single grades in mathematics and English, as well as practical experiences in jobs related to psychology. We used the data of 10,605 university applicants from five bachelor cohorts of a German university to investigate whether the different admission criteria would differentially predict academic success operationalized by the first grade in statistics at university, the final grade point average of the bachelor degree, and the duration of studies. Path analyses showed that grade point average was the only valid predictor for indicators of academic success indicated by grades, while none of the admission criteria were predictive of the duration of studies. Furthermore, we found that a stronger weighting of grade point average that simultaneously weakened the influence of other admission criteria on the admission process also increased the predictive power of the predictor set for graded academic success. In sum, this study illustrates the benefits of evidence-based university admission procedures and discusses the limits of such procedures set by federal law.
Article
Full-text available
The German Constitutional Court is currently reviewing whether the actual study admission process in medicine is compatible with the constitutional right of freedom of profession, since applicants without an excellent GPA usually have to wait for seven years. If the admission system is changed, politicians would like to increase the influence of psychosocial criteria on selection as specified by the Masterplan Medizinstudium 2020.What experiences have been made with the actual selection procedures? How could Situational Judgement Tests contribute to the validity of future selection procedures to German medical schools?High school GPA is the best predictor of study performance, but is more and more under discussion due to the lack of comparability between states and schools and the growing number of applicants with top grades. Aptitude and knowledge tests, especially in the natural sciences, show incremental validity in predicting study performance. The measurement of psychosocial competencies with traditional interviews shows rather low reliability and validity. The more reliable multiple mini-interviews are superior in predicting practical study performance. Situational judgement tests (SJTs) used abroad are regarded as reliable and valid; the correlation of a German SJT piloted in Hamburg with the multiple mini-interview is cautiously encouraging.A model proposed by the Medizinischer Fakultätentag and the Bundesvertretung der Medizinstudierenden considers these results. Student selection is proposed to be based on a combination of high school GPA (40%) and a cognitive test (40%) as well as an SJT (10%) and job experience (10%). Furthermore, the faculties still have the option to carry out specific selection procedures.
Article
For many master’s programmes in business administration and economics there are more applicants than places. Therefore universities have to select their students. Due to the poor comparability of grade point averages in bachelor degrees of different universities, some universities use admission tests. In this study, the prognostic validity of a cognitive admission test is investigated. Two German universities provided data regarding study success of students in business administration and economics (n=841) who were selected by the admission test. The test results predicted the final master grades well, duration of studies was less well predicted. Planning competency and quantitative abilities were the best predictors of study success.
Preprint
Fachspezifische Studierfähigkeitstests haben sich auch im deutschsprachigen Raum als valide Prädiktoren des Bachelorstudienerfolgs und somit als hilfreiche Auswahlinstrumente erwiesen. Anhand der Daten des Nationalen Bildungspanels (NEPS) wurde untersucht, ob sich ein vergleichbares Muster auch für das konsekutive Masterstudium zeigt. Die Analysestichprobe umfasste 95 Studierende der Wirtschaftswissenschaften, die zum Ende ihres Bachelorstudiums einen fachspezifischen Kompetenztest bearbeiteten und ein Masterstudium aufnahmen. Der Test zeigte eine mittelhohe Validität (unkorrigiertes r = –.30) bezüglich der Masternoten zwei Jahre später. Eine inkrementelle Validität über Hochschulzugangsberechtigungsnoten und Bachelornoten hinaus zeigte sich ebenso wenig wie eine geschlechtsspezifische differenzielle Prognose. Die Ergebnisse sprechen dafür, dass fachliche Fähigkeitstests aufgrund ihrer prädiktiven Validität für die Auswahl im Masterstudium geeignet sind, die durch die Bologna-Reform zur Herausforderung für Studieninteressierte wie auch Hochschulen geworden ist.
Article
Bei Studierenden der Fächer Bauingenieurwesen, Biologie, Chemie und Physik wird untersucht, ob mit einem fächerübergreifenden Test zur Erfassung mathematischen Wissens der Studienerfolg zum Ende des ersten Semesters besser vorhergesagt werden kann, als nur mit der Abitur- und Mathematiknote; Studienerfolg ist als gemittelte Klausurleistung am Ende des ersten Semesters operationalisiert. Der Test wurde zu Beginn des Wintersemesters 2016/17 an einer Kohorte (N = 751) von Studienanfängern eingesetzt. Für alle Fächer wird gezeigt, dass das mathematische Wissen auch unter Kontrolle der Schulleistungen prädiktiv für Studienerfolg ist und dass es inkrementelle Varianz gegenüber der Abiturnote und der Mathematiknote aufklärt. Die so durchgeführte Prognose von Studienerfolg eröffnet die Möglichkeit, Studienberatung zu verbessern und Hinweise für die Inhalte vorbereitender und semesterbegleitender Veranstaltungen zu generieren. Anhand des mathematischen Wissens der Studierenden lässt sich eine Bezugsnorm ableiten, die als Grundlage für zukünftige Gruppendiagnostik dienen kann.
Article
Die Bedeutung ausreichender mathematischer Kenntnisse und Fähigkeiten als inhaltsbezogene Studienanforderungen des Physikstudiums ist unbestritten. Demgegenüber wird die Relevanz fachphysikalischer Studienanforderungen von Dozierenden teilweise angezweifelt. Auch bei Vorkursen zum Physikstudium steht nur sehr selten die Förderung physikspezifischer Kompetenzen oder physikalischen Fachwissens im Vordergrund. Dennoch geben bisherige Forschungsergebnisse aus der US-amerikanischen Literatur Anlass zu der Annahme, dass auch fachphysikalische Anforderungen für erfolgreiche Leistungen im Physikstudium relevant sind. Bisher mangelt es an empirischer Evidenz für die Übertragbarkeit dieses Ergebnisses auf das Physikstudium in Deutschland. Dementsprechend wurde in der vorliegenden Studie untersucht, inwiefern hier Physikkompetenz und physikalisches Fachwissen gegenüber mathematischen Kenntnissen und Fähigkeiten inkrementelle Validität in Bezug auf Studienerfolg aufweisen. Die Ergebnisse ermöglichen eine qualifiziertere Beantwortung der Frage, ob physikbezogene Förderangebote stärker in die Studieneingangsphase integriert werden sollten.