ArticlePDF Available

Analyse des différentes facettes influant sur la fidélité de l'épreuve d'expression écrite d'un test de français langue étrangère

Authors:
  • Chambre de commerce et d'industrie de Paris Île-de-France
others
others
others

Abstract

Le contrôle de la qualité des évaluations des productions écrites en français langue étrangère pose de nombreuses questions, encore amplifiées lorsqu’il s’agit de tests à forts enjeux pour les candidats. Cet article illustre comment ce contrôle peut s’appuyer à la fois sur la théorie de la généralisabilité et sur le modèle multifacettes de Rasch pour relever les sources d’erreur (stabilité inter- et intracorrecteurs, variation des stimuli fournis aux candidats pour produire leurs textes…) et en estimer l’importance respective dans le cadre d’un monitorage de la qualité d’une épreuve de français langue étrangère.
Analyse des différentes facettes influant
sur la fidélité de l’épreuve d’expression écrite
d’un test de français langue étrangère
Dominique Casanova
Chambre de commerce et d’industrie de Paris
Marc Demeuse
Université de Mons
MOTS CLÉS :
Tests linguistiques à forts enjeux, expression écrite, français langue
étrangère, fidélité, théorie de la généralisabilité, modèle multi-facettes de
Rasch, contrôle de la qualité
Le contrôle de la qualité des évaluations des productions écrites en français langue
étrangère pose de nombreuses questions, encore amplifiées lorsqu’il s’agit de
tests à forts enjeux pour les candidats. Cet article illustre comment ce contrôle peut
s’appuyer à la fois sur la théorie de la généralisabilité et sur le modèle multi-
facettes de Rasch pour relever les sources d’erreur (stabilité inter- et intra-
correcteurs, variation des stimuli fournis aux candidats pour produire leurs
textes…) et en estimer l’importance respective dans le cadre d’un monitorage de
la qualité d’une épreuve de français langue étrangère.
KEY WORDS:
High stakes language tests, written production, French as foreign
language, reliability, generalizability theory, many-facets Rasch model, quality
monitoring
Quality control of written productions in French as a foreign language is a tricky
issue, especially when the test is used to make high stakes decisions. This paper
shows the complementarity of the generalizability theory and the many-facets
Rasch model in order to identify and to estimate the size of the different sources
of error in a quality monitoring process.
25
ME
SURE ET ÉVALUATION EN ÉDUCATION
, 2011, V
OL
. 34, N
O
1, 25-53
PALAVRAS-CHAVE:
Testes linguísticos de nível elevado, expressão escrita, Francês
como ngua estrangeira, fidelidade, teoria da generalizabilidade, modelo
multi-facetas de Rasch, controlo de qualidade
O controlo de qualidade das avaliações das produções escritas em Francês
enquanto língua estrangeira coloca muitas questões, ainda para mais porque se
trata de testes decisivos para os candidatos. Este artigo ilustra como este controlo
se pode apoiar, ao mesmo tempo, na teoria da generalizabilidade e no modelo
multi-facetas de Rasch para identificar as fontes de erro (estabilidade inter e intra-
correctores, variação dos estímulos fornecidos aos candidatos para produzirem
o seus textos… ) e prever a importância respectiva no quadro de uma
monitorização da qualidade de uma prova de Francês como língua estrangeira.
Note des auteurs Les auteurs souhaitent remercier Jean Cardinet et Daniel Bain pour leur
relecture et pour les remarques pertinentes qu’ils ont formulées sur le manuscrit initial.
Toute correspondance peut être adressée comme suit : Dominique Casanova, Chambre de
commerce et d’industrie de Paris, Direction des relations internationales de l’enseignement,
Centre de langue française, 28 rue de l’AbGrégoire, 75279 Paris Cedex 06, France,
léphone : +33 1 49 54 17 37, télécopieur : +33 1 49 54 28 90, ou Marc Demeuse,
Université de Mons, Facul de psychologie et des sciences de l’éducation, Institut
d’administration scolaire, Place du Parc, 18, B 7000 Mons, Belgique, téléphone : +32 65
37 31 95, télécopieur : +32 65 37 37 74, ou par courriel aux adresses suivantes :
[dcasanova@ccip.fr] ou [marc.demeuse@umons.ac.be].
DO
MINIQUE
CA
SANOVA ET
MA
RC
DE
MEUSE
26
Introduction
Dans le domaine de l’évaluation en langue, de nombreuses études concer -
nant la fidélité des dispositifs d’évaluation de l’expression écrite ou orale se
sont concentrées sur les correcteurs, en raison de la subjectivité que comporte
tout jugement humain et sa sensibilité possible à des variables extérieures au
contexte de l’évaluation (Artus & Demeuse, 2008). Il est vrai que les
correcteurs constituent un maillon essentiel du dispositif d’évaluation d’une
épreuve d’expression, qu’ils peuvent être sujets à des variations dans leurs
jugements (manque de consistance interne) ou évaluer différemment un même
ensemble de productions (différence de sévéri, sensibilité à des effets
parasites).
Les raisons à cela sont multiples, car l’acte d’évaluation est complexe. Il
intervient à un moment particulier de la journée, au sein d’une rie de
corrections, dans un environnement don et est entrepris par un évaluateur qui
apporte avec lui des émotions, une sensibilité, une vie personnelle qui peuvent
interagir avec la ou les productions évaluées de manière singulière dans ce
contexte pcis, en dépit des précautions prises et des recommandations.
L’évaluateur entreprend par ailleurs ce travail en s’appuyant sur des critères
d’évaluation explicites lorsqu’il s’agit d’un test, et en référence à des niveaux
de compétence généralement décrits dans une grille, qui peut être holistique
ou analytique. Sa compréhension et son expérience d’utilisation d’une telle
grille ont un impact direct sur la validité de son jugement et il importe qu’il
bénéficie d’une formation appropriée et participe à des séances de standar -
disation avec d’autres correcteurs pour garantir la cohérence d’ensemble des
corrections.
Cette variabilité des correcteurs justifie que leurs cisions soient fré -
quemment l’objet d’analyse, que ce soit pour la mise en évidence de difrents
profils de correcteurs (McNamara et Adams, 1991), le suivi des écarts de
sévérité (Eckes, 2005) ou le contrôle de la fidélité intra et interévaluateurs
(Weigle, 1998). Lorsque les enjeux de l’évaluation sont élevés, il importe de
mettre en œuvre des stratégies d’évaluation qui permettent de duire l’impact
Fidélité de l’épreuve d’expression écrite
27
de ces différences de jugement, par exemple des corrections multiples
(Bachman, Lynch & Mason, 1995) ou le recours à des corrections statistiques
(Eckes, 2009), et de s’assurer de leur pertinence.
Cependant, les correcteurs ne sont qu’une des facettes qui interviennent
dans de tels dispositifs. D’autres facettes tout aussi importantes sont les tâches
que le candidat doit réaliser et les sujets de l’épreuve, notamment dans le cas
des sessions multiples sont organisées et pour lesquelles des sujets
d’épreuves différents sont utilisés. Des modèles de mesure particuliers, comme
les modèles de généralisabilité ou les modèles de Rasch multifacettes peuvent
alors être mobilisés pour tenir compte des contributions des difrentes facettes
à l’erreur de mesure. C’est ce que nous tâcherons de montrer dans cet article
en nous appuyant sur des données empiriques provenant du Test d’évaluation
de français (TEF) de la Chambre de commerce et d’industrie de Paris (CCIP,
2010 ; Noël-Jothy & Sampsonis, 2006, p. 74-75).
L’analyse multifacettes des dispositifs d’évaluation
de l’expression écrite
Les principales facettes à considérer
Une épreuve d’expression écrite à réponse construite consiste en général
en une ou plusieurs ches à aliser, à travers lesquelles les candidats
produisent des textes qui sont évalués par un ou plusieurs correcteurs humains
1
.
Les trois facettes essentielles de telles épreuves sont donc les candidats, les
correcteurs et les tâches, et chacune de ces facettes est une source potentielle
de variation des scores.
La variation des scores due aux candidats est liée à la compétence que
l’on sire mesurer, mais d’autres facteurs contribuent généralement de
manière non souhaitée à cette variation et alimentent l’erreur de mesure. La
standardisation de l’épreuve et les consignes d’organisation permettent de
limiter cette part de variance non désirée en plaçant les candidats dans des
conditions de test similaires, mais les variations individuelles dues à des
facteurs tels que la motivation et l’état de fatigue ne peuvent être complètement
éliminées.
La variation des scores due aux correcteurs a fait l’objet de nombreuses
études et est souvent considérée comme la principale source d’erreur de
mesure. Elle peut être due à des facteurs relativement systématiques, tels
qu’une différence de sévérité entre correcteurs, un effet de tendance centrale
D
O
MINIQUE
CA
SANOVA ET
MA
RC
DE
MEUSE
28
qui conduit certains correcteurs à éviter de situer les candidats dans les niveaux
extrêmes de l’échelle ou une interprétation différente, par les correcteurs, de
la grille d’évaluation, que ce soit sur le plan des aspects de la performance à
évaluer (crires d’évaluation) ou de la différenciation entre niveaux de
performance. Elle peut être due également à des facteurs plus aléatoires,
comme la sensibilide certains correcteurs à l’effet d’ordre, ce qui les conduit
à attribuer à un candidat un score qui pend des copies corrigées p -
demment, ou à l’effet de halo lorsque, du fait d’une particularité dans la copie
ou d’une impression d’ensemble, ils ont tendance à attribuer un score similaire
aux différents aspects de la production écrite du candidat
2
(Engelhard, 1994).
Enfin, des facteurs tels que la fatigue ou l’état émotionnel peuvent aussi avoir
des répercussions sur les scores livs. Pour limiter l’importance de la
variation due aux correcteurs, il est nécessaire d’organiser régulièrement des
sessions de formation et de standardisation (Lumley & McNamara, 1995) qui,
si elles permettent notamment d’améliorer la consistance individuelle
3
et la
validité des évaluations, ne permettent toutefois pas de faire disparaître les
différences de sévérité entre correcteurs
4
(Weigle, 1998 ; Eckes, 2005). Dès
lors, une attention constante est portée à la facette Correcteurs, en négligeant
parfois le rôle des autres facettes dans la variation des scores.
Or, dans un test, les différents candidats sont soumis à des ches
identiques, mais à travers la réalisation de productions portant sur des sujets
différents d’une session à l’autre. La définition des ches s’effectue au regard
du construit du test. Elles doivent permettre de recueillir un échantillon de
productions suffisant pour pouvoir généraliser les compétences des candidats
au domaine évalué par le test (Weigle, 2002, p. 60-61). Les différences de
sujets introduisent une troisième source de variation des scores. Deux sujets
peuvent en effet être de difficulté différente et conduire à des scores différents
pour un même groupe de candidats. Une telle tendance systématique peut être
mise en évidence à l’occasion de prétests, pour éviter que des sujets « trop
faciles » ou « trop difficiles » ne soient utilisés.
Mais ce que l’on constate le plus souvent, c’est que si deux sujets condui -
sent à des résultats en moyenne semblables, certains candidats sont plus à
l’aise avec le premier sujet et que les autres sont plus à l’aise avec le second.
On voit alors apparaître une nouvelle source de variation des scores, due à
l’interaction entre les candidats et les sujets de l’épreuve. Or, il s’agit d’une
variation non souhaitée puisqu’elle met en cause la capacité de géné raliser les
résultats à une épreuve donnée aux différentes situations du domaine cible.
Si limiter cette variation peut se révéler complexe ou coûteux, il est anmoins
Fidélité de l’épreuve d’expression écrite
29
primordial d’en évaluer l’importance et d’en tenir compte dans l’estimation
globale de la filité de l’épreuve, qui ne saurait se résumer à la fidélité
intercorrecteurs.
De même, l’interaction entre correcteurs et candidats (par exemple, si un
correcteur a tendance à être systématiquement plus sévère face à des écritures
moins lisibles) est une source potentielle de variation des scores, en partie
incluse, sans distinction, dans l’analyse de fidélité intercorrecteurs au moyen
de la théorie classique des tests. L’interaction entre correcteurs et sujets (par
exemple si un correcteur a tendance à noter plus sévèrement les copies en
raisons d’opinions très arrêtées et très personnelles sur le sujet) peut également
conduire à des variations de scores non désirées.
Enfin, l’interaction entre l’ensemble de ces facettes est elle-même une
source potentielle d’erreur, un correcteur donpouvant se montrer plus
indulgent, pour un sujet particulier, avec un candidat dont les propos sont au
diapason de ses propres convictions.
Les outils d’analyse
L’incapacité de la théorie classique des tests à faire la distinction entre les
difrentes sources d’erreur de mesure constitue l’une de ses principales limites
(Bachman, 2004, p. 174-175 ; Bertrand & Blais, 2004, p. 71). Pour prendre
en considération différentes sources d’erreur et étudier leur contribution
relative à l’erreur de mesure, il faut donc recourir à d’autres approches, telles
que la théorie de la généralisabilité ou les modèles de Rasch multifacettes.
La théorie de la généralisabilité
La théorie de la néralisabilité peut, dans une certaine mesure, être
considée comme une extension de la théorie classique des tests par
l’application de certaines procédures d’analyse de variance (Brennan, 2001,
p. 2). Les traitements de généralisabilité permettent notamment, par rapport à
un plan de mesure déterminé (qui précise les facettes de différenciation, objet
de la mesure, et les facettes d’instrumentation, instruments de la mesure),
d’identifier les composantes de la variance d’erreur et d’estimer la fidélité du
dispositif. Une phase d’optimisation permet également d’estimer la fidélité et
les erreurs de mesure que l’on obtiendrait en faisant varier le niveau de
différentes facettes. Cardinet et Tourneur (1985, p. 34-35) présentent en détail
cette démarche.
D
O
MINIQUE
CA
SANOVA ET
MA
RC
DE
MEUSE
30
La fidélité du dispositif est estimée au moyen du coefficient de géné -
ralisabilité, qui correspond à la part de la variance vraie (ou variance de dif-
renciation) sur la variance totale (variance vraie + variance d’erreur).
Cependant, les composantes de la variance d’erreur (ou variance d’instru -
mentation) dépendent du type d’erreur que l’on souhaite considérer : erreur
relative ou erreur absolue. Dans le cas d’une épreuve destinée simplement à
classer les candidats les uns par rapport aux autres, on considérera l’erreur
relative qui ne tient compte que des effets d’interaction entre facettes partir
du moment les candidats d’une session passent tous le même sujet, peu
importe si ce sujet est plus difficile que celui d’une autre session). Mais si,
comme c’est le cas pour le Test d’évaluation de français, l’épreuve est destinée
à situer les candidats sur une échelle de niveaux et que des décisions sont
prises selon le niveau obtenu, alors on considérera l’erreur absolue qui tient
compte également des effets directs des facettes d’instrumentation (dans ce
cas, les différences de difficulté des sujets peuvent avoir un impact direct sur
le niveau attribué aux candidats et donc sur la prise de décision).
La théorie de la généralisabilité offre donc un cadre intéressant pour le
traitement de dispositifs d’évaluation qui comportent plusieurs facettes, comme
c’est le cas pour l’évaluation des compétences en expression écrite. Cependant,
sa mise en œuvre nécessite généralement le recours à des plans équilibrés (il
est alors nécessaire de disposer d’une mesure pour chaque combinaison de
niveaux des facettes considérées) qui sont souvent difficiles à constituer en
dehors de situations expérimentales. Par ailleurs, comme le font remarquer
Bertrand et Blais (2004, p. 97), un nombre important d’observations est à
recueillir si on veut que les erreurs-type des composantes de variance soient
raisonnablement petites, ce qui peut rendre coûteuse la mise en œuvre d’expé -
rimentations ad hoc.
Le modèle multifacettes de Rasch
En phase de production, on privilégiera donc le recours à des modèles
qui, comme le modèle multifacettes de Rasch introduit par Linacre (1989),
permettent l’utilisation de plans partiellement équilibrés.
Le modèle multifacettes de Rasch a été mis en œuvre à différentes occa -
sions dans le domaine de l’évaluation en langue, pour mettre en évidence
l’impact des facettes Correcteurs et Sujets dans l’évaluation (Bachman et al.,
1995), pour analyser différentes caractéristiques des correcteurs (sévérité,
exploitation de l’échelle de notation, difrence d’application de l’échelle selon
le critère d’évaluation) (McNamara & Adams, 1991) ou pour mesurer l’effet
Fidélité de l’épreuve d’expression écrite
31
de la formation des correcteurs (Weigle, 1994). Outre l’estimation des
différences de sévérité ou de difficulté, il permet de contrôler également la
consistance des évaluations au moyen d’indices d’ajustements
5
.
Les conditions d’application de ce modèle ne sont cependant pas toujours
aisées à réunir. Sa mise en œuvre nécessite avant tout de faire le choix d’un
plan d’analyse des données approprié, qui s’appuie sur une identification des
facettes à considérer (correcteurs, sujets, etc.) et qui tient compte ou non de
l’interaction entre les différentes facettes. Plus le nombre de facettes et
d’interactions entre facettes pris en compte sera élevé, plus il sera nécessaire
d’accumuler des données pour obtenir des estimations précises. Il faut par
ailleurs que ces données soient suffisamment interreliées pour pouvoir calibrer
les différents éléments (correcteurs, sujets, etc.) sur des échelles de mesure
propres à chaque facette (échelle de sévérité, échelle de difficulté, etc.).
Le cas de l’épreuve d’expression écrite du Test d’évaluation
de français (TEF)
Le Test d’évaluation de français (TEF) est un test à forts enjeux. Il est
notamment utilisé pour l’évaluation du niveau de langue française des candi -
dats à l’immigration économique au Canada et est reconnu par le minis tère
français de l’Enseignement supérieur et de la Recherche pour dispense de
l’examen officiel auquel doivent se soumettre les étudiants étrangers candidats
à une première inscription en premier cycle d’études universitaires en France.
Ainsi, toute erreur dans le positionnement d’un candidat sur l’échelle de
niveaux du TEF pourra conduire à une acceptation ou à un rejet erronés d’un
dossier d’immigration, raison pour laquelle la Chambre de commerce et
d’industrie de Paris doit apporter des garanties suffisantes sur la qualité du
dispositif d’évaluation (Demeuse, Desroches, Crendal, Renaud & Casanova,
2005 ; Holle, à paraître). C’est dans ce cadre qu’a été menée cette étude.
L’épreuve d’expression écrite du TEF est constituée de deux tâches indé -
pendantes, qui placent les candidats dans deux situations de communication
différentes. Dans la première de ces situations, le candidat doit raconter une
histoire en imaginant la fin d’un article de presse insolite, alors que dans la
seconde situation, le candidat doit exposer son point de vue et argumenter en
réponse à une affirmation lue dans la presse. Un jeu d’épreuve comportera
donc deux sujets (correspondant à chacune des deux tâches), chaque sujet
étant constitué d’un stimulus et de consignes conduisant à une production de
la part des candidats.
D
O
MINIQUE
CA
SANOVA ET
MA
RC
DE
MEUSE
32
Les productions sont toutes deux évaluées par un même jury selon:
trois critères communicatifs propres à chacune des deux tâches;
six critères linguistiques s’appliquant à l’ensemble du contenu des deux
productions.
Le jury est constitué de deux correcteurs, qui évaluent individuellement
les copies, et d’un arbitre, qui décide de la note finale à accorder au candidat
pour chacun des critères
6
. Après arbitrage, les notes finales relatives à chacun
des critères sont combinées, selon un système de pondération, pour aboutir à
l’expression d’un score total et d’un niveau global de compétence en expres -
sion écrite, qui permet de situer le candidat sur l’échelle de niveaux du Cadre
européen commun de référence pour les langues (Conseil de l’Europe, 2005)
et sur l’échelle des Niveaux de compétence linguistique canadiens (Ministère
de la Citoyenneté et de l’Immigration Canada, 2006), à la suite d’un double
travail d’indexation (Demeuse, Desroches, Crendal, Renaud, Oster & Leroux,
2004 ; Casanova, Crendal, Demeuse, Desroches & Holle, 2010).
Lobjectif de la présente étude étude est de distinguer les différentes
sources d’erreur affectant le dispositif d’évaluation de l’épreuve d’expression
écrite du TEF et leur contribution relative à l’erreur de mesure globale, et ce,
dans plusieurs buts:
estimer la précision avec laquelle le TEF permet d’attribuer un niveau aux
candidats sur l’échelle de référence;
identifier des leviers pertinents pour l'amélioration de la fidélité du dis -
positif d’évaluation.
Hypothèses de recherche
Les hypothèses que nous avons cherché à vérifier dans le cadre de cette
recherche sont les suivantes:
1. l’erreur de mesure de l’épreuve d’expression écrite permet de positionner
les candidats sur l’échelle avec suffisamment de précision;
2. s’il peut exister des différences de sévérité entre correcteurs, la différence
de sévérité entre deux jurys distincts est non significative;
3. la différence de difficulté entre deux jeux d’épreuve est non significative;
4. le classement des candidats est identique d’un jeu d’épreuve à l’autre;
5. les différents sujets se rapportant à une même che sont de difficulté
identique;
Fidélité de l’épreuve d’expression écrite
33
6. pour une me tâche, le classement des candidats est identique d’un sujet
à l’autre;
7. la sévérité relative des correcteurs est indépendante de la tâche évaluée;
8. pour une même che, la sévérité relative des correcteurs est indépendante
du sujet évalué.
Méthodologie
Le choix des modèles
Si le mole de néralisablisemble a priori le plus approprié pour
analyser la contribution de différentes sources d’erreur à l’erreur de mesure et
estimer la fidélité du dispositif d’évaluation de l’expression écrite du TEF,
l’organisation de cette épreuve et la procédure de correction associée ne
permettent pas de mener aisément de telles études de manière routinière.
Pour mener une analyse multifacettes de l’épreuve d’expression écrite du
TEF, au moyen de la théorie de la généralisabilité, qui permette de vérifier
nos hypothèses, il nous a donc fallu recourir à une expérimentation ad hoc,
dans le cadre de prétests. Différents plans d’étude de généralisabilité ont ainsi
été mis en œuvre pour analyser les différentes contributions à l’erreur de
mesure, repérer des différences de sévérité ou de difficulté, estimer la fidélité
de l’épreuve et mettre en évidence des pistes éventuelles pour l’amélioration
du dispositif.
Les analyses de néralisabilité ont été complées par un recours au
modèle de Rasch multifacettes de manière à obtenir une information syn -
thétique sur les écarts de sévérité entre correcteurs (permettant de tenir à jour
un panel de correcteurs calibrés) et sur la consistance de leurs évaluations.
Cependant, l’application du modèle de Rasch multifacettes dans le cadre
de l’évaluation de l’épreuve d’expression écrite du TEF nécessite une trans -
formation des données résultats qui conduit à une réduction de l’information.
La mise en œuvre de ce modèle cessite en effet que l’on dispose, pour
chaque jugement, d’au moins une observation par deg de l’échelle de
notation. Les scores totaux des candidats, délivrés sur une échelle de 450
points, ne pouvaient dès lors être utilisés tels quels, et il a fallu se résoudre
de raisonner en termes de niveaux (l’échelle du TEF comporte sept niveaux).
D
O
MINIQUE
CA
SANOVA ET
MA
RC
DE
MEUSE
34
Description de l’expérimentation
Échantillon
Pour cette étude, nous avons convié une cinquantaine d’étudiants non
francophones d’une université parisienne à passer successivement deux
épreuves d’expression écrite du TEF (avec une pause de 15 minutes entre
chaque épreuve). Pour encourager leur participation à cette expérimentation,
nous leur avons par ailleurs offert la possibilité de passer gratuitement
l’ensemble des épreuves du TEF et d’obtenir ainsi une attestation officielle
de leurs sultats. Cependant, seuls 36 étudiants se sont effectivement présens
le jour de l’expérimentation. Ils ont é partis en deux groupes de 18
candidats, qui ont passé successivement, en ordre alterné, les deux épreuves
d’expression écrite du TEF (avec une pause de 15 minutes entre chaque
épreuve). Trois candidats n’ayant traique l’un des deux sujets de la première
épreuve ont été retirés de l’échantillon. L’échantillon global est donc constitué
de 33 candidats, soit 66 copies. Si la taille réduite de cet échantillon peut
limiter la portée des conclusions générales, elle permet néanmoins d’appré -
hender les risques en phase de mise au point et de déterminer les sources
potentielles d’erreur de mesure.
Par ailleurs, la plupart des candidats se sont vu attribuer un niveau 3 ou 4
sur l’échelle, qui comporte sept niveaux. Cela nous a conduits, pour pouvoir
mettre en œuvre les modèles de Rasch multifacettes à partir des niveaux des
candidats et disposer également d’un échantillon de données suffisamment
large, à compléter l’échantillon initial en faisant corriger par chacun des quatre
correcteurs 60 nouvelles copies produites en situation réelle par des candidats
de niveaux variés (30 pour chacun des deux jeux d’épreuves utilisés dans
l’expérimentation) et à utiliser le plan de données partiellement connectées
décrit dans la figure 1.
Fidélité de l’épreuve d’expression écrite
35
Résultats au jeu A
30 candidats
(correction par les 4 correcteurs)
Résultats aux jeux A et B
33 candidats
(correction par les 4 correcteurs)
Résultats au jeu B
30 candidats
(correction par les 4 correcteurs)
36
DO
MINIQUE
CA
SANOVA ET
MA
RC
DE
MEUSE
Figure 1. Nature de l’échantillon de données utilisé pour les analyses Rasch
multifacettes
Méthode
Chaque copie de l’expérimentation a été corrigée par quatre correcteurs,
regroupés en deux jurys (un arbitre différent a été affecté à chacun des jurys).
Les analyses de généralisabili ont é mees au moyen du logiciel EduG 6.0
7
(IRDP, 2010), et les modèles de Rasch multifacettes ont été mis en œuvre au
moyen du logiciel CONQUEST 2.0 (Wu, Adams, Wilson & Haldane, 2007).
Résultats
Statistiques descriptives
Le tableau 1 décrit la répartition des scores et des niveaux des 33 candidats
ayant participé à l’expérimentation, selon les correcteurs, les jurys, les jeux ou
l’ensemble des corrections.
37
Fidélité de l’épreuve d’expression écrite
Tableau 1
Répartition des scores et niveaux des candidats
Scores (sur 450) Nombre de candidats par niveau
Copies considérées Moyenne Écart type Niveau 2 Niveau 3 Niveau 4 Niveau 5
Toutes les copies arbitrées 267,0 51,5 2 12 19 0
Toutes sans arbitrage 264,1 50,1 2 13 18 0
Jeu A, arbitrées 262,0 55,5 3 13 17 0
Jeu B, arbitrées 271,9 51,7 3921 0
Jury 1 268,0 56,3 2 11 20 0
Jury 2 265,9 47,9 3921 0
Correcteur 1 298,1 54,5 1920 3
Correcteur 2 262,5 49,3 3 12 18 0
Correcteur 3 233,5 54,5 10 13 10 0
Correcteur 4 262,4 48,4 2 13 18 0
On voit que les classements par niveau peuvent être très variables selon
les correcteurs, le correcteur 3 étant sensiblement plus sévère et le correcteur
1 plus indulgent ; mais quand on constitue des jurys équilibrés (le jury 1 est
composé des correcteurs 1 et 3 et le jury 2 des correcteurs 2 et 4), on obtient,
conformément à l’hypothèse 2, des résultats proches en moyenne (t = 0,674,
avec p = 0,5054), mais qui n’empêchent pas des différences de classement
pour des candidats se situant à la frontière entre deux niveaux. Par ailleurs, si
le jeu d’épreuve semble avoir une influence non négligeable sur le classement
des candidats, l’hypothèse nulle selon laquelle la différence de moyenne serait
due au hasard ne peut pas être rejetée (t = -1,906, avec p = 0,0657) au risque
α de 5%.
Il faut aussi signaler que l’écart de moyenne entre les deux passations
8
est
faible (3,818 points sur un total de 450) et non significatif (t = -0,263 avec
p = 0,7943). Il ne semble donc pas y avoir eu d’effet d’ordre manifeste.
Estimation de la fidélité au moyen de la théorie classique
La fidélité interjurys, calculée sur les 66 copies, est très élevée (0,937
alors que l’amplitude des différences de scores de candidats est inférieure à la
moitde l’amplitude de l’échelle). Cependant, cette fidélité est établie en
faisant corriger les mêmes copies par chacun des deux jurys. Or, en situation
réelle, si un candidat était amené à repasser le test, il se verrait attribuer un
jeu d’épreuve différent, qui serait très probablement corri par un jury
différent. Le prétest permet d’estimer la fidéli globale de l’épreuve en
répartissant les résultats en deux sous-échantillons. Dans le premier cas, on
considère:
d’une part, les résultats que le jury 1 attribue aux candidats pour le jeu A ;
et d’autre part, les résultats que le jury 2 leur attribue pour le jeu B,
et inversement, pour le second cas:
d’une part, les résultats que le jury 2 attribue aux candidats pour le jeu A ;
d’autre part, les résultats que le jury 1 leur attribue pour le jeu B.
On calcule ainsi, pour chacun des deux cas, la corrélation entre les scores
obtenus lors de deux passations successives d’une épreuve différente
d’expression écrite corrigées par des jurys différents, soit deux évaluations
réellement indépendantes. Cette corrélation s’élève à 0,843 dans le premier
cas et à 0,780 dans le second. Ces deux corlations sont significatives
(p < 0,0001).
On constate donc que l’estimation de la fidélité globale est sensiblement
plus faible que la fidélité interjurys et, par conséquent, que les jeux d’épreuve
ont un impact sur la fidélité de l’évaluation. Les analyses menées au moyen
de la théorie de la généralisabilité permettent d’établir plus précisément les
différentes sources d’erreur et de terminer leur contribution relative à la
variance d’erreur.
Analyse des différentes facettes au moyen de la théorie
de la généralisabilité
Analyse des facettes principales
Le plan d’étude le plus classique consiste à croiser les facettes Candidats,
Correcteurs et Jeux d’épreuve. Il modélise le cas des candidats se voient
attribuer aléatoirement un jeu pour une session, leurs copies sont corrigées
par des correcteurs indépendants, sélectionnés aléatoirement, et le score
délivré au candidat correspond à la moyenne des scores délivrés par chacun
des correcteurs.
S’il est réaliste en ce qui concerne les candidats et les jeux d’épreuve (le
choix des différents niveaux de ces facettes n’a rien de spécifique), ce plan
d’étude ne reflète pas complètement la situation du TEF, où les jurys ne sont
pas constitués aléatoirement mais en tenant compte de la sévérité relative des
correcteurs, et le score délivré au candidat résulte d’une phase d’arbitrage.
D
O
MINIQUE
CA
SANOVA ET
MA
RC
DE
MEUSE
38
anmoins, il présente l’intérêt de montrer l’impact qu’aurait la facette
Correcteurs si les jurys étaient constitués aléatoirement et d’estimer les effets
de son interaction avec les autres facettes.
Le tableau 2 présente les plans d’observation et d’estimation utilisés et le
tableau 3 les résultats de l’analyse de variance menée à partir des scores
globaux des candidats, tels que produits par EduG. Le tableau 3 permet de
montrer que, en dépit de la diversité modérée de compétence linguistique des
candidats
9
, les différences de compétence entre candidats expliquent tout de
même 59,7 % de la variance totale.
Tableau 2
Plan d’observation et d’estimation
Facette Étiquette Niveaux Univers
Candidats C 33 INF
Jeux d’épreuve S2INF
Correcteurs E4INF
Tableau 3
Analyse de variance pour le plan croisé Candidats(C) X Jeux (S) X
Correcteurs (E)
Composantes
Source Somme Degrés Carrés Aléatoires Mixtes Corrigées % Er. St.
des carrés de liber moyens
C 642668,25 32 20083,38 2252,21 2252,21 2252,21 59,7 611,70
S 7245,03 1 7245,03 26,73 26,73 26,73 0,7 46,06
E 138528,86 3 46176,29 665,55 665,55 665,55 17,6 442,95
CS 61228,34 32 1913,39 404,64 404,66 404,64 10,7 116,49
CE 42928,27 96 447,17 76,16 76,16 76,16 2,0 38,26
SE 6293,34 3 2097,78 54,63 54,63 54,63 1,4 40,22
CSE 28304,78 96 294,84 294,84 294,84 294,84 7,8 42,12
Total 927196,88 263 100%
Fidélité de l’épreuve d’expression écrite
39
Comme nous nous intéressons à l’influence des différentes sources
d’erreur sur les résultats des candidats, nous avons adopté un plan de mesure
qui considère la facette Candidats (C) comme facette de différenciation et les
facettes Jeux d’épreuve (S) et Correcteurs (E) comme facettes d’instrumen -
tation. Le tableau 4 présente la répartition de la variance d’erreur absolue entre
les différentes facettes et leurs interactions.
Tableau 4
Analyse de généralisabilité pour le plan de mesure C/SE
Sources Variance Sources Variance %
de var. de différ. de var. d’err. abs. abs.
C (candidats) 2252,21 .....
..... S (jeux) 13,37 3,0
..... E (correcteurs) 166,39 37,4
..... CS 202,32 45,5
..... CE 19,04 4,3
..... SE 6,83 1,5
..... CSE 36,86 8,3
Total des variances 2252,21 444,80 100%
Écarts types 47,46 Erreur type absolue : 21,09
Coef_G absolu 0,84
Ce tableau met en évidence la présence d’un effet Correcteurs important,
qui explique à lui seul 37,4 % de la variance d’erreur absolue. On voit donc que
les différences de sévérité entre correcteurs contribuent de manière appciable
à l’erreur de mesure, ce qui plaide pour la mise en œuvre d’un dispositif de
monitorage permettant de tenir compte de cet aspect.
L’effet Jeux est pour sa part faible (3 % de la variance d’erreur), témoi -
gnant que dans l’ensemble, la différence apparente de difficulté des jeux ne
joue qu’un rôle marginal, bien que significatif, sur l’erreur de mesure absolue
(hypothèse 3). Cependant, l’effet d’interaction entre Candidats et Jeux (CS)
explique la plus grande partie de la variance d’erreur (45,5%), ce qui réfute
clairement l’hypothèse 4, selon laquelle « le classement des candidats est
identique d’un jeu d’épreuve à l’autre»
10
. Cela montre probablement que les
candidats peuvent être plus ou moins à l’aise selon les thématiques des sujets
D
O
MINIQUE
CA
SANOVA ET
MA
RC
DE
MEUSE
40
(les tâches sont identiques d’un jeu à l’autre, mais réalisées à partir de sujets
différents), mais l’interaction entre Candidats et Jeux englobe également les
variations dues à d’éventuels changements de stratégie des candidats entre les
deux passations successives, ce qui conduit sans doute à une surestimation de
l’effet d’interaction.
Il est par ailleurs intéressant de constater que l’effet d’interaction entre
les facettes Candidats et Correcteurs (CE) n’explique que 4,3 % de la variance
d’erreur et l’effet d’interaction entre les facettes Jeux d’épreuve et Correcteurs
(SE) seulement 1,5%. Ainsi, les correcteurs montrent globalement une bonne
stabilité dans leurs évaluations, indépendamment du jeu traité et du candidat
concerné.
Le coefficient absolu de généralisabilité (IRDP, 2010, p. 38-39) s’élève à
0,84, mais il est établi pour l’évaluation d’un candidat au moyen de deux jeux
d’épreuve et de quatre correcteurs, ce qui ne reflète pas les conditions réelles
de passation du TEF. Par ailleurs, sa valeur est tributaire de la répartition des
scores des candidats et il convient davantage de considérer l’erreur type
absolue, comme le recommande Cronbach:
I am convinced that the standard error of measurement […] is the most impor-
tant single piece of information to report regarding an instrument, and not a
coefficient (Cronbach & Shavelson, 2004, p. 413).
C’est à partir de cette erreur type qu’on pourra déterminer un intervalle de
confiance autour des points de sure entre niveaux. Compte tenu des décisions
qui sont prises par les utilisateurs institutionnels, à partir des niveaux obtenus
par les candidats au TEF, il importe en effet de limiter le risque qu’un candidat
ne se voit classé dans un niveau différent de son niveau réel. Ce risque est
maximal pour les candidats se situant à la césure entre deux niveaux adjacents.
La précision de l’outil sera jugée acceptable si l’écart entre le score attribué
au candidat et son score réel (score univers dans la terminologie de la théorie
de la généralisabilité) ne diffère pas de plus de un niveau dans plus de 5 %
des cas.
Une étude de cision mee avec un plan d’optimisation à un jeu
d’épreuve et à deux correcteurs conduit à une estimation de l’erreur type
absolue de 31,3 points (et à un coefficient de généralisabilité absolue de 0,697),
soit 6,96 % de l’amplitude totale de l’échelle de scores (de 0 à 450 points).
Cette erreur de mesure étant inférieure à la moitié de l’amplitude de chacun
des niveaux du TEF (l’amplitude minimale est de 67 points pour les niveaux
concernés
11
), le risque d’une erreur importante de classement des candidats
Fidélité de l’épreuve d’expression écrite
41
42
DO
MINIQUE
CA
SANOVA ET
MA
RC
DE
MEUSE
(plus de un niveau d’écart entre le niveau attribué aux candidats et leur niveau
el) reste inférieur à 5 %. Il serait toutefois souhaitable de disposer d’un
échantillon plus important pour en garantir la stabilité.
Ces sultats montrent cependant que les différences de vérité entre
correcteurs ont un impact sensible sur la fidélité de l’épreuve et qu’il importe
également de tenir compte de l’interaction entre candidats et jeux d’épreuve.
Prise en considération de l’organisation en jurys dans l’estimation
de la fidélité
Afin de tenir compte de l’arbitrage et de la stratégie d’appariement des
correcteurs mise en œuvre pour parvenir à des jurys équilibrés, une étude de
généralisabilité a été menée à partir du plan croisé Candidats (C) X Jeux (S)
X Jurys (J), chaque facette étant considérée comme aléatoire infinie, reflétant
le fait que les jurys sont tirés aatoirement parmi l’ensemble des jurys
équilibrés envisageables pour la correction du TEF. Elle s’appuie sur le score
final délivpar chacun des deux jurys à chacun des 33 candidats pour chacun
des deux jeux d’épreuve et ne tient donc pas compte des différences de scores
entre correcteurs au sein d’un même jury.
L’analyse de variance montre que les différences de compétence entre
candidats expliquent alors 78,6 % de la variance totale. Le tableau 5 permet
quant à lui d’établir clairement la principale source d’erreur, à savoir l’effet
d’interaction entre Candidats et Jeux, qui explique 65,4 % de la variance
d’erreur absolue.
Tableau 5
Analyse de généralisabilité avec le plan croisé
Candidats(C) X Jeux (S) X Jurys (J)
Sources Variance Sources Variance %
de var. de différ. de var. d’err. abs. abs.
C (Candidats) 2381,95 .....
..... S (jeux) 16,72 5,8
..... J (jurys) (0.00000) 0,0
..... CS 188,54 65,4
..... CJ 47,37 16,4
..... SJ 1,07 0,4
..... CSJ 34,44 12,0
Total des variances 2381,95 288,15 100%
Écarts types 48,81 Erreur type absolue : 16,97
Coef_G absolu 0,89
Par ailleurs, alors que l’effet d’interaction entre Candidats et Correcteurs
était faible (cf. tableau 4), l’effet d’interaction entre Candidats et Jurys (CJ) est
sensiblement plus important (16,4%). Ainsi, si les jurys livrent en moyenne
des résultats comparables aux candidats (aucun effet Jurys ne peut être mis
en évidence), ils ne les classent pas toujours de la même manière (la corrélation
est toutefois très élevée : 0,937). La facette Jeux d’épreuve n’explique quant
à elle directement que 5,8 % de la variance d’erreur absolue. Cependant, si
cela indique que les deux jeux utilis sont globalement de difficul
semblable, il n’est pas possible à ce stade de déterminer, pour chacune des
deux tâches qui composent l’épreuve, si les sujets utilisés dans les jeux
d’épreuve sont de difficulté comparable.
Une étude de décision pour un plan d’optimisation à un jury et un jeu
d’épreuve permet d’obtenir une estimation de la fidélité du dispositif. Le
coefficient de ralisabiliabsolue est alors de 0,786 et l’erreur type absolue
de 25,4 points (soit 5,6 % du nombre maximum de points accordés pour cette
épreuve, c’est-à-dire 450 points). Ainsi, si l’interaction entre Candidats et Jeux
d’épreuve explique les deux tiers de la variance d’erreur, l’erreur type absolue
correspondante est plutôt faible et en tout cas plus favorable que lorsqu’on
prend en compte isolément les évaluations des correcteurs.
43
Fidélité de l’épreuve d’expression écrite
44
DO
MINIQUE
CA
SANOVA ET
MA
RC
DE
MEUSE
Difficulté relative des sujets, sur le plan communicatif
Afin d’analyser, pour chacune des deux tâches, la difficulté relative des
sujets sur le plan communicatif, on met en œuvre les deux études de géné -
ralisabilité suivantes:
la première considère, en plan croisé, les notes (sur 20) accordées pour
chacun des trois premiers critères (se rapportant à la première tâche) à
chacune des copies d’un candidat par chacun des correcteurs;
la seconde considère, en plan croisé, les notes accordées aux critères 4 à
6 (se rapportant à la seconde tâche) à chacune des copies d’un candidat par
chacun des correcteurs.
Le tableau 6 présente les plans d’observation et d’estimation corres -
pondants (les mêmes plans sont utilisés pour chacune des deux ches), les
critères sont considérés comme une facette fixe (une même tâche est toujours
évaluée à partir des mêmes trois critères communicatifs). Les sujets sont, pour
leur part, tirés au hasard parmi une banque de sujets potentiellement infinie
pour la tâche considérée et les correcteurs sont considérés comme choisis
aléatoirement parmi un ensemble potentiellement infini.
Tableau 6
Plans d’observation et d’estimation
Facette Étiquette Niveaux Univers
Candidats C 33 INF
Sujets S2INF
Critères A3 3
Correcteurs E4INF
L’effet Sujets qui peut ainsi être mis en évidence est très limité : il n’ex -
plique que 1,2 % de la variance d’erreur absolue dans le premier cas et 2,3 %
dans le second cas. Ainsi, aucun des sujets ne semble présenter une difficulté
intrinsèque supérieure à l’autre sur le plan communicatif, tant pour la première
que pour la seconde tâche, ce qui confirme l’hypothèse selon laquelle « les
différents sujets se rapportant à une même tâche sont de difficulté identique »
(hypothèse 5). En revanche, l’effet d’interaction entre Candidats et Sujets
explique la plus grande part de la variance d’erreur (56,7 % dans un cas,
54,9 % dans l’autre)
12
, certains candidats étant manifestement plus à l’aise que
d’autres pour certaines thématiques, résultat qui contredit l’hypothèse 6 selon
laquelle « pour une même che, le classement des candidats est identique d’un
sujet à l’autre».
La seconde source de variation est liée à l’effet Correcteurs, qui explique
respectivement 27 % et 23,9 % de la variance d’erreur, l’effet d’interaction
entre Candidats et Correcteurs étant limité (3,2 % et 6,2 % de la variance
d’erreur) et l’interaction entre Correcteurs et Sujets quasi nulle, ce qui confirme
l’hypothèse 8 selon laquelle « pour une même tâche, la sévérité relative des
correcteurs est indépendante du sujet évalué».
Il ne semble donc pas y avoir de sujets plus difficiles que d’autres (du
moins pour la réalisation de la tâche sur le plan communicatif) et les correc -
teurs montrent une bonne stabilité dans leurs évaluations, indépendamment
du sujet traité et du candidat concerné. Cependant, certains candidats semblent
plus à l’aise que d’autres pour certaines thématiques. Cela plaide en faveur
de l’introduction d’une tâche supplémentaire, qui exposerait les candidats à
davantage de thématiques et améliorerait probablement la fidélide l’épreuve
d’expression écrite du TEF, mais l’allongerait sensiblement.
Amélioration de la fidélité par l’ajout d’un correcteur
ou d’une tâche supplémentaire
On peut s’attendre à ce que les deux tâches de l’épreuve d’expression
écrite classent les candidats de manière sensiblement différente. Cependant,
nous avons montré la psence d’un effet important d’interaction entre
Candidats et Sujets. Aussi, lorsqu’on mène une étude de généralisabilité par
jeu d’épreuve en croisant les facettes Candidats, Correcteurs (ou Jurys) et
Tâches (facette nichante de la facette Critères) et en se basant sur les scores
délivrés à chacun des critères communicatifs, l’effet d’interaction qui peut
être mis en évidence entre les facettes Candidats et Tâches (45,5 % et 46,9 %
selon le jeu d’épreuve considéré) englobe-t-il l’interaction entre les candidats
et la thématique des sujets (instances des tâches pour le jeu considéré)?
À partir des résultats de l’expérimentation, on peut comparer les gains de
fidélité que l’on pourrait espérer en considérant, d’une part, trois correcteurs
ou, d’autre part, trois tâches (et donc trois thématiques). Compte tenu de la
procédure de correction du TEF (l’évaluation des critères linguistiques
s’effectue à partir de l’ensemble des deux productions), ce traitement ne peut
être mené qu’en consirant les crires communicatifs (différents pour les deux
ches) et en faisant abstraction de la pondération de chaque critère (noté sur 20).
45
Fidélité de l’épreuve d’expression écrite
Le résultat des études de décision, qui prennent en considération, pour
chacun des jeux pris séparément, les facettes Candidats, Correcteurs, Tâches
et Critères (cette dernière étant nichée dans la facette Tâches) montrent un
gain prévisible de fidélité appréciable (de 0,73 à 0,76) si l’on recourait à trois
tâches, mais inférieur au gain que l’on pourrait espérer en faisant corriger les
copies par trois correcteurs.
Tableau 7
Études de décision en faisant varier le nombre de tâches et de correcteurs
(1
er
jeu)
Plan original de 2 correcteurs 2 correcteurs 3 correcteurs
l’expérimentation et 2 tâches et 3 tâches et 2 tâches
Niv. Univ. Niv. Univ. Niv. Univ. Niv. Univ.
C (Candidats) 33 INF 33 INF 33 INF 33 INF
E (Correcteurs) 4 INF 2 INF 2 INF 3 INF
T (Tâches) 2 INF 2 INF 3 INF 2 INF
A:T (Critères) 33333333
Coef_G abs. 0,80777 0,73118 0,76064 0,78052
Erreur type absolue 1,10028 1,36759 1,26525 1,19604
Cela justifie le fait de se préoccuper en priorité de la problématique des
correcteurs. Toutefois, une fois les correcteurs appariés en jurys équilibrés,
l’ajout d’une tâche supplémentaire devient un des meilleurs moyens d’amé -
liorer la fidélité. Ainsi, lorsqu’on considère la facette Jurys et non la facette
Correcteurs et qu’on mène des études de décision en faisant varier le nombre
de tâches, on obtient, pour l’un des deux jeux, une meilleure estimation de la
fidélité lorsqu’on rajoute une troisième tâche plutôt qu’un second jury.
La sévérité des correcteurs
Nous avons vu que la constitution de jurys équilibrés permettait de ren -
forcer la fidélité du dispositif d’évaluation. Il est pour cela nécessaire de mettre
en place un suivi de la sévérité relative des correcteurs. Cependant, si un tel
suivi peut être envisagé aisément lorsque les sessions sont organisées à date
fixe et avec le même sujet d’épreuve, en faisant corriger par l’ensemble des
correcteurs d’un me groupe un premier échantillon de copies, avant de
constituer des paires de correcteurs, il est plus complexe à organiser quand
les sessions sont à dates multiples et utilisent des jeux d’épreuves différents.
46
DO
MINIQUE
CA
SANOVA ET
MA
RC
DE
MEUSE
47
Fidélité de l’épreuve d’expression écrite
Nous avons vu que l’application de la théorie de la généralisabilité
permettait de mettre en évidence des écarts de sévérité (présence d’un effet
Correcteurs) ou éventuellement de difficulté entre jeux d’épreuves. Un logiciel
comme EduG permet également, à travers le calcul de moyennes assorties
d’écarts types sur la base de plans équilibrés (souvent difficiles à constituer),
d’identifier quels sont les correcteurs les plus sévères ou les plus indulgents,
et quels sont les jeux pour lesquels les candidats ont tendance à obtenir de
meilleurs résultats.
L’utilisation du modèle de Rasch multifacettes à des fins directes d’éva -
luation dans le cas du TEF, pour lequel de nombreux sujets d’épreuves sont
utilisés en parallèle au gré des sessions organisées à la demande par les centres
agréés, et qui doit permettre la délivrance rapide de sultats, serait éga lement
problématique en production. Elle nécessiterait en effet la cons titution d’une
banque de données suffisamment interreliée pour permettre la prise en compte
des variations dues aux différentes facettes d’instru mentation et à leurs inte -
ractions dans l’expression de scores ajustés, ce qui relève de la gageure. Elle
nécessiterait par ailleurs de revoir la grille d’éva luation afin que les échelles
de notations soit limitées (actuellement, chaque critère est éval sur une
échelle de 0 à 20) et que les critères d’évaluation soient d’importance com -
parable (abandon du système de pondération).
Lutilisation du modèle multifacettes de Rasch à partir d’échantillons
partiellement équilibrés présente néanmoins un intérêt particulier, dans le
cadre du Test d’évaluation de français, pour contrôler les différences de
sévérité entre correcteurs (ainsi que la consistance de leurs évaluations), et en
tenir compte dans la constitution des jurys.
Les données recueillies dans le cadre de l’expérimentation permettent de
prendre également en considération les facettes Jeux d’épreuves (ou Sujets) et
Critères, ainsi que des interactions entre facettes d’instrumentation, dans la
mise en œuvre de modèles Rasch multifacettes. Cependant, le nombre de
paramètres à évaluer évolue avec le nombre de facettes et d’interactions prises
en considération par le modèle et plus le modèle est complexe, plus il est
nécessaire de disposer d’un nombre important d’observations pour obtenir
des estimations précises. Les résultats de l’analyse de néralisabilité, en
informant sur l’importance relative des différentes sources d’erreur, permettent
d’identifier des plans d’analyse pertinents et limités à la prise en considération
des facettes à l’origine des principales variations des scores.
Identification de plans d’analyse pertinents pour le modèle
multifacettes de Rasch
Létude de généralisabilité menée pour les facettes Candidats, Jeux et
Correcteurs a montré que les principales sources de variance d’erreur absolue
correspondaient à un effet Correcteurs et à un effet d’interaction entre
Candidats et Jeux, et qu’un ger effet Jeux était présent. Ces trois effets
expliquent à eux seuls 86 % de la variance d’erreur absolue. L’effet d’inte -
raction entre Correcteurs et Jeux n’explique pour sa part qu’une part très faible
de cette variance (1,5%). Ces résultats justifient l’adoption d’un plan d’analyse
simplif pour le modèle multifacettes de Rasch, qui fait abstraction des
interactions entre les facettes Correcteurs et Jeux, tout en restant attentif à
l’ajustement du modèle.
Résultats de l’application du modèle multifacettes de Rasch
Les résultats permettent de confirmer des différences de sévérité entre
correcteurs. Lamplitude de la différence de sévérientre les correcteurs,
exprimée sur l’échelle de Rasch, est de 3,249, alors que l’écart type de
l’estimation de la capacides candidats est de 5,56. Compte tenu de la valeur
du test du
χ
2
(115,05 pour trois degrés de liberté, avec un niveau de
signification < 0,0001), l’hypothèse nulle selon laquelle ces différences
seraient dues à un biais d’échantillonnage peut être rejetée, et la valeur de
l’indice de séparabilité qui exprime, sur une échelle de 0 à 1, la fidélité avec
laquelle l’échantillon de données permet de différencier les correcteurs selon
leur vérité, est élevée (0,983). Ces sultats sont cohérents avec ceux de
l’étude de généralisabilité. Ils permettent, par ailleurs, de situer les correcteurs
les uns par rapport aux autres sur un continuum de sévérité.
Les résultats montrent également une légère différence de difficulté entre
les deux jeux d’épreuve. L’amplitude de cette difrence, exprimée sur l’échelle
de Rasch (0,632), est toutefois faible comparée à l’écart type de l’estimation
de la compétence des candidats, qui est de 5,56.
Les indices d’ajustement des correcteurs sont satisfaisants, ce qui moigne
d’une bonne consistance des résultats délivrés par les différents correcteurs.
On peut s’étonner que les indices d’ajustement soient également satisfaisants
en ce qui concerne les jeux d’épreuve, puisque les études de généralisabilité
avaient mis en évidence un effet important d’interaction entre les facettes
Candidats et Jeux. Cela est probablement à la duction d’information
nécessaire à la mise en œuvre des analyses Rasch multifacettes (menée à partir
D
O
MINIQUE
CA
SANOVA ET
MA
RC
DE
MEUSE
48
Fidélité de l’épreuve d’expression écrite
49
des niveaux et non des scores), les variations de niveau étant sensiblement
moins fréquentes que les variations de scores. En effet, dans 71 % des cas de
l’expérimentation, les candidats se sont vu délivrer le même niveau TEF pour
chacune des deux passations.
L’ajustement des données au modèle est d’ailleurs nettement moins bon
lorsque l’analyse descend au niveau des critères communicatifs de chacune
des tâches, mettant en évidence les interactions fortes entre Candidats et Sujets
au niveau des évaluations par critère. Cela montre qu’il convient de faire un
usage raisonné du modèle multifacettes de Rasch dans le cadre de l’épreuve
d’expression écrite du TEF. La CCIP utilise ce modèle pour une estimation
globale de la sévérité des correcteurs et, plus épisodiquement, pour analyser
en tail les profils des correcteurs. C’est à partir de ce suivi de la sévéri
des correcteurs et de l’information issue de l’arbitrage que la CCIP procède à
la constitution de jurys équilibrés de correcteurs pour l’épreuve d’expression
écrite du TEF.
Conclusion
Lévaluation des compétences en expression écrite est un sysme
complexe faisant intervenir diverses facettes. Dès lors, l’analyse de la fidélité
des épreuves doit tenir compte des contributions à l’erreur de mesure de ces
différentes facettes, mais aussi de leurs interactions.
La théorie de la généralisabilifournit un cadre théorique adapté à de
telles analyses. Son application à l’épreuve d’expression écrite du TEF a
toutefois nécessité la mise en œuvre d’expérimentations ad hoc, de manière à
collecter des données selon un plan équilibré. Elle a permis de mettre en
évidence, en plus d’un effet Correcteurs indéniable, un effet d’interaction
important entre Candidats et Jeux d’épreuves qui rappelle l’intérêt de collecter
des productions écrites à partir de plusieurs tâches et de thématiques variées.
Il s’agit alors de trouver un juste équilibre entre les exigences en matière de
fidélité, de validité et de faisabilité.
L’importance de l’effet Correcteurs traduit des écarts de sévérité. La fai -
blesse des effets d’interaction entre, d’une part, Correcteurs et Candidats, et,
d’autre part, entre Correcteurs et Sujets ou Jeux, atteste la présence régulière
de tels écarts. L’analyse Rasch multifacettes a confirmé ce constat et a permis
de situer les différents correcteurs sur une échelle de vérité. Cette différence
de sévéripeut toutefois être prise en considération pour mettre en œuvre
50
DO
MINIQUE
CA
SANOVA ET
MA
RC
DE
MEUSE
une stratégie de constitution de jurys de correcteurs équilibrés, qui permet
d’améliorer sensiblement la fidélité d’un dispositif d’évaluation prévoyant
des corrections multiples.
Certains auteurs préconisent aussi l’utilisation du modèle multifacettes
de Rasch pour délivrer aux candidats un score « ajusté » établi sur la base de
leur score Rasch, qui tient compte de la rité des correcteurs et, éven -
tuellement, de la difficulté des jeux d’épreuve. Un tel usage nécessite toutefois
que l’outil d’évaluation et son contexte d’utilisation se prêtent à la mise en
œuvre de ce modèle et que les conditions d’application du modèle de Rasch
soient clairement réunies
13
, notamment l’ajustement des données au modèle,
qui suppose un effet d’interaction limité entre candidats et jeux d’épreuve.
Ces deux exigences sont malheureusement rarement rencontes lors de
l’admi nis tration de tests au cours de sessions multiples (ce qui est natu -
rellement différent dans le cas d’examens réunissant de nombreux candidats
lors d’une même session et qui sont soumis à un même jeu d’épreuve).
51
Fidélité de l’épreuve d’expression écrite
NOTES
1. Des systèmes de correction automatisés font cependant leur apparition (Laurier & Diar-
ra, 2009).
2. Ce cas est susceptible de se produire lorsqu’une grille analytique, constituée de critères
évaluant séparément différents aspects de la production écrite, est utilisée pour évaluer
les candidats.
3. À savoir, la capacité d’un correcteur à attribuer des scores semblables à deux moments
différents pour une même série de copies ou à attribuer des scores proches à des copies
réputées de niveau équivalent.
4. Pour McNamara (1996, p. 27), il est naturel d’observer une diversité dans les jugements,
qui renvoient à des expériences de lecture individuelles.
5. La consistance des évaluations d’un correcteur reflète la régularité de ses caractéristiques
d’évaluation (sévérité, manière d’exploiter l’échelle de notation, etc.). Un correcteur qui
serait tantôt sévère, tantôt indulgent pourra avoir une estimation de sévérité proche de 0,
mais sera probablement caractérisé par un indice d’ajustement peu satisfaisant, qui reflè -
tera sa versatilité. L’étude de Weigle (1994) montre que, si la formation des correcteurs
ne permet pas de supprimer les différences de sévérité, elle a un impact géné ralement
positif sur la consistance des évaluations.
6. L’arbitre joue également un rôle dans le pilotage de la qualité en transmettant, au respon-
sable pédagogique du TEF en charge du suivi des correcteurs, les copies pour lesquelles
des écarts de plus d’un niveau entre correcteurs sont constatés sur un ou plusieurs cri -
tères, ce qui permet d’alimenter un tableau de suivi des correcteurs.
7. La version française du logiciel EduG 6.0 peut être téléchargée gratuitement à l’adresse
[http://www.irdp.ch/edumetrie/logicielfrancais.htm].
8. Calculé en considérant, pour chaque candidat, la moyenne des scores des deux jurys.
9. Parallèlement aux épreuves d’expression écrite, les candidats de l’expérimentation ont
été soumis aux épreuves de réception du TEF, sous la forme d’un questionnaire à choix
multiple, qui montrent que si leurs compétences linguistiques s’échelonnent du niveau 2
au niveau 5 (ce qui correspond aux niveaux A2 à C1 du Cadre européen commun de réfé-
rence pour les langues – CECR), la plupart des candidats sont de niveau 3 ou 4.
10. La corrélation interjeux, établie à partir de la moyenne des scores délivrés par les quatre
correcteurs, est de 0,81 (p < 0,0001) sous condition d’égalité de moyenne et de variance.
11. L’amplitude des niveaux extrêmes est moindre (34 points), mais il n’y a pas de risque de
voir le score vrai d’un candidat correspondre à un niveau inférieur au niveau minimum
ou supérieur au niveau maximum.
12. Mais s’agissant de deux passations successives, cet effet inclut les modifications de stra-
tégie des candidats entre les deux épreuves. Il est donc probablement surestimé.
13. Lorsque des correcteurs évaluent, pour un même candidat, une même copie, nous ne
sommes pas face à des évaluations réellement indépendantes, alors qu’il s’agit d’une des
conditions d’application du modèle de Rasch. Selon Linacre (1997), ce défaut d’indé-
pendance locale conduit à une surestimation de la précision de la mesure, mais ne remet
pas en cause la nécessité d’un ajustement tenant compte des différences de sévérité, et
l’expression à partir du score Rasch des candidats, d’un score « ajusté ».
52
DO
MINIQUE
CA
SANOVA ET
MA
RC
DE
MEUSE
RÉFÉRENCES
Artus, F., & Demeuse, M. (2008). Évaluer les productions orales en français langue
étrangère (FLE) en situation de test. Étude de la fidéliinter-juges de l’épreuve
d’expression orale du Test d’évaluation de français (TEF) de la Chambre de commerce
et d’industrie de Paris. Les cahiers des sciences de l’éducation, 25 et 26, 131-151.
Bachman L. F. (2004). Statistical analyses for language assessment. Cambridge: CUP.
Bachman, L. F., Lynch, B. K., & Mason, M. (1995). Investigating variability in tasks and
rater judgments in a performance test of foreign language speaking. Language Testing,
12, 238-257.
Bertrand, R., & Blais, J. G. (2004). Modèles de mesure. L’apport de la théorie des réponses
aux items. Sainte-Foy (Canada) : Presses de l’Université du Québec.
Brennan, R. (2001). Generalizability theory. New York: Springer-Verlag.
Cardinet, J., & Tourneur, Y. (1985). Assurer la mesure. Berne: Peter Lang.
Casanova, D., Crendal, A., Demeuse, M., Desroches, F., & Holle, A. (2010, janvier).
Validation empirique d’un test de français langue étrangère en regard du Cadre
européen commun de référence pour les langues. Actes du 22
e
colloque international
de l’Association pour le développement des méthodologies d’évaluation en éducation
(ADMEE-Europe), Braga, Portugal.
Chambre de commerce et d’industrie de Paris (2010). TEF, le Test d’évaluation de français
de la Chambre de commerce et d’industrie de Paris. Paris : CCIP.
Conseil de l’Europe (2005). Cadre européen commun de référence pour les langues. Paris :
Didier.
Cronbach, L. J., & Shavelson, R. (2004). My current thoughts on coefficient alpha and
successor procedures. Educational and Psychological Measurement, 64, 391-418.
Demeuse, M., Desroches, F., Crendal, A., Renaud, F., Oster, P., & Leroux X. (2004,
novembre).
L’évaluation des compétences linguistiques des adultes en français
langue étrangère dans une perspective de multiréférentialisation.
Actes du 17
e
colloque international de l’Association pour le développement des méthodologies
d’évaluation en éducation (ADMEE-Europe). Lisbonne, Portugal.
Demeuse, M., Desroches, F., Crendal, A., Renaud, F., & Casanova, D. (2005, octobre). La
fiabilité de l’évaluation des compétences linguistiques pour des adultes non
francophones : présentation d’un protocole d’évaluation. A ctes du 18
e
colloque
international de l’Association pour le développement des méthodologies d’évaluation
en éducation (ADMEE-Europe). Reims, France.
Eckes, T. (2005). Examining rater effects in TestDaF writing and speaking performance
assessments: A many-facet Rasch analysis. Language Assessment Quarterly, 2,
197–221.
Eckes, T. (2009). Many-facet Rasch measurement. In S. Takala d.), Reference supplement
to the manual for relating language examinations to the Common European Framework
of Reference for Languages: Learning, teaching, assessment (Section H). Strasbourg,
France: Conseil de l’Europe/Division des politiques linguistiques.
Engelhard, G. Jr. (1994). Examining rater errors in the assessment of written composition
with a many-faceted Rasch model. Journal of Educational Measurement, 31(2),
93–112.
Holle, A. (à paraître). Garantir la qualité d’un outil d’évaluation à forts enjeux : le cas du
TEF. In O. Soutet, G. Maratier-Declety & M. Demeuse (dir.), Assurer la qualité des
épreuves d’évaluation en langues. Quels enjeux ? Paris : Champion.
IRDP (2010). Guide pour EduG. Neuchatel (Suisse) : IRDP.
Laurier, M. D., & Diarra L. (2009). L’apport des technologies dans l’évaluation de la
compétence à écrire. In J. G. Blais (dir.), Évaluation des apprentissages et technologies
de l’information et de la communication (p. 77-104). Laval : PUL.
Linacre, J. M. (1989). Many-facet Rasch Measurement. Chicago: MESA Press.
Linacre, J. M. (1997) Investigating Judge Local Independence. Rasch Measurement
Transactions, 11(1), 546-547.
Lumley, T., & McNamara, T. F. (1995). Rater characteristics and rater bias: Implications
for training, Language Testing, 12, 54–71.
McNamara, T.F (1996). Measuring second language performance. New York: Longman.
McNamara, T. F., & Adams, R. J. (1991). Exploring rater behavior with Rasch techniques.
Communication présentée au 13th Language Testing Research Colloquium,
Educational Testing Service. Princeton, N.J.
Ministère de la Citoyenneté et de l’Immigration Canada (2006). Niveaux de compétence
linguistique canadiens, Ottawa : Ministère de la Citoyenneté et Immigration Canada.
Noël-Jothy, F., & Sampsonis, B. (2006). Certifications et outils d’évaluation en FLE. Paris:
Hachette.
Weigle, S. C. (1994). Effect of training on raters of ESL compositions. Language Testing
11, 197-223.
Weigle, S. C. (1998). Using Facets to model rater training effects. Language Testing, 15(2),
263-287.
Weigle, S. C. (2002). Assessing writing. Cambridge: CUP.
Wu, M. L., Adams, R. J., Wilson, M. R., & Haldane, S. A. (2007). ACER Conquest Version
2.0. Generalised Item Response Modelling Software. ACER Press.
Date de réception : 26 juillet 2010
Date de réception de la version finale : 15 juillet 2011
Date d’acceptation : 20 juillet 2011
53
Fidélité de l’épreuve d’expression écrite
... Le second, signé par A. Mommée et A.Diogo, traite de la sélection, de la formation et du suivi des examinateurs de ces mêmes diplômes. Ce dernier texte s'inscrit dans la perspective qui avait été développée dans plusieurs contributions de notre équipe à propos de la qualité des évaluateurs, leur sélection ou leur formation à l'évaluation de productions orales ou écrites (Artus etDemeuse, 2008 ;Casanova et Demeuse, 2011, 2016 ou les outils d'évaluation qui leur sont offerts.D'autres travaux ont porté sur le passage de l'évaluation papier-crayon à une forme numérique (Desroches, Casanova, Crendal, Renaud, Mahy et Demeuse, 2005 ; Casanova, Aw et Demeuse, 2018), l'alignement sur les référentiels (Casanova, Crendal, Demeuse, Desroches et Holle, 2010 ; Demeuse, Desroches, Crendal, Renaud, Oster et Leroux, 2004 ; Demeuse, Artus, Casanova, Crendal, Desroches, et Renaud 2007) ou interrogent d'autres aspects sans doute beaucoup plus techniques, comme l'unidimensionnalité des tests (Casanova, Kaddachi, Aw et Demeuse, 2019). Le travail se poursuit également à travers plusieurs pistes permettant d'envisager les apports de la technologie à l'évaluation de productions complexes (Casanova, Aw et Demeuse, 2020), le contrôle des réponses suspectes (Aw, Zhang, Demeuse et Casanova, 2019) ou l'influence des accents francophones sur les performances en compréhension orale (Casanova, Aw, Bourras et Demeuse 2018).Le travail au sein de l'équipe du français des affaires de la Chambre de commerce et d'industrie de région Paris Ile-de-France présente de multiples facettes. ...
Article
Full-text available
Le travail au sein de l’équipe du français des affaires de la Chambre de commerce et d’industrie de région Paris Ile-de-France présente de multiples facettes. Il répond aux standards de qualité qui s’imposent à présent en matière de tests à forts enjeux. Cela nécessite la mobilisation d’une équipe pluridisciplinaire, au-delà de la production de nouvelles versions d’un même instrument. La palette de l’offre, notamment dans le domaine du français des affaires, continue à se développer, abordant de nouveaux domaines, mais celle-ci doit aussi faire face à de nombreux défis: généralisation de l’utilisation du numérique pour la gestion des épreuves, modification du format des interfaces destinées aux candidats, adaptation à l’évolution des exigences des prescripteurs et des référentiels, sécurisation accrue et recours à la technologie pour mieux assurer la qualité des corrections des productions complexes, tant orales qu’écrites... Tous ces développements ont pu se réaliser avec une équipe à la taille relativement réduite, si on la compare aux équipes qui assurent par exemple le développement des tests en langue anglaise. Par ailleurs, le monde francophone de l’évaluation a longtemps été réfractaire aux développements liés à la mesure et à l’évaluation, en particulier dans le domaine de l’évaluation linguistique. Il a donc fallu aussi développer en interne des compétences spécifiques qu’il était très difficile de trouver sur le marché francophone. Cet article a tenté d’offrir une réflexion nourrie par une vingtaine d’années de collaboration. Ce regard dans le rétroviseur, permet de mesurer le chemin accompli tout en entrevoyant les développements à venir. Ceux-ci impliqueront de plus en plus le traitement automatisé et l’intelligence artificielle. C’est assurément le tournant à ne pas manquer pour maintenir les produits de notre équipe au niveau d’exigence qu’ils ont pu atteindre jusqu’ici.
... Il est donc important de pouvoir mettre en lumière les différents profils d'évaluateurs (McNamara & Adams, 1991), et cela à partir des données de production, le comportement d'un évaluateur pouvant être différent lors d'une activité formative. Cette explicitation du profil des évaluateurs peut être utilisée pour leur proposer un accompagnement plus personnalisé et pour mettre en place une stratégie d'appariement en jurys qui assure une évaluation plus « neutre » des candidats, afin de limiter l'erreur de mesure (Casanova et Demeuse, 2011). Ceci est d'autant plus nécessaire dans un contexte d'évaluation à forts enjeux, où des garanties doivent être apportées sur la validité et la fidélité des résultats. ...
Article
The current study used Generalizability Theory to estimate the reliability of a mathematical competence assessment test. During the study, the test was composed of nine different complex task formats: a) three well-defined tasks, b) three ill-defined tasks and c) three tasks with parasite data. These tasks were administered to a sample of (331) fourth year primary school students. Three trained raters participated in the scoring process by means of analytic scoring rubrics. Data collected were analyzed in terms of a fully crossed two-faceted design “person× task× rater” using “EduG” package. Research results showed substantial sources of error due to person-task interaction effect and task main effect. To ensure acceptable levels of reliability, the number of tasks should be increased but not the number of raters. As such, special caution should be put on the use of complex tasks in competence assessment measures.
Article
Dans le contexte d’évaluation à forts enjeux, où des garanties doivent être apportées sur la qualité du dispositif mis en œuvre, notamment pour des épreuves complexes recourant à un jugement humain, la formation, l’accompagnement et le suivi des évaluateurs sont essentiels. Ce travail est d’autant plus pertinent quand le profil des évaluateurs peut être mis en évidence à partir des données de leur activité quotidienne dans le cadre de la mise en œuvre d’un test dont les différentes formes sont administrées régulièrement. Cet article compare deux méthodes pour la détermination des profils de sévérité d’évaluateurs à partir de leurs données de production, dans le contexte d’une épreuve d’expression écrite en français langue étrangère où les jurys de correction regroupent deux évaluateurs. La première méthode s’inscrit dans le cadre de la théorie classique des tests et la seconde s’appuie sur la théorie de réponse aux items, par la mise en œuvre d’un modèle de Rasch multi-facettes. Les deux méthodes donnent des résultats concordants, mais les modèles de Rasch multifacettes imposent des contraintes sur les données initiales et les estimations des paramètres d’interactions peuvent poser problème lorsque trop de facettes sont considérées dans l’analyse. Les résultats montrent l’utilité de tenir compte de la sévérité des correcteurs aux différents points de césure pour améliorer la fidélité du test, même si elle n’explique qu’une part limitée de la variance d’erreur. Ces informations permettent également de dresser des profils d’évaluation individuels des correcteurs, qui peuvent être exploités dans le cadre de leur suivi pour la mise en œuvre d’actions de remédiation ciblées.
Article
Full-text available
L’évaluation des compétences linguistiques des adultes en français langue étrangère est l’objet de nombreux enjeux : reconnaissance et validation des acquis de l’expérience ou d’apprentissages formels non certifiés, notamment. Le Conseil de l’Europe, mais aussi les services canadiens de l’immigration (Citoyenneté et Immigration Canada) ou les autorité s responsables de l’enseignement supérieur des pays francophones (comme la France ou la Communauté française de Belgique), définissent des standards destinés à permettre l’évaluation des compétences linguistiques de sujets adultes dans le domaine du français. Les objectifs de ces organismes peuvent être très variables et les enjeux, pour les candidats à l’évaluation, plus ou moins importants (depuis la reconnaissance d’un niveau de français dans la perspective d’une valorisation barémique jusqu’à la possibilité d’accéder à des études supérieures en France ou en Belgique, ou à être admis comme immigrant économique sur le territoire canadien). Si, explicitement ou non, les différents organismes font recours à une approche par compétences, les référentiels peuvent se présenter de manière extrêmement variée : le Conseil de l’Europe, à travers son cadre commun de référence, et Citoyenneté et Immigration Canada, développent un document très complet et publié alors que les autorités académiques belges et françaises privilégient le travail de commissions chargées de créer ou d’agréer des outils (tests ou examens) d’évaluation. D’autres acteurs, publics ou privés, développent par ailleurs, en rapport avec les référentiels mentionnés, des outils qu’ils soumettent à l’agrément des différentes autorités publiques. C’est dans ce cadre, celui de l’opérationnalisation à travers un outil d’évaluation particulier, dont l’objectif est de correspondre à un ensemble de référentiels, que cette communication se situe. Elle mobilise à la fois une équipe de conception et un chercheur indépendant chargé d’assurer le contrôle qualité de la production et du suivi des tests. Après une mise en correspondance des différents référentiels externes et du référentiel propre de l’outil d’évaluation lui-même, les auteurs mettront en évidence les stratégies de développement des différentes formes équivalentes (formes parallèles) du test pour chacune des quatre composantes (expression et compréhension de l’oral et de l’écrit). A travers l’analyse de la mise en œuvre d’un test particulier de « français général » pour adultes dont la langue maternelle n’est pas le français, l’exposé tentera de mettre en évidence la complexité d’une réponse spécifique à des prescrits distincts, sous contrainte d’une procédure de qualité totale en voie de certification.
Article
This article describes a study conducted to explore differences in rater severity and consistency among inexperienced and experienced raters both before and after rater training. Sixteen raters (eight experienced and eight inexperienced) rated overlapping subsets of essays from a total sample of 60 essays before and after rater training in the context of an operational administration of UCLA’s English as a Second Language Placement Examination (ESLPE). A three-part scale was used, comprising content, rhetorical control, and language. Ratings were analysed using FACETS, a multi-faceted Rasch analysis program that provides estimates of rater severity on a linear scale as well as fit statistics, which are indicators of rater consistency. The analysis showed that the inexperienced raters tended to be both more severe and less consistent in their ratings than the experienced raters before training. After training, the differences between the two groups of raters were less pronounced; however, significant differences in severity were still found among raters, although consistency had improved for most raters. These results provide support for the notion that rater training is more successful in helping raters give more predictable scores (i.e., intra-rater reliability) than in getting them to give identical scores (i.e., inter-rater reliability).
Article
Acknowledgements 1. Introductions 2. Second language performance assessment 3. Modelling performance: opening Pandora's Box 4. Designing a performance test: the Occupational English Test 5. Raters and ratings: introduction to multi-faceted measurement 6. Concepts and procedures in Rasch measurement 7. Mapping and reporting abilities and skill levels 8. Using Rasch analysis in research on second language performance assessment 9. Data, models and dimensions References Index
Book
Robert L. Brennan., The following values have no corresponding Zotero field: Label: B958 ID - 345
Article
Recent developments in multifaceted Rasch measurement (Linacre, 1989) have made possible new kinds of investigation of aspects (or 'facets') of performance assessments. Relevant characteristics of such facets (for exam ple, the relative harshness of individual raters, the relative difficulty of test tasks) are modelled and reflected in the resulting person ability measures. In addition, bias analyses, that is interactions between elements of any facet, can also be analysed. (For the facet 'person', an element is an individual candidate; for the facet 'rater', an element is an individual judge, and so on.) This permits investigation of the way a particular aspect of the test situation (type of candidate, choice of prompt, etc.) may elicit a consistently biased pattern of responses from a rater. The purpose of the research is to investigate the use of these analytical techniques in rater training for the speaking subtest of the Occupational English Test (OET), a specific-purpose ESL performance test for health professionals. The test involves a role-play based, profession-specific inter action, involving some degree of choice of role-play material. Data are presented from two rater training sessions separated by an 18-month interval and a subsequent operational test administration session. The analysis is used to establish 1) consistency of rater characteristics over different occasions; and 2) rater bias in relation to occasion of rating. The study thus addresses the question of the stability of rater characteristics, which has practical implications in terms of the accreditation of raters and the requirements of data analysis following test administration sessions. It also has research implications concerning the role of multifaceted Rasch measurement in understanding rater behaviour in performance assessment contexts.
Article
Several effects of training on composition raters have been hypothesized but not investigated empirically. This article presents an analysis of the verbal protocols of four inexperienced raters of ESL placement compositions scoring the same essays both before and after rater training. The verbal protocols show that training clarified the intended scoring criteria for raters, modified their expectations of student writing and provided a reference group of other raters with which raters could compare themselves, although agreement with peers was not an over-riding concern. These results are generally in accordance with hypothesized effects of rater training.