Conference PaperPDF Available

Comment l'analyse des données de production permet d'améliorer la formation continue des évaluateurs d'une épreuve d'expression orale

Authors:
  • Chambre de commerce et d'industrie de Paris Île-de-France

Figures

Content may be subject to copyright.
COMMENT LANALYSE DES DONNEES DE PRODUCTION PERMET DAMELIORER LA FORMATION
CONTINUE DES EVALUATEURS DUNE EPREUVE DEXPRESSION ORALE (ID 154)
Dominique Casanova, Chambre de Commerce et d’industrie de région Paris Ile-de-France
Gisèle Brown, Chambre de Commerce et d’industrie de région Paris Ile-de-France
Amine Boumaaz, étudiant ENSAI
Marc Demeuse, Université de Mons
Mots clés :
Français langue étrangère, contrôle qualité, modélisation Rasch multifacettes
Résumé :
L’évaluation d’une épreuve d’expression orale est un processus complexe qui recourt
généralement à un jugement humain, avec tout ce qu’il comporte d’imprévisible. Or, dans
un contexte où les enjeux sont élevés, des garanties doivent être apportées par rapport à la
validité et la fidélité des résultats. Pour cela, la sélection, l’accompagnement et le suivi des
évaluateurs sont essentiels.
Cette communication illustre comment l’application d’un modèle de Rasch multifacettes
permet de mettre en évidence différents profils d’évaluateurs et comment il est possible
d’en tenir compte tant pour la formation continue des évaluateurs que pour la consolidation
du système de contrôle des évaluations.
Le contexte d’application est celui de l’épreuve d’expression orale du Test d’évaluation de
français (TEF).
L’évaluation d’une épreuve d’expression orale est un processus complexe qui recourt
généralement à un jugement humain, avec tout ce qu’il comporte d’imprévisible. En effet,
de nombreux paramètres interviennent dans l’acte d’évaluation (Eckes, 2011), qui peuvent
influer sur la décision prise par l’évaluateur. Chaque évaluateur a une expérience et un
parcours qui lui sont propres et peut se trouver dans des dispositions particulières au
moment de l’évaluation (fatigue, préoccupation personnelles, effet de transfert, intérêt pour
le contenu de la discussion…), en dépit des recommandations émises par l’organisme
d’évaluation (Artus & Demeuse, 2008).
Par ailleurs, les évaluateurs développent leur propre compréhension du référentiel
d’évaluation et des exigences propres à un niveau donné, même si les documents de
référence et la formation à l’entrée dans le dispositif sont identiques pour chacun. La mise
en place d’une formation à l’entrée dans le dispositif, d’un suivi des premières évaluations et
de sessions de standardisation ne suffisent donc pas toujours pour faire converger les
évaluations de manière satisfaisante (Lumley & McNamara, 1995). A défaut de faire
disparaître les différences entre correcteurs, elles contribuent à l’amélioration de la
consistance individuelle et renforcent la validité des évaluations.
Il est donc important de pouvoir mettre en lumière les différents profils d’évaluateurs
(McNamara & Adams, 1991), et cela à partir des données de production, le comportement
d’un évaluateur pouvant être différent lors d’une activité formative. Cette explicitation du
profil des évaluateurs peut être utilisée pour leur proposer un accompagnement plus
personnalisé et pour mettre en place une stratégie d’appariement en jurys qui assure une
évaluation plus « neutre » des candidats, afin de limiter l’erreur de mesure (Casanova et
Demeuse, 2011). Ceci est d’autant plus nécessaire dans un contexte d’évaluation à forts
enjeux, où des garanties doivent être apportées sur la validité et la fidélité des résultats.
Cette communication présente les méthodes et les outils mis en place pour la sélection, la
formation et le suivi et l’accompagnement des évaluateurs de l’épreuve d’expression orale
du Test d’évaluation de français (TEF) du Centre de langue française de la Chambre de
commerce et d’industrie de la région Paris Ile-de-France. Ce test est diffusé à l’international
à travers un réseau de centres agréés de passation des épreuves, et l’épreuve d’expression
orale est organisée pour 25.000 candidats par an. Dans la suite de la communication, nous
utiliserons le terme examinateurs pour désigner les évaluateurs de l’épreuve d’expression
orale du TEF.
1. Les dispositifs d’évaluation de l’épreuve d’expression orale du TEF
Le TEF est un test à fort enjeux qui permet de déterminer le niveaux de compétence en langue
française des adultes et jeunes adultes en les situant sur l’échelle de niveaux de compétence du
Cadre européen commun de référence pour les langues (CECRL - Conseil de l’Europe, 2005). Destiné
prioritairement à une population non francophone, son usage a été élargi également aux personnes
francophones devant fournir la preuve de leur compétence en français dans le cadre de démarches
migratoire ou d’acquisition de la nationalité.
Le dispositif d’évaluation de l’épreuve d’expression orale du Test d’évaluation de français (TEF)
est double, selon que les candidats s’inscrivent aux épreuves dans le cadre de la naturalisation
française ou pour un autre usage. Une adaptation du dispositif « classique » a été rendue nécessaire
pour être en mesure de proposer rapidement le TEF pour la naturalisation sur l’ensemble du
territoire français.
L’épreuve d’expression orale consiste en deux activités, nommées sections, qui prennent la forme
de deux jeux de rôles simulant des activités de la vie quotidienne. Le rôle de l’interlocuteur est
prépondérant : il recrée une situation simili authentique, et s’adapte au niveau et aux stratégies du
candidat pour lui faire produire les observables souhaités. Dans la section A, le candidat doit
recueillir des informations utiles sur un service proposé (situation formelle) ; dans la section B, il doit
présenter un document ou une situation, et argumenter pour convaincre (situation informelle).
Le dispositif « classique » d’évaluation de l’épreuve d’expression orale prévoit que le candidat est
placé, dans le centre de passation, face à deux examinateurs du centre de passation. Chacun des
examinateurs est en posture d’interlocuteur pour l’une des sections et d’observateur pour l’autre. Ils
évaluent séparément la performance du candidat à l’ensemble des deux sections au moyen d’une
grille critériée et, lors d’une phase de consensus, reportent l’évaluation finale proposée par le jury.
L’entretien est systématiquement enregistré, ce qui permet au Centre de langue française de
procéder à un contrôle sur échantillon des évaluations.
Le dispositif adapté pour la naturalisation française ne prévoit qu’un examinateur dans le centre
de passation, qui est en posture d’interlocuteur du candidat pour chacune des deux sections. Il
estime le niveau du candidat au moyen d’une grille d’évaluation critériée, mais l’évaluation officielle
du candidat est réalisée par des examinateurs du Centre de langue française, sur la base de
l’enregistrement de l’épreuve. Les ressources humaines mobilisées par le centre sont ainsi moindres,
ce qui a permis au Centre de langue française de constituer rapidement un réseau de diffusion sur le
territoire français, alors que son activité s’exerçait jusque-là essentiellement à l’international.
Les analyses menées dans le cadre de cette communication portent sur les données recueillies,
sur l’année 2015, dans le cadre du contrôle des évaluations réalisées dans les centres de passation
ainsi que sur les données d’évaluation de l’épreuve d’expression orale du TEF pour la naturalisation.
2. Sélection, formation et accompagnement des examinateurs
Compte-tenu des enjeux entourant le test (accès au territoire, à la citoyenneté…), le Centre de
langue française doit veiller à la performance des jurys d’expression orale dans les centres de
passation et à celle de son équipe d’examinateurs (qui sont partie prenante du contrôle de la
performance des jurys). Les différents acteurs n’étant pas en mesure de financer une formation
longue et qualifiante en amont de l’organisation de sessions dans les centres de passation, le
processus de sélection occupe une place centrale. Il s’agit de repérer des « talents » et les amener
rapidement à une activité opérationnelle en conditions réelles.
2.1 Processus de sélection
Les examinateurs de l’épreuve d’expression orale sont sélectionnés par le Responsable TEF du
centre de passation, au moment de l’agrément et/ou en continu pour faire face à des besoins en
ressources humaines. Celui-ci communique au Centre de langue française les curriculum vitae des
examinateurs pressentis pour validation. Le profil attendu est celui de spécialistes de l’enseignement
du français langue étrangère, possédant un diplôme reconnu dans ce domaine (de type Master) et
trois ans au moins d’expérience de l’enseignement auprès d’un public varié (en termes de niveau et
de contexte d’apprentissage). Une expérience préalable de l’évaluation est un plus mais ne constitue
pas un prérequis.
Les examinateurs sont des professionnels de l’évaluation en français langue étrangère. Ils doivent
posséder des compétences didactiques, pédagogiques et interculturelles qui les rendent capables:
de connaître et d’utiliser le référentiel de niveaux du TEF et le Cadre européen commun de
référence pour les langues (CECR) ;
de connaître et d’utiliser la grille d’évaluation de l’épreuve d’expression orale du TEF ;
d‘être conscient des critères parasites de l’évaluation, notamment à l’oral ;
d‘animer l’épreuve d’expression orale en respectant les objectifs d’évaluation ;
d‘apprécier une production orale et lui attribuer un niveau.
La plupart sont de langue maternelle française, mais compte tenu du contexte et des ressources
humaines propres à chaque centre, la fonction est ouverte à des non-natifs. La commission
d'agrément est particulièrement attentive à leur maîtrise de langue française et leur expérience
professionnelle (enseignement et/ou évaluation) avec les niveaux avancés, en vue de s’assurer de
leur capacité à animer et évaluer l’épreuve face à des candidats de niveau avancé. Le contrôle qualité
effectué a posteriori permet de vérifier la qualité pédagogique des animations ainsi que les
compétences en français des examinateurs.
Le Centre de langue française est lui-même centre de passation du TEF pour la naturalisation. La
sélection de ses examinateurs comporte en supplément une phase de test. Le test consiste à évaluer
6 productions orales de façon holistique (donner un niveau CECR global), et à justifier ses
évaluations. Les productions sont représentatives des candidats au TEF et ont fait l’objet d’un
calibrage (plusieurs examinateurs, arbitrage définitif par le responsable pédagogique du TEF). La
sélection est effectuée au regard des niveaux attribués et de la pertinence des justifications.
2.2 Formation des examinateurs
Une fois leur profil validé, les examinateurs bénéficient d’un accès gratuit à la plateforme de
formation ouverte et à distance des examinateurs de l’épreuve d’expression orale du TEF. Cette
formation, d’une durée de 8 heures environ, leur permet de s’approprier le cadre de référence sur
lequel s’appuie le TEF (CECRL) en vue de l’évaluation des compétences orales, de s’approprier les
procédures, outils et techniques à mettre en œuvre lors de la passation de cette épreuve, et
également de s’entraîner à évaluer des candidats en comparant leurs évaluations aux évaluations
calibrées du Centre de langue française. Ils bénéficient également d’un Livret de l’examinateur TEF,
qui détaille les procédures et fournit des conseils pour l’animation de l’épreuve et l’évaluation des
différents critères.
Les examinateurs du Centre de langue française suivent par ailleurs une session de
standardisation, qui consiste à évaluer douze candidats. Seuls ceux dont les évaluations sont
conformes intègrent le vivier d’examinateurs.
2.3 Accompagnement des examinateurs
Lors de chaque session, une réunion d’harmonisation est organisée par le Responsable TEF du
centre de passation. Ce moment d’échanges permet de passer en revue les aspects-clés de cette
épreuve (procédures, outils, objectifs d’évaluation, techniques à mettre en œuvre), en vue de
standardiser les conditions de passation. C’est aussi un espace de régulation des pratiques.
Par ailleurs, un dispositif de contrôle sur échantillon, à partir d’un enregistrement sonore des
passations, permet d’assurer la qualité de ces évaluations. Il est réalisé par des examinateurs du
Centre de langue française, qui réévaluent les candidats sans avoir pris connaissance de l’évaluation
du centre. Au-delà de cette activité d’évaluation, les examinateurs du Centre de langue française
signalent d’éventuelles anomalies concernant l’animation de l’épreuve dans le centre de passation.
Sur la base de ces éléments, un responsable pédagogique du TEF effectue une rétroaction auprès du
responsable TEF du centre de passation, qui sensibilisera ses examinateurs aux écarts constatés.
Le Centre de langue française dispose de données d’évaluation en grand nombre concernant ses
propres examinateurs, qui interviennent à la fois pour l’évaluation des candidats au TEF pour la
naturalisation et pour le contrôle sur échantillon des évaluations réalisées dans les centres. Par
ailleurs, certains enregistrements sont réévalués indépendamment par deux examinateurs, ce qui
permet de disposer d’informations reliant entre eux les différents examinateurs.
L’exploitation de ces données permet de déterminer différents profils d’examinateurs et de
repérer des anomalies de correction. La détermination des profils des examinateurs du Centre de
langue française permet de mettre en évidence des singularités et proposer un accompagnement
individualisé plus efficace qu’une formation-type commune à l’ensemble des examinateurs. Cette
connaissance des profils est par ailleurs déterminante dans le dispositif de contrôle des évaluations,
puisque le choix de l’examinateur en charge du contrôle peut se faire sur la base de son profil. La
suite de la communication présente une façon d’exploiter les données à cette fin.
3. Modélisation et analyse de données
Un des objectifs important de l’analyse de données est de révéler les différences de sévérité entre
les examinateurs du Centre de langue française pour les différents niveaux de performance. Le
résultat délivré à un candidat devrait en effet être indépendant des examinateurs mobilisés pour
l’évaluation. A défaut de disposer d’un réseau d’examinateurs parfaitement homogène en terme de
sévérité et parfaitement calibré, la connaissance du profil de sévérité des examinateurs du Centre de
langue française permet de renforcer le dispositif de contrôle mis en place pour rendre l’évaluation
plus juste et le contrôle plus efficace.
3.1 Les modèles de Rasch multifacettes
Le modèle de Rasch (Bertrand & Blais, 2004) est un modèle fréquemment mise en œuvre lors des
analyses de réponses aux items. Ce modèle a été défini pour traiter des items dichotomiques, mais a
par la suite été étendu au cas des items polytomiques (items dont le score est délivré sur une échelle
ordinale à plus de 2 valeurs, pour représenter des niveaux/catégories de réponse différents),
notamment par Andrich (1978) RSM : Rating scale model, et par Masters (1982) PCM : Partial
credit model.
Les modèles de Rasch multifacettes (Linacre, 1989) sont une extension du modèle de Rasch qui
permet d’analyser des données en tenant compte simultanément de différentes variables (les
facettes) et des interactions entre ces variables, par l’introduction de paramètres supplémentaires.
Des modèles de Rasch multifacettes ont été utilisés à plusieurs reprises dans le domaine de
l’évaluation en langue, pour analyser différentes caractéristiques des correcteurs (sévérité,
exploitation de l’échelle de notation, différence d’application de l’échelle selon le critère
d’évaluation) (McNamara et Adams, 1991), pour mesurer l’effet de la formation des correcteurs
(Weigle, 1994) ou pour mettre en évidence l’impact des facettes Correcteurs et Sujets dans
l’évaluation (Bachman et al., 1995).
Un tel modèle a été appliqué par Casanova et al. (2015) sur les données d’évaluation de l’épreuve
d’expression écrite du TEF, qui a permis de rendre compte des profils d’évaluation des correcteurs de
cette épreuve. Il s’agissait dans la présente étude de transposer son application au cas de l’épreuve
d’expression orale, qui présente certaines spécificités.
3.2 Données à disposition
La mise en œuvre du modèle de Rasch multifacettes dans le cas de l’épreuve d’expression orale
nécessite de disposer de données suffisamment inter-reliées pour être en mesure de positionner de
manière relative les examinateurs sur une échelle de sévérité (Eckes, 2005). Cela veut dire que
l’échantillon doit comporter un grand nombre d’individus évalués par plusieurs examinateurs, et si
possible que chaque examinateur ait évalué plusieurs performances en commun avec des
examinateurs différents.
Pour constituer nos échantillons, nous avons considéré :
Echantillon 1 : dans le cas du dispositif « classique », les individus dont l’évaluation par le
centre de passation a fait l’objet d’un contrôle par deux examinateurs différents du Centre de
langue française. Ce double contrôle intervient lorsqu’un écart important est constaté entre
l’évaluation du centre de passation et celle du premier examinateur du Centre de langue
française. Il a pour objectif de confirmer ou d’infirmer l’écart entre l’évaluation délivrée par le
centre de passation et le standard d’évaluation du Centre de langue française. Pour notre
étude, nous ne conservons ici que les évaluations des deux examinateurs du Centre de langue
française. L’échantillon à disposition pour l’année 2015 comporte les évaluations de 363
individus, chaque individu ayant été évalué par 2 examinateurs parmi un ensemble de 20
examinateurs.
Echantillon 2 : dans le cas du dispositif pour la naturalisation française, l’ensemble des
individus sont évalués au Centre de langue française, et, lorsque l’estimation du niveau par
l’examinateur du centre diffère fortement de l’évaluation délivrée par l’examinateur du
Centre de langue française, une contre-évaluation est réalisée par un second examinateur du
Centre de langue française. L’échantillon à disposition pour l’année 2015 comporte les
évaluations de 329 individus, chaque individu ayant été évalué par 2 examinateurs parmi un
ensemble de 24 examinateurs.
Echantillon 3 : le Centre de langue française est lui-même centre de passation du TEF pour la
naturalisation. Certains de ses examinateurs interviennent donc à la fois en tant
qu’interlocuteurs de candidats (et fournissent une estimation du niveau des candidats) et en
tant qu’examinateur a posteriori d’autres candidats. On peut donc également envisager
d’exploiter cet échantillon de doubles évaluations (2272 candidats, 50 examinateurs).
3.3 Nature des profils
La détermination des profils d’évaluation répond à un double objectif :
Améliorer l’accompagnement des examinateurs en l’individualisant ;
Renforcer la pertinence du dispositif de contrôle en sélectionnant les examinateurs en
fonction de la performance supposée du candidat (niveau attribué par le centre de
passation).
On s’intéresse pour cela :
A la sévérité relative des examinateurs selon les niveaux de performance. Les travaux de
Casanova & Demeuse (2015) ont en effet montré que la sévérité relative des
examinateurs varie selon les niveaux de performance considérés pour l’épreuve
d’expression écrite et il en va sans doute de même pour l’épreuve d’expression orale ;
A la sévérité relative des examinateurs selon les critères d’évaluation.
3.4 Questions de recherche
Au-delà de son intérêt direct pour l’accompagnement des examinateurs et le renforcement de la
fidélité du test, cette étude soulève plusieurs questions, liées à la problématique des échantillons.
Pour obtenir des estimations stables (si toutefois les examinateurs font preuve de consistance dans
leur manière d’évaluer), il faut en effet disposer, pour chaque examinateur, d’un minimum
d’évaluation pour chacun des niveaux considérés. Il faut également que les secondes évaluations des
enregistrements évalués par cet examinateur aient été effectuées par des examinateurs variés pour
disposer d’un échantillon de données suffisamment inter-relié.
Il est donc tentant de regrouper les échantillons de données à notre disposition, ou de se
concentrer sur les résultats obtenus pour le troisième échantillon, mais le faire reviendrait à émettre
les hypothèses suivantes, qu’il convient au préalable de vérifier :
Hypothèse 1 : les profils d’évaluation sont indépendants du public considéré (ce qui
permettrait de réunir les deux premiers échantillons) ;
Hypothèse 2 : les profils d’évaluation sont indépendants de la posture de l’examinateur
(interlocuteur, examinateur a posteriori).
Enfin, le deuxième contrôle étant déclenché par un écart significatif entre les résultats délivrés
par le centre et ceux du premier examinateur, les données des deux premiers échantillons
correspondent à des cas potentiellement problématiques. On peut craindre que les estimations qui
en résultent soient faussées. La comparaison des profils de sévérité entre les examinateurs présents
dans les deux derniers échantillons devrait apporter un éclairage sur ce point.
3. Résultats
L’analyse Rasch multifacettes mise en œuvre considère, les Examinateurs, les Seuils de transition
entre niveaux (sur l’échelle de mesure sous-jacente) et les Critères d’évaluation. Elle permet
d’obtenir des estimations concernant :
La sévérité relative globale des examinateurs ;
La difficulté relative des critères d’évaluation ;
L’interaction entre examinateurs et critères, certains examinateurs pouvant avoir
tendance à être plus sévères ou plus généreux pour un critère donné ;
L’emplacement des différents seuils de transition entre niveaux pour chacune des
combinaisons (Examinateur, Critère).
3.1 Préparation des données
Pour appliquer le modèle de Rasch multi-facettes dans des conditions satisfaisantes, nous avons
dû procéder à une réduction de nos données, en regroupant les critères selon trois dimensions
(COMA = aspects communicatifs propres à la section A, COMB = aspects communicatifs propres à la
section B et LING = aspects linguistiques, évalués à partir de la performance aux deux sections) et en
considérant les 4 catégories de niveaux (<B1, B1, B2, C1-C2).
3.2 Profils d’examinateurs
Les différentes estimations peuvent être combinées pour dresser un tableau comparatif de la
sévérité relative des examinateurs aux différents seuils de transition entre niveaux. Dans le tableau 1,
les indices obtenus (en considérant la moyenne des indices obtenus pour les trois dimensions
d’évaluation) ont été centrés puis divisés par l’écart-type de leur distribution à travers les
examinateurs, ce qui permet d’identifier les examinateurs se comportant différemment du reste du
groupe pour l’attribution d’un niveau. Dans ce tableau, les examinateurs ayant un indice positif ont
une tendance à la sévérité et ceux ayant un indice négatif ont une tendance à la générosité.
Tableau 1 : sévérité relative des examinateurs pour les différents
seuils de transition entre niveaux et en moyenne
EVAL
A2/B1
B1/B2
B2/C1
Sévérité
globale
E1
0,50
0,29
0,75
0,58
E2
1,16
1,62
1,81
1,71
E3
-1,10
-0,53
-0,25
-0,85
E4
-0,80
0,07
-0,13
-0,89
E5
0,35
1,11
0,57
1,13
E6
-0,47
-0,83
-0,83
-1,07
E7
-1,21
-1,40
-0,74
-1,22
E8
0,19
1,39
1,40
1,68
E9
-0,36
-0,86
-0,35
-0,19
E10
0,02
-0,55
-1,63
-0,83
E11
0,68
0,32
-0,71
0,10
E12
0,27
-0,31
-0,84
-0,42
E13
1,45
1,96
1,91
2,18
E14
-0,59
-0,09
-0,14
-0,33
E15
-1,31
-0,58
1,23
-0,14
E16
0,12
0,02
-0,22
-0,01
E17
0,89
0,11
-0,90
0,30
E18
-0,35
-1,33
-0,84
-1,12
E19
0,68
0,48
-0,75
-0,03
E20
-0,11
-0,80
-0,24
-0,57
Ainsi, il apparaît que les examinateurs E2 et E13 sont nettement plus sévères que le reste du
groupe, quel que soit le niveau de performance considéré. E13 se situe même, en termes de sévérité
générale, à plus de deux écarts-types de la moyenne du groupe. Mais quand on considère E5, on
constate que sa sévérité n’est marquée (i.e. supérieur à un écart-type) que pour le seuil de transition
entre les niveaux B1 et B2. De même E3 montre une générosité particulière pour le passage du
niveau A2 au niveau B1.
Cela confirme le fait que la sévérité des examinateurs est variable selon le niveau de performance
des candidats évalués. Par conséquent, pour le contrôle d’une évaluation réalisée dans un centre, on
choisira un examinateur ne présentant pas de générosité ou de sévérité marquée pour le niveau
délivré par le centre. Par exemple, pour un candidat s’étant vu délivrer un niveau B2 par le centre, on
attribuera en priorité la contre-évaluation à E4, E14 ou E16.
Pour l’accompagnement individualisé des examinateurs, on tient également compte des
différences d’indice selon les dimensions de l’évaluation. Ainsi le tableau 2 présente les indices de
sévérité relative de l’examinateur E5 en comparaison au reste du groupe. Alors que, selon le tableau
1, cet examinateur se distinguait par une tendance à la sévérité pour le passage du niveau B1 au
niveau B2, le tableau 2 montre que cela est principalement dû à la manière dont cet examinateur
évalue les critères de la dimension communicative de la section A (COMA) pour les performances se
situant à la charnière entre le B1 et le B2. Par ailleurs, il est souhaitable de le sensibiliser également à
sa tendance à évaluer un peu sévèrement les productions de niveau avancé sur les critères
communicatifs. Son profil d’évaluateur pour les critères linguistiques est en revanche dans la norme.
Tableau 2 : profil détaillé de l’examinateur E5
E5
A2/B1
B1/B2
B2/C1
COMA
0,50
1,75
1,14
COMB
0,30
0,48
1,08
LING
0,26
0,38
-0,09
Il n’a cependant pas été possible de dresser un profil détaillé pour chacun des examinateurs à
partir de cet échantillon. En effet, la sous-représentation de certains niveaux de performance dans
les sous-échantillons de candidats évalués par certains examinateurs et le manque éventuel de
consistance dans les évaluations peuvent poser des difficultés dans l’estimation de certains
paramètres.
3.2 Variabilité des profils selon les publics
Pour remédier à ce problème, on peut envisager d’augmenter la taille de l’échantillon en
fusionnant les échantillons 1 et 2, mais il faut au préalable s’assurer que les profils des évaluateurs ne
varient pas fortement selon le public considéré. Les profils linguistiques des candidats peuvent en
effet différer fortement selon qu’il s’agit de candidats au TEF pour la naturalisation (i.e.
principalement des personnes résidant en France depuis plusieurs années) ou de candidats à
l’immigration canadienne (principalement des candidats résidants hors de France, pour partie dans
des pays ou des provinces non francophones).
Nous avons donc procédé à des estimations séparées des profils des examinateurs pour chacun
de deux échantillons et comparé les estimations de leur sévérité globale.
Figure 1 : variation de la sévérité relative selon le public
La corrélation entre les estimations pour les 16 examinateurs communs aux deux échantillons est
relativement faible (0,72) et la figure 1 montre des variations parfois importantes. Dans ces
conditions, il ne semble pas pertinent de réunir les deux échantillons.
3.2 Variabilité des profils selon la posture
Le troisième échantillon comporte des données d’évaluation d’examinateurs du Centre de langue
française en posture d’animateur et en posture d’examinateur a posteriori, avec une troisième
évaluation en cas d’écart important. Ce devis nous permet de mener une analyse multifacettes dans
laquelle on peut estimer les paramètres liés à un examinateur selon qu’il est en posture d’animateur
ou d’examinateur a posteriori. La figure 2 montre les indices de sévérité globale obtenus pour les 9
examinateurs s’étant trouvé dans les deux postures.
Figure 2 : variation de la sévérité relative la posture d’évaluation
Variation de la sévérité relative selon le public
R2 = 0,5173
-4
-3
-2
-1
0
1
2
3
4
5
6
-3 -2 -1 0 1 2 3
TEF tout public
TEF Naturalisation
Variation de la sévérité selon la posture
R2 = 0,6056
-3,5
-3
-2,5
-2
-1,5
-1
-0,5
0
0,5
1
-3,5 -3 -2,5 -2 -1,5 -1 -0,5 0 0,5 1 1,5
Posture d'animateur
Posture d'évaluateur a posteriori
La corrélation est de 0,78 et on constate que certains examinateurs sont plus sensibles que
d’autres à la différence de posture. Par ailleurs, les examinateurs évaluent en moyenne plus
sévèrement les compétences linguistiques en posture d’animateurs qu’en posture d’examinateurs a
posteriori. Cela plaide pour une différenciation des profils.
3.3 Variabilité liée au sous-échantillonnage des cas problématiques
En procédant à des analyses distinctes des échantillons 2 et 3, nous avons pu mettre en évidence
une très bonne corrélation (0 ,94) entre les estimations de sévérité globale des examinateurs pour
l’échantillon ne comportant que les cas potentiellement problématiques (i.e. pour lesquels le résultat
délivré par l’animateur était fortement différent du résultat délivré par le premier examinateur) et
pour l’échantillon global. Il semble donc que les profils établis sur la base du sous-échantillon des cas
problématiques restent pertinents.
4. Conclusion
Cette étude a montré que le modèle de Rasch multifacettes pouvait être utilisé pour mettre en
évidence différents profils d’évaluateurs et renseigner sur la sévérité relative des évaluateurs aux
seuils entre les différents niveaux de performance.
Dans le cas du TEF, cette information peut être mise à profit pour améliorer le contrôle des
évaluations. Dans le cadre du dispositif pour la naturalisation, elle permettra, lorsque le système
d’information sera en mesure d’affecter automatiquement les enregistrements des candidats, de
sélectionner les examinateurs sur la base de leur profil et du niveau attribué par le centre de
passation.
Toutefois l’étude révèle plusieurs limites, à partir du moment où certains des évaluateurs
semblent se comporter différemment selon le public évalué et/ou selon la posture d’évaluation (i.e.
en tant qu’animateur ou qu’examinateur a posteriori). D’une part, cela contraint à l’utilisation
d’échantillons restreints ou à l’introduction de paramètres supplémentaires pour modéliser ces
différences, et d’autre part cela soulève la question du niveau de rétroaction dans
l’accompagnement des examinateurs (faut-il les sensibiliser à leurs particularités dans chacune des
situations, au risque de créer de la confusion ?).
La question des tailles d’échantillon peut être résolue en augmentant la fréquence des contrôles
(et donc en collectant également des données non problématiques a priori, si possible de façon
aléatoire) et/ou en organisant plus régulièrement des sessions de standardisation à partir de
performances pré-identifiées (ce qui permettrait de s’assurer de disposer, pour la plupart des
examinateurs, d’évaluations de performances pour chacun des niveaux). Cela a cependant un coût,
qu’il faut mettre en regard des améliorations escomptées.
Quant aux examinateurs qui présentent des profils différents selon le public évalué ou la posture
d’évaluation, une solution serait de les « spécialiser », afin de disposer d’une estimation fiable de
leur profil et de leur proposer un accompagnement efficace.
Enfin cette étude s’est concentrée sur les examinateurs du Centre de langue française, et plus
particulièrement en situation d’évaluation a posteriori. Elle fait abstraction de la variabilité liée aux
différences de sujets, aux interactions entre candidats et sujets et aux interactions entre candidats et
examinateurs, qui sont loin d’être négligeables.
Références
Andrich, D. (1978). A rating formulation for ordered response categories. Psychometrika, 43, 561-
573.
Artus, F., & Demeuse, M. (2008), Évaluer les productions orales en français langue étrangère (FLE) en
situation de test. Étude de la fidélité inter-juges de l’épreuve d’expression orale du Test d’évaluation
de français (TEF) de la Chambre de commerce et d’industrie de Paris, Les cahiers des sciences de
l’éducation, n°25 et 26, 131-151.
Bachman, L. F., Lynch, B. K., & Mason, M. (1995). Investigating variability in tasks and rater judgments
in a performance test of foreign language speaking. Language Testing, 12, 238-257.
Bertrand, B. & Blais, J. G. (2004). Modèles de mesure. L'apport de la théorie des réponses aux items.
Sainte Foy (Québec) : Presses de l’Université du Québec.
Casanova, D. & Demeuse, M. (2011). Analyse des différentes composantes influant sur la fidélité de
l’épreuve d’expression écrite d’un test standardisé de français langue étrangère, Mesure et
évaluation en éducation, 34(1), 25-53.
Casanova, D., Demeuse, M. & Mommée, A. (2015). Évaluateurs évalués. Évaluation diagnostique des
compétences en évaluation au moyen des modèles Rasch multifacettes. Communication présentée
aux XIVes rencontres du Réseau international de recherche en éducation et en formation (REF 2015),
Montréal.
Conseil de l’Europe (2005). Cadre européen commun de référence pour les langues. Paris : Didier.
Eckes, T. (2011). Introduction to Many-Facet Rasch Measurement. Analysing and Evaluating Rater-
Mediated Assessments. Frankfurt am Main: Peter Lang.
Linacre, J. M. (1989). Many-facet Rasch Measurement, Chicago: MESA Press.
Lumley, T., & McNamara, T. F. (1995). Rater characteristics and rater bias: Implications for training,
Language Testing, 12, 5471.
Masters, G. N. (1982). A Rasch model for partial credit scoring, Psychometrika, 47, 149-174.
McNamara, T. F., & Adams, R. J. (1991). Exploring rater behavior with Rasch techniques.
Communication présentée au 13th Language Testing Research Colloquium, Educational Testing
Service. Princeton, N.J.
Weigle, S. C. (1994). Effect of training on raters of ESL compositions, Language Testing, 11, 197-223.
ResearchGate has not been able to resolve any citations for this publication.
Article
Full-text available
Le contrôle de la qualité des évaluations des productions écrites en français langue étrangère pose de nombreuses questions, encore amplifiées lorsqu’il s’agit de tests à forts enjeux pour les candidats. Cet article illustre comment ce contrôle peut s’appuyer à la fois sur la théorie de la généralisabilité et sur le modèle multifacettes de Rasch pour relever les sources d’erreur (stabilité inter- et intracorrecteurs, variation des stimuli fournis aux candidats pour produire leurs textes…) et en estimer l’importance respective dans le cadre d’un monitorage de la qualité d’une épreuve de français langue étrangère.
Article
Full-text available
Much of the recent debate that has surrounded the development and use of 'performance', or 'communicative' language tests has focused on a supposed trade-off between two sets of desirable qualities: correspondence between test tasks and test performance to nontest language use for content relevance; and reliability of scores derived from test performance. One area that has been of particular concern with performance tests is the potential variability in tasks and rater judgements, and this has been investigated in the language testing literature with two complementary approaches: generalizability the ory and many faceted Rasch modelling. GENOVA, which performs general izability theory analyses, estimates the relative contribution of variation in test tasks and rater judgements to variation in test scores. FACETS, which performs many faceted Rasch modelling, estimates differences in task difficulty and rater severity, and adjusts ability estimates of test takers, taking these differences into account. In this article we first discuss the design and development of a foreign language (Spanish) test battery that was designed for two purposes: first, to place University of California Education Abroad students into programmes at universities abroad that are appropriate for their level of language ability, and secondly to provide diagnostic information that will be useful for designing appropriate teaching and learning pro grammes for prospective education abroad students. The test battery consists of four subtests: reading, listening and note-taking, speaking, and writing. All subtests share a common theme or topic, and are interdependent. We then discuss the results of the GENOVA and FACETS analyses of the speaking subtest, based on a full field trial with a group of University of California undergraduate students who had been selected for participation in the Education Abroad Program. Finally, we discuss the implications of these results for the use of G-theory and many faceted Rasch modelling for the development of performance tests of foreign language ability.
Article
Full-text available
A rating response mechanism for ordered categories, which is related to the traditional threshold formulation but distinctively different from it, is formulated. In addition to the subject and item parameters two other sets of parameters, which can be interpreted in terms of thresholds on a latent continuum and discriminations at the thresholds, are obtained. These parameters are identified with the category coefficients and the scoring function of the Rasch model for polychotomous responses in which the latent trait is assumed uni-dimensional. In the case where the threshold discriminations are equal, the scoring of successive categories by the familiar assignment of successive integers is justified. In the case where distances between thresholds are also equal, a simple pattern of category coefficients is shown to follow.
Book
Since the early days of performance assessment, human ratings have been subject to various forms of error and bias. Expert raters often come up with different ratings for the very same performance and it seems that assessment outcomes largely depend upon which raters happen to assign the rating. This book provides an introduction to many-facet Rasch measurement (MFRM), a psychometric approach that establishes a coherent framework for drawing reliable, valid, and fair inferences from rater-mediated assessments, thus answering the problem of fallible human ratings. Revised and updated throughout, the Second Edition includes a stronger focus on the Facets computer program, emphasizing the pivotal role that MFRM plays for validating the interpretations and uses of assessment outcomes. © Peter Lang GmbH Internationaler Verlag der Wissenschaften Frankfurt am Main 2011. All rights reserved.
Article
Recent developments in multifaceted Rasch measurement (Linacre, 1989) have made possible new kinds of investigation of aspects (or 'facets') of performance assessments. Relevant characteristics of such facets (for exam ple, the relative harshness of individual raters, the relative difficulty of test tasks) are modelled and reflected in the resulting person ability measures. In addition, bias analyses, that is interactions between elements of any facet, can also be analysed. (For the facet 'person', an element is an individual candidate; for the facet 'rater', an element is an individual judge, and so on.) This permits investigation of the way a particular aspect of the test situation (type of candidate, choice of prompt, etc.) may elicit a consistently biased pattern of responses from a rater. The purpose of the research is to investigate the use of these analytical techniques in rater training for the speaking subtest of the Occupational English Test (OET), a specific-purpose ESL performance test for health professionals. The test involves a role-play based, profession-specific inter action, involving some degree of choice of role-play material. Data are presented from two rater training sessions separated by an 18-month interval and a subsequent operational test administration session. The analysis is used to establish 1) consistency of rater characteristics over different occasions; and 2) rater bias in relation to occasion of rating. The study thus addresses the question of the stability of rater characteristics, which has practical implications in terms of the accreditation of raters and the requirements of data analysis following test administration sessions. It also has research implications concerning the role of multifaceted Rasch measurement in understanding rater behaviour in performance assessment contexts.
Article
Several effects of training on composition raters have been hypothesized but not investigated empirically. This article presents an analysis of the verbal protocols of four inexperienced raters of ESL placement compositions scoring the same essays both before and after rater training. The verbal protocols show that training clarified the intended scoring criteria for raters, modified their expectations of student writing and provided a reference group of other raters with which raters could compare themselves, although agreement with peers was not an over-riding concern. These results are generally in accordance with hypothesized effects of rater training.
Article
A preliminary study is reported of the use of new multifaceted Rasch measurement mechanisms for investigating rater characteristics in language testing. Ratings from four judges of scripts from 50 candidates taking the International English Language Testing System test, a test of English for Academic Purposes, are analyzed. The analysis illustrates how multifaceted Rasch measurement can be used to examine inter-rater consistency, differences in rater harshness, available grades on the rating scale, and the effect that between-rater variation has on the measurement of individual candidates. Although the main focus of the paper is on modeling and estimating rater variation, Rasch modeling also has the potential for practical applications controlling the effects of the variation it describes. One such application is considered: the use of the model to explore the relationship between varying amounts of multiple marking and the resulting ability estimates of candidates, to see if it may be possible to reduce the amount of multiple marking required to produce stable and reliable estimates of ability. Contains 18 references. (LB)
Article
A unidimensional latent trait model for responses scored in two or more ordered categories is developed. This “Partial Credit” model is a member of the family of latent trait models which share the property of parameter separability and so permit “specifically objective” comparisons of persons and items. The model can be viewed as an extension of Andrich's Rating Scale model to situations in which ordered response alternatives are free to vary in number and structure from item to item. The difference between the parameters in this model and the “category boundaries” in Samejima's Graded Response model is demonstrated. An unconditional maximum likelihood procedure for estimating the model parameters is developed.
Many-facet Rasch Measurement
  • J M Linacre
Linacre, J. M. (1989). Many-facet Rasch Measurement, Chicago: MESA Press.