PresentationPDF Available

L'accord inter-évaluateurs dépend-il de la grille d'évaluation utilisée ?

Authors:
  • Chambre de commerce et d'industrie de Paris Île de France
  • Chambre de commerce et d'industrie de Paris Île-de-France

Abstract

Lorsqu’un évaluateur d’un test de langue doit corriger une copie d’expression écrite, il est en général outillé d’une grille d’évaluation à échelle(s) descriptive(s). Une telle grille permet de de préciser les aspects à prendre en considération dans l’évaluation de la compétence et de donner des points de repère en termes d’exigence pour les différents échelons de notation. Cependant elle laisse aux évaluateurs la responsabilité de situer la copie sur chaque échelle d’appréciation, ce qui laisse un espace ouvert à l’expression de leur subjectivité. La communication proposée rend compte d’une étude où des paires d’évaluateurs ont évalué à deux reprises, espacées dans le temps, un même lot de copies avec deux « grilles » de nature différente (un grille descriptive et une liste de questions à réponse oui/non). Les résultats montrent des différences notables entre paires d’évaluateurs selon la grille utilisée qui mettent en évidence l’effet d’interaction entre correcteurs, grilles et tâches d’évaluation. Ils rappellent qu’une attention particulière doit être portée à la conception des grilles descriptives et à leur appropriation par les évaluateurs pour les différentes tâches à évaluer.
Laccord inter-évaluateurs dépend-il de la
grille dévaluation utilisée ?
4 mars 2020 Centre de langue française de la CCI Paris Île de-France
1
Alhassane Aw, Dominique Casanova,
CCI Paris Ile - de-France
32ème colloque, 22-23-24 Janvier 2020
Université Hassan II - Casablanca
Marc Demeuse,
Professeur à luniversité de Mons
4 mars 2020 Le français des affaires de la CCI Paris Ile-de-France
2
Le Diplôme de Français Professionnel (DFP)
Constats et causes probables (Expérimentation)
Expérimentation
Résultats de l’expérimentation
Accords inter-évaluateurs
Comparaison des scores
Conclusion
Plan de la communication
Le français des affaires de la CCI Paris Ile-de-France 4 mars 2020
3
Le Diplôme de Français Professionnel
(DFP)
4 mars 2020 Le français des affaires de la CCI Paris Ile-de-France
4
L E S D I P L Ô ME S D E F R AN Ç A I S P R O F E S S I O N N E L ( D FP )
Qu’est-ce que le DFP ?
Diplôme qui certifie la capacité d’un candidat à exercer son métier en
français dans son secteur d’activité
3 secteurs d’activités et un en cours
Structure des Diplômes
Affaires Tourisme, hôtellerie, restauration Relations internationales
Traiter l’information écrite : 3 à 4 activités autocorrectives
Traiter l’information orale : 2 à 3 activités autocorrectives
Interagir à l’écrit : 1 à 2 productions
Comprendre et traiter
l’information A1 à B1
3 productions écrites
Comprendre et traiter
l’information B2 à C1
Interagir : Interaction avec un client, un collègue, etc.
Présenter : Présenter un produit/un projet à un client
Interagir à l’oral
Santé
4 mars 2020 Le français des affaires de la CCI Paris Ile-de-France
5
L E S D I P L Ô ME S D E F R AN Ç A I S P R O F E S S I O N N E L ( D FP )
Les activités de productions écrites du niveau Affaires B2
Rédiger une note à partir d’un dossier documentaire;
Extraire d’une variété de support les informations;
pertinentes pour répondre à une problématique.
Activité N°1
Comprendre et rendre-compte d’une intervention orale;
Comprendre des informations détaillées;
Construire un texte cohérent.
Activité N°2
Rédiger une lettre formelle conforme aux instructions
d’un responsable.
Activité N°3
Comprendre et rendre-compte d’une intervention orale;
Comprendre des informations détaillées;
Construire un texte cohérent.
Activité N°2
Le français des affaires de la CCI Paris Ile-de-France 4 mars 2020
6
Constats et causes probables conduisant
à une expérimentation
4 mars 2020 Le français des affaires de la CCI Paris Ile-de-France
7
C O NS TATS E T C AU S E S P RO B A B L E S
Préparation Audit ALTE
Pour préparer l’indexation du DFP Affaires au CECR, un échantillon des copies de productions
écrites de candidats, préalablement évaluées par deux correcteurs au moyen d’une grille
descriptive, a été recueilli.
Constats
Une corrélation moindre pour le niveau B2 à
l’épreuve de production écrite (0,620)
À quoi peut-on attribuer ces écarts ?
Aux évaluateurs ?
Au manque de formation ?
Aux types de tâches ?
Au format de la grille ?
L’analyse de la fidélité inter-juges de l’échantillon a montré des corrélations moindres pour la
deuxième activité du diplôme de français des Affaires B2.
Variable grille
Le français des affaires de la CCI Paris Ile-de-France 4 mars 2020
8
Expérimentation d’une grille
dichotomique
4 mars 2020 Le français des affaires de la CCI Paris Ile-de-France
9
E X P É R I M E N TATI O N G RI L L E D IC H OTO M I Q U E
Grille d’évaluation actuelle à échelle descriptive : Affaires B2 - PE2
4 mars 2020 Le français des affaires de la CCI Paris Ile-de-France
10
E X P É R I M E N TATI O N G RI L L E D IC H OTO M I Q U E
Démarche
Modification de la grille usuelle pour qu’elle soit le plus simple à expérimenter
Matériel disponible : des productions écrites
Des évaluateurs de productions écrites du DFP
Si amélioration nette
Evaluer ces types de tâche avec nouvelle grille
Formation approfondie avec lancienne grille
Multiplier les grilles d’évaluation
4 mars 2020 Le français des affaires de la CCI Paris Ile-de-France
11
E X P É R I M E N TATI O N G RI L L E D IC H OTO M I Q U E
Grille dichotomique expérimentée
Affirmations, avec une réponse oui /
non (liste de 16 vérifications)
76 productions, 9 correcteurs (1 à 62
évaluations)
Copies réévaluées par les mêmes
paires d’évaluateurs (neutralisation
de l’effet évaluateur)
Hypothèse 1 : critères généraux
interprétés différemment par les
évaluateurs (validité)
Hypothèse 2 : les évaluateurs situent
différemment l’emplacement des
seuils satisfaisant et complet de
chacun des critères (fidélité)
RÉALISATION DE LA TÂCHE QUESTIONS
Oui/Non
1. Adéquation du texte au format
demandé
Le format/style du texte est adapté à la situation
présentée (concis, formel, registre).
Pour chaque partie, le contenu du texte se rapporte
au titre donné.
Chaque partie est développée.
Il y a un effort de synthèse.
2. Pertinence et exhaustivité des
informations transmises
La plupart des informations essentielles sont
présentes.
Toutes les informations essentielles sont présentes.
Les informations sélectionnées sont fidèles au texte
de départ
Le texte ne comporte pas d'ajout personnel
3. Correction syntaxique
Les informations s'enchaînent de manière logique
Les temps verbaux utilisés sont maîtrisés.
Les structures syntaxiques utilisées sont maîtrisées.
Les accords en genre et en nombre sont respectés
Les erreurs de syntaxe ne perturbent pas la
compréhension.
4. Lexique
Le lexique est varié.
L'orthographe lexicale est le plus souvent
respectée.
Les erreurs et approximations lexicales ne gênent
pas la compréhension.
Le français des affaires de la CCI Paris Ile-de-France 4 mars 2020
12
Résultats de l’expérimentation
4 mars 2020 Le français des affaires de la CCI Paris Ile-de-France
13
R É S ULTAT S D E L E XP É R I M E N TATI O N
Accord inter-évaluateurs lors de l’évaluation initiale
Corrélation interjuges de spearman
CORR MOY_E1 MOY_E2
DFP 0,57 9,79 10,59
Un écart-type assez élevé dans le cas de la correction
au moyen de la grille analytique (4,79)
Corrélation interjuges de spearman par super-critère
Critère1 Critère2 Critère3 Critère4
DFP 0,38 0,44 0,27 0,56
E1 -dfp : corrélation inter-critères
Critère2 Critère3 Critère4
Critère1 0,52 0,60 0,49
Critère2 0,46 0,33
Critère3 0,49
E2 -dfp : corrélation inter-critères
Critère2 Critère3 Critère4
Critère1 0,68 0,68 0,63
Critère2 0,67 0,67
Critère3 0,80
4 mars 2020 Le français des affaires de la CCI Paris Ile-de-France
14
R É S ULTAT S D E L E XP É R I M E N TATI O N
Accord inter-évaluateurs lors de l’évaluation par grille dichotomique
Des taux de bons classements par catégorie de résultats bien
meilleurs. Un écart-type de 4,03 (dispersion moindre des notes)
E1 - checklist : corrélation inter-critères E2 - checklist : corrélation inter-critères
SC2 SC3 SC4 SC2 SC3 SC4
SC1 0,30 0,40 0,27 SC1 0,27 0,31 0,34
SC2 0,46 0,51 SC2 0,72 0,79
SC3 0,72 SC3 0,73
E1 -dfp : corrélation inter-critères E2 -dfp : corrélation inter-critères
SC2 SC3 SC4 SC2 SC3 SC4
SC1 0,52 0,60 0,49 SC1 0,68 0,68 0,63
SC2 0,46 0,33 SC2 0,67 0,67
SC3 0,49 SC3 0,80
CORR MOY_E1 MOY_E2
Corrélation interjuges de spearman par super-critère
SC1 SC2 SC3 SC4
DFP 0,38 0,44 0,27 0,56
Checklist 0,46 0,51 0,59 0,73
4 mars 2020 Le français des affaires de la CCI Paris Ile-de-France
15
R É S ULTAT S D E L E XP É R I M E N TATI O N
Comparaison des scores “grille DFP” vs “grille dichotomique”
Bonne cohérence inter-grille
des évaluateurs
Corr E1 Corr E2 Corr MOY
0,834
0,857
0,919
La différence de moyenne est très faible (0,09 point sur un total possible de 16 points) et non significative
(p = 0,0888) et l’écart-type est un peu moindre dans le cas de la correction au moyen de la grille dichotomique
(4,03 contre 4,79), soit une différence de 0,76
La corrélation entre les deux séries de
scores est de 0,919 et 81,6% des candidats
ont été situés dans la même catégorie de
résultat (insuffisant, suffisant ou complet)
lors des deux occasions.
4 mars 2020
Le français des affaires de la CCI Paris Ile-de-France
16
R É S ULTAT S D E L E XP É R I M E N TATI O N
Des différences importantes apparaissent au niveau des accords entre évaluateurs selon chacune des deux
occasions de correction :
Comparaison des scores “grille DFP” vs “grille dichotomique”
GRILLE
CORR
BON CLASSEMENT
KAPPA (ƙ)
DFP
0,57
50%
0,233
CHECKLIST
0,73
69,7%
0,541
Grille DFP : corrélation de 0,57 avec 50% des copies ont été classées dans la même catégorie de résultats
par les deux évaluations et 20% des copies ont été classées comme insuffisantes pour l’une des évaluations
et complètes pour la seconde (conduisant à un kappa de Cohen de 0,233);
Grille dichotomique : réduction des écarts avec une corrélation inter-évaluateurs de 0,73, un taux
d’accord exact de 69,7% et dans seulement 2,6% des cas une copie a été catégorisée comme insuffisante
par une évaluation et complète par l’autre (Kappa de Cohen de 0 ,541);
Ces résultats montrent que l’instrumentation des évaluateurs et la nature de la tâche qui leur est demandée peut
avoir un impact manifeste sur la concordance des jugements.
Pour les deux évaluateurs qui ont évalué le plus de copies en commun (22 copies), une différence de sévérité
nette peut être mise en évidence dans le cas de l’utilisation de la grille analytique : la différence de moyenne
entre les scores (3,27 points) est significative pour un risque de 5% (p = 0.0004).
Dans le cas de l’utilisation de la grille dichotomique la différence de moyenne entre les scores de ces deux
évaluateurs est nettement plus faible (0,68)
Le français des affaires de la CCI Paris Ile-de-France 4 mars 2020
17
Conclusion
4 mars 2020 Le français des affaires de la CCI Paris Ile-de-France
18
Il est possible d'évaluer ce type de tâches avec un meilleur accord entre nos
évaluateurs
Conclusion
La meilleure concordance des jugements obtenue au moyen de la grille
dichotomique s’explique sans doute en partie par une réduction des différences
de sévérité
L’instrumentation des évaluateurs peut donc avoir un impact direct sur les accords
inter-juges
La grille dichotomique a conduit à un meilleur accord en spécifiant de manière
plus détaillée les aspects qualitatifs à considérer dans l’évaluation
La p-value de l’évaluateur
oInférencement
oCapacités cognitives du candidat
oRessources mobilisées par le candidat
o
4 mars 2020 Le français des affaires de la CCI Paris Ile-de-France
19
Conclusion
Nos évaluateurs semblent en général à l’aise avec la grille dichotomique et le temps
de correction semble raisonnable
Procéder à une expérimentation semblable de recorrection, mais au moyen de la grille
descriptive, pour s’assurer que les résultats ne sont pas liés à un effet expérimentation
“Je la trouve plus précise dans l'énoncé des critères. Et plus précise dans la réponse
(le choix oui/non, laisse moins de place au doute)”
Elle est plus précise. Avec la grille DFP l'écart entre une évaluation à zéro pour chaque
critère et une évaluation "médium" me semble trop important”
“La Grille dichotomique est plus difficile à utiliser mais n'apporte pas réellement un plus
dans l'évaluation […] même si elle est bien sûr plus précise.”
Pour aller plus loin
Expérimenter la grille dichotomique auprès de novices et sur l’expression orale
4 mars 2020 Centre de langue française de la CCI Paris Île de-France
20
Contact :
aaw@cci-paris-idf.fr
https://www.lefrancaisdesaffaires.fr/
ResearchGate has not been able to resolve any citations for this publication.
ResearchGate has not been able to resolve any references for this publication.