PresentationPDF Available

Monitorer la qualité des évaluations humaines au moyen d'un correcteur automatique

Authors:
  • Chambre de commerce et d'industrie de Paris Île-de-France
  • Chambre de commerce et d'industrie de Paris Île de France

Abstract

La correction automatique d’écrits en langue étrangère est longtemps restée cantonnée à la langue anglaise. Cependant, l’effervescence autour de l’intelligence artificielle, l’espace de partage et de formation qu’est devenu le web ainsi que l’augmentation de la puissance de calcul des ordinateurs individuels rendent de plus en plus accessibles données, outils et méthodes. La numérisation de la passation des tests de langue offre par ailleurs aux concepteurs de tests l’opportunité de constituer des corpus qui peuvent être exploiter pour la mise au point de logiciels permettant d'estimer la compétence d'individus à partir d’une analyse automatique du contenu des textes produits. Si l’utilisation d’un tel outil pour de la correction automatique soulève des questions de validité, il peut jouer un rôle très utile dans le monitorage de la qualité des évaluations réalisées par les correcteurs du test. Nous présentons dans cette communication la démarche mise en œuvre pour prédire automatiquement le score en expression écrite des candidats à un test d’évaluation en français langue étrangère et l’intégration prévue de cet outil dans le dispositif de management de la qualité d’un test à forts enjeux.
Chambre de c ommerc e et d in d u s t r i e de r é g i o n
Paris Île - de-Fr a n c e
Monitorer la quali
des évaluations
humaines au moyen
d’un correcteur
automatique
D. Casanova, A. Aw, M. Demeuse
Chambre de c ommerc e et d ’in d u s t r i e de r é g i o n
Paris Île - de-Fr a n c e
MONI T O R ER L A QU ALITÉ DE S É VA LU AT IO NS HUMA I NE S AU M OY EN D ’U N CORRE C T E UR A U TO MA TI QU E
P L A N D E L A C O M M U N I C AT I O N
12.02.20 2
Le français des affaires et l’évaluation des compétences langagières
Problématique et objectif à court terme
Développer un outil de prédiction du résultat à l’épreuve d’expression
écrite du TEF à partir du texte produit par les candidats
Normalisation des textes
Collecte d’indicateurs
Prédiction des résultats
Utiliser les prédictions pour monitorer les évaluations humaines ?
Chambre de c ommerc e et d ’in d u s t r i e de r é g i o n
Paris Île - de-Fr a n c e
MONI T O R ER L A QU ALITÉ DE S É VA LU AT IO NS HUMA I NE S AU M OY EN D ’U N CORRE C T E UR A U TO MA TI QU E
L E F R AN Ç A I S D ES A F F A I R ES
12.02.20 3
Nous attestons de niveaux de maîtrise du français (Test d’évaluation de français TEF)
permettant d’accéder à des pays de formation et des marchés d’emploi francophones.
Nous certifions la capacité de professionnels ou futurs professionnels à travailler en
français (Diplômes de français professionnel) dans des secteurs aussi variés que les
affaires, les relations internationales, le tourisme, l’hôtellerie, la restauration, la santé
Nous innovons en proposant une certification qui valide des formations courtes visant
à la communication en français sur les premiers gestes d’un métier.
Nous recrutons partout dans le monde des étudiants, pour être formés à différents
métiers par nos écoles et qui le temps de leurs études en France, s’imprègnent de la
langue et des méthodes.
Mission : promouvoir la langue française comme outil des échanges économiques,
d’insertion/développement professionnel et de mobilité internationale.
Chambre de c ommerc e et d ’in d u s t r i e de r é g i o n
Paris Île - de-Fr a n c e 12 février 2020
Marianne CONDE-SALAZAR
4
L E F R A N Ç A I S D E S A F F A I R E S
Q U E L Q U E S C H I F F R E S C L É S 2 0 1 8
Chambre de c ommerc e et d in d u s t r i e de r é g i o n
Paris Île - de-Fr a n c e
L’intérêt de la « correction »
automatique
5 12.02.20
Chambre de c ommerc e et d ’in d u s t r i e de r é g i o n Pa ris Î l e -de-F r a n c e
Chambre de c ommerc e et d ’in d u s t r i e de r é g i o n
Paris Île - de-Fr a n c e
MONITORER LA Q U A L I T É DE S ÉV A L U A T I O N S HU M A I N ES AU M O Y E N D’ UN CO R R E C T E U R AU TOMATIQU E
P R O B L É M AT I Q U E
12.02.20 6
Candidat
1re évaluation
2e évaluation
Accord
?
Oui Résultat
Non
arbitrage
Compte-tenu des enjeux entourant le Test d’évaluation de français et de la subjectivité
des évaluations humaines, un dispositif de double évaluation avec arbitrage existe pour
les épreuves d’expression écrite et d’expression orale. Il génère cependant des coûts et
des délais supplémentaires dans le traitement des sessions.
Chambre de c ommerc e et d ’in d u s t r i e de r é g i o n
Paris Île - de-Fr a n c e
MONITORER LA Q U A L I T É DE S ÉV A L U A T I O N S HU M A I N ES AU M O Y E N D’ UN CO R R E C T E U R AU TOMATIQU E
P O U R Q U O I D E T E L S ÉC A RT S ?
12.02.20 7
Les raisons des désaccords sont multiples
Docimologie critique
Leclercq, D., Nicaise, J. & Demeuse, M. (2004). Docimologie critique : des difficultés de noter des copies
et d’attribuer des notes aux élèves.
Évaluation = expérience individuelle de lecture
Mc Namara, T. F. (1996). Measuring second language performance.
Activité évaluatrice = processus de compréhension
Vantourout, M. & Goasoué R. (2010). Correction de dissertations : analyse de l’activité de professeurs
engagés dans une approche par compétences.
Quid de la décision de l’arbitre ?
Pourquoi pas une troisième évaluation indépendante ?
- Moyenne des trois évaluations
- Moyenne des deux évaluations les plus proches ?
Chambre de c ommerc e et d ’in d u s t r i e de r é g i o n
Paris Île - de-Fr a n c e
MONITORER LA Q U A L I T É DE S ÉV A L U A T I O N S HU M A I N ES AU M O Y E N D’ UN CO R R E C T E U R AU TOMATIQU E
O B J E C T I F A C OU R T T E R M E
12.02.20 8
Candidat
1re évaluation
2e évaluation
Accord
?
Oui Résultat
Cependant, il est aujourd’hui possible de prédire le résultat d’une production écrite
à partir d’une analyse automatique de son contenu. Cela devrait permettre de limiter
les cas de recours à un arbitre humain (et de déceler des cas d’accord douteux).
prédiction
Non
Arbitrage
automatique
Chambre de c ommerc e et d ’in d u s t r i e de r é g i o n
Paris Île - de-Fr a n c e
MONITORER LA Q U A L I T É DE S ÉV A L U A T I O N S HU M A I N ES AU M O Y E N D’ UN CO R R E C T E U R AU TOMATIQU E
I N T É R Ê T PO U R L E MO N I TO RA GE D E S É VA LU AT I O NS
12.02.20 9
Candidats
Évaluateur
Résidus
Moyenne
Tendance à la
sévérité
La prédiction automatique peut fournir une base plus stable pour caractériser les
tendances des évaluateurs (sévérité, consistance)
prédiction
Écart-type
Variabilité
Chambre de c ommerc e et d in d u s t r i e de r é g i o n
Paris Île - de-Fr a n c e
Prédire le résultat à une
épreuve d’expression écrite
10 12.02.20
Chambre de c ommerc e et d ’in d u s t r i e de r é g i o n Pa ris Î l e -de-F r a n c e
Chambre de c ommerc e et d ’in d u s t r i e de r é g i o n
Paris Île - de-Fr a n c e
Intelligence artificielle
PRÉDIRE L E R É S U L T A T À UNE ÉPREUVE D’ E X P R E SSI O N ÉCRITE
C O R R I G E R A UT OM AT IQ U E M E N T D ES ÉC R I TS E N FR A N Ç A I S L A N G U E É T R AN G È R E
12.02.20 11
Cela est rendu possible par :
la passation sur ordinateur des épreuves
l’utilisation de techniques d’intelligence artificielle
La disponibilité d’outils et d’algorithme
Passation sur
ordinateur
Corpus
Comparaison
évaluations
humaines
Moteur de prédiction
Traitement
automatique
des langues
Apprentissage
automatique
Score prédit
Chambre de c ommerc e et d ’in d u s t r i e de r é g i o n
Paris Île - de-Fr a n c e
PRÉDIRE L E R É S U L T A T À UNE ÉPREUVE D’ E X P R E SSI O N ÉCRITE
L EX PR ES S I ON É CR I T E : U N E C O M P É T E N C E M U L T ID I M E N S I O N N E L L E ?
12.02.20 12
Traitement automatique des langues
Lexique ++++
Syntaxe +++
Cohérence ++
Pragmatique + Sous-représentation
du construit Validité ?
Grille d’évaluation :
Plusieurs critères
1 dimension prédominante
Qualité la de
prédiction
Chambre de c ommerc e et d ’in d u s t r i e de r é g i o n
Paris Île - de-Fr a n c e
PRÉDIRE L E R É S U L T A T À UNE ÉPREUVE D’ E X P R E SSI O N ÉCRITE
N O R M AL I SA TI O N D E TE X TE S É CR I T S P A R D E S N O N F R A N CO PH O N ES
12.02.20 13
j éspère pas car y a desgens qu il ont pas de voiture pour faire leur course
ailleur et ya aussi des gens qui son malade pour se deplacer et c est bien
des petites magazain
Les outils habituels de traitement automatique des langues (texte mining) sont
destinés à traiter des textes rédigés correctement.
Exemple d’une production de candidat : présence de mots inconnus
1. Repérer les mots inconnus
(qui ne sont qu’une sous partie des mots mal orthographiés)
2. Les remplacer par des mots correctement orthographiés
(avec le risque de se tromper de mot)
On ne tient pas compte à ce stade des erreurs d’orthographe grammaticale.
Chambre de c ommerc e et d ’in d u s t r i e de r é g i o n
Paris Île - de-Fr a n c e
PRÉDIRE L E R É S U L T A T À UNE ÉPREUVE D’ E X P R E SSI O N ÉCRITE
T E CH N I Q U E S D E NO R M AL I SA T I O N D ES TE X T E S
12.02.20 14
1. Bases de règles (accents, élisions, majuscules, écriture sms, erreurs non
ambigües les plus courantes…)
Limitation du nombre de mots inconnus
2. Hunspell (utilisé pour les traitements de texte, mobilise plusieurs
techniques) Ooms (2018)
1re liste de propositions
3. Fasttext appliqué à un dictionnaire de mot
(proximité morphologique) Bojanowskiet al. (2017)
2e liste de propositions
4. Approche phonétique
3e liste de propositions
Chambre de c ommerc e et d ’in d u s t r i e de r é g i o n
Paris Île - de-Fr a n c e
MONITORER LA Q U A L I T É DE S ÉV A L U A T I O N S HU M A I N ES AU M O Y E N D’ UN CO R R E C T E U R AU TOMATIQU E
É TA P E D E N O R M A L I S AT I ON
12.02.20 15
Défis :
Choisir un dictionnaire approprié pour la normalisation
Identifier et implémenter un mécanisme de sélection du mot le plus
probable parmi l’ensemble des propositions.
Décider de la pertinence de procéder à la substitution du mot erroné.
Collecte d’informations :
Comptabilisation d’indicateurs sur :
- la richesse lexicale : nombre de mots différents « connus » suite à la
normalisation
-la qualité de l’orthographe lexicale : nombre de mots substitués
(par type de normalisation)
- les lacunes lexicales : nombre de mots inconnus restants
Chambre de c ommerc e et d ’in d u s t r i e de r é g i o n
Paris Île - de-Fr a n c e
2 0 P R O J E T S P O U R 2 0 2 0
A N N OTAT I O N AU TO MAT I Q U E D E S T E XT E S NO R M A L I S ÉS
12.02.20 16
Exemple : Treetagger, UDPipe
Quels mots sont utilisés ? (lemma)
A quelles catégories grammaticales correspondent-ils ? (upos)
Comment sont-ils combinés ? (dep_rel)
NB : la normalisation permet de limiter le nombre de mots inconnus
Chambre de c ommerc e et d ’in d u s t r i e de r é g i o n
Paris Île - de-Fr a n c e
2 0 P R O J E T S P O U R 2 0 2 0
E X P LO I TAT I O N D E « M O D È L E S D E L A N G U E »
12.02.20 17
Échantillon d’apprentissage
Constitution de modèles de type n-gram par niveau (A1, A2, B1…)
- À partir des lemmes (unigrammes)
- À partir des catégories grammaticales (bigrammes)
- À partir des dépendances (bigrammes)
Échantillon de test
De quel modèle le texte se rapproche-t-il le plus ?
- Probabilité que le texte soit produit par chacun des modèles (chaines de Markov)
- Raisonnement bayésien avec prise en compte de la fréquence
des niveaux dans l’échantillon de référence
- Probabilité que le texte soit d’un niveau donné
Chambre de c ommerc e et d ’in d u s t r i e de r é g i o n
Paris Île - de-Fr a n c e
PRÉDIRE L E R É S U L T A T À UNE ÉPREUVE D’ E X P R E SSI O N ÉCRITE
C O N ST I T U T IO N D E S ÉC H A N T I L L ON S
12.02.20 18
Expérimentation
Productions évaluées de façon convergente par 2 évaluateurs (écart inférieur
à ½ niveau) échantillon d’apprentissage / échantillon de test
Y1 = moyenne des scores
Y2 = niveau associé à Y1 (5 niveaux : <A1, A1, A2, B1, B1+)
X = variables collectées lors de la normalisation, probabilités des modèles de langue, …
Échantillon d’apprentissage paramètres du modèle
Échantillon de test vérification de l’efficacité
Chambre de c ommerc e et d ’in d u s t r i e de r é g i o n
Paris Île - de-Fr a n c e
PRÉDIRE L E R É S U L T A T À UNE ÉPREUVE D’ E X P R E SSI O N ÉCRITE
P R E M I E R S R É SU LTAT S
12.02.20 19
Les modèles de langue (unigrammes de lemmes, bigrammes de catégories
grammaticales) classent efficacement les copies sur l’échantillon d’apprentissage
Lemmes : 82,9% de classements exacts, 96,5% de classements adjacents
Catégories grammaticales : 69,8% de classements exacts, 92,7% à un niveau près
mais leur performance se dégrade sur léchantillon de test :
Lemmes : 57,3% de classements exacts, 93,3% de classements adjacents
Catégories grammaticales : 47,0% de classements exacts, 87,2% à un niveau près
En combinant leur information avec celles extraites de la phase de normalisation
on aboutit sur léchantillon de test à :
60,3% de classements exacts
98% de classements adjacents
Kappa de Cohen : 0,489 (5 catégories)
Corrélation des scoreslivrés/prédits : 0,916
Et tout n’a pas encore été exploité…
Chambre de c ommerc e et d in d u s t r i e de r é g i o n
Paris Île - de-Fr a n c e
Utilisation pour le monitorage
des évaluations
20 12.02.20
Chambre de c ommerc e et d ’in d u s t r i e de r é g i o n Pa ris Î l e -de-F r a n c e
Chambre de c ommerc e et d ’in d u s t r i e de r é g i o n
Paris Île - de-Fr a n c e
U T I L I S A T I O N P O U R L E M O N I T O R A G E D E S É V A L U A T I O N S
M A I S E S T - C E S O U H A I TA B L E ?
12.02.20 21
La compensation statistique de la tendance à la sévérité
est-elle souhaitable ?
De quelle variabilité parle-t-on ?
-Consistance dans l’évaluation de copies « réputées » équivalentes
(par qui, sur quelle base ?)
- Consistance globale ou critère par critère ?
La mesure de la variabilité des évaluateurs est-elle utile?
A quoi peut-elle servir ?
-Renseigner sur les risques d’erreur ?
- Susciter une remise auto-amélioration continue ?
- Déclencher une action de formation ?
- Est-il légitime de comparer l’homme à une machine ?
Sachant qu’il y a de multiples façons d’obtenir un même score ?
Chambre de c ommerc e et d ’in d u s t r i e de r é g i o n
Paris Île - de-Fr a n c e
MONITORER LA Q U A L I T É DE S ÉV A L U A T I O N S HU M A I N ES AU M O Y E N D’ UN CO R R E C T E U R AU TOMATIQU E
P E R S P EC T I V ES
12.02.20 22
Améliorer la prédiction
Accumuler des données
Détecter des hors sujet (champ sémantique)
Exploiter les dépendances syntaxiques
Comptabiliser la fréquence des accords corrects en genre et en nombre
Mesurer la complexité phraséologique (collocations)
Exploiter la prédiction pour modéliser la sévérité
Plus efficace que la méthode actuelle ?
Modéliser la variabilité des évaluateurs ?
Pour quoi faire ? Sur quelle base ?
Utiliser la prédiction pour :
-Automatiser en partie l’arbitrage ? Est-ce réaliste ? Selon quelle procédure ?
-Étayer la discussion autour de cas d’écarts problématiques ?
Chambre de c ommerc e et d in d u s t r i e de r é g i o n
Paris Île - de-Fr a n c e
dcasanova@cci-paris-idf.fr
23 12.02.20
Chambre de c ommerc e et d ’in d u s t r i e de r é g i o n Pa ris Î l e -de-F r a n c e
Article
Full-text available
Le travail au sein de l’équipe du français des affaires de la Chambre de commerce et d’industrie de région Paris Ile-de-France présente de multiples facettes. Il répond aux standards de qualité qui s’imposent à présent en matière de tests à forts enjeux. Cela nécessite la mobilisation d’une équipe pluridisciplinaire, au-delà de la production de nouvelles versions d’un même instrument. La palette de l’offre, notamment dans le domaine du français des affaires, continue à se développer, abordant de nouveaux domaines, mais celle-ci doit aussi faire face à de nombreux défis: généralisation de l’utilisation du numérique pour la gestion des épreuves, modification du format des interfaces destinées aux candidats, adaptation à l’évolution des exigences des prescripteurs et des référentiels, sécurisation accrue et recours à la technologie pour mieux assurer la qualité des corrections des productions complexes, tant orales qu’écrites... Tous ces développements ont pu se réaliser avec une équipe à la taille relativement réduite, si on la compare aux équipes qui assurent par exemple le développement des tests en langue anglaise. Par ailleurs, le monde francophone de l’évaluation a longtemps été réfractaire aux développements liés à la mesure et à l’évaluation, en particulier dans le domaine de l’évaluation linguistique. Il a donc fallu aussi développer en interne des compétences spécifiques qu’il était très difficile de trouver sur le marché francophone. Cet article a tenté d’offrir une réflexion nourrie par une vingtaine d’années de collaboration. Ce regard dans le rétroviseur, permet de mesurer le chemin accompli tout en entrevoyant les développements à venir. Ceux-ci impliqueront de plus en plus le traitement automatisé et l’intelligence artificielle. C’est assurément le tournant à ne pas manquer pour maintenir les produits de notre équipe au niveau d’exigence qu’ils ont pu atteindre jusqu’ici.
ResearchGate has not been able to resolve any references for this publication.