Content uploaded by Dominique Casanova
Author content
All content in this area was uploaded by Dominique Casanova on Jan 12, 2021
Content may be subject to copyright.
12/01/2021
1
Ch amb re d e c om me rc e e t d’i nd ust ri e de ré gi on
Pa ri s Î le -de- Fr an ce
Notation automatique de
productions écrites en
français langue étrangère
ou seconde
Dominique Casanova
Ch amb re d e c om me rc e e t d’i nd ust ri e de ré gi on
Pa ri s Î le -de- Fr an ce
N O T A T I O N A U T O M A T I Q U E D E P R O D U C T I O N S É C R I T E S E N F L E / F L S
P LA N D E LA CO M MU N IC AT I ON
03.12.2020 2
•L’activité d’évaluation du français des affaires
•La problématique de l’évaluation de productions écrites
dans un contexte de tests à forts enjeux
•Principe du système de notation automatique
•Normalisation des données
•Extraction de caractéristiques textuelles
•Prédiction du résultat
•Perspectives
12/01/2021
2
Ch amb re d e c om me rc e e t d’i nd ust ri e de ré gi on
Pa ri s Î le -de- Fr an ce
3 Ch amb re d e c om me rc e e t d’i nd ust ri e de ré gi on Pa ris Î le -de-F ra nc e
Ch amb re d e c om me rc e e t d’i nd ust ri e de ré gi on
Pa ri s Î le -de- Fr an ce
N O T A T I O N A U T O M A T I Q U E D E P R O D U C T I O N S É C R I T E S E N F L E / F L S
L E F RA N ÇA I S D E S A FF AI R ES
4
Affaires
Relations internationales
Tourisme-Hôtellerie-Restauration
Santé
03.12.2020
12/01/2021
3
Ch amb re d e c om me rc e e t d’i nd ust ri e de ré gi on
Pa ri s Î le -de- Fr an ce
N O T A T I O N A U T O M A T I Q U E D E P R O D U C T I O N S É C R I T E S E N F L E / F L S
L E T ES T D ’ ÉV AL UA TI O N D E F R AN Ç AI S
5
Test permettant l’évaluation des compétence en français en :
•Compréhension écrite
•Compréhension orale
•Lexique / structure
•Expression écrite
•Expression orale
QUESTIONNAIRES A CHOIX MULTIPLE
ÉVALUATION HUMAINE
03.12.2020
Ch amb re d e c om me rc e e t d’i nd ust ri e de ré gi on
Pa ri s Î le -de- Fr an ce
N O T A T I O N A U T O M A T I Q U E D E P R O D U C T I O N S É C R I T E S E N F L E / F L S
L E T ES T D ’ ÉV AL U AT IO N DE FR A NÇ A IS
6
Test permettant l’évaluation des compétence en français en :
•Compréhension écrite
•Compréhension orale
•Lexique / structure
•Expression écrite
•Expression orale
Principaux prescripteurs institutionnels
•Ministère Immigration, Réfugiés et Citoyenneté Canada
•Ministère de l’Immigration, de la Francisation et de l’Intégration, Québec
•Ministère de l’Intérieur, France
QUESTIONNAIRES A CHOIX MULTIPLE
ÉVALUATION HUMAINE
03.12.2020
12/01/2021
4
Ch amb re d e c om me rc e e t d’i nd ust ri e de ré gi on
Pa ri s Î le -de- Fr an ce
Évaluation de productions
écrites (ou orales)
7 Ch amb re d e c om me rc e e t d’i nd ust ri e de ré gi on Pa ris Î le -de-F ra nc e
Ch amb re d e c om me rc e e t d’i nd ust ri e de ré gi on
Pa ri s Î le -de- Fr an ce
N O T A T I O N A U T O M A T I Q U E D E P R O D U C T I O N S É C R I T E S E N F L E / F L S
É VA LU AT IO N DE P RO DU C TI O NS É CR I TE S
8 03.12.2020
12/01/2021
5
Ch amb re d e c om me rc e e t d’i nd ust ri e de ré gi on
Pa ri s Î le -de- Fr an ce
N O T A T I O N A U T O M A T I Q U E D E P R O D U C T I O N S É C R I T E S E N F L E / F L S
C E Q UE PE U T A PP O RT E R L A N OT AT IO N A U TO M AT IQ UE
9
•Améliorer le monitorage des évaluateur (profil d’évaluation plus précis)
•Améliorer la précision des résultats (compensation statistique / garde-fou)
•Optimiser les ressources d’arbitrage
03.12.2020
Ch amb re d e c om me rc e e t d’i nd ust ri e de ré gi on
Pa ri s Î le -de- Fr an ce
N O T A T I O N A U T O M A T I Q U E D E P R O D U C T I O N S É C R I T E S E N F L E / F L S
C E Q UE P EU T A P PO R TE R L A N O TAT I ON AU T OM AT I QU E
10
•Améliorer le monitorage des évaluateur (profil d’évaluation plus précis)
•Améliorer la précision des résultats (compensation statistique / garde-fou)
•Optimiser les ressources d’arbitrage
03.12.2020
12/01/2021
6
Ch amb re d e c om me rc e e t d’i nd ust ri e de ré gi on
Pa ri s Î le -de- Fr an ce
N O T A T I O N A U T O M A T I Q U E D E P R O D U C T I O N S É C R I T E S E N F L E / F L S
D ES SO L UT I ON S D É JÀ EX IS TA N TE S EN LA N GU E A N GL A IS E
11
https://www.ets.org/erater/about
http://www.intellimetric.com/
https://www.pearsonassessments.com/large-
scale-assessments/k-12-large-scale-
assessments/automated-scoring.html
Intelligent Essay Assessor (IEA)
03.12.2020
Ch amb re d e c om me rc e e t d’i nd ust ri e de ré gi on
Pa ri s Î le -de- Fr an ce
N O T A T I O N A U T O M A T I Q U E D E P R O D U C T I O N S É C R I T E S E N F L E / F L S
D ES SO L UT I ON S D É JÀ EX I ST AN T ES E N L AN G UE A NG L AI SE
12
https://www.ets.org/erater/about
http://www.intellimetric.com/
https://www.pearsonassessments.com/large-
scale-assessments/k-12-large-scale-
assessments/automated-scoring.html
Intelligent Essay Assessor (IEA)
Et en langue française ?
LSA
03.12.2020
12/01/2021
7
Ch amb re d e c om me rc e e t d’i nd ust ri e de ré gi on
Pa ri s Î le -de- Fr an ce
N O T A T I O N A U T O M A T I Q U E D E P R O D U C T I O N S É C R I T E S E N F L E / F L S
P OU RQ U OI C EL A P E UT - IL F ON C TI O NN ER ?
13
La production écrite : un construit (évalué de manière) très unidimensionnel (le)
C1 : capacité à transmettre des informations
C2 : capacité à argumenter
C3 : syntaxe
C4 : Lexique
C5 : cohérence et cohésion
03.12.2020
Ch amb re d e c om me rc e e t d’i nd ust ri e de ré gi on
Pa ri s Î le -de- Fr an ce
N O T A T I O N A U T O M A T I Q U E D E P R O D U C T I O N S É C R I T E S E N F L E / F L S
P OU R QU OI C EL A PE U T- I L F ON C T IO N NE R ?
14
La production écrite : un construit (évalué de manière) très unidimensionnel (le)
C1 : capacité à transmettre des informations
C2 : capacité à argumenter
C3 : syntaxe
C4 : Lexique
C5 : cohérence et cohésion
Moindre validité, mais grande fidélité
Évaluateurs humains : meilleure validité (?), moindre fidélité (!)
Tirer parti des forces de chacun
03.12.2020
12/01/2021
8
Ch amb re d e c om me rc e e t d’i nd ust ri e de ré gi on
Pa ri s Î le -de- Fr an ce
Principe du système de notation
automatique
15 Ch amb re d e c om me rc e e t d’i nd ust ri e de ré gi on Pa ris Î le -de-F ra nc e
Ch amb re d e c om me rc e e t d’i nd ust ri e de ré gi on
Pa ri s Î le -de- Fr an ce
P RI N CI P E D U S YS T ÈM E DE NO TA TI O N A UT O MA TI Q UE
16
Saisie des productions par les candidats :
•Depuis 2018 pour le TEF pour la carte de résident
•Depuis février 2020 pour les autres tests
TEF pour la carte de résident
•1 seule tâche (argumentation)
•Évaluée uniquement jusqu’au B1
•Copies très bruitées
Exemple de déclencheur : Il y a trop de publicités à la télévision !
03.12.2020
N O TA T I O N A U T O M AT I Q U E D E P R O D UC T I O N S É C R I T ES E N F L E/ F L S
12/01/2021
9
Ch amb re d e c om me rc e e t d’i nd ust ri e de ré gi on
Pa ri s Î le -de- Fr an ce
N O TA T I O N A U T O M AT I Q U E D E P R O D UC T I O N S É C R I T ES E N F L E/ F L S
E NJ E UX DU PR É TR A IT E ME N T E T D E L A N O RM A LI S AT IO N
17
Les copies ne sont pas analysables en l’état en raison :
•d’erreurs typographiques
•d’erreurs morphologiques
Le ciel est gris,depuis qu,ils sont partis.
Prétraitement Le ciel est gris, depuis qu'ils sont partis.
non je ne suis pas dackor l'ecole est toujour utile avec ou pas
internet et sur tout ci y a pas parceque internet nous facilite baucou
c'est a cause de ca il y a des jen avec internet il ecrit sans internet qu'il
ecrit pas bien
Normalisation Non je ne suis pas d'accord l'école est toujours
utile avec ou pas internet et sur tout ci y a pas
parce que internet nous facilite beaucoup c'est
a cause de ça il y a des j'en avec internet il écrit
sans internet qu'il écrit pas bien.
Comptage d’erreurs
03.12.2020
Ch amb re d e c om me rc e e t d’i nd ust ri e de ré gi on
Pa ri s Î le -de- Fr an ce
N O TA T I O N A U T O M AT I Q U E D E P R O D UC T I O N S É C R I T ES E N F L E/ F L S
E NJ E UX DU P RÉ T RA IT E ME N T E T D E L A NO R MA LI S AT IO N
18
Les copies ne sont pas analysables en l’état en raison :
•d’erreurs typographiques
•d’erreurs morphologiques
Le ciel est gris,depuis qu,ils sont partis.
Prétraitement Le ciel est gris, depuis qu'ils sont partis.
non je ne suis pas dackor l'ecole est toujour utile avec ou pas
internet et sur tout ci y a pas parceque internet nous facilite baucou
c'est a cause de ca il y a des jen avec internet il ecrit sans internet qu'il
ecrit pas bien
Normalisation
03.12.2020
12/01/2021
10
Ch amb re d e c om me rc e e t d’i nd ust ri e de ré gi on
Pa ri s Î le -de- Fr an ce
N O TA T I O N A U T O M AT I Q U E D E P R O D UC T I O N S É C R I T ES E N F L E/ F L S
E NJ E UX DU PR É TR A IT E ME N T E T D E L A N O RM A LI S AT IO N
19
Les copies ne sont pas analysables en l’état en raison :
•d’erreurs typographiques
•d’erreurs morphologiques
Le ciel est gris,depuis qu,ils sont partis.
Prétraitement Le ciel est gris, depuis qu'ils sont partis.
non je ne suis pas dackor l'ecole est toujour utile avec ou pas
internet et sur tout ci y a pas parceque internet nous facilite baucou
c'est a cause de ca il y a des jen avec internet il ecrit sans internet qu'il
ecrit pas bien
Normalisation Non je ne suis pas d'accord l'école est toujours
utile avec ou pas internet et sur tout ci y a pas
parce que internet nous facilite beaucoup c'est
a cause de ça il y a des j'en avec internet il écrit
sans internet qu'il écrit pas bien.
03.12.2020
Ch amb re d e c om me rc e e t d’i nd ust ri e de ré gi on
Pa ri s Î le -de- Fr an ce
N O TA T I O N A U T O M AT I Q U E D E P R O D UC T I O N S É C R I T ES E N F L E/ F L S
E NJ E UX DU P RÉ T RA IT E ME N T E T D E L A NO R MA LI S AT IO N
20
Les copies ne sont pas analysables en l’état en raison :
•d’erreurs typographiques
•d’erreurs morphologiques
Le ciel est gris,depuis qu,ils sont partis.
Prétraitement Le ciel est gris, depuis qu'ils sont partis.
non je ne suis pas dackor l'ecole est toujour utile avec ou pas
internet et sur tout ci y a pas parceque internet nous facilite baucou
c'est a cause de ca il y a des jen avec internet il ecrit sans internet qu'il
ecrit pas bien
Normalisation Non je ne suis pas d'accord l'école est toujours
utile avec ou pas internet et sur tout ci y a pas
parce que internet nous facilite beaucoup c'est
a cause de ça il y a des j'en avec internet il écrit
sans internet qu'il écrit pas bien.
Comptage d’erreurs
03.12.2020
12/01/2021
11
Ch amb re d e c om me rc e e t d’i nd ust ri e de ré gi on
Pa ri s Î le -de- Fr an ce
Normalisation des données
21 Ch amb re d e c om me rc e e t d’i nd ust ri e de ré gi on Pa ris Î le -de-F ra nc e
Ch amb re d e c om me rc e e t d’i nd ust ri e de ré gi on
Pa ri s Î le -de- Fr an ce
C OM M E N T V EI L L E R À L ’ I N TÉ G R I T É D E S R É SU L T A T S A U M O Y E N DE L ’ A NA L Y S E D E S D O N N É ES ?
N OR M AL I SA TI O N D ES D ON N ÉE S
22
Dictionnaire avec formes fléchies
•Hunspell
Méthodes pour faire des suggestions
•Hunspell
Exemple : « recontre »
rencontre , recentre , remontre, recontrôle
03.12.2020
12/01/2021
12
Ch amb re d e c om me rc e e t d’i nd ust ri e de ré gi on
Pa ri s Î le -de- Fr an ce
C OM M E N T V EI L L E R À L ’ I N TÉ G R I T É D E S R É SU L T A T S A U M O Y E N DE L ’ A NA L Y S E D E S D O N N É ES ?
N OR M AL IS AT I ON D ES DO N NÉ E S
23
Dictionnaire avec formes fléchies
•Hunspell
Méthodes pour faire des suggestions
•Hunspell
Exemple : « recontre »
rencontre , recentre , remontre, recontrôle
•Transcription phonétique et recherche de mots proches
(utilisation de la distance de Damerau-Levenstein)
Mot Transcription
attention ATANSION
conscience KONSSIANS
coupure KuPUR
dangereux DANJER
important INPORTAN
« recontre »
remontre,
remontrer, remontres, remontré,
recompte, recompter, reconnaître,
recompta, recompté, recomptées
03.12.2020
Ch amb re d e c om me rc e e t d’i nd ust ri e de ré gi on
Pa ri s Î le -de- Fr an ce
C OM M E N T V EI L L E R À L ’ I N TÉ G R I T É D E S R É SU L T A T S A U M O Y E N DE L ’ A NA L Y S E D E S D O N N É ES ?
N OR M AL I SA TI O N D ES D ON N ÉE S
24
Dictionnaire avec formes fléchies
•Hunspell
Méthodes pour faire des suggestions
•Hunspell
Exemple : « recontre »
rencontre , recentre , remontre, recontrôle
Système de choix de la meilleure suggestion
apprentissage automatique
=> base d’apprentissage
•Étape 1 : normalisation manuelle hors contexte premier modèle
•Étape 2 : normalisation assistée (en contexte) modèle final
03.12.2020
12/01/2021
13
Ch amb re d e c om me rc e e t d’i nd ust ri e de ré gi on
Pa ri s Î le -de- Fr an ce
C OM M E N T V EI L L E R À L ’ I N TÉ G R I T É D E S R É SU L T A T S A U M O Y E N DE L ’ A NA L Y S E D E S D O N N É ES ?
C ON S TI T UT IO N D’ U NE BA N QU E D’A P PR E NT I SS AG E
25 03.12.2020
Ch amb re d e c om me rc e e t d’i nd ust ri e de ré gi on
Pa ri s Î le -de- Fr an ce
N O TA T I O N A U T O M AT I Q U E D E P R O D UC T I O N S É C R I T ES E N F L E/ F L S
I DE N TI F IC AT I ON / E X TR A CT I ON D E VA R IA B LE S PE RT I NE N TE S PO U R L E C H O IX
26 03.12.2020
Choix de la meilleur suggestion : 25 variables
La distance de Damerau-Levenshtein entre le
mot erroné et la suggestion
Nombre de lettres qu’il est nécessaire
d’ajouter dans le calcul de la distance de DL
Indicatrice qui précise de quelle méthode est
issue la suggestion
Nombre d’occurrences de la suggestion dans
un corpus de référence
Indicatrice précisant si l’erreur et la suggestion
différent notamment d’un accent …
12/01/2021
14
Ch amb re d e c om me rc e e t d’i nd ust ri e de ré gi on
Pa ri s Î le -de- Fr an ce
N O TA T I O N A U T O M AT I Q U E D E P R O D UC T I O N S É C R I T ES E N F L E/ F L S
I DE N TI FI C AT IO N / E X TR AC T IO N DE VA RI A BL ES P ER T IN E NT ES P O UR LE CH O IX
27 03.12.2020
Méthodes d’apprentissage :
•Régression logistique
•Forêt d’arbres aléatoires
•Boosting
La bonne correction est présente parmi les suggestions
pour 77,9 % des mots erronés.
L’algorithme de sélection choisit la bonne suggestion dans 84% des cas
(quand elle est présente)
Soit au final un taux de normalisation correct de 65,4%
Ch amb re d e c om me rc e e t d’i nd ust ri e de ré gi on
Pa ri s Î le -de- Fr an ce
Extraction de caractéristiques
textuelles
28 Ch amb re d e c om me rc e e t d’i nd ust ri e de ré gi on Pa ris Î le -de-F ra nc e
12/01/2021
15
Ch amb re d e c om me rc e e t d’i nd ust ri e de ré gi on
Pa ri s Î le -de- Fr an ce
N O TA T I O N A U T O M AT I Q U E D E P R O D UC T I O N S É C R I T ES E N F L E/ F L S
E XT RA C TI ON D E CA RA CT ÉR I ST IQ U ES T EX TU E LL ES
29 03.12.2020
Combinaison de deux approches
•Identification de micro-caractéristiques en rapport avec les critères
d’évaluation
Capacité à argumenter
Syntaxe
Lexique
Cohésion / cohérence
Ch amb re d e c om me rc e e t d’i nd ust ri e de ré gi on
Pa ri s Î le -de- Fr an ce
N O TA T I O N A U T O M AT I Q U E D E P R O D UC T I O N S É C R I T ES E N F L E/ F L S
E XT RA C TI ON D E C AR AC T ÉR IST I QU E S T EX T UE L LE S
30 03.12.2020
Combinaison de deux approches
•Identification de micro-caractéristiques en rapport avec les critères
d’évaluation
Capacité à argumenter
Syntaxe
Lexique
Cohésion / cohérence
•Modèles de langue par niveau au moyen de n-grammes
Lexique utilisé par les candidats des différents niveaux
Organisation des phrases par les candidats des différents niveaux
12/01/2021
16
Ch amb re d e c om me rc e e t d’i nd ust ri e de ré gi on
Pa ri s Î le -de- Fr an ce
N O TA T I O N A U T O M AT I Q U E D E P R O D UC T I O N S É C R I T ES E N F L E/ F L S
O UT IL S U T IL IS ÉS P OU R L’ E XT RA C TI ON
31 03.12.2020
UDpipe (R, Python…)
•Tokenization
•Parts of Speech tagging
•Lemmatization
•Dependency Parsing
Modèles pré-entrainés à partir de
corpus arborés (treebanks) selon les
“dépendances universelles” pour 65
langues, dont 4 pour le français.
http://ufal.mff.cuni.cz/udpipe
•french-gsd
•french-partut
•french-sequoia
•french-spoken
Ch amb re d e c om me rc e e t d’i nd ust ri e de ré gi on
Pa ri s Î le -de- Fr an ce
N O TA T I O N A U T O M AT I Q U E D E P R O D UC T I O N S É C R I T ES E N F L E/ F L S
E XT RA C TI ON D E C AR AC T ÉR IST I QU E S E N L I EN AVEC L ES C R IT ÈR E S
32 03.12.2020
Capacité à argumenter / réalisation de la tâche
•Lexique d’opinion Liste ad hoc
•Champ lexical du sujet Liste ad hoc, étendue via Corpus Liepzig
Syntaxe
•Type token ratio
•Utilisation des temps verbaux
•Présence de conjonctions de subordination
•Présence de virgules
•Écarts en genre et en nombre…
Lexique
•Utilisation des mots plus ou moins fréquents de la langue française
•Fréquence des mots « plutôt » de niveau A1…C2 selon FleLex
•Nombre de normalisations et de mots inconnus
Cohésion / cohérence
•Nombre de conjonctions de coordination
•Autres marqueurs cohésif Liste ad hoc
•Redondance de lemmes entre phrases (Cf. coh-metrix)
•…
12/01/2021
17
Ch amb re d e c om me rc e e t d’i nd ust ri e de ré gi on
Pa ri s Î le -de- Fr an ce
N O TA T I O N A U T O M AT I Q U E D E P R O D UC T I O N S É C R I T ES E N F L E/ F L S
E XP RE S SI ON D E SC O RE S P AR CR IT È RE ET C OR RÉ L ATI O N AV E C L E SC OR E T OT AL
33 03.12.2020
Variables pragmatiques
•Corr (score ~ score_adéquation) = 0.638
Variables syntaxiques
•Corr (score ~ score_syntaxe) = 0.754
Variables lexicales
•Corr (score ~ score_lexique) = 0.710
Variable de cohérence / cohésion
•Corr (score ~ score_coherence) = 0.790
FleLex R2 = 0,36
Ch amb re d e c om me rc e e t d’i nd ust ri e de ré gi on
Pa ri s Î le -de- Fr an ce
N O TA T I O N A U T O M AT I Q U E D E P R O D UC T I O N S É C R I T ES E N F L E/ F L S
M OD ÉL I SAT I ON À P AR TI R D E N - GR A MM ES
34 03.12.2020
Décomposition des textes en n-grammes
unigrammes : « Le », « chat », « est », « gris »
bigrammes : « Le chat » , « chat est », « est gris »
trigrammes : « Le chat est », « chat est gris »
12/01/2021
18
Ch amb re d e c om me rc e e t d’i nd ust ri e de ré gi on
Pa ri s Î le -de- Fr an ce
N O TA T I O N A U T O M AT I Q U E D E P R O D UC T I O N S É C R I T ES E N F L E/ F L S
M OD ÉL I SAT I ON À PART I R D E N -G R AM ME S
35 03.12.2020
Décomposition des textes en n-grammes
unigrammes : « Le », « chat », « est », « gris »
bigrammes : « Le chat » , « chat est », « est gris »
trigrammes : « Le chat est », « chat est gris »
On décompose ainsi, pour chacun de niveaux (<A1, A1, A2, B1), un
lot de productions de référence
Étant donné un nouveau texte, on s’appuie sur les fréquences
d’apparition des N-grammes pour prédire la probabilité qu’il ait été
produit par un candidat de chacun des niveaux
On peut raisonner au niveau des lemmes, mais également des POS et
des dépendances.
Ch amb re d e c om me rc e e t d’i nd ust ri e de ré gi on
Pa ri s Î le -de- Fr an ce
N O TA T I O N A U T O M AT I Q U E D E P R O D UC T I O N S É C R I T ES E N F L E/ F L S
P UI SS A NC E D E S N -G RA M ME S
36 03.12.2020
Génération de scores Ngrams
•Raisonnement baysésien probabilité que chacune des copies soit
d’un niveau donné et somme(P) = 1
•Score_ngram = P(A1) + 2*P(A2) + 3*(B1)
Calibrage d’une régression linéaire sur un échantillon de référence
Régression linéaire multiple (nouvel échantillon) R2 = 0,64
12/01/2021
19
Ch amb re d e c om me rc e e t d’i nd ust ri e de ré gi on
Pa ri s Î le -de- Fr an ce
Prédiction du résultat
37 Ch amb re d e c om me rc e e t d’i nd ust ri e de ré gi on Pa ris Î le -de-F ra nc e
Ch amb re d e c om me rc e e t d’i nd ust ri e de ré gi on
Pa ri s Î le -de- Fr an ce
N O TA T I O N A U T O M AT I Q U E D E P R O D UC T I O N S É C R I T ES E N F L E/ F L S
D ES C RI PT I ON D ES D ON N ÉE S
38 03.12.2020
Classification à 4 classes
•<A1 : 10%
• A1 : 24%
• A2 : 30%
• B1 : 36%
2062 copies évaluées deux fois
24 variables
Échantillonnage (apprentissage/test) avec un ratio 70 % / 30 %
12/01/2021
20
Ch amb re d e c om me rc e e t d’i nd ust ri e de ré gi on
Pa ri s Î le -de- Fr an ce
N O TA T I O N A U T O M AT I Q U E D E P R O D UC T I O N S É C R I T ES E N F L E/ F L S
M OD È LE S M O BI L IS ÉS E T R ÉS U LTA TS
39 03.12.2020
SVM : 76.1 %
Forêts aléatoires : 76,8%
Régression logistique ordinale : 76.1 %
KNN : 65%
LDA : 62%
Ch amb re d e c om me rc e e t d’i nd ust ri e de ré gi on
Pa ri s Î le -de- Fr an ce
N O TA T I O N A U T O M AT I Q U E D E P R O D UC T I O N S É C R I T ES E N F L E/ F L S
P RÉ D IC T IO N DU SC O RE
40 03.12.2020
Régression linéaire multiple à partir
•des scores par critères
•et des scores n-gram
Régression logistique ordinale
On peut dériver un score à partir des probabilités que la
copie se situe dans chacun des niveaux
Combinaison des deux prédictions ?
12/01/2021
21
Ch amb re d e c om me rc e e t d’i nd ust ri e de ré gi on
Pa ri s Î le -de- Fr an ce
POUR ALLER PLUS LOIN
41 Ch amb re d e c om me rc e e t d’i nd ust ri e de ré gi on Pa ris Î le -de-F ra nc e
Ch amb re d e c om me rc e e t d’i nd ust ri e de ré gi on
Pa ri s Î le -de- Fr an ce
N O TA T I O N A U T O M AT I Q U E D E P R O D UC T I O N S É C R I T ES E N F L E/ F L S
P ER S PE CT I VE S
42 03.12.2020
•Analyser les cas aberrants
règles supplémentaires
•Prise en considération de l’ensemble des sujets
Liste de mots dans le champ sémantique de chaque sujet (corpus Liepzig)
Mise à jour de la base d’apprentissage pour la normalisation
•Mise en production + règles pour rétroagir sur le modèle
12/01/2021
22
Ch amb re d e c om me rc e e t d’i nd ust ri e de ré gi on
Pa ri s Î le -de- Fr an ce
N O TA T I O N A U T O M AT I Q U E D E P R O D UC T I O N S É C R I T ES E N F L E/ F L S
P ER SP E CT I VE S
43 03.12.2020
•Analyser les cas aberrants
règles supplémentaires
•Prise en considération de l’ensemble des sujets
Liste de mots dans le champ sémantique de chaque sujet (corpus Liepzig)
Mise à jour de la base d’apprentissage pour la normalisation
•Mise en production + règles pour rétroagir sur le modèle
•Extension au TEF pour la naturalisation
Même tâche mais jusqu’au niveau C2
Nouvelles variables pour distinguer entre niveaux avancés ?
•Extension au TEF pour le Canada et le Québec
Présence d’une seconde tâche
Évaluation jusqu’au niveau C2
Échelle canadienne (9 catégories de niveau à distinguer)
EXPRESSION ORALE ?
Ch amb re d e c om me rc e e t d’i nd ust ri e de ré gi on
Pa ri s Î le -de- Fr an ce
N O TA T I O N A U T O M AT I Q U E D E P R O D UC T I O N S É C R I T ES E N F L E/ F L S
P ER S PE CT I VE S
44 03.12.2020
Calendrier du projet
Sept. 2018 - mai 2019 : veille, état de l’art
Été 2019 : stages 1&2 : preuve de concept (variables isolées / n-grams)
Hunspell insuffisant pour la normalisation
Validation de l’environnement R
Automne 2020 : veille, UDPipe, algorithme de phonétique, stabilisation prototype
Janv. – avril 2020 : projets académiques ENSAI (normalisation / comparaison modèles)
Mars – septembre 2020 : développement du système de notation automatique
2021 : mise en production du modèle pour la carte de résident
stage(s) pour la généralisation aux autres versions du TEF
mise en production de la version 2
12/01/2021
23
Ch amb re d e c om me rc e e t d’i nd ust ri e de ré gi on
Pa ri s Î le -de- Fr an ce
dcasanova@cci-paris-idf.fr
45 Ch amb re d e c om me rc e e t d’i nd ust ri e de ré gi on Pa ris Î le -de-F ra nc e