PresentationPDF Available

Notation automatique de productions écrites en français langue étrangère ou seconde

Authors:
  • Chambre de commerce et d'industrie de Paris Île-de-France

Abstract

Dans cette présentation nous présentons le projet de développement d'un système de notation automatique de productions écrites en français langue étrangère.
12/01/2021
1
Ch amb re d e c om me rc e e t di nd ust ri e de ré gi on
Pa ri s Î le -de- Fr an ce
Notation automatique de
productions écrites en
français langue étrangère
ou seconde
Dominique Casanova
Ch amb re d e c om me rc e e t d’i nd ust ri e de gi on
Pa ri s Î le -de- Fr an ce
N O T A T I O N A U T O M A T I Q U E D E P R O D U C T I O N S É C R I T E S E N F L E / F L S
P LA N D E LA CO M MU N IC AT I ON
03.12.2020 2
L’activité d’évaluation du français des affaires
La problématique de l’évaluation de productions écrites
dans un contexte de tests à forts enjeux
Principe du système de notation automatique
Normalisation des données
Extraction de caractéristiques textuelles
Prédiction du résultat
Perspectives
12/01/2021
2
Ch amb re d e c om me rc e e t di nd ust ri e de ré gi on
Pa ri s Î le -de- Fr an ce
3 Ch amb re d e c om me rc e e t d’i nd ust ri e de gi on Pa ris Î le -de-F ra nc e
Ch amb re d e c om me rc e e t d’i nd ust ri e de gi on
Pa ri s Î le -de- Fr an ce
N O T A T I O N A U T O M A T I Q U E D E P R O D U C T I O N S É C R I T E S E N F L E / F L S
L E F RA N ÇA I S D E S A FF AI R ES
4
Affaires
Relations internationales
Tourisme-Hôtellerie-Restauration
Santé
03.12.2020
12/01/2021
3
Ch amb re d e c om me rc e e t d’i nd ust ri e de gi on
Pa ri s Î le -de- Fr an ce
N O T A T I O N A U T O M A T I Q U E D E P R O D U C T I O N S É C R I T E S E N F L E / F L S
L E T ES T D ÉV AL UA TI O N D E F R AN Ç AI S
5
Test permettant l’évaluation des compétence en français en :
Compréhension écrite
Compréhension orale
Lexique / structure
Expression écrite
Expression orale
QUESTIONNAIRES A CHOIX MULTIPLE
ÉVALUATION HUMAINE
03.12.2020
Ch amb re d e c om me rc e e t d’i nd ust ri e de gi on
Pa ri s Î le -de- Fr an ce
N O T A T I O N A U T O M A T I Q U E D E P R O D U C T I O N S É C R I T E S E N F L E / F L S
L E T ES T D ÉV AL U AT IO N DE FR A A IS
6
Test permettant l’évaluation des compétence en français en :
Compréhension écrite
Compréhension orale
Lexique / structure
Expression écrite
Expression orale
Principaux prescripteurs institutionnels
Ministère Immigration, Réfugiés et Citoyenneté Canada
Ministère de l’Immigration, de la Francisation et de l’Intégration, Québec
Ministère de l’Intérieur, France
QUESTIONNAIRES A CHOIX MULTIPLE
ÉVALUATION HUMAINE
03.12.2020
12/01/2021
4
Ch amb re d e c om me rc e e t di nd ust ri e de ré gi on
Pa ri s Î le -de- Fr an ce
Évaluation de productions
écrites (ou orales)
7 Ch amb re d e c om me rc e e t d’i nd ust ri e de gi on Pa ris Î le -de-F ra nc e
Ch amb re d e c om me rc e e t d’i nd ust ri e de gi on
Pa ri s Î le -de- Fr an ce
N O T A T I O N A U T O M A T I Q U E D E P R O D U C T I O N S É C R I T E S E N F L E / F L S
É VA LU AT IO N DE P RO DU C TI O NS É CR I TE S
8 03.12.2020
12/01/2021
5
Ch amb re d e c om me rc e e t d’i nd ust ri e de gi on
Pa ri s Î le -de- Fr an ce
N O T A T I O N A U T O M A T I Q U E D E P R O D U C T I O N S É C R I T E S E N F L E / F L S
C E Q UE PE U T A PP O RT E R L A N OT AT IO N A U TO M AT IQ UE
9
Améliorer le monitorage des évaluateur (profil d’évaluation plus précis)
Améliorer la précision des résultats (compensation statistique / garde-fou)
Optimiser les ressources d’arbitrage
03.12.2020
Ch amb re d e c om me rc e e t d’i nd ust ri e de gi on
Pa ri s Î le -de- Fr an ce
N O T A T I O N A U T O M A T I Q U E D E P R O D U C T I O N S É C R I T E S E N F L E / F L S
C E Q UE P EU T A P PO R TE R L A N O TAT I ON AU T OM AT I QU E
10
Améliorer le monitorage des évaluateur (profil d’évaluation plus précis)
Améliorer la précision des résultats (compensation statistique / garde-fou)
Optimiser les ressources d’arbitrage
03.12.2020
12/01/2021
6
Ch amb re d e c om me rc e e t d’i nd ust ri e de gi on
Pa ri s Î le -de- Fr an ce
N O T A T I O N A U T O M A T I Q U E D E P R O D U C T I O N S É C R I T E S E N F L E / F L S
D ES SO L UT I ON S D É EX IS TA N TE S EN LA N GU E A N GL A IS E
11
https://www.ets.org/erater/about
http://www.intellimetric.com/
https://www.pearsonassessments.com/large-
scale-assessments/k-12-large-scale-
assessments/automated-scoring.html
Intelligent Essay Assessor (IEA)
03.12.2020
Ch amb re d e c om me rc e e t d’i nd ust ri e de gi on
Pa ri s Î le -de- Fr an ce
N O T A T I O N A U T O M A T I Q U E D E P R O D U C T I O N S É C R I T E S E N F L E / F L S
D ES SO L UT I ON S D É EX I ST AN T ES E N L AN G UE A NG L AI SE
12
https://www.ets.org/erater/about
http://www.intellimetric.com/
https://www.pearsonassessments.com/large-
scale-assessments/k-12-large-scale-
assessments/automated-scoring.html
Intelligent Essay Assessor (IEA)
Et en langue française ?
LSA
03.12.2020
12/01/2021
7
Ch amb re d e c om me rc e e t d’i nd ust ri e de gi on
Pa ri s Î le -de- Fr an ce
N O T A T I O N A U T O M A T I Q U E D E P R O D U C T I O N S É C R I T E S E N F L E / F L S
P OU RQ U OI C EL A P E UT - IL F ON C TI O NN ER ?
13
La production écrite : un construit (évalué de manière) très unidimensionnel (le)
C1 : capacité à transmettre des informations
C2 : capacité à argumenter
C3 : syntaxe
C4 : Lexique
C5 : cohérence et cohésion
03.12.2020
Ch amb re d e c om me rc e e t d’i nd ust ri e de gi on
Pa ri s Î le -de- Fr an ce
N O T A T I O N A U T O M A T I Q U E D E P R O D U C T I O N S É C R I T E S E N F L E / F L S
P OU R QU OI C EL A PE U T- I L F ON C T IO N NE R ?
14
La production écrite : un construit (évalué de manière) très unidimensionnel (le)
C1 : capacité à transmettre des informations
C2 : capacité à argumenter
C3 : syntaxe
C4 : Lexique
C5 : cohérence et cohésion
Moindre validité, mais grande fidélité
Évaluateurs humains : meilleure validité (?), moindre fidélité (!)
Tirer parti des forces de chacun
03.12.2020
12/01/2021
8
Ch amb re d e c om me rc e e t di nd ust ri e de ré gi on
Pa ri s Î le -de- Fr an ce
Principe du système de notation
automatique
15 Ch amb re d e c om me rc e e t d’i nd ust ri e de gi on Pa ris Î le -de-F ra nc e
Ch amb re d e c om me rc e e t d’i nd ust ri e de gi on
Pa ri s Î le -de- Fr an ce
P RI N CI P E D U S YS T ÈM E DE NO TA TI O N A UT O MA TI Q UE
16
Saisie des productions par les candidats :
Depuis 2018 pour le TEF pour la carte de résident
Depuis février 2020 pour les autres tests
TEF pour la carte de résident
1 seule tâche (argumentation)
Évaluée uniquement jusqu’au B1
Copies très bruitées
Exemple de déclencheur : Il y a trop de publicités à la télévision !
03.12.2020
N O TA T I O N A U T O M AT I Q U E D E P R O D UC T I O N S É C R I T ES E N F L E/ F L S
12/01/2021
9
Ch amb re d e c om me rc e e t d’i nd ust ri e de gi on
Pa ri s Î le -de- Fr an ce
N O TA T I O N A U T O M AT I Q U E D E P R O D UC T I O N S É C R I T ES E N F L E/ F L S
E NJ E UX DU PR É TR A IT E ME N T E T D E L A N O RM A LI S AT IO N
17
Les copies ne sont pas analysables en l’état en raison :
d’erreurs typographiques
d’erreurs morphologiques
Le ciel est gris,depuis qu,ils sont partis.
Prétraitement Le ciel est gris, depuis qu'ils sont partis.
non je ne suis pas dackor l'ecole est toujour utile avec ou pas
internet et sur tout ci y a pas parceque internet nous facilite baucou
c'est a cause de ca il y a des jen avec internet il ecrit sans internet qu'il
ecrit pas bien
Normalisation Non je ne suis pas d'accord l'école est toujours
utile avec ou pas internet et sur tout ci y a pas
parce que internet nous facilite beaucoup c'est
a cause de ça il y a des j'en avec internet il écrit
sans internet qu'il écrit pas bien.
Comptage d’erreurs
03.12.2020
Ch amb re d e c om me rc e e t d’i nd ust ri e de gi on
Pa ri s Î le -de- Fr an ce
N O TA T I O N A U T O M AT I Q U E D E P R O D UC T I O N S É C R I T ES E N F L E/ F L S
E NJ E UX DU P T RA IT E ME N T E T D E L A NO R MA LI S AT IO N
18
Les copies ne sont pas analysables en l’état en raison :
d’erreurs typographiques
d’erreurs morphologiques
Le ciel est gris,depuis qu,ils sont partis.
Prétraitement Le ciel est gris, depuis qu'ils sont partis.
non je ne suis pas dackor l'ecole est toujour utile avec ou pas
internet et sur tout ci y a pas parceque internet nous facilite baucou
c'est a cause de ca il y a des jen avec internet il ecrit sans internet qu'il
ecrit pas bien
Normalisation
03.12.2020
12/01/2021
10
Ch amb re d e c om me rc e e t d’i nd ust ri e de gi on
Pa ri s Î le -de- Fr an ce
N O TA T I O N A U T O M AT I Q U E D E P R O D UC T I O N S É C R I T ES E N F L E/ F L S
E NJ E UX DU PR É TR A IT E ME N T E T D E L A N O RM A LI S AT IO N
19
Les copies ne sont pas analysables en l’état en raison :
d’erreurs typographiques
d’erreurs morphologiques
Le ciel est gris,depuis qu,ils sont partis.
Prétraitement Le ciel est gris, depuis qu'ils sont partis.
non je ne suis pas dackor l'ecole est toujour utile avec ou pas
internet et sur tout ci y a pas parceque internet nous facilite baucou
c'est a cause de ca il y a des jen avec internet il ecrit sans internet qu'il
ecrit pas bien
Normalisation Non je ne suis pas d'accord l'école est toujours
utile avec ou pas internet et sur tout ci y a pas
parce que internet nous facilite beaucoup c'est
a cause de ça il y a des j'en avec internet il écrit
sans internet qu'il écrit pas bien.
03.12.2020
Ch amb re d e c om me rc e e t d’i nd ust ri e de gi on
Pa ri s Î le -de- Fr an ce
N O TA T I O N A U T O M AT I Q U E D E P R O D UC T I O N S É C R I T ES E N F L E/ F L S
E NJ E UX DU P T RA IT E ME N T E T D E L A NO R MA LI S AT IO N
20
Les copies ne sont pas analysables en l’état en raison :
d’erreurs typographiques
d’erreurs morphologiques
Le ciel est gris,depuis qu,ils sont partis.
Prétraitement Le ciel est gris, depuis qu'ils sont partis.
non je ne suis pas dackor l'ecole est toujour utile avec ou pas
internet et sur tout ci y a pas parceque internet nous facilite baucou
c'est a cause de ca il y a des jen avec internet il ecrit sans internet qu'il
ecrit pas bien
Normalisation Non je ne suis pas d'accord l'école est toujours
utile avec ou pas internet et sur tout ci y a pas
parce que internet nous facilite beaucoup c'est
a cause de ça il y a des j'en avec internet il écrit
sans internet qu'il écrit pas bien.
Comptage d’erreurs
03.12.2020
12/01/2021
11
Ch amb re d e c om me rc e e t di nd ust ri e de ré gi on
Pa ri s Î le -de- Fr an ce
Normalisation des données
21 Ch amb re d e c om me rc e e t d’i nd ust ri e de gi on Pa ris Î le -de-F ra nc e
Ch amb re d e c om me rc e e t d’i nd ust ri e de gi on
Pa ri s Î le -de- Fr an ce
C OM M E N T V EI L L E R À L I N G R I T É D E S R É SU L T A T S A U M O Y E N DE L A NA L Y S E D E S D O N N É ES ?
N OR M AL I SA TI O N D ES D ON N ÉE S
22
Dictionnaire avec formes fléchies
Hunspell
Méthodes pour faire des suggestions
Hunspell
Exemple : « recontre »
rencontre , recentre , remontre, recontrôle
03.12.2020
12/01/2021
12
Ch amb re d e c om me rc e e t d’i nd ust ri e de gi on
Pa ri s Î le -de- Fr an ce
C OM M E N T V EI L L E R À L I N G R I T É D E S R É SU L T A T S A U M O Y E N DE L A NA L Y S E D E S D O N N É ES ?
N OR M AL IS AT I ON D ES DO N E S
23
Dictionnaire avec formes fléchies
Hunspell
Méthodes pour faire des suggestions
Hunspell
Exemple : « recontre »
rencontre , recentre , remontre, recontrôle
Transcription phonétique et recherche de mots proches
(utilisation de la distance de Damerau-Levenstein)
Mot Transcription
attention ATANSION
conscience KONSSIANS
coupure KuPUR
dangereux DANJER
important INPORTAN
« recontre »
remontre,
remontrer, remontres, remontré,
recompte, recompter, reconnaître,
recompta, recompté, recomptées
03.12.2020
Ch amb re d e c om me rc e e t d’i nd ust ri e de gi on
Pa ri s Î le -de- Fr an ce
C OM M E N T V EI L L E R À L I N G R I T É D E S R É SU L T A T S A U M O Y E N DE L A NA L Y S E D E S D O N N É ES ?
N OR M AL I SA TI O N D ES D ON N ÉE S
24
Dictionnaire avec formes fléchies
Hunspell
Méthodes pour faire des suggestions
Hunspell
Exemple : « recontre »
rencontre , recentre , remontre, recontrôle
Système de choix de la meilleure suggestion
apprentissage automatique
=> base d’apprentissage
Étape 1 : normalisation manuelle hors contexte premier modèle
Étape 2 : normalisation assistée (en contexte) modèle final
03.12.2020
12/01/2021
13
Ch amb re d e c om me rc e e t d’i nd ust ri e de gi on
Pa ri s Î le -de- Fr an ce
C OM M E N T V EI L L E R À L I N G R I T É D E S R É SU L T A T S A U M O Y E N DE L A NA L Y S E D E S D O N N É ES ?
C ON S TI T UT IO N D’ U NE BA N QU E D’A P PR E NT I SS AG E
25 03.12.2020
Ch amb re d e c om me rc e e t d’i nd ust ri e de gi on
Pa ri s Î le -de- Fr an ce
N O TA T I O N A U T O M AT I Q U E D E P R O D UC T I O N S É C R I T ES E N F L E/ F L S
I DE N TI F IC AT I ON / E X TR A CT I ON D E VA R IA B LE S PE RT I NE N TE S PO U R L E C H O IX
26 03.12.2020
Choix de la meilleur suggestion : 25 variables
La distance de Damerau-Levenshtein entre le
mot erroné et la suggestion
Nombre de lettres qu’il est nécessaire
d’ajouter dans le calcul de la distance de DL
Indicatrice qui précise de quelle méthode est
issue la suggestion
Nombre d’occurrences de la suggestion dans
un corpus de référence
Indicatrice précisant si l’erreur et la suggestion
différent notamment d’un accent …
12/01/2021
14
Ch amb re d e c om me rc e e t d’i nd ust ri e de gi on
Pa ri s Î le -de- Fr an ce
N O TA T I O N A U T O M AT I Q U E D E P R O D UC T I O N S É C R I T ES E N F L E/ F L S
I DE N TI FI C AT IO N / E X TR AC T IO N DE VA RI A BL ES P ER T IN E NT ES P O UR LE CH O IX
27 03.12.2020
Méthodes d’apprentissage :
Régression logistique
Forêt d’arbres aléatoires
Boosting
La bonne correction est présente parmi les suggestions
pour 77,9 % des mots erronés.
L’algorithme de sélection choisit la bonne suggestion dans 84% des cas
(quand elle est présente)
Soit au final un taux de normalisation correct de 65,4%
Ch amb re d e c om me rc e e t di nd ust ri e de ré gi on
Pa ri s Î le -de- Fr an ce
Extraction de caractéristiques
textuelles
28 Ch amb re d e c om me rc e e t d’i nd ust ri e de gi on Pa ris Î le -de-F ra nc e
12/01/2021
15
Ch amb re d e c om me rc e e t d’i nd ust ri e de gi on
Pa ri s Î le -de- Fr an ce
N O TA T I O N A U T O M AT I Q U E D E P R O D UC T I O N S É C R I T ES E N F L E/ F L S
E XT RA C TI ON D E CA RA CT ÉR I ST IQ U ES T EX TU E LL ES
29 03.12.2020
Combinaison de deux approches
Identification de micro-caractéristiques en rapport avec les critères
d’évaluation
Capacité à argumenter
Syntaxe
Lexique
Cohésion / cohérence
Ch amb re d e c om me rc e e t d’i nd ust ri e de gi on
Pa ri s Î le -de- Fr an ce
N O TA T I O N A U T O M AT I Q U E D E P R O D UC T I O N S É C R I T ES E N F L E/ F L S
E XT RA C TI ON D E C AR AC T ÉR IST I QU E S T EX T UE L LE S
30 03.12.2020
Combinaison de deux approches
Identification de micro-caractéristiques en rapport avec les critères
d’évaluation
Capacité à argumenter
Syntaxe
Lexique
Cohésion / cohérence
Modèles de langue par niveau au moyen de n-grammes
Lexique utilisé par les candidats des différents niveaux
Organisation des phrases par les candidats des différents niveaux
12/01/2021
16
Ch amb re d e c om me rc e e t d’i nd ust ri e de gi on
Pa ri s Î le -de- Fr an ce
N O TA T I O N A U T O M AT I Q U E D E P R O D UC T I O N S É C R I T ES E N F L E/ F L S
O UT IL S U T IL IS ÉS P OU R L’ E XT RA C TI ON
31 03.12.2020
UDpipe (R, Python…)
Tokenization
Parts of Speech tagging
Lemmatization
Dependency Parsing
Modèles pré-entrainés à partir de
corpus arborés (treebanks) selon les
dépendances universelles” pour 65
langues, dont 4 pour le français.
http://ufal.mff.cuni.cz/udpipe
french-gsd
french-partut
french-sequoia
french-spoken
Ch amb re d e c om me rc e e t d’i nd ust ri e de gi on
Pa ri s Î le -de- Fr an ce
N O TA T I O N A U T O M AT I Q U E D E P R O D UC T I O N S É C R I T ES E N F L E/ F L S
E XT RA C TI ON D E C AR AC T ÉR IST I QU E S E N L I EN AVEC L ES C R IT ÈR E S
32 03.12.2020
Capacité à argumenter / réalisation de la tâche
Lexique d’opinion Liste ad hoc
Champ lexical du sujet Liste ad hoc, étendue via Corpus Liepzig
Syntaxe
Type token ratio
Utilisation des temps verbaux
Présence de conjonctions de subordination
Présence de virgules
Écarts en genre et en nombre…
Lexique
Utilisation des mots plus ou moins fréquents de la langue française
Fréquence des mots « plutôt » de niveau A1…C2 selon FleLex
Nombre de normalisations et de mots inconnus
Cohésion / cohérence
Nombre de conjonctions de coordination
Autres marqueurs cohésif Liste ad hoc
Redondance de lemmes entre phrases (Cf. coh-metrix)
12/01/2021
17
Ch amb re d e c om me rc e e t d’i nd ust ri e de gi on
Pa ri s Î le -de- Fr an ce
N O TA T I O N A U T O M AT I Q U E D E P R O D UC T I O N S É C R I T ES E N F L E/ F L S
E XP RE S SI ON D E SC O RE S P AR CR IT È RE ET C OR L ATI O N AV E C L E SC OR E T OT AL
33 03.12.2020
Variables pragmatiques
Corr (score ~ score_adéquation) = 0.638
Variables syntaxiques
Corr (score ~ score_syntaxe) = 0.754
Variables lexicales
Corr (score ~ score_lexique) = 0.710
Variable de cohérence / cohésion
Corr (score ~ score_coherence) = 0.790
FleLex R2 = 0,36
Ch amb re d e c om me rc e e t d’i nd ust ri e de gi on
Pa ri s Î le -de- Fr an ce
N O TA T I O N A U T O M AT I Q U E D E P R O D UC T I O N S É C R I T ES E N F L E/ F L S
M OD ÉL I SAT I ON À P AR TI R D E N - GR A MM ES
34 03.12.2020
Décomposition des textes en n-grammes
unigrammes : « Le », « chat », « est », « gris »
bigrammes : « Le chat » , « chat est », « est gris »
trigrammes : « Le chat est », « chat est gris »
12/01/2021
18
Ch amb re d e c om me rc e e t d’i nd ust ri e de gi on
Pa ri s Î le -de- Fr an ce
N O TA T I O N A U T O M AT I Q U E D E P R O D UC T I O N S É C R I T ES E N F L E/ F L S
M OD ÉL I SAT I ON À PART I R D E N -G R AM ME S
35 03.12.2020
Décomposition des textes en n-grammes
unigrammes : « Le », « chat », « est », « gris »
bigrammes : « Le chat » , « chat est », « est gris »
trigrammes : « Le chat est », « chat est gris »
On décompose ainsi, pour chacun de niveaux (<A1, A1, A2, B1), un
lot de productions de référence
Étant donné un nouveau texte, on s’appuie sur les fréquences
d’apparition des N-grammes pour prédire la probabilité qu’il ait été
produit par un candidat de chacun des niveaux
On peut raisonner au niveau des lemmes, mais également des POS et
des dépendances.
Ch amb re d e c om me rc e e t d’i nd ust ri e de gi on
Pa ri s Î le -de- Fr an ce
N O TA T I O N A U T O M AT I Q U E D E P R O D UC T I O N S É C R I T ES E N F L E/ F L S
P UI SS A NC E D E S N -G RA M ME S
36 03.12.2020
Génération de scores Ngrams
Raisonnement baysésien probabilité que chacune des copies soit
d’un niveau donné et somme(P) = 1
Score_ngram = P(A1) + 2*P(A2) + 3*(B1)
Calibrage d’une régression linéaire sur un échantillon de référence
Régression linéaire multiple (nouvel échantillon) R2 = 0,64
12/01/2021
19
Ch amb re d e c om me rc e e t di nd ust ri e de ré gi on
Pa ri s Î le -de- Fr an ce
Prédiction du résultat
37 Ch amb re d e c om me rc e e t d’i nd ust ri e de gi on Pa ris Î le -de-F ra nc e
Ch amb re d e c om me rc e e t d’i nd ust ri e de gi on
Pa ri s Î le -de- Fr an ce
N O TA T I O N A U T O M AT I Q U E D E P R O D UC T I O N S É C R I T ES E N F L E/ F L S
D ES C RI PT I ON D ES D ON N ÉE S
38 03.12.2020
Classification à 4 classes
<A1 : 10%
A1 : 24%
A2 : 30%
B1 : 36%
2062 copies évaluées deux fois
24 variables
Échantillonnage (apprentissage/test) avec un ratio 70 % / 30 %
12/01/2021
20
Ch amb re d e c om me rc e e t d’i nd ust ri e de gi on
Pa ri s Î le -de- Fr an ce
N O TA T I O N A U T O M AT I Q U E D E P R O D UC T I O N S É C R I T ES E N F L E/ F L S
M OD È LE S M O BI L IS ÉS E T R ÉS U LTA TS
39 03.12.2020
SVM : 76.1 %
Forêts aléatoires : 76,8%
Régression logistique ordinale : 76.1 %
KNN : 65%
LDA : 62%
Ch amb re d e c om me rc e e t d’i nd ust ri e de gi on
Pa ri s Î le -de- Fr an ce
N O TA T I O N A U T O M AT I Q U E D E P R O D UC T I O N S É C R I T ES E N F L E/ F L S
P D IC T IO N DU SC O RE
40 03.12.2020
Régression linéaire multiple à partir
des scores par critères
et des scores n-gram
Régression logistique ordinale
On peut dériver un score à partir des probabilités que la
copie se situe dans chacun des niveaux
Combinaison des deux prédictions ?
12/01/2021
21
Ch amb re d e c om me rc e e t di nd ust ri e de ré gi on
Pa ri s Î le -de- Fr an ce
POUR ALLER PLUS LOIN
41 Ch amb re d e c om me rc e e t d’i nd ust ri e de gi on Pa ris Î le -de-F ra nc e
Ch amb re d e c om me rc e e t d’i nd ust ri e de gi on
Pa ri s Î le -de- Fr an ce
N O TA T I O N A U T O M AT I Q U E D E P R O D UC T I O N S É C R I T ES E N F L E/ F L S
P ER S PE CT I VE S
42 03.12.2020
Analyser les cas aberrants
règles supplémentaires
Prise en considération de l’ensemble des sujets
Liste de mots dans le champ sémantique de chaque sujet (corpus Liepzig)
Mise à jour de la base d’apprentissage pour la normalisation
Mise en production + règles pour rétroagir sur le modèle
12/01/2021
22
Ch amb re d e c om me rc e e t d’i nd ust ri e de gi on
Pa ri s Î le -de- Fr an ce
N O TA T I O N A U T O M AT I Q U E D E P R O D UC T I O N S É C R I T ES E N F L E/ F L S
P ER SP E CT I VE S
43 03.12.2020
Analyser les cas aberrants
règles supplémentaires
Prise en considération de l’ensemble des sujets
Liste de mots dans le champ sémantique de chaque sujet (corpus Liepzig)
Mise à jour de la base d’apprentissage pour la normalisation
Mise en production + règles pour rétroagir sur le modèle
Extension au TEF pour la naturalisation
Même tâche mais jusqu’au niveau C2
Nouvelles variables pour distinguer entre niveaux avancés ?
Extension au TEF pour le Canada et le Québec
Présence d’une seconde tâche
Évaluation jusqu’au niveau C2
Échelle canadienne (9 catégories de niveau à distinguer)
EXPRESSION ORALE ?
Ch amb re d e c om me rc e e t d’i nd ust ri e de gi on
Pa ri s Î le -de- Fr an ce
N O TA T I O N A U T O M AT I Q U E D E P R O D UC T I O N S É C R I T ES E N F L E/ F L S
P ER S PE CT I VE S
44 03.12.2020
Calendrier du projet
Sept. 2018 - mai 2019 : veille, état de l’art
Été 2019 : stages 1&2 : preuve de concept (variables isolées / n-grams)
Hunspell insuffisant pour la normalisation
Validation de l’environnement R
Automne 2020 : veille, UDPipe, algorithme de phonétique, stabilisation prototype
Janv. avril 2020 : projets académiques ENSAI (normalisation / comparaison modèles)
Mars septembre 2020 : développement du système de notation automatique
2021 : mise en production du modèle pour la carte de résident
stage(s) pour la généralisation aux autres versions du TEF
mise en production de la version 2
12/01/2021
23
Ch amb re d e c om me rc e e t di nd ust ri e de ré gi on
Pa ri s Î le -de- Fr an ce
dcasanova@cci-paris-idf.fr
45 Ch amb re d e c om me rc e e t d’i nd ust ri e de gi on Pa ris Î le -de-F ra nc e
ResearchGate has not been able to resolve any citations for this publication.
ResearchGate has not been able to resolve any references for this publication.