Content uploaded by Laurent Gautier
Author content
All content in this area was uploaded by Laurent Gautier on Nov 27, 2020
Content may be subject to copyright.
Extraire des patterns pour améliorer
l’idiomaticité de résumés semi-
automatiques en finances :
le cas du lexique support
Abdelghani LAIFA TIL EA4182, LIB EA7534
Laurent Gautier TIL EA4182
Christophe CRUZ LIB EA7534
Structure de la présentation
2
1. Problématique et objectifs
2. Présentation du corpus
3. Limites de l’extraction de patterns termino-
centrés
4. Rédaction automatique de résumés
5. Expérimentation
6. Evaluation
Conclusion
1. Problématique et objectifs
3
•Croisement entre
–approches des textes spécialisés par delà l’unité-
mot isolée
–développements actuels de résumé automatique
de texte par apprentissage profond
•Deux questions de recherche en synergie :
•comment extraire les patterns de mots dans leur
environnement proche ?
•comment ces patterns améliorent-ils l’idiomaticité
des résumés automatiques ?
2. Corpus
4
•Texte sériel : Bulletin mensuel de la Banque de
France
•Domaines : Macroéconomie, finances,
politiques publiques
3. Limites de l’extraction de patterns termino-centrés
5
•Tendance globa le au dépasseme nt d es unités terminologiq ues
isolées : extension du champ phraséologique
•3 grands paradigmes dans la recherche récente :
–Théorie des scénarios / frame semantics : représentation organisée
des connaissances liées à un concept, résultat de l’expérience du
locuteur => retombées sur combinatoires et figement
–Modèles des patterns/schémas avec suspension de la dichotomie
lexique-syntaxe
“The typical linguistic features of ESP cannot be characterised as a list of
discreet items (technical terminology, the passive, hedging, impersonal
expressions, etc.), rather the most typical features of ESP texts are chains
of meaningful interlocking lexical and grammatical structures, which we
have called lexico-grammatical patterns”. (Gledhill/Kübler 2016, 75)
6
–Grammaire(s) de construction : degré ultime d’abstraction
du modèle des frames/scénarios => permettent de
modéliser avec un haut degré de granularité l’interface
syn-taxe-sémantique.
3.1 De l’extraction terminologique aux collocations
7
•Extraction des termes mono-et polylexicaux
•Extraction systématique des combinatoires récurrentes
•Mise au jour d’un frame de comparaison, comme dans :
•Modélisation possible par extraction systématique des N et V
présents dans le répertoire :
3.2 Le poids du lexique support
8
•Extraction systématique révèle l’articulation des
combinatoires figées avec du lexique-grammaire non saisi par
une approche strictement termino
•«Lexique support » directement lié avec le scénario de
comparaison précédent
•Dimension 1 : découpage chronologique des
tendances/évolutions de la comparaison => aspect comme
dans :
9
•Dimension 2 : mise en discours du caractère prospectif et
incertain des prévisions => modalisation / évidentialité,
comme dans :
•Idiomaticité »de spécialité » va dépendre aussi de la prise en
compte de ces deux dimensions dans la rédaction des
résumés
=> Introduction des « points d’attention » dans le système d’IA
4. Méthode informatique proposée
pour la rédaction automatique des résumés
•Extraction des patterns avec CamemBERT
•Evaluation du modèle CamemBERT ajusté
•Augmentation des données
10
1ère partie
2ème partie
5. Expérimentation
5.1 Extraction des patterns avec CamemBERT
11
12
•Encodeur –décodeur
•Auto-attention
•Exemple
13
•PCA et visualisation
des schémas
lexico-grammaticaux
5.2 Augmentation des données
•Exemple
14
15
CamemBERT
(Original)
ROUGE-1 ROUGE-2 ROUGE-3 ROUGE-4 ROUGE-L
0.435484 0.105691 0.032787 0.016529 0.227700
CamemBERT
(Ajusté)
0.530120 0.323887 0.269388 0.255144 0.420348
6. Evaluation du modèle CamemBERT ajusté
ROUGE (Recall-Oriented Understanding for Gisting Evaluation) est une
métrique utilisée en traitement automatique du langage pour évaluer le résumé
automatique des textes.Cette métrique compare un résumé produit
automatiquement àune référence ou àun ensemble de références qualifié (Les
rapports mensuels de la Banque de France pour notre cas).
16
Conclusion
Le lexique support et les patterns lexico-grammaticaux seront les paramètres
de la deuxième partie de notre méthode dont l’objet est l’augmentation des
données permettant ainsi l’ajustement fin du modèle de rédaction de résumé par
approche abstractive pour améliorer l’idiomaticité des résumés générés.La
méthode d’augmentation n’est pas présentée ici et fera l’objet de travaux futurs.