Conference PaperPDF Available

Extraire des patterns pour améliorer l’idiomaticité de résumés semi-automatiques en finances : le cas du lexique support

Authors:

Abstract

This paper presents a work aiming at developing a semi-automatic drafting system for summaries of economic and financial texts, paying particular attention to the idiomaticity and fluency of the target language. To do so, the study starts from the analysis of a corpus of periodical reports of the Banque de France. Linguistic work shows that the writing of summaries that focuses solely on terminological and collocational extraction ignores a whole range of vocabulary, which is captured here as a "support lexicon", playing an important role in the cognitive organization of the field. On this basis, this work in deep learning discusses the relevance of our lexico-grammatical pattern extracting method using the self-attention mechanism, and its impact on guiding Cam-emBERT abstractive summarization model through data augmentation. A first experimentation using the corpus under consideration and focusing the extraction method is presented.
Extraire des patterns pour améliorer
l’idiomaticité de résumés semi-
automatiques en finances :
le cas du lexique support
Abdelghani LAIFA TIL EA4182, LIB EA7534
Laurent Gautier TIL EA4182
Christophe CRUZ LIB EA7534
Structure de la présentation
2
1. Problématique et objectifs
2. Présentation du corpus
3. Limites de l’extraction de patterns termino-
centrés
4. Rédaction automatique de sumés
5. Expérimentation
6. Evaluation
Conclusion
1. Problématique et objectifs
3
Croisement entre
approches des textes spécialisés par delà l’unité-
mot isolée
développements actuels de résumé automatique
de texte par apprentissage profond
Deux questions de recherche en synergie :
comment extraire les patterns de mots dans leur
environnement proche ?
comment ces patterns améliorent-ils l’idiomaticité
des résumés automatiques ?
2. Corpus
4
Texte sériel : Bulletin mensuel de la Banque de
France
Domaines : Macroéconomie, finances,
politiques publiques
3. Limites de l’extraction de patterns termino-centrés
5
Tendance globa le au dépasseme nt d es unités terminologiq ues
isolées : extension du champ phraséologique
3 grands paradigmes dans la recherche récente :
Théorie des scénarios / frame semantics : représentation organisée
des connaissances liées à un concept, résultat de l’expérience du
locuteur => retombées sur combinatoires et figement
Modèles des patterns/scmas avec suspension de la dichotomie
lexique-syntaxe
“The typical linguistic features of ESP cannot be characterised as a list of
discreet items (technical terminology, the passive, hedging, impersonal
expressions, etc.), rather the most typical features of ESP texts are chains
of meaningful interlocking lexical and grammatical structures, which we
have called lexico-grammatical patterns”. (Gledhill/Kübler 2016, 75)
6
Grammaire(s) de construction : degré ultime d’abstraction
du modèle des frames/snarios => permettent de
modéliser avec un haut degré de granularité l’interface
syn-taxe-sémantique.
3.1 De l’extraction terminologique aux collocations
7
Extraction des termes mono-et polylexicaux
Extraction systématique des combinatoires récurrentes
Mise au jour d’un frame de comparaison, comme dans :
Modélisation possible par extraction systématique des N et V
présents dans le répertoire :
3.2 Le poids du lexique support
8
Extraction systématique révèle l’articulation des
combinatoires figées avec du lexique-grammaire non saisi par
une approche strictement termino
«Lexique support » directement lié avec le scénario de
comparaison précédent
Dimension 1 : découpage chronologique des
tendances/évolutions de la comparaison => aspect comme
dans :
9
Dimension 2 : mise en discours du caractère prospectif et
incertain des prévisions => modalisation / évidentialité,
comme dans :
Idiomaticité »de spécialité » va dépendre aussi de la prise en
compte de ces deux dimensions dans la rédaction des
résumés
=> Introduction des « points d’attention » dans le système d’IA
4. Méthode informatique proposée
pour la rédaction automatique des résumés
Extraction des patterns avec CamemBERT
Evaluation du modèle CamemBERT ajusté
Augmentation des données
10
1ère partie
2ème partie
5. Expérimentation
5.1 Extraction des patterns avec CamemBERT
11
12
Encodeur décodeur
Auto-attention
Exemple
13
PCA et visualisation
des schémas
lexico-grammaticaux
5.2 Augmentation des données
Exemple
14
15
CamemBERT
(Original)
ROUGE-1 ROUGE-2 ROUGE-3 ROUGE-4 ROUGE-L
0.435484 0.105691 0.032787 0.016529 0.227700
CamemBERT
(Ajusté)
0.530120 0.323887 0.269388 0.255144 0.420348
6. Evaluation du modèle CamemBERT ajus
ROUGE (Recall-Oriented Understanding for Gisting Evaluation) est une
métrique utilisée en traitement automatique du langage pour évaluer le résumé
automatique des textes.Cette métrique compare un résumé produit
automatiquement àune référence ou àun ensemble de références qualifié (Les
rapports mensuels de la Banque de France pour notre cas).
16
Conclusion
Le lexique support et les patterns lexico-grammaticaux seront les paramètres
de la deuxième partie de notre méthode dont l’objet est l’augmentation des
données permettant ainsi l’ajustement fin du modèle de rédaction de résumé par
approche abstractive pour améliorer l’idiomaticité des résumés générés.La
méthode d’augmentation n’est pas présentée ici et fera l’objet de travaux futurs.
Merci pour votre attention !
Abdelghani LAIFA
(Abdelghani_laifa@etu.u-bourgogne.fr)
Laurent GAUTIER
(Laurent.Gautier@u-bourgogne.fr)
Christophe CRUZ
(christophe.cruz@u-bourgogne.fr)
17
Chapter
The present work aims to develop a text summarisation system for financial texts with a focus on the fluidity of the target language. Linguistic analysis shows that the process of writing summaries should take into account not only terminological and collocational extraction, but also a range of linguistic material referred to here as the “support lexicon”, that plays an important role in the cognitive organisation of the field. On this basis, this paper highlights the relevance of pre-training the CamemBERT model on a French financial dataset to extend its domain-specific vocabulary and fine-tuning it on extractive summarisation. We then evaluate the impact of textual data augmentation, improving the performance of our extractive text summarisation model by up to 6%–11%.
ResearchGate has not been able to resolve any references for this publication.