Content uploaded by Dominique Labbé
Author content
All content in this area was uploaded by Dominique Labbé on May 22, 2017
Content may be subject to copyright.
1
Dominique LABBE
PACTE (CNRS – Université de Grenoble-Alpes)
dominique.labbe@umrpacte.fr
Qui a écrit quoi ?
L'attribution d'auteur et la distance intertextuelle
(Juillet 2002)
(texte soumis à la revue Corpus)
Résumé :
Compte-rendu d’une expérience d’attribution d’auteur réalisée en aveugle
avec E. Brunet sur 50 textes anonymés extraits de 21 romans. Après
correction et standardisation des graphies, puis lemmatisation, les
distances mutuelles entre tous les couples possibles sont calculées. Les
distances les plus faibles séparent toujours des textes d’un même auteur ;
les distances les plus longues, des textes d’auteurs différents. Cette
première approche est complétée par une classification automatique et par
une classification arborée qui confirment et complètent les attributions.
2
Avertissement (mai 2003)
Au début de l'année 2002, E. Brunet et moi-même, avons organisé en commun,
l'expérience suivante : il m'envoyait une série de textes "anonymés", à charge pour mes
programmes de reconnaître les textes appartenant à un même auteur.
Le compte-rendu qu'on lira ci-dessous a été adressé à E. Brunet en juillet 2002. Au
vu de ces résultats, E. Brunet a mené de son côté sa propre expérience sur ces mêmes
fichiers. Il a rédigé son interprétation qu'il m'a remise en août de la même année. C'est à
ce moment que j'ai pu découvrir les ouvrages et les auteurs sur lesquels portait
l'expérience…
Il ne s'agit donc pas, à proprement dit, d'une "expérience en double aveugle" puisque
j'étais le seul aveugle et que le tiers arbitre manquait. Etant donné l'hostilité d'E. Brunet
à mes formules, procédures et méthodes, il ne pouvait être soupçonné de bienveillance à
mon égard, c'est pourquoi j'ai accepté cette asymétrie et l'absence d'arbitre. Le dossier
complet devait paraître en début 2003 dans la revue du laboratoire de Nice (Corpus).
Les délais s'accumulant, les attaques malveillantes, dont je fais l'objet actuellement,
m'obligent à dévoiler ce texte. Afin de permettre au lecteur de juger du degré de réussite
de mes tests, je place en annexe, la présentation du corpus, telle qu'elle figure dans la
note que m'a fait parvenir d'E. Brunet en août 2002.
E. Brunet m'a refusé l'ajout d'une postface dans laquelle j'aurais aimé souligner
certaines "difficultés" entraînés par ses choix, notamment :
- le Secret de Wilhelm Storitz n’est pas de Jules Verne mais de son fils Michel !
- la vie de Rancé (Chateaubriand) n’est pas du même genre qu’Atala ;
- l’un des extraits du Cousin Pons (Balzac) contient une proportion notable de jargon.
De même, les extraits de De la terre à la lune contiennent beaucoup de mots étrangers.
Or, il avait été convenu que les textes sélectionnés ne contiendraient pas de jargon ni de
mots étrangers (ils augmentent la distance) ;
- M. Brunet a utilisé les "éditions de référence" comportant souvent des "avant-
propos" ajoutés lors des éditions successives — textes parfois très longs, comme dans
Châteaubriand ou Sand — qui ajoutent de la distance, pour un même roman, entre le
premier extrait (où figure cette préface) et le deuxième extrait ;
- le caractère très particulier des six derniers textes.
Dès lors, les "échecs" apparents sont autant de réussites !
Si M. Brunet pense que cette expérience "ne prouve rien", comme il le répète à
l'envi, il pourra publier son propre texte à l'appui de ses dires. A moins de se renier
totalement, il devrait publier le texte qu'il m'a remis en août 2002.
Naturellement, je tiens à la disposition du lecteur sceptique ce texte d’E. Brunet, les
50 fichiers originaux, les fichiers lemmatisés et le programme de calcul de la distance.
3
Dominique LABBE
Qui a écrit quoi ?
L'attribution d'auteur et la distance intertextuelle
(juillet 2002)
Etienne Brunet a bien voulu se prêter à l’expérience suivante : constituer un corpus
de 50 textes anonymés afin de mettre à l'épreuve l'application de la distance
intertextuelle à la question de l’attribution d’auteur
1
. Ce corpus a été préalablement
normalisé et lemmatisé
2
. Le calcul de la distance — présenté par ailleurs dans ce
numéro — est appliqué sur les vocables et non sur les formes graphiques brutes. Il a été
complété par deux expériences de classification.
LA DISTANCE INTERTEXTUELLE
Rappelons que le calcul de la distance entre plusieurs textes réunis en corpus vise à
répondre à la question : quels sont ceux les plus proches et les plus éloignés ? Le calcul
consiste à comparer le vocabulaire des textes, pris deux à deux, en neutralisant les
différences de taille. Une faible distance indiquera que la plus grande partie de la surface
du couple considéré est commune. A l'inverse, plus la distance s'accroît, plus les textes
sont décalés. Les valeurs de l'indice varient entre 0 et 1 :
— une valeur de 0 signifie que les deux textes utilisent le même vocabulaire avec les
mêmes fréquences d'emploi. Il ne s'agit pas forcément d'un décalque exact : les mots
peuvent être placés dans un ordre différent ; les temps des verbes modifiés ou le genre et
le nombre des adjectifs… Autrement dit, deux textes dont la distance est faible, s'ils ne
disent pas la même chose, partagent certainement le même univers intellectuel et sont
écrits dans un style semblable.
— un indice de 1 signifie que les deux textes n'ont aucun mot en commun. Cette
situation est aussi théorique que la précédente car, s'ils utilisent la même langue, les
locuteurs sont condamnés à utiliser les outils de cette langue (déterminants, pronoms,
verbes auxiliaires…) Mais plus on se rapprochera de 1, plus les textes appartiendront à
des genres et à des univers intellectuels différents, plus ils développeront des thèmes
éloignés ;
— un indice de 0,5 signifie que les textes ont en commun la moitié de leur surface.
L'interprétation des résultats doit tenir compte de trois dimensions principales :
En premier lieu, la dimension temporelle : la langue change au cours du temps et ces
changements sont sensibles à l’échelle même d’une vie un peu longue. Certains auteurs
sont un peu comme des paysans qui labourent toujours les mêmes champs et ne sortent
1
Voir en annexe de ce texte, la présentation du corpus, telle qu'elle figure dans l'article d'E. Brunet. Sur la
méthode d'attribution d'auteur : Cyril LABBE et Dominique LABBE, "Inter-Textual Distance and
Authorship Attribution Corneille and Molière", Journal of Quantitative Linguistics, 8-3, December 2001,
p 213-231.
2
Dominique LABBE, Normes de saisie et de dépouillement des textes politiques, Grenoble, Cahier du
CERAT, 1990.
4
pratiquement pas de leur campagne. En cas de thème(s) unique(s), la classification de
leur œuvre risque fort d'être chronologique.
En second lieu, la dimension des genres : la langue offre plusieurs registres possibles,
avec des vocabulaires différents. Il s'agit d'abord de l'opposition entre l'oral et l'écrit
(pour un même auteur, s'exprimant sur un même thème, les textes oraux et écrits sont
habituellement séparés par une distance minimale de 0.3). Au sein de ces deux
catégories, de nombreux genres sont encore possibles (soutenu, familier ; tragédie,
comédie ; scientifique, fiction, romanesque…) En toute rigueur, la comparaison des
distances ne devrait se faire que dans un même registre et un même genre.
Enfin, la dimension thématique : le thème traité entraîne avec lui tout un vocabulaire.
Il y a un lexique de l’amour, de la guerre, de la maladie, des affaires, de la politique, du
crime, des voyages en train, en avion, en bateau…) Naturellement, pour un même
auteur, un changement de thème créé de la distance et, pour des auteurs différents, le fait
de traiter le même thème, à une même époque, engendre une proximité…
L'application de ce calcul, à plus d'un millier de textes de toute nature, nous a permis
d'étalonner l'échelle suivante :
— une distance inférieure ou égale à 0,20 indique que les textes appartiennent aux
mêmes registre et genre, qu'ils ont un thème unique et qu'ils ont été écrits par un seul
auteur. En effet, jusqu'ici, nous n'avons jamais rencontré de textes d'auteurs différents
séparés par une distance aussi faible et il paraît certain que, si le cas devait se présenter,
l'on pourra conclure avec certitude que le second aura plagié le premier ou qu'il l'aura
utilisé comme "nègre"…
— une distance comprise entre 0,20 et 0,25 indique que les textes appartiennent au
même registre mais, s'ils sont d'un même auteur, ils développent des thèmes un peu plus
éloignés ou ont pu être écrits à des époques différentes. S'ils appartiennent aux mêmes
registre et genre, mais sont d'auteurs différents, les thèmes sont encore très proches et
l’on peut soupçonner le plagiat ou de sérieuses "réminiscences". On ne peut cependant
écarter totalement l’hypothèse d’une collision : des auteurs différents, mais s’exprimant
de manière contemporaine sur un même sujet avec les mêmes sources, etc (nous avons
rencontré ce cas dans les corpus de presse pour des articles contemporains et sur un
même sujet) ;
— de 0,25 à 0,35 : pour un même auteur, les textes appartiennent probablement à des
genres ou à des registres différents. En tous cas, les thèmes développés sont assez
éloignés. Pour des textes de même registre et de même genre, mais d'auteurs différents,
les thèmes sont encore assez proches ;
— au-dessus de 0,35 : les auteurs ou les registres sont différents ; pour un même
auteur, dans un même registre : les thèmes ou les époques de rédaction sont éloignés.
Pour nous résumer : la distance entre deux textes est fonction des auteurs, des
époques, des genres et des thèmes.
L'échelle ci-dessus vaut pour des textes de taille supérieure à 1.000 mots et inférieure
à 100.000. De plus, il est préférable de ne pas comparer entre eux des textes ayant des
différences de taille supérieures à 1/12. En dehors de cet intervalle, la distance peut être
5
significativement corrélée à la taille des textes. Le corpus établi par E. Brunet présente
le cas le plus favorable : des textes de dimensions très proches
3
.
Appliqué à ce corpus, le calcul aboutit donc à une matrice de 50 lignes par 50
colonnes dont la reproduction intégrale est évidemment impossible. L’exploitation de
cette matrice peut se faire en deux temps. En premier lieu, on extrait quelques valeurs
remarquables puis on lui applique des procédés de classification automatique.
VALEURS REMARQUABLES
Puisque le jeu consiste à repérer les textes qui sont certainement ou très
probablement d’un même auteur, on peut utiliser l’échelle normalisée qui vient d'être
présentée et rechercher dans la matrice les distances les plus faibles (tableau I ci-
dessous).
Tableau I. Les distances remarquables (inférieures à la moyenne diminuée de deux
écarts-types : auteurs probablement identiques)
Couple distance
02 24 0,195
02 23 0,202
01 23 0,207
23 24 0,209
01 24 0,218
06 28 0,220
05 27 0,224
01 02 0,230
46 47 0,240
48 50 0,244
45 47 0,244
47 49 0,246
47 48 0,248
45 46 0,249
04 26 0,250
46 49 0,250
47 50 0,251
46 48 0,252
45 48 0,253
20 42 0,253
49 50 0,254
46 50 0,254
45 49 0,255
48 49 0,259
16 38 0,260
45 50 0,261
22 44 0,267
11 33 0,269
03 25 0,270
15 37 0,270
14 36 0,274
18 40 0,275
3
La normalisation, la lemmatisation et l'exclusion des signes de ponctuation modifient légèrement la
longueur des textes. Celle-ci varie entre 8108 mots (texte 18) et 9150 (texte 30).
6
Les distances inférieures ou égales à 0.2 permettent d’affirmer avec certitude que
l’auteur est le même ainsi que l’époque à laquelle les textes ont été écrits et, enfin, que
leur genre et leur(s) thème(s) sont semblables. Dans le corpus « Brunet », seuls deux
couples de textes entrent dans cette catégorie de la « certitude raisonnable » : 02 et 23
ainsi que 02 et 24. La distance intertextuelle étant transitive
4
, on peut affirmer avec
certitude que ces trois textes ont le même auteur. De plus le texte 01 étant séparé des
numéros 23, 24 et 02 par une distance à peine supérieure à 0.2, la transitivité permet de
lui appliquer la même conclusion. Ces quatre textes sont donc d’un même auteur
utilisant le même genre et développant des thèmes semblables ou proches…
Pour les distances inférieures ou égales à 0.25, on sort de la « certitude » pour entrer
dans le « très probable ». Soit l’auteur est semblable mais, alors, au moins l’un des
paramètres (genre, thème ou époque) aura légèrement changé. Sinon, l’un des deux
auteurs s'est fortement "inspiré" de l’autre… Dans le corpus « Brunet », une dizaine de
couples de textes se trouvent dans cette situation : 23 et 24 (mais ils sont déjà élucidés) ;
06 et 28 ; 05 et 27 ; 04 et 26 et un groupe de six textes dont les numéros sont compris
entre 45 et 50. Pour ce dernier groupe, la propriété de transitivité évoquée plus haut
permet de subodorer un même auteur, des genres et des thèmes proches, voire
semblables.
Si nous nous plaçons dans une perspective « policière », l’enquête doit s’interrompre
ici. Il peut paraître décevant de n’avoir pu « marier » que 16 textes alors que, très
probablement, E. Brunet a glissé beaucoup plus de « couples » dans ce corpus ! Mais,
pour reprendre la métaphore policière, il est important de disposer d’outils qui désignent
les coupables avec certitude, même si l’on doit, pour cela, laisser échapper certains
« suspects». Telle est la raison pour laquelle nous avons étalonné notre échelle de
manière restrictive en fixant des seuils sévères. A ce prix, nous disposons d’une
méthode répondant au problème principal de l’attribution d’auteur qui est de pouvoir
conclure avec un haut degré de certitude.
Toutefois, nous nous trouvons ici devant un corpus. Nous pouvons soupçonner qu’il
a été construit selon une certaine logique. Nous proposons de retrouver cette logique en
procédant en deux temps.
Tout d’abord, examinons les valeurs centrales. La distance moyenne est de 0,377.
L'écart-type autour de cette moyenne de 0,053 (ce qui donne un coefficient de dispersion
relative de 14,1 %). Ces valeurs indiquent que :
— en moyenne, les textes sont nettement différents les uns des autres — ce qui
permet d’écarter absolument l’hypothèse d’un auteur unique, voire celle d’un petit
nombre d’auteurs contemporains. A l’inverse, on peut être certain que ces textes ont été
écrits à des époques éloignées, qu’ils développent des thèmes différents, ou encore
qu’ils appartiennent à plusieurs genres littéraires… Ces variables pouvant naturellement
additionner leurs effets ou se neutraliser en partie. En effet, les moyennes obtenues sur
d'autres corpus comportant un grand nombre d’auteurs différents — les discours des
Premiers ministres sur un demi-siècle, les articles de la presse économique et sociale…
— font apparaître des moyennes plus basses.
— l’écart-type indique une variation relativement importante autour de cette
moyenne (ou encore une dispersion assez forte). Cette valeur permet d’élargir un peu
4
Sur les propriétés de la distance intertextuelle, on se reportera à l'article de présentatioN…
7
nos investigations. En effet, pour ce corpus, on peut considérer comme « remarquables »
— c'est-à-dire que l'on peut déclarer "anormales" avec moins de 5% de chances de se
tromper — les distances qui sortent de la plage de variation "normale" autour de la
moyenne (± deux écarts type), c’est-à-dire inférieures 0,275 ou supérieures à 0,50
(Tableaux 1 et 2)..
Ceci permet de récupérer, toujours avec une probabilité élevée, quelques couples
supplémentaires : 20 et 42 ; 16 et 38 ; 22 et 44 ; 11 et 33 ; 03 et 25 ; 15 et 37 ; 14 et 36 ;
18 et 40… Sous réserve de confirmation par E. Brunet, la méthode permet donc de
« marier » en "couples certains" — c'est-à-dire avec moins de 5% de chances de se
tromper — 32 des 50 textes, ce qui n’est pas un si mauvais résultat…
A l’opposé de la plage de variation « normale », et sous réserve que le corpus ne
mélange pas de l’oral et de l’écrit, on peut aussi rejeter absolument certains mariages
(tableau II ci-dessous)..
Tableau II. Les couples de textes les plus éloignés. Distances supérieures à la moyenne
augmentée de deux écarts type (auteurs très probablement différents)
Couple distance
01 15 0,495
02 09 0,495
09 34 0,495
23 36 0,495
05 17 0,496
14 27 0,496
27 36 0,498
14 23 0,499
09 24 0,501
10 34 0,501
02 36 0,502
10 23 0,503
05 37 0,503
05 10 0,504
19 27 0,504
34 41 0,505
27 35 0,505
01 36 0,506
05 09 0,508
05 13 0,509
09 23 0,509
01 19 0,510
15 27 0,510
15 23 0,511
01 41 0,511
24 41 0,512
02 19 0,513
02 41 0,514
19 24 0,515
19 34 0,516
05 41 0,516
05 35 0,526
23 41 0,526
05 36 0,534
05 15 0,534
05 19 0,535
05 14 0,535
19 23 0,536
8
Remarques :
— le seuil de 0.5 fixé dans notre échelle pré-étalonnée se trouve empiriquement
vérifié. Sous réserve d’une validation par E. Brunet, une distance supérieure à ce seuil
permet de conclure avec certitude que les auteurs sont différents. En effet, il peut être
aussi utile d’écarter une hypothèse que de la valider. Pour reprendre la métaphore
policière, l’enquêteur va pouvoir écarter avec certitude certains « suspects »…
— si le corpus avait été constitué de 25 auteurs différents, nous aurions pu à ce stade,
« marier » la quasi-totalité des textes, en combinant les associations et les exclusions.
Mais les cas {01-02-23-24} et {45-46-47-48-49-50} signalent que certains auteurs ont
très probablement plus de deux textes dans le corpus, ce qui complique la recherche…
— il reste donc une « zone grise » où se trouvent encore un nombre important de
« suspects » potentiels. D’autres instruments plus sophistiqués sont nécessaires pour
apporter un peu de lumière dans cette zone grise.
Avant d’examiner ces instruments, on signalera que la matrice des distances apporte
beaucoup d’autres informations intéressantes. Par exemple, imaginons que nous ayons
traité un échantillon "représentatif" prélevé aléatoirement dans une base de données
contenant "toute" la littérature française. Chacun des échantillons forme un point du
nuage dont les coordonnées sont définies par les distances le séparant de tous les autres.
On peut classer chacun des échantillons en fonction de sa distance par rapport au centre
de gravité du nuage, du plus central au plus périphérique (tableau III ci-dessous).
Tableau III. Position de chaque texte par rapport à tous les autres
Les 20 textes les plus centraux
N° Titre Distance au centre G
1 Tex46 0,330
2 Tex50 0,330
3 Tex47 0,330
4 Tex48 0,333
5 Tex45 0,333
6 Tex49 0,335
7 Tex22 0,353
8 Tex21 0,355
9 Tex04 0,356
10 Tex25 0,357
11 Tex12 0,359
12 Tex03 0,364
13 Tex11 0,361
14 Tex33 0,361
15 Tex30 0,365
16 Tex43 0,365
17 Tex38 0,366
18 Tex44 0,366
19 Tex16 0,367
20 Tex26 0,367
Les 20 textes les plus décalés
N° Titre Distance au centre G
25 Tex24 0,3928
26 Tex28 0,3929
27 Tex01 0,3939
28 Tex06 0,3962
29 Tex31 0,3965
30 Tex39 0,3965
31 Tex35 0,3978
32 Tex29 0,3994
33 Tex34 0,3998
34 Tex27 0,4039
35 Tex08 0,4040
36 Tex23 0,4052
37 Tex15 0,4076
38 Tex14 0,4095
39 Tex10 0,4119
40 Tex36 0,4168
41 Tex09 0,4176
42 Tex19 0,4298
43 Tex05 0,4306
44 Tex41 0,4379
9
Par exemple, il est intéressant de constater que les six derniers textes, qui ont été
identifiés comme ayant très probablement un même auteur, sont également les plus
centraux et qu’ils sont situés quasiment à la même distance du centre du nuage. En
quelque sorte, ces 6 textes comportent le plus grand nombre de mots communs à tous
les autres, ou à une partie importante d’entre eux et, de plus, ces mots « communs » se
trouvent en proportion à peu près semblable dans chacun de ces textes… Ils sont donc
très singuliers et, probablement pas tout à fait de même nature que les autres. Pour en
savoir plus concernant ces individus à la fois « étranges » et si ressemblants, il faudrait
examiner leurs vocabulaires, ce qui sort de cette étude.
L’examen direct de la matrice des distances apporte donc déjà un grand nombre
d’informations mais laisse en suspens un certain nombre de cas. Pour les résoudre, on
peut avoir recours à la classification automatique.
CLASSIFICATIONS
Deux classifications ont été opérées sur la matrice des distances : la procédure
classique (classification automatique) et l’analyse arborée.
La classification automatique ascendante est opérée sur la matrice des distances.
L'algorithme procède à la construction d'une classe en regroupant les deux textes séparés
par la distance la plus faible (ici 02 et 24), puis il recalcule les distances des autres
textes par rapport à ce nouvel ensemble, etc. Et ceci jusqu'à la constitution d'un
ensemble unique. Ces regroupements successifs — par la technique dite de la
« moyenne simple avec saut minimal" — sont représentés par un « dendogramme »
(tableau IV). L'ordre d'agrégation se lit de gauche — les textes les plus proches — à
droite (les textes les plus singuliers ou les plus éloignés des autres) et les distances
correspondantes aux différents niveaux d'agrégation se lisent en ordonnées.
La distance est indiquée sur l'axe vertical : plus la jonction entre deux traits est élevée
plus les textes ou groupes de textes sont éloignés. En coupant le graphe,
horizontalement et au plus près de l'un des seuils mentionnés ci-dessus, on pourra isoler
les groupes de textes très proches, relativement proches, etc. Ces groupes étant isolés,
on pourra étudier en quoi leurs vocabulaires diffèrent grâce à l'étude de leurs
spécificités. On notera que, plus l'on s'élève dans le graphe, plus les classes constituées
sont hétérogènes et plus l'interprétation des différences deviendra complexe. D’où
plusieurs lectures possibles selon la hauteur à laquelle on se place sur la graphe.
Au niveau "micro" (au plus près de l’axe horizontal), l'algorithme a repéré plusieurs
choses :
— un bloc constitué des quatre documents que l’on a attribués au même auteur (A) ;
— un autre bloc constitué des six derniers textes (45 à 50) que l’on peut aussi très
probablement considérer comme du même auteur (nous avons souligné plus haut
l’étrangeté de ces textes par rapport au reste du corpus)…
— les autres textes sont groupés en 20 "paires" et l’algorithme ne laisse aucun
"orphelin". On peut donc affirmer que le corpus comporte probablement 22 ou 23
auteurs différents et/ou extraits de 22 ou 23 textes différents.
10
Tableau IV. Classification automatique sur les 50 textes
.15
.20
.25
.30
.35
.40
.45
B C E F G H I J K L M N O P Q R S T U V
AD
De gauche à droite :
F 03 - 25
O 08 - 30
A 02 - 24
G 11 – 33
P 07 - 29
01 – 23
H 22 - 44
Q 15 - 37
B 05 - 27
I 21 - 43
R 13 - 35
C 06 - 28
J 12 - 34
S 14 - 36
D 46 – 47
K 20 - 42
T 09 - 31
45 - 49
L 16 - 38
U 10 - 32
48 - 50
M 18 - 40
V 19 - 41
E 04 - 26
N 17 - 39
11
Comme nous l’avons indiqué ci-dessous, certaines paires peuvent être attribuées
avec un degré raisonnable de certitude au même auteur. Pour d’autres, le groupement
est réalisé « par défaut » : c’est l’hypothèse la plus probable mais, plus le nœud est situé
haut, plus la conclusion devra être tirée avec prudence. C’est le cas notamment pour les
couples J et U dont les "jambes" se rejoignent au-dessus de 0.3 et qui sont donc
fortement hétérogènes.
Au niveau « meso » — les nœuds immédiatement supérieurs aux paires — les
conclusions sont beaucoup moins solides tant ces agrégations s’opèrent haut dans le
graphe. On peut soupçonner un même auteur — ou des auteurs différents écrivant à la
même époque et sur des thèmes assez proches — dans {H-I} puis, de façon moins
certaine, dans les ensembles {D-E-F}, {A-B-C}, {L-M-N}, {Q-R-S}. De même, en
utilisant le raisonnement par défaut discuté ci-dessus, on peut également « marier » : O
avec P ainsi que les paires T et U ;
Enfin, au niveau "macro", on peut distinguer quelques grands groupes. Globalement,
trois vastes ensembles s'opposent. Le premier va de A à C ; le second de D à P et le
troisième de Q à U. Seuls se placent nettement à l'écart les deux textes formant le
couple V (19-41) qui est manifestement "à part" dans ce corpus. A ce niveau macro,
plusieurs conclusions sont possibles : si l’on subodore un même auteur, ces textes n’ont
pas été écrits à la même époque, le genre ou les thèmes traités sont divers. L’existence
de plusieurs auteurs demeure l’hypothèse la plus probable. Sont-ils regroupés à cause de
leur écriture ? du genre ? des époques ? D’autres outils que nous ne pouvons décrire ici
— comme les spécificités du vocabulaire, les syntagmes répétés, les structures de
phrases… — devront être utilisés pour répondre à ces questions et expliquer les
proximités relatives, les principales oppositions.
Du point de vue méthodologique, on remarquera que la classification automatique
traditionnelle produit des "effets de chaîne". Certaines proximités entre textes ne sont
pas discernables car les sommets qui les relient sont effacés par des agrégations
effectuées à un niveau inférieur (autrement dit quand un texte est "marié" à un autre, on
recalcule la distance de ce "couple" à tous les autres, de telle sorte que les liens existant
entre l'un ou l'autre des membres de ce couple avec un "tiers" sont effacés). L'arbre ne
doit donc pas être utilisé aveuglément. L'appartenance de chacun des textes à une classe
donnée doit éventuellement être contrôlée sur la matrice des distances. Il n'est pas
mauvais non plus de recalculer la distance moyenne de chacun des textes à l'ensemble
de ses "voisins" supposés. Cette réserve admise, l'algorithme correspond exactement à
ce que nous cherchons : une technique exploratoire permettant de repérer dans un
corpus des "familles" de textes plus ou moins homogènes. Pour aller plus loin, il faut
recourir à des outils plus sophistiqués comme l'analyse arborée.
12
L’ANALYSE ARBOREE
L'algorithme mis au point par Xuan Luong combine l'analyse topologique et la
classification arborée
5
. Il s’agit d’obtenir, dans un plan, la meilleure représentation
possible des distances de chacun des textes à tous les autres. Chaque texte est représenté
par une feuille terminale de l’arbre. La distance qui le sépare d’un autre est matérialisée
par la longueur du chemin à parcourir sur l’arbre pour unir ces deux textes. Les textes
qui sont rattachés à un même nœud forment des groupes plus ou moins homogènes en
fonction de la longueur des branches (tableaux V et VI).
Tableau V. Analyse arborée sur les distances originales du corpus "Brunet".
Le premier graphe a été établi avec les distances "brutes" et donne une étoile presque
parfaite mais il permet déjà de confirmer certaines conclusions déjà acquises. Par
exemple, au bas du diagramme et au plus près du centre, on trouve le groupe formé par
les 6 derniers textes {45 à 50} ou, dans le quart sud-est, le "quatuor" {01-02-23-24} qui
a été reconnu comme étant certainement du même auteur. Pour le reste, on retrouve la
structure par couples qui a déjà été identifiée, les branches se rejoignant plus ou moins
près du centre en fonction de la distance relative séparant les deux textes attribués au
même auteur (ainsi le couple formé des textes 19 et 41 est à la fois le plus hétérogène et
le plus décalé par rapport au centre comme nous l'avions déjà constaté sur le
dendrogramme).
5
Jean-Pierre Barthelémy, Alain Guénoche, Les arbres et les représentations des proximités, Paris, Masson, 1988.
Jean-Pierre Barthelémy, Xuan Luong, “Représenter les données textuelles par des arbres”, in Sylvie Melley (ed), 4e
journées internationales d'analyse statistique des données textuelles, Université de Nice, 1998, p. 49-71. Xuan
Luong, “L’analyse arborée des données textuelles : mode d’emploi”, CUMFID, 1994, 16, p 25-42.
13
Tableau VI. Analyse arborée sur les distances diminuées de 0.19.
45
46
47
48
50
49
25
3
42
20
1
2
23
24
6
28
35
37
29
9
31
16
38
11
33
E
D
C
B
A
Le second graphe (tableau 6) opère une sorte de "grossissement". L'algorithme de X.
Luong utilise le “théorème” selon lequel la topologie de l'arbre est inchangée lorsque
l'on retranche de toutes les distances une quantité légèrement inférieure à la plus petite
d’entre elles, ici celle du groupe {02-24} soit 0,19 (de même que, dans le
dendrogramme ci-dessus, l'origine est placée à cette distance minimale). Pour les arbres,
cette opération ne change rien à la disposition des textes dans le plan, mais elle réduit la
longueur des branches reliant les “feuilles” terminales — les feuilles les plus proches
apparaissent maintenant comme un point unique (01-02-23-24 et 05-27) — et elle
grossit les “troncs”, c’est-à-dire les sections unissant les principaux nœuds.
Naturellement, le "grossissement" obtenu ne doit pas faire oublier la relative
"équidistance" des couples mise en valeur dans le graphe précédent.
Le graphe fait apparaître une série de groupes remarquables. Outre celui formé par
les 6 derniers textes (A) qui figure au plus près du nœud central, on identifie quatre
ensembles assez nettement séparées et qui confirment la plupart des conclusions tirées
de la classification automatique.
— B : dans le quart sud-est, au groupe {01-02-23-24} viennent se joindre {06-28,
12-34, 05-27} et {21-43, 22-44} ;
— le groupe C constitue la famille la plus hétérogène (les chemins reliant ces feuilles
sont les plus longs et les branches se rejoignent quasiment au centre du graphe) : {03-
25, 04-26} {20-42}, {11-33} ;
— D regroupe : {07-29-08-30} avec {09-31-10-32} et {19-41}, ce dernier couple
restant le plus éloigné du nœud central ;
14
— E rassemble {14-36-13-15-35-37} avec {17-39, 18-40, 16-38} et constitue une
famille relativement homogène mais aussi nettement décalée par rapport au nœud
central ;
La moisson est donc sensiblement plus riche qu'avec la classification automatique
classique mais elle se heurte aux mêmes limites en ce qui concerne l'interprétation de
ces grandes familles de textes. L'analyse devra donc se poursuivre avec d'autres
instruments lexicométriques que nous renonçons à évoquer pour ne pas nous écarter de
la question posée.
CONCLUSIONS
Le lecteur trouvera dans la partie rédigée par E. Brunet les éléments qui lui
permettront de juger la fiabilité de notre méthode en substituant aux numéros, les
auteurs et les titres des extraits correspondant
6
.
En ce qui concerne l'attribution d'auteur, nous rappellerons que nous cherchons à
conclure à coup sûr, quitte à conclure moins souvent. Il ne s'agit pas de reconnaître tous
les auteurs mais de ne pas se tromper quand on en reconnaît un… Naturellement, des
expériences comme celle qui vient d'être présentée permettront d'améliorer les résultats
et d'étudier en détail les propriétés de la distance.
La principale caractéristique de ce corpus demeure la relative "équidistance" entre
tous ces textes. Cependant, l'arbre fait mieux ressortir que le dendrogramme un certain
nombre d' "affinités" pour lesquelles il est évidemment impossible de trancher entre les
quatre facteurs principaux qui agissent sur la distance : auteur, époque, genre et
thème… En fonction des éléments révélés par E. Brunet, il sera possible de réfléchir
aux moyens de neutraliser l'un ou l'autre de ces facteurs — notamment auteurs et
époques — ce qui permettra de faire apparaître des "familles littéraires", des "filiations",
etc.
La taille relativement limitée des extraits n'autorisera sans doute pas de conclusions
définitives sur les textes et les auteurs en question. Cependant, si notre analyse ne
contient pas d'aberrations, on aura prouvé que, au-delà de la question de l'attribution
d'auteur qui nous intéressait ici, la classification automatique combinée avec la distance
intertextuelle pourra être un outil intéressant pour la critique littéraire.
6
Le texte que l'on vient de lire est le compte-rendu que nous avons adressé à Etienne Brunet à la fin de
l'expérience. Certes, nous aurions facilité la tâche du lecteur en fusionnant nos deux articles et levant
l'anonymat des textes, mais, à la réflexion, il nous a semblé préférable de permettre au lecteur de juger
"sur pièces".
15
Tableau 1. La composition du corpus
NUMÉRO TITRE AUTEUR TEXTE EXTRAIT
N° 1 1Marivaux Marivaux La Vie de Marianne (L.1) 1
N° 2 2Marivaux Marivaux Le Paysan parvenu (L.1) 1
N° 3 1Voltaire Voltaire Zadig 1
N° 4 2Voltaire Voltaire Candide 1
N° 5 1Rousseau Rousseau La Nouvelle Héloïse (L.1) 1
N° 6 2Rousseau Rousseau Emile (L.5) 1
N° 7 1Chateaub Chateaubriand Atala 1
N° 8 2Chateaub Chateaubriand La Vie de Rancé 1
N° 9 1Balzac Balzac Les Chouans 1
N° 10 2Balzac Balzac Le Cousin Pons 1
N° 11 1Sand Sand Indiana 1
N° 12 2Sand Sand La Mare au diable 1
N° 13 1Flaubert Flaubert Madame Bovary 1
N° 14 2Flaubert Flaubert Bouvard et Pécuchet 1
N° 15 1Maupass Maupassant Une Vie 1
N° 16 2Maupass Maupassant Pierre et Jean 1
N° 17 1Zola Zola Thérèse Raquin 1
N° 18 2Zola Zola La Bête humaine 1
N° 19 1Verne Verne De la terre à la lune 1
N° 20 2Verne Verne Secrets de Wilhelm Storitz 1
N° 21 1Proust Proust Du côté de chez Swann 1
N° 22 2Proust Proust Le Temps retrouvé 1
N° 23 3Marivaux Marivaux La Vie de Marianne (L.1) 1
N° 24 4Marivaux Marivaux Le Paysan parvenu (L.1) 2
N° 25 3Voltaire Voltaire Zadig 2
N° 26 4Voltaire Voltaire Candide 2
N° 27 3Rousseau Rousseau La Nouvelle Héloïse (L.1) 2
N° 28 4Rousseau Rousseau Emile (L.5) 2
N° 29 3Chateaub Chateaubriand Atala 2
N° 30 4Chateaub Chateaubriand La Vie de Rancé 2
N° 31 3Balzac Balzac Les Chouans 2
N° 32 4Balzac Balzac Le Cousin Pons 2
N° 33 3Sand Sand Indiana 2
N° 34 4Sand Sand La Mare au diable 2
N° 35 3Flaubert Flaubert Madame Bovary 2
N° 36 4Flaubert Flaubert Bouvard et Pécuchet 2
N° 37 3Maupass Maupassant Une Vie 2
N° 38 4Maupass Maupassant Pierre et Jean 2
N° 39 3Zola Zola Thérèse Raquin 2
N° 40 4Zola Zola La Bête humaine 2
N° 41 3Verne Verne De la terre à la lune 2
N° 42 4Verne Verne Secrets de Wilhelm Storitz 2
N° 43 3Proust Proust Du côté de chez Swann 2
N° 44 4Proust Proust Le Temps retrouvé 2
N° 45 Te45 Te45 page 1 de tous les textes
N° 46 Te46 Te46 page 10 de tous les textes
N° 47 Te47 Te47 page 20 de tous les textes
N° 48 Te48 Te48 page 30 de tous les textes
N° 49 Te49 Te49 page 40 de tous les textes
N° 50 Te50 Te50 page 50 de tous les textes