Conference PaperPDF Available

Norme et variation à l'âge des corpus informatisés pour les langues régionales de France

Authors:
  • Interdisciplinary Laboratory of Digital Sciences
Conference Paper

Norme et variation à l'âge des corpus informatisés pour les langues régionales de France

Abstract

On peut distinguer la diversité entre les langues et la variation à l’intérieur des langues, la variation soulevant assez vite la question de la norme. On peut distinguer au moins deux types de normes : une norme statistique, établie par des faits quantifiables, et une norme prescriptive, formation culturelle constituée de choix sociaux. En l’absence de norme prescriptive acceptée par tous, une grande variation règne dans les langues régionales minor(is)ées de France, notamment aux niveaux lexical, orthographique et phonétique. Nous prendrons l’exemple du corse, de l’occitan et du catalan (roussillonnais), langues dans lesquelles nous avons mené de nombreuses enquêtes de terrain et enregistré une centaine d’informateurs — une centaine d’heures de parole. Standardiser les langues régionales de France : si la faisabilité de l’entreprise a longtemps posé question, elle s’avère aujourd’hui relativement bien avancée, mais la question de son acceptabilité par les acteurs mêmes demeure. Le caractère polynomique (tolérant vis-à-vis de la variation) de la langue est en principe bien admis pour le corse, langue pour laquelle le concept a été initialement élaboré. Dans la pratique, évidemment, ce n’est pas sans poser de problèmes. Dans le domaine d’oc, même la dénomination « occitan » n’est pas toujours bien perçue par certains, comme c’est par exemple le cas en Provence, où se manifeste fréquemment un attachement particulier à la graphie mistralienne, plus phonétique que la graphie alibertine (standardisée) de l’occitan, également dite « classique », héritière d’une longue tradition scripturale. Quoiqu’il en soit, la recherche d’une graphie intégralement phonétique, attestée par exemple dans les productions d’auteurs dits « patoisants », trouve vite ses limites, dès qu’on sort d’un cadre strictement local puisqu’elle se heurte à une importante variation, qui est immédiatement audible. Elle complique également les comparaisons avec d’autres parlers, même voisins. Cependant, certains locuteurs de langues minorisées rejettent une standardisation excessive, car ils ne retrouvent pas leur langue (celle de l’immédiateté, du quotidien, de la famille, de la connivence) dans des néo-standards ressentis comme des constructions savantes. Si elle ne bénéficie pas de l’adhésion de la majorité des locuteurs, la standardisation risque donc de tuer une deuxième fois (ou définitivement) des langues dont la chaîne de transmission est en grande partie interrompue ou menacée. Sans nécessairement prendre parti vis-à-vis de cette attitude symptomatique d’une nouvelle diglossie, il faut prendre garde à ne pas se couper des usages réels. N’est-ce pas seulement depuis un peu plus d’un siècle que l’orthographe française s’est figée, alors que le français peut se prévaloir d’une littérature bien plus ancienne ? Les solutions proposées à ce problème, qui s’est posé à d’autres pour des langues comme le breton, divers créoles, l’alsacien ou le francique mosellan (luxembourgeois), en général moins normés que le français, sont diverses et relèvent souvent d’idéologies distinctes, parfois opposées, ce qui rend le sujet épineux. Il faut, selon nous, rester pragmatique, selon les finalités que l’on poursuit. Les questions d’aménagement linguistique et d’action glottopolitique sont passionnantes, mais dépassent sans doute le cadre de cette communication. Pour répondre à divers enjeux (patrimoniaux, pédagogiques…), toutefois, a fortiori pour envisager un traitement automatisé, un minimum de conventions orthographiques s’impose. Des recherches dans des textes, le calcul de statistiques lexicales, notamment, nécessitent des critères de transcription orthographique cohérents. Nous considérerons différents cas d’école pour aborder les problèmes théoriques et pratiques que pose la transcription de l’oral, dans les trois langues régionales que nous avons étudiées. Nous proposerons quelques pistes concrètes à partir des enregistrements audio que nous avons réalisés, en particulier des traductions dans différentes variétés de langues d’un même texte : la fable « La bise et le soleil ». La comparaison des transcriptions effectuées par plusieurs linguistes spécialistes des langues romanes soulève d’importantes questions scientifiques. Ce travail est un prérequis pour doter les langues de France — trop souvent délaissées pour des raisons politico-économiques — de grands corpus oraux, informatisés.
Norme et variation à l’âge des corpus
informatisés pour les langues régionales
de France
par Philippe BOULA DE MAREÜIL1,
Rafèu SICHEL-BAZIN2, Nicolas QUINT3 & Gilles ADDA1
1 LIMSI, UPR 3251, CNRS & Univ. Paris-Saclay, Orsay,
2 CLLE-ERSS, UMR 5263, CNRS & Univ. Jean Jaurès,
Toulouse, 3 LLACAN, UMR 8135, Villejuif
{mareuil;gadda}@limsi.fr, rsichelb@uos.de, quint@vjf.cnrs.fr
Problèmes théoriques et pratiques
On peut distinguer au moins deux types de normes : une
norme statistique, objective, établie par des faits
quantifiables, et une norme prescriptive, subjective,
formation culturelle constituée de choix sociaux. En
l’absence de norme prescriptive acceptée par tous, une
grande variation règne dans les langues régionales
minor(is)ées de France, notamment aux niveaux lexical,
orthographique et phonétique.
Nous prendrons l’exemple de l’occitan, langue dans
laquelle nous avons mené des enquêtes de terrain pour
enregistrer une cinquantaine d’informateurs une
cinquantaine d’heures de parole. Standardiser les langues
régionales de France, la faisabilité de l’entreprise a
longtemps posé question, mais s’avère aujourd’hui
relativement bien avancée pour l’occitan, même si la
question de son acceptabilité par les acteurs mêmes
demeure. Ainsi, la dénomination « occitan » elle-même n’est
pas toujours bien perçue par certains, par exemple en
Provence, où se manifeste fréquemment un attachement
particulier à la graphie mistralienne, plus phonétique que la
graphie alibertine, également dite « classique », héritière
d’une longue tradition scripturale remontant au Moyen Âge.
Une graphie intégralement phonétique, attestée par exemple
dans les productions d’auteurs dits « patoisants », trouve
vite ses limites, dès qu’on sort d’un cadre strictement local,
puisqu’elle se heurte à une importante variation,
immédiatement audible. Elle complique également les
comparaisons et la communication écrite avec d’autres
parlers, même voisins.
Il faut, d’après nous, rester pragmatique, selon les
finalités que l’on poursuit. Pour répondre à divers enjeux
(patrimoniaux, pédagogiques…), a fortiori pour envisager
un traitement automatisé, un minimum de conventions
orthographiques s’impose. Des recherches dans des textes, le
calcul de statistiques lexicales, notamment, nécessitent des
critères de transcription orthographique cohérents.
Le travail que nous allons présenter, à partir des
traductions dans différentes variétés de langues d’un même
texte, est selon nous un prérequis pour doter les langues de
France de grands corpus oraux, informatisés. La
comparaison des transcriptions orthographiques effectuées
par des spécialistes soulève en effet d’importants problèmes
théoriques et pratiques. Nous proposons dans ce qui suit
quelques pistes concrètes à partir des enregistrements audio
que nous avons réalisés en occitan.
Cas d’école (occitan)
L’aire d’extension de l’occitan couvre le tiers méridional
de la France, avec au Sud le gascon, le languedocien et le
provençal, puis, en s'éloignant de la Méditerranée, le
domaine nord-occitan (incluant d’Ouest en Est le limousin,
l’auvergnat et le vivaroalpin) et cette zone qu’on appelle « le
Croissant », aux marges des domaines d’oïl et d’oc. L’occitan
« standard » est essentiellement fondé sur la grammaire
d’Alibert (1935-1937), de base languedocienne (intermédiaire
entre les autres dialectes), et décrit un type moyen,
dépourvu d’assise territoriale précise. La norme alibertine,
tout en restant liée à la prononciation, privilégie l’origine et
l’histoire. Il en résulte une orthographe avec une forte
composante étymologique, à côté de règles phonologiques.
Le travail d’Alibert a été prolongé par la suite par le
Conselh de la Lenga Occitana (CLO) (Sumien, 2007), qui
développe diverses précisions et règles pour la transcription
des différentes variétés occitanes : recommandations pour
orthographier les sons /s/, /z/, les mots en atge, etc.,
l’emploi du tréma, les emprunts La norme préconisée
admet des usages fréquents, comme l’omission des
diacritiques pour distinguer e-è en limousin (opposition
neutralisée en un archiphonème unique /E/), le pluriel
provençal en ei (et eis devant voyelle), le h (évolution de f)
et u (ou v ou ü pour transcrire [w]) en gascon, ou encore la
chute de consonnes intervocaliques en nord-occitan. C’est
l'outil que constitue la norme du CLO que nous avons voulu
mettre à l’épreuve à travers un cas d’école : celui d’un même
texte traduit dans six variétés d’occitan et transcrit
orthographiquement par deux spécialistes.
Corpus et méthode
La fable d’Ésope « La bise et le soleil » (120 mots en
français) a été traduite en languedocien (montpelliérain et
rouergat), en auvergnat, en provençal, en gascon et en
marchois (croissant limousin). Les enregistrements d’un
locuteur par variété ont été transcrits orthographiquement
par deux experts (les auteurs NQ et RS du présent article)
selon la graphie classique. Une phase d’adjudication a
ensuite été menée, où chacun pouvait exprimer son
accord/désaccord par rapport à la transcription de l’autre.
Une typologie des problèmes apparaissant a été établie :
phénomènes typiques de l’oral
(ex. un mot monosyllabique inaudible) ;
phénomènes réguliers, déductibles du contexte ;
formes socialisées, qui ont une certaine tradition ;
formes englobantes, couvrant plusieurs variantes.
Nous avons calculé un taux symétrisé de différences
entre transcripteurs, d’une part, entre variétés (à partir de la
fusion des transcriptions, après adjudication) d’autre part,
de même que par rapport à deux traductions en occitan
standard, également fournies par les deux transcripteurs.
Ceci nous a permis de hiérarchiser les variétés en fonction
des désaccords entre transcripteurs et de représenter
graphiquement les écarts entre variétés, par une technique
d’échelonnement multidimensionnel (MDS).
Résultats
Les désaccords entre transcripteurs ont été calculés sur
la base des mots et des caractères (en ignorant
éventuellement les différences portant sur les diacritiques).
Dans tous les cas (cf. figure de gauche), on a la même
hiérarchie, avec des écarts croissants du languedocien
montpelliérain et rouergat, en passant par le provençal, le
gascon et l’auvergnat jusqu’au marchois. Les désaccords
sont mineurs pour le languedocien : (presque) aucun
désaccord concernant Montpellier, éventuellement quelques
problèmes liés au g intervocalique en rouergat. En
provençal, on a affaire à davantage de problèmes : présence
ou non d’un diacritique sur è devant n (distinction
d’aperture pas nette pour cette voyelle seminasalisée) ou des
formes socialisées comme alòr(s) (Martin & Moulin, 1998).
Les problèmes deviennent plus importants en gascon (ex. de
la désinence du conditionnel en -) (Romieu & Bianchi,
2005), en auvergnat (problèmes autour de l’essire e lo sorilh)
et surtout en marchois, autour notamment des diacritiques :
utilisation de l’accent graphique (qui marque un accent
tonique en occitan, alors que la place de l’accent tonique n’a
pas beaucoup de sens dans la grande majorité des parlers
marchois), applicabilité ou non d’une norme limousine pour
le ‘eü’ (qui se prononce [y] et reste plus proche des autres
dialectes, tout en maintenant la différence avec ‘eu’)
(Desrozier & Ros, 1974), etc.
Les différences inter-variétés portant sur les mots ont été
visualisées par MDS, une technique qui permet de projeter n
points (n = 8 ou 6, ici, selon qu’on inclut ou non les
standards de NQ et RS) dans un espace dont les 2 premières
dimensions (cf. figure de droite) permettent d’expliquer le
mieux la dispersion des points. La première dimension (en
abscisse) montre que le gascon se départ des autres variétés.
On observe par ailleurs un paquet languedocien qui englobe
les standards et, en remontant vers le Nord, le fait que le
marchois s’éloigne considérablement de ces standards.
On obtient des patrons similaires avec des MDS calculés
à partir des différences entre caractères, l’écart se creusant
entre les variétés : le marchois et le gascon sont les plus
éloignés, se rapprochant respectivement du français et du
catalan si on inclut les versions correspondantes de la fable.
Conclusion et perspectives
En conclusion, les langues territoriales minor(is)ées ont
longtemps été délaissées, pour des raisons politico-
économiques. Leur étude nécessite de collecter des
enregistrements de qualité et des textes en quantité, d’où des
problèmes pratiques. Pour une langue comme l’occitan, on
se heurte à une double difficulté : combiner la transparence
graphie-phonie et la correspondance entre les différentes
variétés. Cette étude de cas a permis de quantifier des
tendances connues et moins connues. On a pu mettre en
évidence que plus le dialecte est différent du standard, plus
l’adaptation de la graphie normée est ardue : il en résulte
plus de divergences entre transcripteurs. En même temps,
les résultats convergents que nous avons obtenus (en termes
d’écarts entre variétés) font sens linguistiquement, ce qui
valide en quelque sorte notre approche.
Cette approche mérite d’être appliquée à de plus grands
corpus (éventuellement transcrits phonétiquement), pour
obtenir des résultats mieux étayés, ainsi qu’à d’autres
langues régionales : nous y œuvrons. Enfin, la dimension
sociale est à déployer. Nous ne nous sommes pas attardés
sur les fonctions de l’écriture, mais si l’on écrit, c’est
essentiellement pour être lu. Le retour de la part de lecteurs
potentiels en langues minoritaires et l’effort cognitif pour
l’usager restent donc à discuter.
Références bibliographiques
ALIBERT L., 1935-1937, Gramatica occitana segon los parlars
lengadocians, Societat d’Estudis Occitans, Tolosa.
DESROZIER P. & ROS J., 1974, L’ortografia occitana. Lo
lemosin, Centre d'Estudis Occitans, Montpelhièr.
MARTIN G. & MOULIN B., 1998, Grammaire provençale,
Comitat Sestian d’Estudis Occitans / CREO-
Provença-IEO / Calade Diffusion, Aix-en-Provence.
ROMIEU M. & BIANCHI A., 2005, Gramatica de l’occitan
gascon contemporanèu, Presses Universitaires de
Bordeaux, Pessac.
SUMIEN D., 2007, « Preconizacions del Conselh de la
Lenga Occitana », Lingüistica Occitana 6.
... La fable « La bise et le soleil » (disponible dans une centaine de langues ou dialectes sur le site de l'API) est le matériau dont nous sommes partis pour constituer un Atlas sonore des langues régionales de France, lequel prend la forme d'un site web dont l'objectif est de mettre en valeur notre patrimoine linguistique (Boula de Mareüil et al., 2017). Nous voulions également faire traduire la parabole de l'enfant prodigue, utilisée depuis le XIX e siècle dans nombre de travaux de dialectologie, mais avons dû y renoncer, certains locuteurs s'y refusant. ...
... Pour une problématisation de l'utilisation des règles et conventions orthographiques sur le présent corpus, nous renvoyons à Boula deMareüil et al. (2017). Par exemple, une lettre muette comme le 't' sera transcrite dans un participe passé en occitan (ex. ...
ResearchGate has not been able to resolve any references for this publication.