ArticlePDF Available

Comparaison de trois outils de détection automatique de proéminences en français parlé

Authors:

Abstract

This paper presents the inner details of three different algorithms for prominence detection. On the basis of a 50- minute corpus made of five speaking styles and manually annotated for prominence, a quantitative evaluation compares the three approaches.
Comparaison de trois outils de détection automatique
de proéminences en français parlé
1N. Obin, ,2,5J.-Ph. Goldman, 3M. Avanzi, 4A. Lacheret
1IRCAM, 2Université de Neuchâtel, 3Université de Genève,
4Université de Paris X, MODYCO Nanterre et IUF, 5Université de Louvain-la-Neuve
Nicolas.Obin@ircam.fr; Jean-Philippe.Godman@lettres.unige.ch; Mathieu.Avanzi@unine.ch; anne@lacheret.com
ABSTRACT
This paper presents the inner details of three different
algorithms for prominence detection. On the basis of a 50-
minute corpus made of five speaking styles and manually
annotated for prominence, a quantitative evaluation
compares the three approaches.
Keywords: spontaneous speech, prosody, prominence,
automatic detection
1. INTRODUCTION
L’annotation des proéminences accentuelles qui scandent
le discours spontané ne peut plus être envisagée
manuellement, étant donné d’une part l’aspect subjectif de
la démarche, d’autre part le temps de codage demandé,
d’autant plus couteux qu’on souhaite aboutir à une
annotation rigoureuse et stabilisée à l’issue de la
confrontation de plusieurs expertises de codage. Une telle
pratique manuelle est d’autant moins concevable qu’il
s’agit de brasser des données de plus en plus
volumineuses, quantitativement représentatives pour
pouvoir les exploiter de manière fiable sous l’angle de
l’analyse structurale et fonctionnelle. En pratique, les
méthodes de traitement automatiques se développent [1]
et doivent continuer à se développer pour prendre le relais
du codage manuel et, tout en capitalisant les
connaissances acquises, les faire évoluer et enrichir les
analyses prosodiques de la parole non lue, des discours
formels aux discussions à bâtons rompus. Cette
communication s’inscrit dans cette problématique. Un
corpus de français parlé échantillonné en différents
genres, synthétiquement présenté dans la section 2, est
utilisé pour comparer trois outils de détection automatique
de proéminences, exposés dans la section 3. La section 4
fait état du protocole d’évaluation et la partie 5 présente
les résultats.
2. MATÉRIEL DÉTUDE
2.1. Le corpus
Pour cette étude, nous avons utilisé un corpus
échantillonné en cinq différents genres et styles de parole
(discours politique cote DP, descriptions d’itinéraires
cote ITI, récits de vie cote RCV, journaux
radiophoniques – cote JP et interviews radiophoniques,
cote IRT). Les locuteurs sont tous des francophones
natifs, et proviennent de France, de Suisse ou de
Belgique). On en trouvera une présentation exhaustive
dans [2].
2.2. Prétraitement et transcription
Le corpus a é transcrit et aligné semi-automatiquement
(phonèmes, syllabes et mots graphémiques) sous Praat [3]
avec EasyAlign [4]. Les alignements ont fait l’objet d’une
vérification manuelle par deux experts humains, qui ont
ensuite consigné dans une tire dédiée (tire delivery) les
informations relatives au statut des syllabes (syllabes
proéminentes ou non ; syllabes particulières contenant des
phénomènes propres au langage spontané, i.e. hésitations,
faux-départ, schwas post-toniques, bruits de bouche, etc).
On se reportera aux travaux de [5] pour un compte-rendu
exhaustif sur la procédure et ses origines. Au total, le
corpus est composé de 12851 intervalles syllabiques. 973
d’entre eux ont été exclus via la tire delivery, 3244
syllabes ont été annotées proéminentes, 8634 ont é
codées ni proéminentes ni associées à un marqueur
delivery, soit 11878 à traiter automatiquement.
3. LES LOGICIELS DE DÉTECTION
Dans cette partie, nous décrivons les principes de base de
chacun des trois outils dont nous souhaitons comparer les
performances sur une tâche de détection automatique de
proéminences.
3.1. Analor
Analor est un logiciel d’analyse implémenté sous Matlab
[6] qui fonctionne avec des fichiers xml en sortie de Praat.
Initialement, le logiciel a été conçu dans le but de faire
émerger des critères acoustiques robustes en vue de
segmenter automatiquement le continuum sonore en
unités d’intégration prosodique maximales, ou périodes
intonatives. Un ensemble de fonctions récemment
élaboré permet aujourd’hui une détection automatique des
syllabes proéminentes à l’intérieur des périodes
identifiées par le logiciel. Cette procédure a été présentée
et expérimentée pour la première fois dans [7]. Elle
repose sur la mise au jour des variations significatives de
hauteur et de durée par rapport à la moyenne globale de
l’ensemble des syllabes qui composent une période.
Appelons Mh(P) la moyenne et Eh(P) l'écart-type de la
fondamentale F0 sur une période P. Une syllabe s de P est
dite proéminente pour la hauteur si elle contient un
maximum local de la F0, noté h(s), vérifiant la condition :
h(s) > Mh(P) + Kh * Eh(P)
halshs-00360315, version 1 - 13 Feb 2009
Manuscrit auteur, publié dans "Journées d’Etude sur la parole, Avignon : France (2008)"
Kh est un paramètre ajustable indépendant du locuteur
fixé à 1,5 par défaut.
Le calcul est le même pour la durée (pour une justification
de ce seuil a priori, voir [8] et [9]). Les pauses
silencieuses ont été également utilisées pour affiner la
détection des syllabes proéminentes : toute syllabe suivie
d’une pause est identifiée comme proéminente, i.e.
saillante perceptivement.
3.2. ProsoProm
La détection automatique des proéminences dans par
l’outil ProsoProm se roule en trois étapes successives :
1.segmentation et stylisation des noyaux vocaliques,
2.extraction et relativisation des paramètres acoustiques et
3.décision du statut proéminent pour chaque syllabe.
La première étape utilise une version adaptée du
ProsoGram de Mertens [10]. Cet outil, veloppé
initialement pour de la transcription prosodique semi-
automatique, repère et stylise le noyau vocalique de
chaque syllabe. Plus précisément, dans chaque syllabe, le
noyau est délimité comme la portion voisée qui « a
suffisamment d’intensité » (en se basant sur des seuils
d’intensité relativement au maximum d’intensité local).
Cette étape permet d’éliminer des erreurs de détection de
F0 aux frontières de voisement. Puis, la courbe mélodique
de ce noyau est stylisée en un ou plusieurs segments, plats
ou avec une pente mélodique, selon des paramètres
perceptuels comme le glissando. ProsoGram peut repérer
automatiquement les syllabes (et leur noyau) ou s’appuyer
sur une segmentation phonétique. L’adaptation, décrite
dans [11] permet d’augmenter le nombre de noyaux
effectivement stylisés et d’affiner certains paramètres de
réglages pour cette application spécifique.
Dans un second temps, plusieurs paramètres acoustiques
sont estimés pour chaque syllabe, à savoir :
1. la durée syllabique, préférée à la durée du noyau
car ce dernier est fortement contraint par le
voisement de chacun des phonèmes composant
la syllabe en secondes.
2. la hauteur mélodique maximale du noyau styli
en demi-tons, considécomme cible mélodique
atteinte par le locuteur.
3. l’amplitude du mouvement montant en demi-
tons. Le mouvement descendant n’est pas pris en
considération dans l’idée qu’il est plutôt, à
l’exception peut-être des syllabes finales, la
manifestation d’un relâchement articulatoire.
4. la durée de la pause subséquente en secondes.
Ceci restreint fortement notre étude à des langues
oxytoniques comme le français.
Les deux premiers paramètres sont « relativisés » par
rapport aux noyaux adjacents, c’est-à-dire que leur sont
soustraits la moyenne des paramètres acoustiques
correspondants des deux syllabes précédentes et de la
syllabe suivante. Ceci permet de rendre ces paramètres
indépendants du débit et du registre de parole. L’empan
de relativisation choisi est volontairement très local
rejoignant l’hypothèse que malgré l’existence évidente
d’unités intonatives plus larges que quelques syllabes,
l’appui sur les syllabes immédiatement adjacentes est
primordial pour réaliser un effet de contraste.
Finalement, la stratégie de décision consiste à comparer
chacun des paramètres avec un seuil et de décréter
proéminente toute syllabe dont un des paramètres est au-
dessus de son seuil propre. ProsoGram permet également
de produire une sortie graphique dans laquelle les
segmentations phonétiques et lexicales sont associées aux
courbes mélodiques et d’intensité ainsi qu’au tracé des
noyaux stylisés, dont la couleur pend de leur caractère
proéminent. Le fort pouvoir explicatif de ce graphique
permet un diagnostic qualitatif des erreurs subsistantes.
Pour la présente étude, l’optimisation des quatre seuils
pour chaque sous-corpus d’entrainement a été faite par
une approche dichotomique.
3.3. IrcamProm
L’outil IrcamProm est un outil de détection de
proéminences développé en Matlab dans le cadre
d’IrcamCorpusTool [12]. Il repose sur un modèle
statistique de la proéminence suivant un protocole décrit
en [13]. Ce modèle se décompose schématiquement en
deux étapes : 1. Une étape d’extraction et de sélection des
paramètres acoustiques qui permettent la meilleure
discrimination des syllabes proéminentes et non
proéminentes. Les paramètres acoustiques utilisés dans la
tâche de détection ont été sélectionnés automatiquement
par un algorithme de sélection de descripteur à partir
d’une description des paramètres acoustiques de la parole
relativisés par rapport à plusieurs horizons temporels. 2.
Une étape de modélisation à proprement dite. La
modélisation est réalisée par un modèle de mélange de
gaussiennes pour les syllabes proéminentes et non-
proéminentes. Une fois les paramètres du modèle estimés,
la décision de proéminence est réalisée suivant le critère
de maximum a posteriori.
Les paramètres acoustiques retenus pour cette étude ont
été obtenus par optimisation sur le corpus de parole lue
présenté en [13]. Ils consistent en un jeu de paramètres
acoustiques faisant intervenir plusieurs types
d’information (hauteur, durée, information spectrale)
relativisés sur plusieurs horizons temporels (absence,
syllabes adjacentes et groupe prosodique). Nous les
présentons dans l’ordre de leur importance relative pour la
modélisation de la proéminence : la durée de la syllabe ;
la valeur moyenne de la hauteur sur la syllabe relativisée
par rapports à sa valeur moyenne sur les syllabes
adjacentes ; la durée du noyau de la syllabe ; la valeur
moyenne de la sonie dans la première bande de Bark sur
la syllabe relativisée par rapport à sa valeur sur la syllabe
suivante ; la valeur moyenne de la sonie dans la 18ème
bande de Bark relativisée par rapport à sa valeur sur la
syllabe précédente ; la valeur minimum du débit local sur
la syllabe relativisée par rapport à la valeur minimum du
débit local sur le groupe prosodique ; la courbure du débit
local sur la syllabe.
halshs-00360315, version 1 - 13 Feb 2009
Ce modèle a été élaboré sur un corpus de parole
monolocuteur lue. Nous supposerons dans cette étude que
ces paramètres estimés sur un corpus particulier
demeurent inchangés pour le corpus présentement étudié,
hypothèse qu’il restera à vérifier. En revanche, pour
adapter notre modèle à une détection de proéminences sur
de la parole spontanée multi-locuteur dans divers genres
discursifs, nous avons normalisé l’ensemble des
paramètres par rapport à leur valeur moyenne et déviation
standard sur chaque groupe prosodique. Cette
« relativisation » est pratiquée afin de normaliser
l’influence du locuteur et du genre de discours sur la
distribution des paramètres acoustiques.
4. PROTOCOLE DÉVALUATION
Les outils présentés ont été comparés sur le corpus crit
suivant un protocole de validation croisée. Cette méthode
consiste à échantillonner le corpus en N parties non
nécessairement de tailles égales. Alors les outils sont
entraînés sur N-1 parties et validés sur la partie restante.
Cette opération est répétée N fois en faisant varier le
corpus de validation. Cette thode présente deux
avantages : 1. elle permet de tester la capacité de
généralisation des outils en les testant sur des données
non-observées au cours de l’apprentissage, et 2. les
changements de corpus d’entraînement et de validation
permet de tester la sensibilité de cette capacité par rapport
au corpus d’entraînement.
Dans la présente étude, l’échantillonnage a éréalisé en
découpant le corpus suivant les genres de discours, soit en
cinq parties. Cela favorise l’indépendance de la partie
d’entraînement et de validation. Comme l’outil Analor est
un système de décision à base de règles, il n’était pas
susceptible d’être entraîné. Nous avons donc utilisé les
paramètres standard de cet outil directement sur
l’ensemble des genres discursifs. Ce biais inséré est
contrebalancé par le fait que les paramètres de cet outil
n’ont pas été réglés sur le corpus que nous traitons
présentement.
La mesure de performance des outils a été choisie comme
étant la f-mesure de la classe proéminence, c’est-à-dire la
moyenne harmonique des scores de précision et de rappel.
Ce choix permet de faire la synthèse des performances en
terme d’insertion et de délétion de proéminence.
La comparaison de la performance des outils est suivie
d’une analyse automatique des différences de
comportement observées entre ces outils. Cette analyse
est fondée sur le test de MacNemar [14] qui permet de
comparer statistiquement les différences observées sur les
erreurs de classification entre les outils. Le test de
l’hypothèse nulle est réalisé sur la base de ces différences
pour déterminer si elles sont dûes ou non au hasard.
5. RÉSULTATS ET DISCUSSION
Nous présentons dans la Table 1 les performances des
outils sur chaque genre de discours.
Table 1 : F-mesure des outils de détection sur chaque
genre de discours du corpus d’étude.
Nous voyons de manière générale que les performances se
situent aux environs de 70% de f-mesure en s’échelonnant
de 70% à 75%. L’outil IrcamProm est l’outil qui présente
la meilleure performance globale et par genre de discours.
Analor apparaît plus sensible au genre de discours que les
deux autres outils, avec une déviation standard relative six
fois plus élevée que ProsoProm et IrcamProm. Ceci
montre les limites de capacité de néralisation d’un
système à base de règles.
Si nous approfondissons l’analyse des performances, nous
voyons des tendances analogues pour l’ensemble des
outils : ainsi, les trois outils présentent un minimum de
performance sur un fichier de description d’itinéraire.
Cette propriété suggère : 1. que la structure d’une
proéminence diffère au moins quantitativement selon les
genres de discours, et/ou 2. que le contraste
proéminence/non proéminence est plus ou moins marqué
selon les genres de discours.
Un diagnostic des erreurs montrent des comportements
différents suivant les outils : Analor présente une
tendance à la délétion de proéminence (rappel = 63.6%,
précision = 77.2%) alors que ProsoProm présente une
tendance à l’insertion de proéminence (rappel = 75.7%,
précision = 68.2%). IrcamProm présente un compromis
entre délétion et insertion (rappel = 76.4%, précision =
74.5%).
Une analyse du test de MacNemar (p = 0.005) sur
l’ensemble des erreurs met au jour une différence
significative entre l’outil IrcamProm et les deux autres
outils, mais pas entre ces deux derniers. Néanmoins, cette
analyse doit être relativisée par le fait que cette différence
varie selon les genres de discours (nous observons par
exemple une absence de diagnostic de différence sur les
corpus d’itinéraires et de journaux parlés).
6. CONCLUSION
Nous avons exposé les performances de trois outils de
détection automatique de proéminences dans un contexte
de traitement de corpus de français parlé. Ces outils
présentent chacun des particularités qui expliquent sans
doute les scores obtenus et qui nous amènent à nous
interroger et à mieux préciser l’impact des principes sous-
jacents à la détection dans chaque système. Le premier,
Analor, est un système à base de règles, alors que les deux
autres sont fondés sur l’apprentissage. ProsoProm repose
sur une stylisation perceptive de la courbe mélodique
alors qu’Analor et IrcamProm se fondent sur des
paramètres acoustiques bruts. IrcamProm prend en
compte un nombre important de paramètres, alors que les
deux autres algorithmes se focalisent sur la durée et les
variations de F0, au mieux l’intensité (ProsoProm).
iti
irt
rcv
dp
jp
Total
Analor
68,7
71,5
63,2
74,5
70,8
69,7
ProsoProm
72,4
72,1
71,0
70,6
72,5
71,7
IrcamProm
75,8
74,3
76,3
76,00
75,0
75,4
halshs-00360315, version 1 - 13 Feb 2009
Dernière différence : Analor travaille sur une fenêtre
périodique tandis que ProsoProm et IrcamProm
n’intègrent que les contextes syllabiques immédiats.
A partir de ces constats, plusieurs questions se posent.
Elles devront être prises en compte dans la suite de ce
travail, à savoir le diagnostic quantifié des erreurs, en
particulier :
- Peut-on mesurer l’impact d’une méthode fondée sur la
stylisation perceptive (ProsoProm) par rapport à des
approches travaillant uniquement sur la courbe acoustique
brute ?
- Comment expliquer le paradoxe apparent : pourquoi le
système à bases de règles (Analor) est plus sensible aux
variations de genre discursif que les autres ?
- Quel est le meilleur compromis à trouver entre les
résultats obtenus (performance de l’outil) et la complexité
algorithmique demandée (voir IrcamProm) ?
- Quel est la meilleure fenêtre à prendre en compte dans
un système par apprentissage ? Dans quelle mesure, dans
un tel système, la période comme fenêtre d’analyse
améliore-t-elle ou non les résultats par rapport à la seule
prise en compte des syllabes immédiatement adjacentes ?
Enfin, rappelons que l’évaluation des outils s’est déroulée
sur des syllabes non-marquées delivery, laissant ainsi de
côté ces phénomènes propres à l’oral, et pour lesquels il
est désormais possible d’envisager une tection
automatique. Voilà l’ensemble des questions qui
articulent notre programme de recherche à venir.
7. REMERCIEMENTS
Trois cadres institutionnels portent ce projet :
- Fonds National de la recherche scientifique Suisse
(subside n°100012-113726/1, “La structure interne des
périodes”, Université de Neuchâtel),
- ANR Rhapsodie 07 Corp-030-01, Corpus prosodique
de référence du français parlé.
- Programme Wist2 Convention n°616422, finan par
la Région wallonne (Belgique) EXPRESSIVE :
Système automatique de diffusion vocale
d'informations dédicacées : synthèse de la parole
expressive à partir de textes balisés
Nous souhaitons remercier ici A.-C. Simon et F. Poiré
initiateurs de la méthode de codage manuel utilisée ainsi
que B. Victorri pour sa collaboration active dans les
différentes étapes de la modélisation.
BIBLIOGRAPHIE
[1] F. Tamburini, & C. Caini, An Automatic System for
Detecting Prosodic Prominence in American English
Continuous, Speech International Journal of Speech
Technology 8: 33-44, 2005.
[2] A.-C. Simon, M. Avanzi & J.-P. Goldman. La
détection des proéminences syllabiques. Un aller-
retour entre l’annotation manuelle et le traitement
automatique. Article soumis au 1er Congrès Mondial
de Linguistique Française, 2008.
[3] P. Boersma & D. Weenink. Praat: doing phonetics
by computer (Version 4.5). www.praat.org, 2008.
[4] J.-Ph. Goldman. EasyAlign: a quasi-automatic
phonetic alignment tool under Praat. Journées
d’Etudes sur la Parole, Avignon, 2007 (soumis).
[5] M. Avanzi, J.P. Goldman, A. Lacheret-Dujour, A.C.
Simon & A. Auchlin. Méthodologie et algorithmes
pour la détection automatique des syllabes
proéminentes dans les corpus de français parlé.
Cahiers of French Language Studies, 13/2, 2007.
[6] A. Lacheret-Dujour & B. Victorri. La période
intonative comme unité d’analyse pour l’étude du
français parlé : modélisation prosodique et enjeux
linguistiques. Verbum, 24/1-2. 55-73, 2002.
[7] M. Avanzi, A. Lacheret-Dujour & B. Victorri.
ANALOR. A Tool for Semi-Automatic Annotation
of French Prosodic Structure. In Proceedings of
Speech Prosody’08, 2008.
[8] M. Rossi & al. : L’intonation, de l’acoustique à la
sémantique, Paris, Klincksieck, 1981.
[9] A. Lacheret-Dujour & F. Beaugendre : La prosodie
du français, Paris, CNRS éd., 1999.
[10] Mertens, P. The Prosogram: Semi-Automatic
Transcription of Prosody based on a Tonal
Perception" Model, in B. Bel & I. Marlien (eds.)
Proceedings of Speech Prosody, Nara (Japan), 2004
[11] J.-P. Goldman, M. Avanzi, A. Lacheret-Dujour, A.-
C. Simon & A. Auchlin. A Methodology for the
Automatic Detection of Perceived Prominent
Syllables in Spoken French. In Proceedings of
Interspeech’07, pp. 91-120, 2007.
[12] C. Veaux, G. Beller, D. Schwarz, & X. Rodet,
Ircamcorpustools: an extensible plateform for speech
corpora exploitation, à paraître dans The 6th edition
of the Language Resources and Evaluation
Conference, Marrakech, 2008.
[13] N. Obin, X. Rodet & A. Lacheret-Dujour. French
Prominence: a probabilistic framework. à paraître
dans International Conference on Audio, Speech and
Signal Processing, Las Vegas, Nevada, USA, 2008.
[14] T.G. Dietterich, Approximate Statistical Tests for
Comparing Supervised Classification Learning
Algorithms, in Neural Computation, Vol. 10, p.
1895-1923, 1998
halshs-00360315, version 1 - 13 Feb 2009
... Some implementations, e.g. [7] take care of drawback No 3 by adjusting a prominence detection parameter, and by implementing some local criteria taking the difference of syllable prominence. Likewise, some realizations bypass the syllabic segmentation [9] to avoid their pitfalls. ...
... Some implementations, e.g. [7] take care of drawback No 3 by adjusting a prominence detection parameter, and by implementing some local criteria taking the difference of syllable prominence. Likewise, some realizations bypass the syllabic segmentation [9] to avoid their pitfalls. ...
Article
Full-text available
Detection of prominence, whether automatically or manually through perception tests, is pivotal in the interpretation of data in a prosodic theoretical framework. This is particularly true for French, where phonologically stressable syllables are not necessarily stressed. To assert a prominence character to syllables is mandatory to evaluate prosodic theories, especially those which predict the phonetic features of melodic contours (rise, fall, height, etc.) located on those syllables. Some algorithms are already available to detect prominent syllables automatically, but most involve a precise segmentation of speech into syllables, vowels and consonants, a task which generally requires a reasonable good quality of recording, exempt from background noise and echo. In order to avoid the problematic segmentation into phonetic units, we propose here an algorithm for prominence detection operating differently and based on readily available phonetic properties of speech, at the exeption of spectral properties.
... >> syl_pro = getunits(corpus, "syllabe", {"prominence","is","P"}); La puissance du langage de requête d'IrcamCorpusTools a ainsi permis la caractérisation et la modélisation de la proéminence sur un corpus de voix parlée monolocuteur (Obin et al., 2008c). Grâce à la facilité d'intégration d'analyseurs externes, cette méthode a été confrontée à d'autres sur des corpus de parole spontanée (Obin et al., 2008a). Enfin, elle a permis la mise en place d'une méthode de caractérisation automatique des genres de discours (Obin et al., 2008b). ...
Article
Full-text available
un éventail d'outils pour la création, l'accès et la synchronisation des données d'un corpus de parole, mais ils sont rarement intégrés dans une seule et même plate-forme. Dans cet article, nous proposons IrcamCorpusTools, une plate-forme ouverte et facilement ex-tensible pour la création, l'analyse et l'exploitation de corpus de parole. Elle permet notamment la synchronisation d'informations provenant de différentes sources ainsi que la gestion de nom-breux formats. Sa capacité à prendre en compte des relations hiérarchiques et séquentielles permet l'analyse contextuelle de variables acoustiques en fonction de variables linguistiques. Elle est déjà employée pour la synthèse de la parole par sélection d'unités, les analyses pro-sodique et phonétique contextuelles, la modélisation de l'expressivité, ainsi que pour exploiter divers corpus de parole en français et autres langues. ABSTRACT. Corpus based methods are increasingly used for speech technology applications and for the development of theoretical or computer models of spoken languages. These usages range from unit selection speech synthesis to statistical modeling of speech phenomena like prosody or expressivity. In all cases, these usages require a wide range of tools for corpus creation, labeling, symbolic and acoustic analysis, storage and query. However, if a variety of tools exists for each of these individual tasks, they are rarely integrated into a single platform made available to a large community of researchers. In this paper, we propose IrcamCorpusTools, an open and easily extensible platform for analysis, query and visualization of speech corpora. It is already used for unit selection speech synthesis, for prosody and expressivity studies, and to exploit various corpora of spoken French or other languages. MOTS-CLÉS : parole, corpus, base de données, langage de requête, multimodalité.
... Prominences and disfluencies are coded on two independent tiers. The annotation deliverable will be processed during the spring by five experts who will have to perform four tasks: (i) compute the interannotator scores applying the statistical measures used in the two pilot experiments; (ii) diagnose the distributions with the poorest scores for all the samples; (iii) diagnose the genres with the worst scores and (iv) make explicit decisions to provide an output prosodic reference annotation and to enhance automatic prominence detection software (see for French: Avanzi et al., 2010a;Martin 2010;Obin et al. 2008aObin et al. , 2008bObin et al. , 2009Simon et al. 2008). ...
Article
Full-text available
In the area of large French speech corpora, there is a demonstrated need for a common prosodic notation system allowing for easy data exchange, comparison, and automatic an-notation. The major questions are: (1) how to develop a single simple scheme of prosodic transcription which could form the basis of guidelines for non-expert manual annotation (NEMA), used for linguistic teaching and re-search; (2) based on this NEMA, how to es-tablish reference prosodic corpora (RPC) for different discourse genres (Cresti and Mo-neglia, 2005); (3) how to use the RPC to de-velop corpus-based learning methods for automatic prosodic labelling in spontaneous speech (Buhman et al., 2002; Tamburini and Caini 2005, Avanzi, et al. 2010). This paper presents two pilot experiments conducted with a consortium of 15 French experts in prosody in order to provide a prosodic transcription framework (transcription methodology and transcription reliability measures) and to es-tablish reference prosodic corpora in French.
... Then, two expert annotators ([5],[7]) carried out a manual coding of prominence as well as dysfluencies which are characteristic of spontaneous speech: hesitations, filled pauses and false starts, final lengthening, and post-tonic schwas. Finally, the manual annotation was automatically validated ([9]) @BULLET The choice of the prosodic features considered as being relevant for the study (acoustic features, characteristic values on these features and temporal horizon for relativization of these values). ...
Conference Paper
Full-text available
This paper presents a work-in-progress on the automatic analy- sis of discourse genre in non-elicited speech. The study is fo- cused on the development of bottom-up methods for automatic validation of discourse typologies found in linguistic descrip- tions (prosodic, syntactic, pragmatic and/or contextual and sit- uational cues). The linguistic classification examined here op- poses five discourse genres +/- controlled. To test this a pri- ori classification under prosodic criteria, we propose a method that provides an automatic and dynamic estimation of discourse genre typology i.e. of prosodic similarities between discourse genres. This is achieved in a two-step procedure : a set of discriminant prosodic patterns is estimated and then used to raise a typology of discourse genres based on prosodic simi- larity criterion. The discriminant analysis reveals that a small number of prosodic patterns is sufficient to discriminate the 5 discourse genres. The typological analysis reveals some multi- level caterogical oppositions on a continuous prosodic scale that can be interpreted in terms of +/- controlled speech. Index Terms: discourse genre, prosody, typology, discriminant analysis, agglomerative clustering
... Pour fixer les valeurs des quatre seuils retenus pour la détection automatique, nous nous sommes basés sur les résultats d'une précédente étude [Obin, Goldman et al. 2008]. D'autre part, certaines proéminences détectées uniquement par l'automate constituent vraisemblablement des syllabes que les codeurs, pour différentes raisons, ont omis d'annoter comme proéminentes. ...
Article
Full-text available
Cet article vise à faire un diagnostic (méthodique et raisonné) des erreurs de détection d'un logiciel d'identification automatique des proéminences syllabiques implémenté sous Praat [Boersma & Weenink 2008]. L'article est organisé comme suit. Nous commençons par rappeler les enjeux liés à la transcription semi-automatique de la prosodie dans les corpus oraux, et synthétisons en quelques lignes les résultats obtenus dans les études antérieures. Dans une seconde partie, nous décrivons le corpus sur lequel a été conduit cette étude. Il s'agit d'un corpus de français parlé « naturel », d'une durée approximative de 50 minutes et échantillonné en différents « genres ». Les locuteurs sont des francophones natifs de France, de Belgique et de Suisse romande. Nous décrivons et discutons ensuite les paramètres acoustiques (mouvement et hauteur mélodique, durée et présence d'une pause silencieuse subséquente) ainsi que les seuils de décision retenus pour la détection semi-automatique des proéminences syllabique dans le corpus. Enfin, nous faisons une analyse qualitative détaillée des « erreurs » commises par l'automate. Dans cet exposé, on l'aura compris, nous ne cherchons pas à présenter un algorithme de détection automatique définitivement « abouti », mais nous proposons de mettre au jour les faiblesses de notre outil tel qu'il est conçu actuellement, pour mieux l'améliorer par la suite.
Thesis
Full-text available
La focalisation prosodique désigne le soulignement d’un constituant dans un énoncé au moyen de différentes ressources prosodiques, en particulier l’accentuation et l’intonation. Plusieurs fonctions sont attribuées à la focalisation : le marquage des différentes catégories de focus, ainsi que des fonctions emphatiques (ici appelées insistance et expressivité). Cette thèse a pour principal but de savoir si la focalisation et ses fonctions présentent des propriétés spécifiques dans le phonogenre de la parole interprétée, c’est-à-dire l’oralisation d’un texte écrit mémorisé au préalable par le locuteur (généralement un comédien). Cette question présente un intérêt pour la linguistique et la phonétique à plusieurs titres. Tout d’abord, les différences de réalisation prosodique entre les fonctions de la focalisation sont encore mal connues. Par ailleurs, peu d’études ont été consacrées aux caractéristiques prosodiques de la parole interprétée. Enfin, notre thèse présente un apport sur le plan méthodologique à travers le protocole relativement novateur de ses deux expériences. Dans une expérience de production, des locuteurs ont reproduit des conversations spontanées en parole lue et en parole interprétée. Un groupe d’experts en prosodie a ensuite relevé les occurrences de focalisation dans le corpus et a effectué une classification fonctionnelle de ces occurrences. Nous avons également mené une expérience de perception afin de comparer la réalisation des fonctions de la focalisation indépendamment du phonogenre. Malgré un taux d’accord entre experts relativement faible (ce qui soulève plusieurs questions méthodologiques et théoriques), nos analyses révèlent plusieurs résultats originaux. La fréquence d’occurrence de la focalisation est la plus élevée en parole interprétée, suivie de la parole lue. Ce résultat confirme notre prédiction et suggère que la parole interprétée est un phonogenre favorable à l’étude de la focalisation. Une forte relation est observée entre la fonction d’insistance et le trait d’accentuation initiale, ce qui confirme de nombreuses études précédentes. Le phonogenre se révèle en revanche avoir très peu d’influence sur la réalisation de la focalisation et de ses fonctions. Ce résultat est dû selon nous à un manque de données et au fait que certains traits prosodiques n’ont pas été pris en compte dans l’analyse.
Thesis
Full-text available
This thesis joins in the current searches (researches) on the feelings and the emotional reactions, on the modelling and the transformation of the speech, as well as on the musical performance. It seems that the capacity to express, to feign and to identify emotions, humors, intentions or attitudes, is fundamental in the human communication. The ease with which we understand the state of a character, from the only observation of the behavior of the actors and the sounds which the yutter, shows that this source of information is essential and, sometimes, sufficient in our social relationships. If the emotional state presents the peculiarity to be idiosyncratic, that is private to every individual, it does not also go away of the associated reaction which shows itself by the gesture (movement, posture, face), the sound (voice, music), and which, it is observable by others. That is why paradigm of analysis-transformation-synthesis of the emotional reactions grows on into the therapeutic, commercial, scientific and artistic domains. This thesis joins in these last two domains and proposes several contributions. From a theoretical point of view, this thesis proposes a definition of the expressivity, a definition of the neutral expressivity, a new representation mode of the expressivity, as well as a set of expressive categories common to the speech and to the music. It places the expressivity among the census of the available levels of information in the performance which can be seen as amodel of the artistic performance. It proposes an original model of the speech and its constituents, as well as a new hierarchical prosodic model. From an experimental point of view, this thesis supplies a protocol for the acquisition of performed expressive data. Collaterally, it makes available three corpora for the observation of the expressivity. It supplies a new statistical measure of the degree of articulation as well as several analysis results concerning the influence of the expressivity on the speech. From a technical point of view, it proposes a speech processing algorithm allowing the modification of the degree of articulation. It presents an innovative database management system which is used, already, by some other automatic speech processing applications, requiring the manipulation of corpus. It shows the establishment of a bayesian network as generative model of context dependent transformation parameters. From a technological point of view, an experimental system of high quality transformation of the expressivity of a French neutral utterance, either synthetic or recorded, has been produced, as well as a non-line interface for perceptive tests. Finally and especially, from a forward-looking point of view, this thesis proposes various research tracks for the future, both on the theoretical, experimental, technical, and technological aspects. Among these, the confrontation of the demonstrations of the expressivity in the speech and in the musical performance seems to be a promising way.
Conference Paper
Full-text available
This paper describes a system for semi-automatic transcription of prosody based on a stylization of the fundamental frequency data (contour) for vocalic (or syllabic) nuclei. The stylization is a simulation of tonal perception of human listeners. The system requires a time-aligned phonetic annotation. The transcription has been applied to several speech corpora.
Conference Paper
Full-text available
Identification of prosodic phenomena is of first importance in prosodic analysis and modeling. In this paper, we introduce a new method for automatic prosodic phenomena labelling. The au- thors set their approach of prosodic phenomena in the framework of prominence. The proposed method for automatic prominence labelling is based on well-known machine learning techniques in a three step procedure: i) a feature extraction step in which we propose a framework for systematic and multi-level speech acoustic feature extraction, ii) a feature selection step for identifying the more relevant prominence acoustic correlates, and iii) a modelling step in which a gaussian mixture model is used for predicting prominence. This model shows robust performance on read speech (84%).
Article
Full-text available
This article reviews five approximate statistical tests for determining whether one learning algorithm outperforms another on a particular learning task. These test sare compared experimentally to determine their probability of incorrectly detecting a difference when no difference exists (type I error). Two widely used statistical tests are shown to have high probability of type I error in certain situations and should never be used: a test for the difference of two proportions and a paired-differences t test based on taking several random train-test splits. A third test, a paired-differences t test based on 10-fold cross-validation, exhibits somewhat elevated probability of type I error. A fourth test, McNemar's test, is shown to have low type I error. The fifth test is a new test, 5 × 2 cv, based on five iterations of twofold cross-validation. Experiments show that this test also has acceptable type I error. The article also measures the power (ability to detect algorithm differences when they do exist) of these tests. The cross-validated t test is the most powerful. The 5×2 cv test is shown to be slightly more powerful than McNemar's test. The choice of the best test is determined by the computational cost of running the learning algorithm. For algorithms that can be executed only once, Mc-Nemar's test is the only test with acceptable type I error. For algorithms that can be executed 10 times, the 5 × 2 cv test is recommended, because it is slightly more powerful and because it directly measures variation due to the choice of training set.
L'intonation, de l'acoustique à la sémantique
  • M Rossi
M. Rossi & al. : L'intonation, de l'acoustique à la sémantique, Paris, Klincksieck, 1981.
EasyAlign: a quasi-automatic phonetic alignment tool under Praat. Journées d'Etudes sur la Parole
  • J.-Ph Goldman
J.-Ph. Goldman. EasyAlign: a quasi-automatic phonetic alignment tool under Praat. Journées d'Etudes sur la Parole, Avignon, 2007 (soumis).