ArticlePDF Available

COARTICOLAZIONE E ANIMAZIONE FACCIALE: PROBLEMATICHE E SOLUZIONI

Authors:

Abstract

1. SOMMARIO Per la generazione di facce parlanti naturali, espressive e realistiche è necessario riprodurre fedelmente la variabilità contestuale dovuta alla reciproca influenza dei movimenti articolatori durante la produzione di sequenze fonetiche. Questo particolare fenomeno, definito "coarticolazione", è veramente complesso e difficile da modellare. In questo lavoro saranno brevemente introdotti alcuni modelli di strategie coarticolatorie e saranno illustrate alcune delle problematiche che si devono studiare e risolvere nello studio e nella progettazione di facce animate parlanti naturali ed espressive. 2. INTRODUZIONE I sistemi basati sulla rappresentazione attraverso segmenti fonetici concatenati presentano due principali difficoltà. In primo luogo segmentare significa stabilire dei confini di demarcazione tra un fonema e l'altro, mentre il parlato è un processo continuo in cui non si possono determinare frontiere così nette. Come seconda ragione, un tale frazionamento suggerisce l'idea non corretta di indipendenza dell'unità fonetica, mentre in realtà essa è fortemente dipendente dal contesto in cui si trova. Questa dipendenza è dovuta principalmente al fatto che il movimento dei differenti articolatori per la produzione di successivi fonemi si sovrappone e interagisce col movimento articolatorio dei segmenti adiacenti. Queste semplici considerazioni ci fanno intuire il motivo del gran rilievo assegnato negli anni agli studi sulla coarticolazione. Da una parte si cercano delle teorie che ne spieghino l'origine, la natura ed il funzionamento, dall'altra si vogliono creare dei modelli che ne predicano i dettagli. Gli studi coarticolatori riguardano due campi principali: • la variabilità acustica: essa è legata al concetto di target acustico, che si riferisce alla posizione e all'ampiezza delle frequenze di risonanza del suono dette formanti; • la variabilità articolatoria: l'oggetto dell'analisi è la conformazione degli articolatori in termini di alcuni parametri costitutivi caratteristici (e.g. apertura e larghezza labiale, protrusione del labbro inferiore e superiore, rotazione mandibolare) o dell'attività muscolare rilevata con strumenti elettromiografici (EMG). Le indagini sul processo che associa le invarianti unità fonemiche alla variabilità della conformazione acustica ed articolatoria possono essere ricondotte ai due seguenti aspetti fondamentali:
1
COARTICOLAZIONE E ANIMAZIONE FACCIALE:
PROBLEMATICHE E SOLUZIONI
Piero Cosi
ISTC-SPFD CNR
Istituto di Scienza e Tecnologie della Cognizione
Sezione di Padova “Fonetica e Dialettologia”
Consiglio Nazionale delle Ricerche
e-mail: cosi@csrf.pd.cnr.it
www: http://nts.csrf.pd.cnr.it/Ifd
SOMMARIO
Per la generazione di facce parlanti naturali, espressive e realistiche è necessario riprodurre
fedelmente la variabilità contestuale dovuta alla reciproca influenza dei movimenti articolatori
durante la produzione di sequenze fonetiche. Questo particolare fenomeno, definito “coarticolazione
[1], è estremamente complesso e difficile da modellare. Vi sono, infatti, in letteratura, vari modelli di
strategie coarticolatorie e queste, inoltre, possono anche differire in funzione della lingua utilizzata
[2].
Fra i vari metodi esistenti per il controllo automatico di una faccia sintetica parlante, quelli ritenuti
in letteratura più interessanti sono senza dubbio i metodi a “parameterizzazione geometrica” [3-4], i
metodi basati sul “morphing” fra differenti configurazioni articolatorie/visive” [5] e i metodi basati
sui modelli fisiologici dei muscoli e pseudo-muscoli facciali [6-7]. Più recentemente, si sono imposti
all’attenzione dei ricercatori anche i metodi basati sulla sintesi audiovisiva comandata direttamente da
testo scritto [8-9], in cui il segnale acustico viene generato da un sistema di sintesi vocale (TTS – Text-
To-Speech synthesis) e l’informazione fonetica estratta dal testo viene utilizzata per definire i
corrispondenti movimenti articolatori.
Particolare interesse ha suscitato negli ultimi anni un modello di coarticolazione proposto da
Cohen e Massaro [10-11], basato sulla “gestural theory of speech production di Löfqvist [12], che
viene utilizzato in moltissimi motori di animazione facciale.
Una variazione del modello originale [13-14], in cui per determinare le caratteristiche dinamiche
del modello, è stata utilizzata una tecnica semi-sutomatica di minimizzazione basata sui dati
cinematici reali di specifici movimenti articolatori labiali acquisiti da un sistema opto-elettronico
denominato ELITE [15], è stata recentemente utilizzata, in GRETA [16-17], una faccia parlante in
italiano, al fine di riprodurre più fedelmente i reali movimenti labiali coinvolti nella produzione
vocale.
2
Riferimenti Bibliografici
[1] Farnetani E., Recasens, “Coarticulation Models in Recent Speech Production Theoories”, in
Hardcastle W.J. (Editors), Coarticulation in Speech Production, Cambridge University Press,
Cambridge, 1999.
[2] Bladon, R.A., Al-Bamerni, A., “Coarticulation Resistance in English \l\”, Journal of Phonetics,
4, 1976, pp. 135-150.
[3] Massaro D.W., Cohen M.M., Beskow J., Cole R.A., “Developing and Evaluating
Conversational Agents”, in Cassell J., Sullivan J., Prevost S., Churchill E. (Editors), Embodied
Conversational Agents, MIT Press, Cambridge, MA, 2000, pp. 287-318.
[4] Le Goff, B. Synthèse à partir du texte de visages 3D parlant français. PhD thesis, Grenoble,
France, October 1997.
[5] Bregler C., Covell M., Slaney M., “Video Rewrite: Driving Visual Speech with Audio”, in
Proceedimgs of SIGGRAPH ’97, 1997, pp. 353-360.
[6] Lee Y., Terzopoulos D., Waters K., “Realistic Face Modeling for Animation”, in Proceedings of
SIGGRAPH ’95, 1995, pp. 55–62.
[7] Vatikiotis-Bateson E., Munhall K.G., Hirayama M., Kasahara Y., Yehia H., “Physiology-Based
Synthesis of Audiovisual Speech”, in Proceedings of 4th Speech Production Seminar: Models
and Data, 1996, pp. 241-244.
[8] Beskow J., “Rule-Based Visual Speech Synthesis,” in Proceedings of Eurospeech ’95, 4th
European Conference on Speech Communication and Technology, Madrid, September 1995.
[9] B. LeGoff and C. Benoit. (1996) A text-to-audiovisual speech synthesizer for French. In
Proceedings of the International Conference on Spoken Language Processing (ICSLP '96),
Philadelphia, USA.
[10] Cohen M., Massaro D., “Modeling Coarticulation in Synthetic Visual Speech”, in Magnenat-
Thalmann N., Thalmann D. (Editors), Models and Techniques in Computer Animation,
Springer Verlag, Tokyo, 1993, pp. 139-156.
[11] Cohen, M. M., Beskow, J., & Massaro, D.W., “Recent Developments in Facial Animation: An
Inside View”, in Proceedings of the International Conference on Auditory-Visual Speech
Processing - AVSP'98, December 4-6,1998, Terrigal, Australia, pp. 201-206.
[12] Löfqvist, A. “Speech as Audible Gestures”, in Hardcastle W.J., Marchal A. (Editors.), Speech
Production and Speech Modeling, Dordrecht: Kluwer Academic Publishers, 1990, pp. 289-322.
[13] Cosi P., Magno Caldognetto E., Perin G., Zmarich C., “Labial Coarticulation Modeling for
Realistic Facial Animation”, in Proceedings of ICMI 2002, Pittsburgh, PA, USA, October 14-16
2002 (in press).
[14] Cosi P., Ferrari V., Magno Caldognetto E., Perin G., Tisato G., Zmarich C., “GRETA e LUCIA:
due Realistiche Facce Parlanti Animate Mediante un Nuovo Modello di Coarticolazione”, in
Atti delle XIII Giornate di Studio GFS 2002, Pisa, 28-30 Novembre, 2002 (in press).
[15] Ferrigno G., Pedotti A., "ELITE: A Digital Dedicated Hardware System for Movement Analysis
via Real-Time TV Signal Processing", in IEEE Transactions on Biomedical Engineering, BME-
32, 1985, pp. 943-950.
[16] Pasquariello, S., “Modello per l’animazione facciale in MPEG-4”, M.S. thesis, University of
Rome, 2000.
[17] Pelachaud C., Magno Caldognetto E., Zmarich C., Cosi P., “Modelling an Italian Talking
Head”, in Proceedings of AVSP 2001, Aalborg, Denmark, Settembre 7-9, 2001, pp. 72-77.
ResearchGate has not been able to resolve any citations for this publication.
Conference Paper
Full-text available
A modified version of the coarticulation model proposed by Cohen and Massaro (1993) is described. A semi-automatic minimization technique, working on real cinematic data, acquired by the ELITE opto-electronic system, was used to train the dynamic characteristics of the model. Finally, the model was applied with success to GRETA, an Italian talking head, and examples are illustrated to show the naturalness of the resulting animation technique.
Chapter
Speech can be described as audible movements. By varying the positions and trajectories of the lips, the jaw, the tongue, the velum, and the glottis, a speaker creates variations in air pressure and airflow in the vocal tract. These variations in pressure and flow produce the acoustic signal that we hear when listening to speech. For this acoustic signal to be not only audible, but also structured in such a way that it can transmit linguistic information, the articulators have to be controlled and coordinated so that the acoustic variations in the produced signal conform to the phonetics and phonology of the language being spoken. This paper examines several aspects of the control and coordination of articulatory gestures during speech, with particular emphasis on gestural patterning, gestural coherence, and gestural aggregation
Chapter
The variation that a speech sound undergoes under the influence of neighbouring sounds has acquired the well-established label coarticulation. The phenomenon of coarticulation has become a central problem in the theory of speech production. Much experimental work has been directed towards discovering its characteristics, its extent and its occurrence across different languages. This book is a major study of coarticulation by a team of international researchers. It provides a definitive account of the experimental findings to date, together with discussions of their implications for modelling the process of speech production. Different components of the speech production system (larynx, tongue, jaw, etc.) require different techniques for investigation and a whole section of this book is devoted to a description of the experimental techniques currently used. Other chapters offer a theoretically sophisticated discussion of the implications of coarticulation for the phonology-phonetics interface.