Figure 2 - uploaded by Piero Cosi
Content may be subject to copyright.
Speech signal and time evolution of some kinematic parameters associated with the sequence /'aba/ expressing disgust.  

Speech signal and time evolution of some kinematic parameters associated with the sequence /'aba/ expressing disgust.  

Source publication
Article
Full-text available
This paper concerns the bimodal transmission of emotive speech and describes how the expression of joy, surprise,sadness, disgust, anger, and fear, leads to visual and acoustic target modifications in some Italian phonemes. Current knowledge on the audio-visual transmission of emotive speech traditionally concerns global prosodic and intonational c...

Contexts in source publication

Context 1
... Left and Right Corner horizontal displacements (LCX and RCX), calculated as the distance between the markers placed on the left and the right lip corner and the sagittal Σ plane passing through the tip of the nose and perpendicular to the Ω plane (these parameters are not visualized in Fig. ...
Context 2
... Left and Right Corner vertical displacements (LCY and RCY), calculated as the distance between the markers placed on the left and right lip corner and the transversal plane Ω, containing the line crossing the markers placed on the lobes of the ears and on the nose (these parameters are not visualized in Fig. ...
Context 3
... for ASYMX and ASYMY values different from zero indicate the presence of an asymmetry. Positive values for ASYMY mean that the right lip corner moves in an asymmetric higher position along the vertical axis than the left corner. Positive values for ASYMX indicate that the lips are displaced in a right asymmetrical way along the horizontal axis. Fig. 2 proposes some of the labial kinematic parameters considered in this study and relative to /'aba/ expressing disgust: LO, LR, ULP, LLP, UL, LL, ASYMX and ASYMY. ...

Similar publications

Article
Full-text available
Fundamental frequency (F0, perceived as pitch) is an important prosodic cue of emotion. The aim of the present study was to fi nd out if sentence emotion has any infl uence detectable in the F0 height and range of Estonian read-out speech. Thus the F0 of each vowel found in Estonian read-out sentences was measured, and its median for three emotions...
Article
Full-text available
This paper deals with the issue of the influence of verbal content on listeners who have to identify or evaluate speech emotions, and whether or not the emotional aspect of verbal content should be eliminated. We compare the acoustic parameters of sentences expressing joy, anger, sadness and neutrality of two groups: (1) where the verbal content ai...
Article
Full-text available
Abstract. The goal of this study was to conduct modelling experiments, the purpose of which was the expression of three basic emotions (joy, sadness and anger) in Estonian parametric text-to-speech synthesis on the basis of both a male and a female voice. For each emotion, three different test models were constructed and presented for evaluation to...

Citations

... The relevance of the interaction between audio and visual modalities in the transfer of emotions has been stressed particularly from the perceptual point of view (Hess et al., 1998; Massaro and Egan, 1998; deGelder et al., 1998; deGelder and Vroomen, 2000). We focused our research on the quantification of the labial articulatory parameters modifications induced by the different emotions, and on the definition of their acoustic correlates (see Magno Caldognetto et al. (2003); Nordstrand et al. (2003) and the recent papers on smile (Schroeder et al., 1998; Aubergé and Cathiard, 2003)). In particular, our study is aimed at identifying the effects on the parameters chosen to describe the labial configuration on the non-emotive speech production (LO, UL, LL, LR, ULP, LLP, LCX, RCX, ASYMX, LCY, RCY, ASYMY. ...
... For each acquisition session the articulatory data at resting position has been recorded as well, and the extracted parameters have been normalized with respect to this values (Magno Caldognetto et al., 2003). The parameters selected to quantify the labial configuration modifications are the following: • Lip Opening (LO), calculated as the distance between the markers placed on the central points of the upper and lower lip vermilion borders; this parameter correlates with the HIGH-LOW phonetic dimension. ...
Article
This paper describes how the visual characteristics of some Italian phones (/’a/, /b/, /v/) are modified in emotive speech by the expression of the “big six” emotions: joy, surprise, sadness, disgust, anger, and fear. In this research we specifically analyze the interaction between the articulatory lip targets of the Italian vowel /’a/ and consonants /b/ and /v/, defined by phonetic-phonological rules, and the labial configurations, peculiar to each emotion. This interaction was quantified on the basis of the variations of the following parameters: lip opening, upper and lower lip vertical displacements, lip rounding, anterior/posterior movements (protrusion) of upper lip and lower lip, left and right lip corner horizontal displacements, left and right corner vertical displacements, and two asymmetry parameters, calculated as the difference between right and left corner position along the horizontal and the vertical axes. The first aim of this research is to quantify the modifications of the lip articulatory parameters due to the emotions; the second aim is to analyze the parameters which are subject to phonetic-phonological constraints and are consequently less influenced by emotions. The results are useful to define the emotive speech production models and are presently employed in researches concerning audiovisual speech synthesis (Talking Heads).
Article
Full-text available
This paper examines acoustic clues of six emotional states (neutral, surprise, happiness, anger, sadness, and fear) in the production of Russian vowels. The findings for unstressed, stressed and pitch accented vowels are presented and discussed. The research data come from RUSLANA (Russian Language Affective) database of standard Russian.
Article
Full-text available
1. SOMMARIO Questo articolo presenta gli sviluppi più recenti di InterFace, un software interattivo realizzato in Matlab all'ISTC-SPFD, per l'animazione audio-visuale delle Facce Parlanti. Per completezza di informazione, questo testo riprende ed integra in maniera esaustiva le presentazioni parziali già fatte precedentemente (Tisato et alii, 2005a, Tisato et alii, 2005b, Cosi et alii, 2005). La ricerca nel campo delle teorie di produzione e percezione della lingua parlata, del riconoscimento della voce, degli agenti conversazionali, dell'insegnamento delle lingue, della riabilitazione della voce, dello studio delle emozioni, ecc., deve far fronte a necessità sempre crescenti di elaborazione di dati articolatori ed acustici.
Article
Full-text available
SOMMARIO Gli sviluppi recenti della ricerca nel campo delle teorie sulla produzione e percezione della lingua parlata, così come nel campo tecnologico dell'interazione uomo-macchina (riconoscimento della voce, sintesi di agenti conversazionali, insegnamento delle lingue, riabilitazione della voce, ecc.) richiedono l'acquisizione e l'elaborazione di grandi quantità di dati articolatori ed acustici. È noto, infatti, che questi dati si differenziano da lingua a lingua per la dimensione e la struttura dell'inventario fonologico. D'altra parte, la richiesta di questo tipo di dati è aumentata negli ultimi anni con il crescente interesse manifestato dalla comunità scientifica nel campo delle emozioni. Questo articolo presenta InterFace, un ambiente interattivo realizzato all'ISTC-SPFD (http://www.pd.istc.cnr.it/LUCIA/home/tools.htm) con lo scopo di facilitare tutte le fasi di analisi, elaborazione, e sintesi dei dati necessari all'animazione audio-visuale delle Teste Parlanti. InterFace permette di raggiungere tre principali finalità: • Estrarre dai dati acquisiti un insieme di misure su parametri articolatori (ad es. apertura labiale, arrotondamento, protrusione, aggrottamento, asimmetrie labiali, ecc.), espressamente definiti dall'utente, e riguardanti tanto l'ambito tradizionale della fonetica che quello più recente delle emozioni. • Ottenere da quegli stessi dati una modellizzazione parametrica dell'evoluzione dei parametri fonetici, che tenga in debito conto i fenomeni di coarticolazione, e che possa essere impiegato nei motori di animazione delle Teste Parlanti. • Creare da varie fonti il flusso dei dati audio-visuali necessari all'animazione di un agente conversazionale, capace di esprimere emozioni. Il sistema può maneggiare quattro differenti tipi di dati in ingresso: • Dati reali, acquisiti da sistemi di cattura degli andamenti cinematici dell'articolazione facciale. L'elaborazione di questi dati permette di realizzare una tipica Data-Driven Synthesis. • Dati testuali, da cui generare il flusso di dati audio-video di controllo dell'animazione facciale. Seguendo questo via, si ottiene una Text-to-Animation Synthesis, ovverosia una Symbolic-Driven Synthesis. • Dati audio, da cui ricavare la segmentazione fonetica con un sistema di riconoscimento automatico e ottenere in questo modo la sequenza dei fonemi necessari ad una animazione sincrona con l'audio. Questo procedimento può essere chiamato una Wav-to-Animation Synthesis. • Dati a basso livello, per controllare manualmente il movimento di uno o più parametri di animazione e verificarne l'effetto con la sintesi video. Quest'ultimo procedimento si può definire come una Manual-Driven Synthesis.