Figure 1 - uploaded by Piero Cosi
Content may be subject to copyright.
Position of the 28 reflecting markers and of the reference planes for the articulatory movement data collection.

Position of the 28 reflecting markers and of the reference planes for the articulatory movement data collection.

Source publication
Article
Full-text available
This paper concerns the bimodal transmission of emotive speech and describes how the expression of joy, surprise,sadness, disgust, anger, and fear, leads to visual and acoustic target modifications in some Italian phonemes. Current knowledge on the audio-visual transmission of emotive speech traditionally concerns global prosodic and intonational c...

Context in source publication

Context 1
... order to collect the articulatory and acoustic data, an automatic optotracking movement analyzer for 3D kinematics data acquisition (ELITE) was used, which also allows a synchronous recording of the acoustic signal (for previous applications of this data acquisition system to the definition of Italian visemes on an articulatory basis, see [1], [2]). This system ensures high accuracy (100 Hz sampling rate, maximal error of 0.1 mm for a 28x28x28 cm cube) and minimum discomfort to the subject because it tracks the infrared light reflected by small (2 mm diameter), passive markers glued on different points of the external lips contour and of the face, following the scheme in Fig.1. Only the data relative to lip markers are presented in this work. ...

Similar publications

Article
Full-text available
Fundamental frequency (F0, perceived as pitch) is an important prosodic cue of emotion. The aim of the present study was to fi nd out if sentence emotion has any infl uence detectable in the F0 height and range of Estonian read-out speech. Thus the F0 of each vowel found in Estonian read-out sentences was measured, and its median for three emotions...
Article
Full-text available
This paper deals with the issue of the influence of verbal content on listeners who have to identify or evaluate speech emotions, and whether or not the emotional aspect of verbal content should be eliminated. We compare the acoustic parameters of sentences expressing joy, anger, sadness and neutrality of two groups: (1) where the verbal content ai...
Article
Full-text available
Abstract. The goal of this study was to conduct modelling experiments, the purpose of which was the expression of three basic emotions (joy, sadness and anger) in Estonian parametric text-to-speech synthesis on the basis of both a male and a female voice. For each emotion, three different test models were constructed and presented for evaluation to...

Citations

... The relevance of the interaction between audio and visual modalities in the transfer of emotions has been stressed particularly from the perceptual point of view (Hess et al., 1998; Massaro and Egan, 1998; deGelder et al., 1998; deGelder and Vroomen, 2000). We focused our research on the quantification of the labial articulatory parameters modifications induced by the different emotions, and on the definition of their acoustic correlates (see Magno Caldognetto et al. (2003); Nordstrand et al. (2003) and the recent papers on smile (Schroeder et al., 1998; Aubergé and Cathiard, 2003)). In particular, our study is aimed at identifying the effects on the parameters chosen to describe the labial configuration on the non-emotive speech production (LO, UL, LL, LR, ULP, LLP, LCX, RCX, ASYMX, LCY, RCY, ASYMY. ...
... For each acquisition session the articulatory data at resting position has been recorded as well, and the extracted parameters have been normalized with respect to this values (Magno Caldognetto et al., 2003). The parameters selected to quantify the labial configuration modifications are the following: • Lip Opening (LO), calculated as the distance between the markers placed on the central points of the upper and lower lip vermilion borders; this parameter correlates with the HIGH-LOW phonetic dimension. ...
Article
This paper describes how the visual characteristics of some Italian phones (/’a/, /b/, /v/) are modified in emotive speech by the expression of the “big six” emotions: joy, surprise, sadness, disgust, anger, and fear. In this research we specifically analyze the interaction between the articulatory lip targets of the Italian vowel /’a/ and consonants /b/ and /v/, defined by phonetic-phonological rules, and the labial configurations, peculiar to each emotion. This interaction was quantified on the basis of the variations of the following parameters: lip opening, upper and lower lip vertical displacements, lip rounding, anterior/posterior movements (protrusion) of upper lip and lower lip, left and right lip corner horizontal displacements, left and right corner vertical displacements, and two asymmetry parameters, calculated as the difference between right and left corner position along the horizontal and the vertical axes. The first aim of this research is to quantify the modifications of the lip articulatory parameters due to the emotions; the second aim is to analyze the parameters which are subject to phonetic-phonological constraints and are consequently less influenced by emotions. The results are useful to define the emotive speech production models and are presently employed in researches concerning audiovisual speech synthesis (Talking Heads).
Article
Full-text available
This paper examines acoustic clues of six emotional states (neutral, surprise, happiness, anger, sadness, and fear) in the production of Russian vowels. The findings for unstressed, stressed and pitch accented vowels are presented and discussed. The research data come from RUSLANA (Russian Language Affective) database of standard Russian.
Article
Full-text available
1. SOMMARIO Questo articolo presenta gli sviluppi più recenti di InterFace, un software interattivo realizzato in Matlab all'ISTC-SPFD, per l'animazione audio-visuale delle Facce Parlanti. Per completezza di informazione, questo testo riprende ed integra in maniera esaustiva le presentazioni parziali già fatte precedentemente (Tisato et alii, 2005a, Tisato et alii, 2005b, Cosi et alii, 2005). La ricerca nel campo delle teorie di produzione e percezione della lingua parlata, del riconoscimento della voce, degli agenti conversazionali, dell'insegnamento delle lingue, della riabilitazione della voce, dello studio delle emozioni, ecc., deve far fronte a necessità sempre crescenti di elaborazione di dati articolatori ed acustici.
Article
Full-text available
SOMMARIO Gli sviluppi recenti della ricerca nel campo delle teorie sulla produzione e percezione della lingua parlata, così come nel campo tecnologico dell'interazione uomo-macchina (riconoscimento della voce, sintesi di agenti conversazionali, insegnamento delle lingue, riabilitazione della voce, ecc.) richiedono l'acquisizione e l'elaborazione di grandi quantità di dati articolatori ed acustici. È noto, infatti, che questi dati si differenziano da lingua a lingua per la dimensione e la struttura dell'inventario fonologico. D'altra parte, la richiesta di questo tipo di dati è aumentata negli ultimi anni con il crescente interesse manifestato dalla comunità scientifica nel campo delle emozioni. Questo articolo presenta InterFace, un ambiente interattivo realizzato all'ISTC-SPFD (http://www.pd.istc.cnr.it/LUCIA/home/tools.htm) con lo scopo di facilitare tutte le fasi di analisi, elaborazione, e sintesi dei dati necessari all'animazione audio-visuale delle Teste Parlanti. InterFace permette di raggiungere tre principali finalità: • Estrarre dai dati acquisiti un insieme di misure su parametri articolatori (ad es. apertura labiale, arrotondamento, protrusione, aggrottamento, asimmetrie labiali, ecc.), espressamente definiti dall'utente, e riguardanti tanto l'ambito tradizionale della fonetica che quello più recente delle emozioni. • Ottenere da quegli stessi dati una modellizzazione parametrica dell'evoluzione dei parametri fonetici, che tenga in debito conto i fenomeni di coarticolazione, e che possa essere impiegato nei motori di animazione delle Teste Parlanti. • Creare da varie fonti il flusso dei dati audio-visuali necessari all'animazione di un agente conversazionale, capace di esprimere emozioni. Il sistema può maneggiare quattro differenti tipi di dati in ingresso: • Dati reali, acquisiti da sistemi di cattura degli andamenti cinematici dell'articolazione facciale. L'elaborazione di questi dati permette di realizzare una tipica Data-Driven Synthesis. • Dati testuali, da cui generare il flusso di dati audio-video di controllo dell'animazione facciale. Seguendo questo via, si ottiene una Text-to-Animation Synthesis, ovverosia una Symbolic-Driven Synthesis. • Dati audio, da cui ricavare la segmentazione fonetica con un sistema di riconoscimento automatico e ottenere in questo modo la sequenza dei fonemi necessari ad una animazione sincrona con l'audio. Questo procedimento può essere chiamato una Wav-to-Animation Synthesis. • Dati a basso livello, per controllare manualmente il movimento di uno o più parametri di animazione e verificarne l'effetto con la sintesi video. Quest'ultimo procedimento si può definire come una Manual-Driven Synthesis.