ArticlePDF Available

O espectro médio de longo termo na pesquisa e na clínica fonoaudiológica***** The long-term average spectrum in research and in the clinical practice of speech therapists

Authors:

Abstract and Figures

Background: one of the great difficulties in evaluating a voice is the judgment of quality through the perceptual auditive analysis - although frequently used -, as it is influenced by socioeconomic and cultural aspects as well as individual preferences. Many are the adjectives and methods used in this assessment, especially because of the subjectivity involved in the process, leading to incompatibilities between listeners and difficulties in reaching a consensus on the use of this or that terminology. In such a context, the voice laboratory and more specifically the acoustic computerized analysis, has guided and complemented speech-language treatments. Among the several possibilities of spectrographi c analysis, the (Long-Term Average Spectrum - LTAS) quantifies the quality of voices, pointing differences between gender, age, professional - spoken and sang - and dysphonic voices. The LTAS has been used a lot in researches that investigate voice. As it evidences the contribution of the glottic source and of resonance to the quality of voice, it provides objective parameters for the evaluation of this aspect which usually depends on our auditive perception. Aim: to demonstrate how LTAS can be applied in voice research and in the speech-language therapy practice, describing both the technical aspects required for the production and interpretation of results, and its limitations. Conclusion: the area of voice research has developed a lot in these last two decades especially because of the advent of the voice and speech laboratory. For this reason, the knowledge about the applicability of more tools for voice analysis, as the LTAS, as well as the existing need for more studies in this area, will most certainly contribute for the creation of new research areas not only in the field of professional voice but also in the field of therapy.
No caption available
… 
Content may be subject to copyright.
111
Pró-Fono Revista de Atualização Científica, v. 18, n. 1, jan.-abr. 2006
O espectro médio de longo termo na pesquisa e na clínica fonoaudiológica
O espectro médio de longo termo na pesquisa e na clínica
fonoaudiológica*****
The long-term average spectrum in research and in the clinical
practice of speech therapists
*Fonoaudióloga. Doutora em Ciências
pela Universidade Federal de São
Paulo - Escola Paulista de Medicina.
Professora Assistente Doutora do
Departamento de Artes Cênicas da
Universidade Estadual Paulista de
Júlio Mesquita Filho. Endereço para
correspondência: Rua Dom Luís
Lasagna, 400 - São Paulo - SP -
CEP 04266-030
(smaster@ia.unesp.br).
**Médica. Doutora em Medicina pela
Universidade Federal de São Paulo -
Escola Paulista de Medicina.
Professora Associada do Departamento
de Fundamentos da Fonoaudiologia da
Pontificia Universidade Católica de
São Paulo.
***Fonoaudióloga. Mestranda pela
Universidade Federal de São Paulo -
Escola Paulista de Medicina.
****Fonoaudióloga. Professora Titular
do Departamento de Fonoaudiologia da
Universidade Federal de São Paulo-
Escola Paulista de Medicina.
*****Trabalho Realizado na
Universidade Federal de São
Paulo – Escola Paulista de Medicina.
Artigo de Atualização
Artigo Submetido a Avaliação por Pares
Conflito de Interesse: não
Recebido em 13.10.2004.
Revisado em 28.04.2005; 23.05.2005;
29.07.2005; 06.12.2005; 06.02.2006;
14.03.2006.
Aceito para Publicação em 14.03.2006.
Suely Master*
Noemi De Biase**
Vanessa Pedrosa***
Brasília Maria Chiari****
Abstract
Background: one of the great difficulties in evaluating a voice is the judgment of quality through the
perceptual auditive analysis - although frequently used -, as it is influenced by socioeconomic and
cultural aspects as well as individual preferences. Many are the adjectives and methods used in this
assessment, especially because of the subjectivity involved in the process, leading to incompatibilities
between listeners and difficulties in reaching a consensus on the use of this or that terminology. In such
a context, the voice laboratory and more specifically the acoustic computerized analysis, has guided
and complemented speech-language treatments. Among the several possibilities of spectrographic
analysis, the (Long-Term Average Spectrum - LTAS) quantifies the quality of voices, pointing differences
between gender, age, professional - spoken and sang - and dysphonic voices. The LTAS has been used
a lot in researches that investigate voice. As it evidences the contribution of the glottic source and of
resonance to the quality of voice, it provides objective parameters for the evaluation of this aspect
which usually depends on our auditive perception. Aim: to demonstrate how LTAS can be applied in
voice research and in the speech-language therapy practice, describing both the technical aspects
required for the production and interpretation of results, and its limitations. Conclusion: the area of
voice research has developed a lot in these last two decades especially because of the advent of the
voice and speech laboratory. For this reason, the knowledge about the applicability of more tools for
voice analysis, as the LTAS, as well as the existing need for more studies in this area, will most certainly
contribute for the creation of new research areas not only in the field of professional voice but also in
the field of therapy.
Key Words: Voice Quality; Voice Training; Acoustical of the Speech; Speech Perception.
Resumo
Tema: uma das maiores dificuldades que encontramos ao avaliar uma voz é julgar a sua qualidade por
meio da análise perceptivo-auditiva que - ainda que soberana - envolve desde aspectos sócio-econômicos
e culturais até preferências individuais. Muitos são os adjetivos usados nesta avaliação e os métodos
empregados, pela subjetividade envolvida neste processo, acabam gerando discordâncias entre os ouvintes
e dificuldades de assumir um consenso em torno do uso desta ou daquela terminologia. Neste contexto,
o laboratório de voz e, mais especificamente, a análise acústica computadorizada, trouxe a possibilidade
de orientar e complementar a conduta fonoaudiológica. Entre as várias possibilidades de análise
espectrográfica, o espectro médio de longo termo (Long-Term Average Spectrum - LTAS) oferece a
possibilidade de “quantificar” a qualidade de uma voz, marcando as diferenças entre gênero, idade, vozes
profissionais - falada e cantada - e vozes disfônicas. O LTAS vem sendo muito utilizado em pesquisas na
área de voz pois, ao evidenciar a contribuição da fonte glótica e da ressonância para a sua qualidade,
fornece subsídios objetivos para a avaliação deste parâmetro que depende basicamente da nossa percepção
auditiva. Objetivo: trazer o conhecimento sobre a aplicação do LTAS na pesquisa e na clínica
fonoaudiológica, descrevendo tanto os aspectos técnicos necessários à sua execução e à interpretação
dos seus resultados, bem como as limitações no seu uso. Conclusão: a área de voz tem se desenvolvido
muito nestas duas últimas décadas graças ao advento do laboratório de voz e fala. Assim sendo, conhecer
a aplicabilidade de mais uma ferramenta de análise, o LTAS, considerando ainda a demanda existente de
estudos nesta área, certamente vai contribuir para a criação de novas linhas de pesquisa tanto em voz
profissional quanto na reeducação de alterações vocais.
Palavras-Chave: Acústica da Fala; Espectro Médio de Longo Termo; Qualidade de Voz; Treinamento
da Voz.
Referenciar este material como:
MASTER, S.; BIASE, N. D.; CHIARI, B. M.; PEDROSA, V. O espectro médio de longo termo na pesquisa e na clínica fonoaudiológica. Pró-Fono Revista de
Atualização Científica, Barueri (SP), v. 18, n. 1, p. 111-120, jan.-abr. 2006.
Pró-Fono Revista de Atualização Científica, v. 18, n. 1, jan.-abr. 2006
Master et al.112
Introdução
Uma das maiores dificuldades que encontramos
ao avaliar uma voz é julgar a sua qualidade por meio
da nossa escuta que, ainda que soberana, envolve
desde aspectos sócio-econômicos e culturais, até
preferências individuais (Biemans, 2002; Medrado
et al, 2005; Bele, 2005). São muitos os adjetivos
usados na avaliação perceptivo-auditiva e os
métodos empregados nesta classificação, pela
subjetividade envolvida neste processo, acabam
gerando discordâncias entre os ouvintes e
dificuldades de assumir um consenso em torno do
uso desta ou daquela terminologia (Bele, 2002).
Neste contexto, a análise acústica trouxe a
possibilidade de orientar e complementar a conduta
fonoaudiológica com dados mais objetivos.
Entre as várias possibilidades de análise
espectrográfica, o espectro médio de longo termo
(Long-Term Average Spectrum - LTAS) oferece a
possibilidade de “quantificar” a qualidade de uma
voz, marcando as diferenças entre gênero, idade,
vozes profissionais - falada e cantada - e vozes
disfônicas (Leino, 1993; Mendoza et al., 1996;
Navarro, 2000; Barrichelo et al., 2001; Hartl, 2001;
Linville e Rens, 2001; Bele, 2002; Camargo, 2002;
Sjölander, 2003; Jónsdottir et al., 2003; Hartl et al.,
2003 Laukkanen et al., 2004; Camargo et al., 2004;
Pinczower e Oates, 2005; Soyama et al., 2005).
Determinados traços mais estáveis de uma
emissão, como a qualidade da voz, tornam-se mais
evidentes a partir de amostras de fala de longa
duração e esta é precisamente uma das maiores
vantagens em usar o LTAS (Camargo, 2002). Outra
vantagem é que, se o sinal acústico de fala for
suficientemente longo, o espectro médio resultante
não é afetado por diferenças no material de fala –
conteúdo e articulação - fato este que indica um
certo grau de confiabilidade na comparação entre
falantes e entre estudos (Frokjaer-Jensen e Prytz,
1976; Kitzing, 1986; Löfqvist, 1986).
O objetivo do presente estudo é descrever as
aplicações e interpretações dos achados do LTAS,
relacionando ainda eventos acústicos, percepção
auditiva e fisiologia da fonação, a partir da coleta
de textos completos na base de dados
bibliográficos MEDLINE, textos estes publicados
no decorrer do período que compreende o ano de
1976 a 2005, com especial enfoque nos últimos 5
anos. O LTAS é uma excelente ferramenta de
trabalho que, ao objetivar o que percebemos
enquanto qualidade vocal, complementa tanto a
avaliação quanto o acompanhamento do trabalho
de voz, seja ele terapêutico ou pedagógico,
contribuindo para o avanço dos nossos estudos
nesta área onde, até o presente momento, são
poucos os estudos feitos por meio deste método.
Long term average spectrum (LTAS)
No estudo de um som, muitas são as
possibilidades de análise acústica. As mais usadas
descrevem o som por meio da sua forma de onda e
do espectro. Segundo Sundberg (1987), o espectro
mostra em que freqüências estão os parciais do sinal
e a sua intensidade e é o correlato acústico da
qualidade de uma voz. Para o autor “existem
propriedades importantes do espectro da fonte
glótica que só podem ser observadas num espectro
em decibéis. É o caso da amplitude dos parciais mais
agudos que, apesar de ser pequena, é de extrema
importância para a nossa percepção do timbre”.
O LTAS, particularmente para Nordemberg e
Sundberg (2003), “Reflete a contribuição tanto da
fonte glótica quanto do trato vocal na qualidade de
uma voz”. Dispõe em um só espectro, a média de
vários espectros momentâneos obtidos, por
exemplo, a cada 200 milésimos de segundo (5
espectros/segundo, 300 em 1 minuto). No eixo das
abscissas mostra o nível de pressão sonora em
decibéis e no das ordenadas, a freqüência em Hertz.
O tempo é excluído da análise do espectro de longa
duração e, portanto, todas as variáveis a ele
associadas tais como freqüência e amplitude (jitter,
shimmer, proporção harmônico/ruído), não são
capturadas, a não ser que interfiram, de fato, no
espectro da fonte glótica (Frokjaer-Jensen e Prytz,
1976; Kitzing, 1986; Löfqvist, 1986). Por este motivo,
o LTAS muitas vezes tem que ser complementado
de outros tipos de análise acústica e, sobretudo,
ouvir a voz é imprescindível para a interpretação
dos resultados. A questão da reprodutibilidade do
experimento deve ainda ser considerada, já que a
voz de um mesmo indivíduo pode se apresentar
diferente em momentos diferentes. Por exemplo, uma
voz normal, ao final de uma jornada de trabalho,
pode estar mais soprosa ou mais tensa, ou não
apresentar evidências de disfonia após uma noite
de descanso.
De acordo com Hammarberg et al (1986),
Sundberg (1987) e Leino (1993), os picos ou regiões
de maior concentração de energia do LTAS, estão
fortemente relacionados com a percepção de
diferentes qualidades de vozes.
Para se fazer a análise com o LTAS, algumas
considerações metodológicas precisam ser
observadas.
113
Pró-Fono Revista de Atualização Científica, v. 18, n. 1, jan.-abr. 2006
O espectro médio de longo termo na pesquisa e na clínica fonoaudiológica
Duração da amostra
Para Kitzing (1986) e Löfqvist (1986), se a duração
do sinal a ser analisado for suficientemente longa, de
20’ - 40’, o espectro médio resultante não será
fortemente afetado por diferenças no material da fala
tais como acentuação, padrão de articulação e outras
particularidades inerentes à emissão de cada
indivíduo. Isso porque as freqüências dos primeiros
formantes - F1 e F2 – cujos valores têm maior variação
entre as vogais, passam a ser representados por uma
média, evidenciando assim os formantes cujos valores
variam menos - F3, F4 e F5 – e que estão relacionados
com a qualidade da voz (Sundberg, 1987).
Eliminar da análise os sons não vozeados e as
pausas/ silêncio
Para estudar a contribuição da fonte glótica
para a qualidade da voz, é recomendável eliminar
do material de fala os sons não vozeados, uma vez
que estes sons que são gerados por fonte de ruído,
podem mascarar a informação da fonte de voz
(Linville e Rens, 2001). Para Löfqvist (1986), uma
mesma amostra de fala analisada com e sem pausas,
com e sem sons surdos, afeta o espectro
principalmente na faixa de 5-8kHz. No estudo da
qualidade de uma voz profissional, cujas
informações mais importantes se concentram na
faixa que vai até 5kHz, não cortar os sons surdos
não interfere diretamente na avaliação, porém, para
análise de vozes disfônicas, é necessário descartar
esta interferência da fonte de ruído no espectro.
Formas de medir o LTAS
Os parâmetros usados para mensurar o LTAS
consideram “o tempo no qual a energia do espectro
está integrada e a faixa de freqüência em que a energia
é medida” (Navarro, 2000; Pinho e Camargo, 2001;
Camargo et al., 2004). Porém, não existem índices
normativos ou formas-padrão de efetuar a mensuração
do espectro do LTAS, o que de certa forma, prejudica
um pouco a comparação entre estudos.
Em linhas gerais, observamos que ter uma
indicação da inclinação da curva, calculando-se a
relação entre a região mais forte e a mais fraca do
espectro, tem sido uma medida adotada por vários
autores (Frokjaer-Jensen e Prytz, 1976; Kitzing,
1986; Hammarberg et al., 1986; Pinczower e Oates,
2005). Este cálculo pode ser feito a partir da
mensuração manual dos picos, em decibéis
relativos, ou ainda automaticamente, pelos
programas de análise acústica que fornecem a
média do nível de pressão sonora (Leq- equivalent
sound level) da emissão total e / ou de faixas de
freqüências. A inclinação da curva espectral
mostrou estar diretamente relacionada com a
qualidade da voz: vozes ressonantes, fortes,
apresentam menor diferença entre as regiões forte
e fraca do espectro, enquanto vozes pobres,
fluídas, apresentam maior diferença (Hammarberg
et al., 1986; Leino 1993; Bele, 2002).
Os picos que se formam no espectro do LTA
correspondem à extensão da variação da freqüência
fundamental (f0) – difícil de identificar - e dos
formantes (F) e devem ser mensurados. A região mais
grave do espectro, de 100-1kHz, tem maior
concentração de energia sonora que as demais regiões
e se relaciona com o nível de pressão sonora médio
de uma emissão e com a loudness vocal (Nordemberg
e Sundberg, 2003; Laukkanen et al., 2004). Assim,
pode-se calcular a diferença entre os picos em 1-5kHz
e 5-8kHz e esta região mais forte do espectro.
Mensurar a diferença entre a amplitude de f0 e
F1 (L1-L0) também fornece informações sobre o
modo de fonação (Sundberg, 1987). Uma f0 mais
forte que F1 indica uma voz mais fluida, soprosa
ou de intensidade fraca, enquanto um F1 muito
mais forte que f0, indica uma voz mais tensa, pregas
vocais mais fortemente aduzidas ou uma voz em
intensidade forte (Frokjaer-Jensen e Prytz, 1976;
Kitzing, 1986; Hammarberg et al., 1986; Bele, 2002).
Normalmente, a amplitude de F1 é maior que a de
f0. Na Figura 1, pode-se ver de forma
esquematizada, as diferentes extensões de regiões
do espectro que correspondem à f0 e às freqüências
formantes, a partir da qual, os parâmetros acima
referidos são mensurados.
Tanner et al., (2005), procurando estabelecer
índices de LTAS que direcionem a avaliação de um
processo terapêutico, observaram que existe uma
relação forte entre a média e o desvio padrão das
medidas obtidas em diversos espectros de um
mesmo indivíduo com disfonia funcional, antes e
depois da intervenção terapêutica, e a percepção
de melhora na voz. Para os autores, estas medidas
de distribuição seriam possíveis marcadores de
melhora na qualidade vocal.
Normalização do espectro
Com o objetivo de facilitar a mensuração e a
comparação entre espectros, sugere-se a sua
normalização, o que significa colocar o componente
mais forte do espectro em zero dB, passando os
demais componentes a ter um valor em dB que é
negativo. Alguns programas oferecem esta
possibilidade enquanto outros, como o Praat, um
script tem que ser rodado.
Pró-Fono Revista de Atualização Científica, v. 18, n. 1, jan.-abr. 2006
Master et al.114
Efeito do aumento da intensidade no espectro
LTAS
Segundo Nordemberg e Sundberg (2003),
pesquisas que envolvam a mensuração da pressão
sonora e ainda, o registro da voz de pacientes,
precisam ser minuciosamente monitoradas para não
incorrermos em conclusões precipitadas pois, para
um mesmo aumento de intensidade, a resposta das
freqüências não é linear. Os autores apontam que um
ganho em freqüências agudas é maior que nas graves
e assim, a região até 0.5kHz será menos afetada do
que 2-4kHz, por exemplo. Desta forma, pode-se
questionar o valor de comparar dados produzidos
em diferentes graus de intensidade mas, para
minimizar esta interferência, o registro do sinal de
fala pode ser controlado pelo decibelímetro, bem como
a distância entre a boca e o microfone, já que monitorar
o esforço expiratório é praticamente impossível.
Calibrar o programa de análise acústica por meio
de um som de referência, é também um procedimento
básico na mensuração deste parâmetro na maioria
dos estudos que envolvem o LTAS (Hammarberg et
al, 1986; Leino, 1993; Laukkanen, et al., 2004;
Pinczower e Oates, 2005). Nordemberg e Sundberg
(2003), considerando uma variação de intensidade
entre loudness forte e fraca de 28dB, demonstraram
a existência de uma relação linear forte entre o nível
médio de pressão sonora e LTAS, ao menos até a
região de 4kHz, sendo provável que em níveis muito
altos de intensidade esta relação se modifique. Assim
sendo, conhecendo-se o NPS de uma emissão, é
possível calcular o espectro do LTA resultante. Para
as freqüências mais graves do espectro, o fator-
ganho é linear, enquanto nas freqüências entre 1.5-
3.0kHz, este fator é de 1dB para 1.4dB para homens e
1.6dB para mulheres, que precisam de uma maior
pressão subglótica para obter a mesma loudness.
Em um estudo anterior, White e Sundberg (2000),
analisando a variação de intensidade em espectros
de barítonos já haviam observado que um aumento
de 10dB no NPS incidia em um acréscimo de 15-20dB
nos parciais próximos a 2.5kHz, e que esta relação é
função do log. da pressão subglótica. Na seqüência
de Figuras 2 a 4, podemos observar nas emissões de
um mesmo falante em 88,6dB, 91,2dB e 95,3dB à
distância de 15cm, que a relação F1-f0 se modifica
gradativamente e, num ajuste hipercinético, além do
aumento de energia na região do F4, a f0 torna-se
muito mais fraca que F1 e ainda, F4 e F5 se aproximam
e formam um só pico.
LTAS e qualidade de voz
O LTAS vem sendo utilizado em numerosos
estudos porque permite “quantificar” a qualidade de
uma voz, marcando as diferenças entre gênero, idade,
qualidade da voz profissional - falada e cantada - e
vozes disfônicas, contribuindo para a avaliação e para
o acompanhamento de treinamentos e/ou tratamentos
(Kitzing, 1986; Hammarberg et al., 1986; Leino, 1993;
Mendoza et al, 1996; Cleveland et al, 2001; White,
2001; Laukkanen et al., 2004; Jorge et al, 2004).
FIGURA 1. Extensões das regiões do espectro que correspondem à f0 e às freqüências formantes.
dB
HZ
Hz
dB
115
Pró-Fono Revista de Atualização Científica, v. 18, n. 1, jan.-abr. 2006
O espectro médio de longo termo na pesquisa e na clínica fonoaudiológica
. voz feminina e masculina. Marcando as
diferenças acústicas entre vozes masculinas e
femininas para além da freqüência fundamental e
da estrutura de freqüências formantes, os
resultados de Mendoza et al., (1996) mostraram
um nível alto de energia, provavelmente
proveniente de ruído aspirado, para o sexo
feminino na região 3kHz, correspondente ao
terceiro formante (F3) e, em função deste ruído,
uma inclinação menos acentuada da curva
espectral. O ruído estaria relacionado com uma
configuração glótica compatível com a fenda
triangular posterior comum às mulheres que lhes
daria uma qualidade de voz soprosa. Este padrão
de voz pode ainda ter sido “escolhido” tendo em
vista um comportamento sócio cultural, ao menos
entre as mulheres americanas e espanholas,
grupos até então estudados por meio do LTAS.
Comparando o LTAS em diferentes loudness de
fonação, Nordemberg e Sundberg (2003)
observaram que a freqüência do F3 é quase 20%
mais aguda para as mulheres, e que seus espectros
apresentaram picos em 2,9kHz e 4,1kHz. Para os
homens, estes picos estão em 2,4kHz e 3,4kHz.
Referem que para um mesmo NPS de 70dB,
mulheres apresentaram uma curva de espectro em
média 3.5dB mais forte na região de 1-4kHz,
provavelmente por que tendem a necessitar de
um maior grau de esforço vocal para alcançar uma
mesma intensidade que os homens.
. voz infantil. White (2001), para um grupo de crianças
e adolescentes de ambos os sexos, observou um
pico em 5kHz para o sexo masculino e para o sexo
feminino, uma curva mais plana - queda menos
acentuada do espectro - na voz cantada. Também
observa diferenças na maneira de variar a
intensidade de fala, sendo que as meninas, como as
mulheres adultas, tendem a falar usando uma maior
adução glótica. Sjölander (2003), a partir do estudo
anterior, confirmou a relação entre estes achados e
a capacidade auditiva de diferenciar estas vozes.
. voz senil. Linville e Rens (2001) pesquisaram em
80 falantes, divididos por faixa etária e sexo, as
modificações ressonantais que acompanham com
o envelhecimento, partindo do princípio de que
existe um aumento da extensão do trato vocal em
decorrência de alterações de certas estruturas do
aparelho fonador, e que o LTAS é um instrumento
sensível a estas mudanças. Os achados acústicos
mostram que os idosos de ambos os sexos
apresentaram freqüências formantes mais graves,
especialmente as mulheres, confirmando assim os
achados anatômicos.
FIGURA 2. Voz em loudness habitual.
FIGURA 3. Voz em loudness moderada.
FIGURA 4. Voz em loudness forte.
0 1000 2000 3000 4000 5000
-50
-40
-30
-20
-10
0
dB
Hz
0 1000 2000 3000 4000 5000
-50
-40
-30
-20
-10
0
Hz
dB
0 1000 2000 3000 4000 5000
-50
-40
-30
-20
-10
0
dB
Hz
Pró-Fono Revista de Atualização Científica, v. 18, n. 1, jan.-abr. 2006
Master et al.116
Em conjunção com dados de estudos os
anteriores os autores propõem um modelo misto
de ressonância do trato vocal e padrão articulatório
afetando as freqüências formantes desta faixa
etária. Em outro estudo, com o mesmo grupo,
Linville (2002) identificou diferenças entre os
espectros de idosas, comparados aos de jovens:
maior amplitude em 340kHz e em outros pontos
específicos da região 6-7kHz, e níveis baixos de
energia em 3.040Hz e 3,2kHz. Ambos os grupos
femininos - jovens e idosas - foram
perceptivamente identificados como tendo uma
qualidade de voz soprosa - idosas mais - mas, em
princípio, esta qualidade seria revelada pelo
aumento de energia em diferentes pontos do
espectro, em 3kHz e 6kHz, sugerindo diferenças na
configuração da fenda glótica que seria mais
posterior para jovens e mais anterior para mulheres.
Porém, estes aspectos merecem estudos mais
conclusivos, com uma população maior. O espectro
de jovens mostraram ainda uma menor diferença
entre as faixas abaixo e acima de 1,6kHz, ou seja,
uma curva com menor inclinação. Os idosos,
quando comparados aos jovens, apresentaram
menores níveis de energia em 1,6kHz (F2), ainda
sem uma justificativa plausível do ponto de vista
fisiológico, e uma tendência a um aumento de
energia na região de agudos. A freqüência
fundamental da emissão dos idosos femininos e
masculinos é muito próxima – 160Hz – e com maior
amplitude que a do grupo de jovens. Soyama et al.,
(2005) investigaram 8 indivíduos de ambos os
gêneros e encontraram um aumento significativo
de energia na região de 2 a 4,5KHz para idosos e
6,5 a 10kHz para idosas. Acrescentam ainda que
apesar de 60 juízes terem identificado
perceptivamente os gêneros, os resultados da
análise acústica por meio do LTAS não apontaram
esta diferenciação.
. voz profissional. No espectro de LTAS de
cantores líricos masculinos, Sundberg (1987)
identificou um pico - o “formante do cantor” (Fc)
- entre 2.8-3.4kHz, resultado do agrupamento entre
F3, F4 e F5, e que estaria relacionado com a nossa
percepção de “brilho” e de projeção vocal. Para o
autor este pico seria uma resposta “inteligente”
do cantor lírico à sua orquestra: a orquestra
trabalha na região mais grave do espectro e o
cantor, para destacar a sua voz, trabalha na região
mais aguda. Segundo o autor, para gerar um Fc, é
necessária uma determinada configuração laríngea
onde a epilaringe se torna uma caixa de
ressonância independente do restante do trato
vocal, cuja freqüência estaria em torno de 3kHz.
Esta região de agudos é precisamente a mesma
onde nossa audição é mais sensível, 2-5kHz
(Sundberg, 1987). Para Titze (2001), o tubo da
epilaringe, nestes casos, se estreita em relação à
faringe e dificulta a passagem do ar para o trato
vocal superior, diminuindo o fluxo transglótico
de ar entre as pregas vocais e modificando o seu
modo de vibração. Desta forma, a fase de
fechamento das pregas vocais fica menor, o que
faz aumentar a intensidade dos harmônicos
superiores na região de 3kHz. Este processo
acontece dentro de uma visão linear de interação
fonte e filtro.
Na mesma linha de raciocínio, Leino (1993)
propõe o termo “formante do ator” ou “formante
do falante” (Ff) para o agrupamento do terceiro,
quarto e quinto formantes (F3, F4 e F5) em torno
de 3,5kHz, em vozes projetadas de atores
masculinos. Estudos realizados com atores
finlandeses, alemães, africanos, suíços e
australianos comprovaram este achado (Leino,
1993; Munro, 2002; Bele, 2002; Pinczower e Oates,
2005). A natureza do formante do ator ainda não
está totalmente esclarecida. A Figura 5 mostra o
“formante do falante” ou “formante do ator” que
aparece com -20dB em relação ao pico mais forte
do espectro normalizado (Master et al, 2005).
FIGURA 5. “Formante do falante” ou “formante do ator”.
0 1000 2000 3000 4000 5000
-50
-40
-30
-20
-10
0
dB
Hz
117
Pró-Fono Revista de Atualização Científica, v. 18, n. 1, jan.-abr. 2006
O espectro médio de longo termo na pesquisa e na clínica fonoaudiológica
A partir destas colocações, com o objetivo de
entender melhor as vozes profissionais, algumas
pesquisas foram desenvolvidas na fala e nos mais
diferentes estilos de canto, ou verificando a
possibilidade de carregar ajustes do canto para a
fala e vice versa, ou ainda, tentando estabelecer a
correlação entre a variação de parâmetros tais como
pitch, loudness de fonação e o espectro acústico e
a análise perceptivo- auditiva. Eis algumas
possibilidades de estudos:
Figueiredo (1993) observou que o LTAS é um
instrumento de análise eficiente quando o objetivo
é estabelecer a identidade de um falante por meio da
comparação de padrões vocais de análises fonéticas
e espectrográficas. Navarro (2000), estudando a
emissão de locutores esportivos por meio de
diferentes variáveis da análise perceptivo-auditiva
e acústica, observou que os espectros de longo
termo (ELT) sugeriam uma qualidade vocal
crepitante, para a fala espontânea destes locutores
e qualidade de voz fluída, para a narração esportiva.
Cleveland et al., (2001), partindo do principio de que
os cantores de country cantam de um modo muito
próximo da forma que falam, compararam o LTAS de
5 sujeitos na fala e no canto, confirmaram esta
hipótese pois, um pico muito forte, na região 3.5kHz
foi identificado em ambas emissões. Barrichelo et
al., (2001) examinaram a possibilidade dos cantores
de ópera levarem para a fala o efeito de ressonância
tecnicamente adquirido no canto, responsável pelo
brilho da voz. Os resultados sugerem uma maior
concentração de energia na região do “formante do
cantor/ator”, tanto nas emissões cantadas quanto
faladas dos cantores líricos. Stone et al., (2003), entre
várias medidas acústicas, pesquisaram também por
meio do LTAS as vozes de cantores líricos e de
cantores no canto da Broadway, estilos associados
com diferentes técnicas vocais. Os resultados, como
uma casuística muito pequena, indicaram uma f0
mais fraca e parciais mais fortes entre 0.8-1.6kHz
sugerindo, para o canto Broadway, uma adução
glótica maior – característica semelhante à fala em
loudness forte. Diferenças entre estes dois estilos
de canto teriam origem em nível glótico e nas
ressonâncias do trato vocal. Pinczower e Oates
(2005), comparando vozes de atores masculinos em
loudness confortável e em nível máximo de projeção,
puderam distinguir estas vozes entre si por meio
das análises acústica e perceptiva. Destacam que o
espectro mostrou maior concentração de energia
nas freqüências agudas, em torno de 3,4kHz (Ff),
para as emissões fortes que para as emissões em
condições confortáveis.
Alguns estudos tiveram êxito em acompanhar
a evolução do treino de voz comparando emissões
de professores antes e depois da intervenção
fonoaudiológica. Munro (2002) acompanhou um
treinamento de voz e dicção por meio do LTAS e,
entre os resultados, observou uma maior
concentração de energia na faixa da freqüência
fundamental (f0) e do primeiro formante (F1)
decorrente da aproximação destas duas
freqüências e ainda, em 2,5kHz, 3kHz e em 4-4,5
kHz., eventos que se relacionaram com a
percepção de voz projetada. Laukkanenet al.,
(2004) treinaram a voz falada de um grupo de
alunos de teatro, com e sem o apoio visual de
análise acústica em tempo real, durante dois
meses, e puderam observar que em ambos os
grupos houve um aumento de 3-4dB na região de
3-5kHz no espectro do LTAS. Os autores
chamaram a atenção sobre a efetividade de treinar
variação de intensidade com um apoio visual para
evitar que mecanismos hiperfuncionais, revelados
por um F1 muito mais forte que f0, se
desenvolvam.
Bele (2002), comparando vozes de atores e
professores noruegueses, observaram as seguintes
diferenças no LTAS: atores têm mecanismos de
emissão mais eficiente em intensidades fortes e
portanto, valores menores na relação entre f0 e F1,
a região do “formante do falante” é mais forte para
os atores mas não tão forte como referido pela
literatura. Segundo a autora, a avaliação auditiva
foi mais eficiente que o LTAS na diferenciação
destas vozes, o que a leva a seguinte questão:
algo afeta o nosso julgamento subjetivo de
qualidade vocal, algo que não pode ser
objetivamente mensurado. A autora observa que
pico em 3.5kHz também poderia estar relacionado
com vozes nasalizadas, ásperas e em fry, reforçando
a necessidade de considerar a análise perceptivo-
auditiva quando forem realizadas análises com o
LTAS.
.vozes disfônicas. O LTAS não faz diagnóstico das
alterações laríngeas (Hammarberg et al., 1986). É
preciso considerar a qualidade da voz sabendo que
para um mesmo diagnóstico etiológico, esta
qualidade pode variar consideravelmente e que
uma mesma qualidade vocal pode estar presente
em diferentes alterações laríngeas.
Pró-Fono Revista de Atualização Científica, v. 18, n. 1, jan.-abr. 2006
Master et al.118
Nas vozes soprosas ou emitidas em loudness
fraca, as principais características do espectro são:
pouca concentração de energia na região de 0,4-
4kHz, correspondente aos principais formantes, e
grande concentração na região acima de 5kHz
(Soyama et al., 2005). O nível da pressão sonora de
f0, quando comparado com o do F1, também é mais
forte (Sundberg, 1987). Nas disfonias
hiperfuncionais, nas vozes emitidas com loudness
aumentada, nas vozes tensas e nas ressonantes, o
envelope do espectro cai de maneira menos
acentuada e, a região do espectro de 2-4kHz,
apresenta maior concentração de energia porém, o
F1, é muito mais forte que f0 (Frokjaer-Jensen e
Prytz, 1976; Kitzing, 1986; Hammarberg et al., 1986;
Löfqvist, 1986; Leino, 1993).
A Figura 6 mostra uma voz grave e fluída que,
tomando-se como referência o espectro da fonte
glótica que cai 12dB por oitava (Sundberg, 1987)
sofreu pouco efeito da ressonância. Pode-se
observar que f0 é mais forte que F1e que o envelope
do espectro apresenta ainda uma queda de energia
razoavelmente acentuada na região de 2-3kHz, e
um pequeno pico em 3-4Hz em -40dB, relativo ao
F4.
Uma grande contribuição do LTAS no campo
do tratamento das disfonias é poder avaliar de
maneira objetiva a qualidade da voz no pré e no
pós de uma terapia fonoaudiológica e de
intervenções cirúrgicas, especialmente a
soprosidade enquanto sintoma de paralisia de
pregas vocais, segundo Hartl et al., (2001). Os
autores compararam dois casos de paralisia
laríngea, antes e depois do surgimento do sintoma
de soprosidade, e observaram um aumento de
energia na região média e aguda do espectro e
decréscimo na região mais grave.
Na Figura 7, observa-se a f0 muito forte em
relação à F1 e uma a grande concentração de
energia no espectro a partir de 5kHz, característica
de vozes soprosas, fracas, pobre em harmônicos.
Laukkanen et al., (2004) investigaram os aspectos
fisiológicos, acústicos e perceptivos da “voz na
garganta”, em apenas dois casos, um indivíduo do
sexo masculino e outro feminino. Esta qualidade de
voz, embora não esteja associada às lesões laríngeas,
é nociva à saúde vocal. Dentre os resultados,
relacionaram a percepção desta qualidade ao
aumento de energia na região de F1, diminuição em
F4 e, nas vogais anteriores, diminuição do F2 –
relacionado ao estreitamento da faringe. No
indivíduo masculino, ainda, existem evidências de
um ajuste motor hiperfuncional. Camargo et al.,
(2004) em um estudo com 5 pacientes disfônicos,
estabeleceram correlações positivas entre ajustes
laríngeos e supra-laríngeos constatados na
avaliação vocal com motivação fonética (avaliação
perceptivo auditiva) e medidas do LTAS, mais
especificamente com a inclinação espectral.
FIGURA 7. Voz de qualidade áspera e soprosa em sulco vocal unilateral.
FIGURA 6. Voz fluída e/ ou soprosa.
0 1000 2000 3000 4000 5000 6000 7000 8000
-50
-40.25
-30.51
-20.76
-11.01
-1.267
dB
Hz
0 1000 2000 3000 4000 5000
-50
-40
-30
-20
-10
0
dB
Hz
119
Pró-Fono Revista de Atualização Científica, v. 18, n. 1, jan.-abr. 2006
O espectro médio de longo termo na pesquisa e na clínica fonoaudiológica
Referências Bibliográficas
BARRICHELO, V. O.; HEUER, J. R.; DEAN, C. M.;
SATALOFF, R. T. Comparison of singer’s formant,
speaker’s ring, and LTAS among classical singers and
untrained speakers. J. Voice, v. 3, n. 15, p. 344-350,
2001.
BELE, I. V. Professional speaking voice: a perceptual and
acoustic study of actor’s and teachers voices. 2002. 253 f.
Tese (Doutorado em Educação) - University of Oslo.
Noruega.
BELE, I. V. Reliability in perceptual analysis of voice
quality. J. Voice, v. 19, n. 4, p. 555-573, 2005.
BIEMANS, M. A. J. Gender variation in voice quality.
2000. 212 f. Dissertação (Mestrado) - Katholieke
Universiteit Nijmegen. The Netherlands (Utrecht) 2000.
CAMARGO, Z. A. Análise da qualidade vocal de um
grupo de indivíduos disfônicos: uma abordagem
interpretativa e integrada de dados de natureza acústica
perceptiva e eletroglotográfica. 2002. 283f. Tese
(Doutorado em Lingüística Aplicada e Estudos da
Linguagem) - Pontifícia Universidade Católica, São Paulo.
CAMARGO, Z.; VILARIM, G. S.; CUKIER, S. Parâmetros
perceptivo-auditivos e acústicos de longo termo da
qualidade vocal de indivíduos disfônicos. R. Cefac, v. 6,
n. 2, p. 189-196, 2004.
CLEVELAND, T. F.; SUNDBERG, J.; STONE, R. E. Long-
term average spectrum characteristics of country singers
during speaking and singing. J. Voice, v. 1, n. 15, p. 54-60,
2001.
FIGUEIREDO, R. M. A eficácia de medidas extraídas do
espectro de longo termo para a Identificação de Falantes.
Cad. Est. Ling., v. 25, p. 129-160, 1993.
FROKJAER-JENSEN, B.; PRYTZ, S. Registration of voice
quality. Bruel Kjaer Technol. Review, v. 3, p. 3-17, 1976.
HAMMARBERG, B.; FRITZELL, B.; GAUFFIN, J.;
SUNDBERG, J. Acoustic and perceptual analysis of vocal
dysfunction. J. Phonetics, v. 14, p. 533-547, 1986.
HARTL, D. M.; HANS, S.; VAISSIERE, J.; RIQUET, M.;
BRASNU, D. F. Objective voice quality analysis before
and after onset of unilateral vocal fold paralysis. J. Voice,
v. 15, n. 2, p. 351-61, 2001.
Agradecimentos: Professor Doutor Anne Maria Laukkanen; Professor Doutor Timo Leino e Professor Doutor Paulo Augusto de Lima
Pontes. Fundação para o Desenvolvimento da UNESP e Fundo de Auxílio aos Docentes e Alunos da UNIFESP.
Conclusão
O LTAS é um método de análise acústica
sensível às diferentes qualidades da voz e, pelos
aspectos evidenciados, uma ferramenta adequada
para complementar de maneira objetiva a nossa
percepção auditiva deste parâmetro. Não tem uma
metodologia de trabalho fácil de ser apreendida,
principalmente se o estudo envolve a mensuração
do nível de pressão sonora, mas mostrou ser uma
ferramenta eficiente para análise da qualidade da
voz, dos seus traços mais estáveis, na medida em
que “resume” por meio de uma média, uma coleção
de espectros momentâneos, revelando a
contribuição da fonte glótica e do filtro para a
qualidade da voz. Não é um método diagnóstico e a
avaliação perceptiva auditiva faz-se imprescindível.
Alguns aspectos tais como f0, jitter, shimmer,
proporção harmônico-ruído e análise de freqüências
formantes, que dependem de uma resolução de
tempo, não são contempladas pelo LTAS e, por este
motivo, outros tipos de análise acústica são
necessários em complementação. O fato de suas
possibilidades e limitações ainda não serem bem
compreendidas, bem como a normatização dos
parâmetros que nele podem ser mensurados, aponta
para um longo caminho de estudos.
Rastrear neste artigo, os aspectos técnicos
envolvidos na sua elaboração bem como a
interpretação dos seus resultados, contribui tanto
para a atuação fonoaudiológica quanto para as
pesquisas nesta área.
O Brasil, por ser um país de cultura muito rica e
diversificada em diferentes estilos de canto e tantas
outras manifestações populares pouco exploradas,
constitui-se em um vasto terreno de pesquisas.
Pró-Fono Revista de Atualização Científica, v. 18, n. 1, jan.-abr. 2006
Master et al.120
HARTL, D. A.; HANS, S.; VAISSIERE, J.; BRASNU, D. A.
Objective acoustic and aerodynamic measures of
breathiness in paralytic dysphonia. Eur. Arch.
Otorhinolaryngol., v. 260, n. 4, p. 175-182, 2003.
JORGE, M. S.; GREGIO, F. N.; CAMARGO, Z. Qualidade
vocal de indivíduos submetidos a laringectomia total:
aspectos acústicos de curto e de longo termo em
modalidades de fonação esofágica e traqueoesofágica. R.
Cefac, v. 6, n. 3, p. 319-329, 2005.
JÓNSDOTTIR, V.; LAUKKANEN, A. M.; SIIKKI, I.
Changes in teachers’ voice quality during a working day
with and without electric sound amplification. Folia
Phoniatr. Logop., v. 55, n. 5, p. 267-280, 2003.
KITZING, P. LTAS criteria pertinent to the measurement
of voice quality. J. Phonetics, v. 14, p. 477- 482, 1986.
LAUKKANEN, A. M.; SUNDBERG, J.; BJÖRKNER, E.
Acoustic study of the “throaty” voice quality. MH-QPSR,
KTH, v. 46, p. 14-24, 2004.
LAUKKANEN, A. M.; SYRJA, T.; LAITALA, M.; LEINO,
T. Effects of two-month vocal exercising with and without
spectral biofeedback on student actor’s voice. Logoped.
Phoniatr. Vocol, v. 29, n. 2, p. 66-76, 2004.
LEINO, T. Long-term average spectrum study on speaking
voice quality in male actors. In: STOCKHOLM MUSIC
ACOUSTICS CONFERENCE, 1993, Stockholm.
Proceedings of the Stockholm Music Acoustics Conference.
Stockholm: Royal Swedish Academy of Music, 1993. p.
206-210.
LÖFQVIST, A. The long time average spectrum as a tool
in voice research. J. Phonetics, v. 14, n. 3, p. 471-475,
1986.
LINVILLE, S. E.; RENS, J. Vocal tract resonance analysis
of aging voice using the long term average spectra. J.
Voice, v. 15, n. 3, p. 323-330, 2001.
LINVILLE, S. E. Source characteristics of aged voice
assessed from Long-term average spectra. J. Voice, v. 16,
n. 4, p. 477-479, 2002.
MASTER. B.; BIASE, N.; CHIARI, B. M.; RAMOS, L. R.;
LAUKKANEM, A. M. Voz projetada de atores masculinos:
um estudo de emissão de longo termo (LTAS) com especial
referência ao "formante do ator". In: CONGRESSO
BRASILEIRO DE FONOAUDIOLOGIA, 13., 2005, São
Paulo. Anais do XIII Congresso Brasileiro de
Fonoaudiologia. Santos: Sociedade Brasileira de
Fonoaudiologia - Suplemento Especial, 2005. 1 CD-ROM.
MENDOZA, E.; VALENCIA, N.; MUÑOZ, J.; TRUJILLO,
H. Differences in voice quality between men and women:
use of the long-term average spectrum. J. Voice, v. 10, n.
1, p. 59-66, 1996.
MEDRADO, R; FERREIRA, L. P.; BEHLAU, M. Voice-
over: Perceptual and Acoustic Analysis of Vocal Features.
J. Voice, v. 19, n. 3, p. 340-349, 2005.
MUNRO, M. Lessac tonal action in women’s voices and
the actor’s formant: a comparative study. 2002. 235 f.
Dissertação (Doutorado em Lingüística) - Potchefstroom
University for Cristian Higher Education. South Africa.
NAVARRO, C. A. Perfil vocal e análise acústica da qualidade
vocal de locutores esportivos. 2000. 107 f. Dissertação
(Mestrado em Fonoaudiologia) - Pontifícia Universidade
Católica. São Paulo.
NORDEMBERG, M.; SUNDBERG, J. Effect on LTAS of
vocal loudness variation. TMH-QPSR, KTH, v. 45, p. 87-
91, 2003.
PINCZOWER, R.; OATES, J. Voice projection in actors:
the LTAS features that distinguish comfortable acting voice
from voicing with maximal projection in males voice. J.
Voice, v. 19, n. 3, p.440-453, 2005.
PINHO, S. M. R.; CAMARGO, Z. Introdução à análise da
voz e da fala. In: PINHO, S. M. R. Tópicos em voz. Rio de
Janeiro: Guanabara Koogan, 2001.
SJÖLANDER, P. Perceptual relevance of the 5kHz spectral
region to sex identification in children’s singing voices.
In: ST OCKHOLM MUSIC ACOUSTICS CONFERENCE,
2003, Stockholm. Proceeding of the Stockholm Music
Acousics Conference. Stockholm: Royal Swedish Academy
of Music, 2003. p. 503-506.
SOYAMA, C. K.; ESPASSATEMPO, C. L.; GREGIO, F.
N.; CAMARGO, Z. Qualidade vocal na terceira idade:
parâmetros acústicos de longo termo de vozes masculinas
e femininas. R. Cefac, v. 7, n. 2, p. 267-279, 2005.
STONE, R. E.; CLEVELAND, F. T.; SUNDBERG, J. P.;
PROKOP, J. Aerodynamic and acoustical measures of
speech, operatic and Broadway vocal styles in professional
female singer. J. Voice, v. 17, n. 3, p. 283-297, 2003.
SUNDBERG, J. The science of the singing voice. Illinois:
Northern Illinois University Press, 1987.
TANNER, K., ROY, N.; ASH, A.; BUDER, E. Spectral
moments of the LTAS: sensitive index of voice change
after therapy? J. Voice, v. 19, n. 2, p. 211-222, 2005.
TITZE, I R. Acoustic interpretation of resonant voice. J.
Voice, v. 15, n. 4, p. 519-28, 2001.
WHITE, P.; SUNDBERG, J. Spectrum effects of subglottal
pressure variation in professional baritones singers. TMH-
QPSR, KTH, v. 4, p. 29-32, 2000.
WHITE, P. Long-term average spectrum analysis of sex-
and gender-related differences in children’s voice.
Logoped. Phonetics Vocol., v. 26, n. 3, p. 97-101, 2001.
... Increase in loudness will in general affect the high-frequency band more than the low band, lessening the energy difference between them. Following references cited by Master et al. (2006), we compared energy difference between bands 0-0.5 kHz and 2-4 kHz of the spectra of the three referential statuses to see if an unusual difference could be found. Differences in the number and location of peaks in the LTAS spectrum can also be informative, although significant differences are more common when comparing modal voices to non-modal or unhealthy voices, and for that reason we do not expect them to appear here. ...
... For the analysis, sound files corresponding to the duration of test NPs of all repetitions were concatenated in three separate ensemble files, one for each status level. Duration of the ensemble files was above 40 seconds (new: 76.9 s, given: 65.8 s, control: 75.6 s), a value regarded as the threshold above which the influence of segmental factors on the resulting spectrum is considered negligible (Master et al. 2006). Silence and consonants were not removed from the sound files because they do not affect the LTAS in the range analyzed here: 0 to 5 kHz. ...
Article
Full-text available
In this paper, we present an experiment to investigate if and how referential status is prosodically encoded in Brazilian Portuguese. Brand new referents were compared to given referents along with a control non-coreferential condition in a controlled reading experiment. We also varied word size. We analyzed the following acoustic parameters: fundamental frequency, duration, spectral emphasis and long-term average spectrum. Results show that overall saliency (newness) tends to receive more acoustic prominence in the form of a high initial fundamental frequency rise and longer target word duration. This effect is sensitive to the number of pre-stressed syllables on the target word: the longer the word, the more pronounced the initial F0 rise becomes. Our experiment helps to fill in a gap in Brazilian Portuguese studies and we hope it will contribute to open new research avenues on the theme of prosody-information relationship.
Article
Objectives 1) To investigate if vocal variation produced by assigned-female-at-birth (AFAB) non-binary people differed from vocal variation produced by cisgender (cis) participants. Cue values produced by non-binary participants were predicted to differ from those values produced by cisgender participants. 2) To determine if previous subjective assessments of bright voice quality in AFAB non-binary participants were quantifiable, and if so, if non-binary and cisgender participants differed in their voice quality production. Study Design A quantitative comparative research design. Methods Phonetic and statistical analyses of continuous speech samples produced by AFAB non-binary and cisgender participants. Vocal cues were mean fundamental frequency (F0) and bright voice quality, measured by cepstral peak prominence-smoothed and spectral slope, with speaker gender as the predictor. Results At the group level, non-binary participants produced intermediate F0 values — significantly lower than the cis women's and significantly higher than the cis men's. Individually, the majority of non-binary participants produced mean F0 in this intermediate range. Non-binary participants produced significantly less negative spectral slope and higher cepstral peak prominence-smoothed, indicative of a brighter, more resonant voice quality. Individual-level results indicated that vocal training and vocal tract physiology did not fully account for the results found. Conclusion Participants’ agency, particularly their motivation to alter vocal output to avoid being misgendered, has an effect on the AFAB non-binary participants’ F0 production and potentially their voice quality. The majority of AFAB non-binary participants uniquely produced the cue combination of intermediate F0 and bright voice quality.
Article
Full-text available
Objective: The present study aimed at observing the influence of tube phonation into water on objective voice characteristics in elderly subjects. Methods: Thirty elderly subjects with presbyphonia were randomly assigned to one of two voice exercise groups: (1) voice exercises with water resistance therapy at 4 and 8 cm of water depth (experimental group), and (2) voice exercises with vowel [a:]. Aerodynamic, electroglottographic, and acoustic voice assessments were conducted before and after exercises. Results: The experimental group showed a significant increase in contact quotient, subglottic pressure (Psub), glottal resistance, and sound pressure level (SPL) when comparing the pre-post 8 cm and the post 4 cm-post 8 cm conditions. No significant differences were found for the control group. Moreover, significant differences for all variables (except for glottal airflow) when comparing condition post (for the control group) and condition post 8 cm (for the experimental group) were found. Conclusion: Tube phonation into water might improve vocal function in the geriatric population. This semioccluded vocal tract exercise seems to promote an increase in Psub and vocal fold adduction immediately after exercise. This in turn might cause an increase in SPL. The effect should become manifest when a deep level of submersion (e.g., 8 cm water) is used. Shallower submersion produced negligible or no effects.
Article
The acoustic voice analysis is an objective and non invasive vocal assessment method, used for voice diagnosis, therapy and research. It uses acoustic records obtained from the patient's voice using professional microphones. There is a variety of softwares and graphing programs available that allows process versatility and specificity. This review presents the most utilized methods of voice graphing.
Conference Paper
Full-text available
In a previous investigation, the recorded voices of 320 children were evaluated with respect to perceived gender and actual sexual identity by a group of experienced listeners. The audio recordings of a subgroup of those children (30 boys and 29 girls aged between 3 and 12 years) were later subjected to an acoustic evaluation using long-term average spectrum (LTAS) analysis and the results were compared to those of the perceptual evaluation. The results revealed a peak in the average spectrum at 5 kHz for children perceived confidently as boys (whether male or female in actuality), and a flat spectrum at 5 kHz for children perceived as girls. Those findings suggested that an acoustically measurable long-term, and therefore persistent, difference may exist between boys' and girls' voices. However, it was unclear if the peak itself carried any perceptual information. In the present experiment, therefore, the recordings have been re-submitted for perceptual analysis. This time each voice was presented twice to expert listeners, quasi-randomly, the second playing of the sample having been filtered to manipulate the effect of the higher frequencies on perception. The listeners were asked to judge the sex of each subject as presented via audio headphones in order to shed light on the significance of the 5 kHz peak.
Article
Full-text available
The goal of this study was to determine if there are acoustical differences between male and female voices, and if there are, where exactly do these differences lie. Extended speech samples were used. The recorded readings of a text by 31 women and by 24 men were analyzed by means of the Long-Term Spectrum (LTAS), extracting the amplitude values (in decibels) at intervals of 160 Hz over a range of 8 kHz. The results showed a significant difference between genders, as well as an interaction of gender and frequency level. The female voice showed greater levels of aspiration noise, located in the spectral regions corresponding to the third formant, which causes the female voice to have a more "breathy" quality than the male voice. The lower spectral tilt in the women's voices is another consequence of this presence of greater aspiration noise.
Article
Full-text available
Throaty" voice quality has been regarded by voice pedagogues as undesired and even harmful. The present study attempts to identify acoustic and physiological correlates of this quality. One male and one female subject read a text habitually and with a throaty voice quality. Oral pressure during p-occlusion was measured as an estimate of subglottic pressure. Long-term-average spectrum (LTAS) analysis was used to describe the average voice quality. Sixteen syllables, perceptually evaluated with regard to throaty quality by five experts, were selected for further analyses. Formant frequencies and voice source characteristics were measured by means of inverse filtering, and the vocal tract shape of the male subject's throaty and normal versions of the vowels (a,u,i,ae) was recorded by Magnetic Resonance imaging. From this material area functions were derived and their resonance frequencies were determined. To test the relevance of formant frequencies to perceived throaty quality, experts rated degree of throatiness in syntheti c vowel samples in which the subjects' measured formant frequency values were used. The main acoustic correlates of throatiness seemed to be an increase of F1, a decrease of F4 and in front vowels also a decrease of F2, presumably resulting from a narrowi ng of the pharynx. In the male subject voice source parameters suggested a more hyperfunctional voice in throaty samples.
Article
This study was designed to determine which objective acoustic or aerodynamic parameters allowed a homogeneous group of patients with unilateral vocal fold paralysis (UVFP) to be distinguished from an age-matched and smoking-matched control group and to search for linear correlations between the objective parameters and the subjective breathiness ratings. Eight patients with recent-onset UVFP and 12 controls were prospectively studied. The acoustic parameters measured for the vowel /a/ at a comfortable frequency and intensity were: jitter, shimmer, harmonics-to-noise ratio, cepstral peak prominence, the difference between the levels of the first two harmonics and the relative energy above 6 kHz. Aerodynamic parameters included the mean flow rate during a sustained /a/ and intraoral pressure during the production of the phoneme /pi/. The long-term average spectrum was calculated for 40 s of text, and the relative average energies in four frequency bands were compared. Six judges rated a mid-/a/ sample using a five-parameter scale with four levels of severity. Nonparametric statistical analysis revealed significant differences (P<.05) between the UVFP group and the control group for 14 of the 19 parameters studied. Correlations between the objective parameters and perceived breathiness differed in the two groups. Correlations were not always as expected as based on previous literature reports. These measurements provided an objective qualification of voice in patients with UVFP and successfully distinguished them from the normal controls. The objective acoustic and aerodynamic measurements had generally low linear correlations with breathiness ratings in the control group. Higher correlations were seen in the UVFP group, in which breathiness was best correlated with airflow measurements.
Article
Thesis (Ph.D. (Applied Language and Literary Studies))--Potchefstroom University for Christian Higher Education, 2003. The purpose of this study is to investigate the Tonal NRG (previously known as the Tonal Action) of the Lessac Approach as a voice-building tool for the female voice in theatre. It provides an overview of existing scholarly writings on the pedagogical, physiological and acoustical qualities of the Lessac Approach. It reflects on current literature about the characteristics of good voice quality and especially the actor's formant. The empirical research on voice building in this study demonstrates that a randomised pre/post test/control group quasi-experimental design was used and is fourfold in dimension: it deals with a control group, a test group with 14 contact hours, a test group with 28 contact hours and a test group who had an extensive six-week workshop. Other variables that are reflected on are language, teacher and training methodology specificity. Investigative procedures include a questionnaire, various means of acoustic analysis and a perception panel. Where applicable, inferential statistics were done on the data. Results of the investigation are compared with existing, parallel research outputs. This study indicates very strongly that the Tonal NRG of the Lessac Approach influences the female voice positively irrespective of language, teacher and training methodology specific parameters.