ArticlePDF Available

Abstract and Figures

This work discusses the integration of available technologies for de-veloping spoken dialog systems in Brazilian Portuguese. As a proof-of-concept, it describes a system for non-visual and on-line Web search on Windows. The prototype system is based on Microsoft's Speech Application Programming In-terface (SAPI), which provides an interface that allows the establishment of a dialog, where the system asks the site and query word. The system then reads aloud the page contents. The system itself coordinates the interaction with the user and is currently limited to query by the name of countries. Resumo. Este trabalho discute a integra ao das tecnologias disponíveis para o desenvolvimento de sistemas de diálogo falado em Português Brasileiro. Como exemplo, o mesmo apresenta o protótipo de um sistema para busca não-visual e on-line na Web, em ambiente Windows. Com base na interface fornecida pela Microsoft de reconhecimento e síntese de voz denominada Speech Application Programming Interface (SAPI), o sistema estabelece um diálogo falado com o usuário, questionando-o sobre o site e a palavra que deseja consultar via síntese de fala. Como resposta, o conteúdo principal da páginá e lido. O próprio sistema coordena as intera oes com o usuário e atualmenté e limitadò a busca pelo nome de países.
Content may be subject to copyright.
Tecnologias para o Desenvolvimento de Sistemas de Di ´
alogo
Falado em Portuguˆ
es Brasileiro
Jefferson Morais, Nelson Neto e Aldebaro Klautau
1Laborat´
orio de Processamento de Sinais – LaPS
Universidade Federal do Par´
a – UFPA
Rua Augusto Correa, 1 – 660750-110 – Bel´
em, PA, Brasil
http://www.laps.ufpa.br
{jmorais,nelsonneto,aldebaro}@ufpa.br
Abstract. This work discusses the integration of available technologies for de-
veloping spoken dialog systems in Brazilian Portuguese. As a proof-of-concept,
it describes a system for non-visual and on-line Web search on Windows. The
prototype system is based on Microsoft’s Speech Application Programming In-
terface (SAPI), which provides an interface that allows the establishment of a
dialog, where the system asks the site and query word. The system then reads
aloud the page contents. The system itself coordinates the interaction with the
user and is currently limited to query by the name of countries.
Resumo. Este trabalho discute a integrac¸ ˜
ao das tecnologias dispon´
ıveis para o
desenvolvimento de sistemas de di´
alogo falado em Portuguˆ
es Brasileiro. Como
exemplo, o mesmo apresenta o prot ´
otipo de um sistema para busca n˜
ao-visual
e on-line na Web, em ambiente Windows. Com base na interface fornecida pela
Microsoft de reconhecimento e s´
ıntese de voz denominada Speech Application
Programming Interface (SAPI), o sistema estabelece um di ´
alogo falado com o
usu´
ario, questionando-o sobre o site e a palavra que deseja consultar via s´
ıntese
de fala. Como resposta, o conte´
udo principal da p´
agina ´
e lido. O pr´
oprio
sistema coordena as interac¸ ˜
oes com o usu´
ario e atualmente ´
e limitado `
a busca
pelo nome de pa´
ıses.
1. Introduc¸ ˜
ao
Os sistemas de di´
alogo falado (SDS, de “spoken dialog systems”) vˆ
em
evoluindo [Borodin et al. 2007, Bohus et al. 2007], contudo a interac¸ ˜
ao homem-
m´
aquina ainda ´
e bastante distinta de uma conversa informal entre duas pessoas e os
obst´
aculos encontrados, hoje, pelas tecnologias de fala (ou voz) s˜
ao diversos. Este
trabalho concentra-se em discutir como integrar as tecnologias de reconhecimento
autom´
atico de voz (ASR) e s´
ıntese de voz (TTS) dispon´
ıveis para o desenvolvimento
de SDS em Portuguˆ
es Brasileiro (PB). Como prova do conceito, foi desenvolvida uma
aplicac¸ ˜
ao simples, que permite realizar pesquisas de pa´
ıses na Web com base na interface
Speech Application Programming Interface (SAPI) da Microsoft1, que recentemente
disponibilizou para avaliac¸ ˜
ao o seu reconhecedor de voz para PB em vers˜
ao beta2. O
prot´
otipo desenvolvido ´
e um primeiro passo no desenvolvimento de um sistema para
navegac¸˜
ao Web n˜
ao-visual.
1http://www.microsoft.com/speech/
2http://www.microsoft.com/portugal/mldc/default.mspx
2. SAPI da Microsoft
A SAPI ´
e uma interface fornecida pela Microsoft de reconhecimento e s´
ıntese de voz
para o desenvolvimento de aplicac¸ ˜
oes baseadas nos sistemas operacionais Windows. Essa
tecnologia faculta aos programadores acesso ao servic¸o de voz fornecido por um engine
de s´
ıntese e reconhecimento de voz, conforme ilustra a Figura 1.
Figura 1. Arquitetura de uma aplicac¸ ˜
ao utilizando a SAPI.
3. O Prot´
otipo Desenvolvido
O prot´
otipo aqui apresentado utiliza a voz como principal modalidade de interac¸ ˜
ao com
o usu´
ario, tanto como interface de entrada de dados (ASR), como interface de sa´
ıda ou
feedback (TTS). Uma das telas do aplicativo pode ser visualizada na Figura 2.
Figura 2. Uma das telas do aplicativo para pesquisa n ˜
ao-visual na web.
A rede com as transic¸ ˜
oes de estado do sistema consiste dos seguintes passos:
Primeiramente, o usu´
ario deve dizer qual o site (google ou wikipedia) e a palavra
(pa´
ıs) que deseja consultar.
Caso o site de busca escolhido seja o wikipedia, o conte´
udo (texto) principal da
p´
agina resultante da pesquisa ´
e sintetizado. Por fim, a opc¸ ˜
ao de uma nova busca ´
e
disponibilizada.
Caso o site escolhido seja o google, uma lista com as ˆ
ancoras resultantes da
pesquisa ´
e sintetizada ao usu´
ario. Em seguida, ´
e solicitado que o usu´
ario escolha
um dos links dispon´
ıveis. Finalmente, o conte´
udo principal da p´
agina escolhida
´
e sintetizado e o usu´
ario tem a opc¸ ˜
ao de acessar outro link ou realizar uma nova
pesquisa.
Como j´
a dito, a SAPI 5.1 foi a principal interface de programac¸ ˜
ao utilizada, por´
em
o emprego de outras DLLs3se mostrou necess´
ario durante a elaborac¸ ˜
ao de alguns passos
do sistema, s˜
ao elas: Shdocvw e Mshtml. A interface Shdocvw encontra-se diretamente
relacionada ao navegador Windows Internet Explorer, ou seja, todas as funcionalidades
desse aplicativo podem ser controladas pelo componente Shdocvw, incluindo as opc¸ ˜
oes
de navegac¸˜
ao, gerenciamento de hist´
orico, entre outras. J´
a a interface Mshtml, est´
a ligada
a Shdocvw e ´
e capaz de analisar e renderizar um documento estilo HTML, o que permite
ao programador referenciar todos os objetos presentes em um determinado site.
Atualmente, a Nuance disponibiliza um sintetizador de voz gratuito na l´
ıngua por-
tuguesa4. Sua arquitetura suporta SAPI 4.0 e ´
e licenciado pela Microsoft especificamente
para uso com o Microsoft Agent5(MSagent). Em 2007, a Microsoft iniciou as gravac¸ ˜
oes
para o novo sintetizador de voz natural em Portuguˆ
es Europeu. Por ´
em, sua vers˜
ao beta
ainda n˜
ao encontra-se dispon´
ıvel. Assim, a s´
ıntese de voz desta aplicac¸ ˜
ao ´
e realizada
atrav´
es de agentes animados (Agents). Apesar de n˜
ao ser parte da SAPI, o MSagent ´
e uma
tecnologia diretamente relacionada, j´
a que permite criar poderosos Agents e empreg´
a-los
em aplicac¸ ˜
oes para a plataforma Microsoft Windows, al´
em de associ´
a-los aos mecanismos
de s´
ıntese e reconhecimento de voz (similar `
a descrita em [Rodrigues et al. 2004]).
Para executar ASR, uma gram´
atica precisa ser definida para que o aplicativo saiba
que ac¸ ˜
ao executar quando uma determinada palavra lhe for enviada. Existem dois tipos
de gram´
atica: livre de contexto e para ditado. Na gram´
atica livre de contexto, as palavras
pass´
ıveis de reconhecimento est˜
ao limitadas `
as regras que informam que palavras podem
ser ditas, ou seja, possuem um dom´
ınio espec´
ıfico e limitado. J´
a a gram´
atica para ditado,
trabalha com a id´
eia de que todas as palavras selecionadas precisam ser identificadas. As
aplicac¸ ˜
oes para ditado continuam distantes do desej´
avel di´
alogo espontˆ
aneo.
A interface SAPI d´
a suporte a gram´
atica livre de contexto e para ditado. No en-
tanto, o engine para reconhecimento em PB da Microsoft em sua vers˜
ao beta, utilizado
nesta aplicac¸ ˜
ao, ainda n˜
ao disp˜
oe da gram´
atica para ditado. Assim, uma gram´
atica XML
seguindo o padr˜
ao de texto SAPI6foi constru´
ıda. Uma amostra da gram´
atica elaborada
pode ser conferida abaixo. Al´
em da criac¸ ˜
ao de regras gramaticais fixas, regras dinˆ
amicas
contendo a lista com as ˆ
ancoras resultantes de pesquisas realizadas no site google tamb´
em
s˜
ao criadas ao longo da interac¸ ˜
ao aplicac¸ ˜
ao-usu´
ario.
<RULE NAME="pesquisa" TOPLEVEL="ACTIVE">
<L>
<P>pesquisa</P>
<P>pesquisar</P>
</L>
<O><P>no</P></O>
<L PROPNAME="SITE" PROPID="SITE">
<P VALSTR="google">google</P>
<P VALSTR="wikipedia">wikipedia</P>
</L>
</RULE>
3msdn.microsoft.com/en-us/library/aa741313(VS.85).aspx
4http://www.nuance.com
5http://www.microsoft.com/msagent
6http://msdn.microsoft.com/en-us/library/ms723635(VS.85).aspx
´
E sabido que sistemas de di´
alogo baseados exclusivamente em processamento
de voz tˆ
em alguns inconvenientes que podem resultar em interac¸ ˜
oes pouco efi-
cientes [Delgado e Araki 2005]. Al´
em dos poss´
ıveis erros de reconhecimento por parte
do engine, dado as restric¸˜
oes de vocabul´
ario e dom´
ınio, os usu´
arios podem “fugir” do
contexto da aplicac¸ ˜
ao, fato que tamb´
em contribui para o diminuic¸ ˜
ao da taxa de acerto de
palavras [Williams e Young 2007]. Na tentativa de prevenir esses erros, esta aplicac¸ ˜
ao
imp˜
oe uma taxa de confianc¸a de reconhecimento de 0,7 ao engine, e busca, sempre que
poss´
ıvel, confirmar explicitamente os dados solicitados pelo usu´
ario, permitindo que ele
volte ao estado anterior e corrija sua solicitac¸ ˜
ao.
O pr´
oprio sistema coordena as interac¸ ˜
oes, ou seja, a aplicac¸˜
ao guia o usu´
ario
ao longo das transic¸ ˜
oes de estado, o que diminui a possibilidade de solicitac¸ ˜
oes
fora do contexto, estrat´
egia conhecida na literatura como system-directed interac-
tion [Delgado e Araki 2005]. Em uma tentativa de reduzir as limitac¸ ˜
oes em termos de
flexibilidade impostas por essa estrat´
egia, criou-se a opc¸ ˜
ao do usu´
ario interromper o TTS
do conte´
udo da p´
agina pesquisada via comando de voz sempre que achar necess´
ario.
Finalmente, em virtude da simplicidade dos di´
alogos presentes nesta aplicac¸ ˜
ao, n˜
ao foi
observado um problema freq¨
uente em sistemas de di´
alogo: dificuldade dos usu ´
arios em
entender o fluxo do di´
alogo, o que causa problemas em saber o que fazer e o que dizer.
4. Conclus˜
oes
Construir sistemas de di´
alogo confi´
aveis e naturais ´
e um desafio para a engenharia em
func¸ ˜
ao das limitac¸ ˜
oes impostas pelo atual est´
agio do ASR. O sistema desenvolvido exem-
plifica a construc¸ ˜
ao de aplicac¸ ˜
oes relativamente simples baseadas em voz para ambiente
Windows, via interface de programac¸ ˜
ao SAPI e utilizando recursos dispon´
ıveis, contor-
nando a atual escassez de recursos para o PB. Uma grande dificuldade encontrada foi a
elaborac¸ ˜
ao de estrat´
egias de di´
alogo mais amplas e amig´
aveis, muito em func¸ ˜
ao da n˜
ao
utilizac¸ ˜
ao aqui de ferramentas espec´
ıficas para modelagem de di´
alogos, al´
em do reconhe-
cedor para PB da Microsoft ainda n˜
ao suportar sistemas de ditado. Como trabalho futuro,
pretende-se adaptar este prot´
otipo ao framework Olympus7e ao padr˜
ao VoiceXML8.
Referˆ
encias
D. Bohus, S. G. Puerto, V. Keri D. Huggins-Danies, G. Krishma, R. Kumar, A. Raux e
S. Tomko (2007). Conquest - an open-source dialog system for conferences. North
American Chapter of the Association for Computational Linguistics.
Y. Borodin, J. Mahmud, I.V. Ramakrishnan e A. Stent (2007). The hearsay nonvisual web
browser. International World Wide Web Conference.
R. Delgado e M. Araki (2005). Spoken, Multilingual and Multimodal Dialogue Systems.
John Wiley & Sons, Ltd.
Paula Lucena Rodrigues, Bruno Feij˜
ao e Luiz Velho (2004). Expressive talking heads:
uma ferramenta de animac¸ ˜
ao com fala e express˜
ao facial sincronizadas para o desen-
volvimento de aplicac¸ ˜
oes interativas. Em Proceedings of Webmedia. SBC.
J. D. Williams e S Young (2007). Partially observable markov decision processes for
spoken dialog systems. Computer Speech and Language 21 (2007) 393-422.
7www.ravenclaw-olympus.org/
8www.w3.org/TR/voicexml20
ResearchGate has not been able to resolve any citations for this publication.
Chapter
Implications of Multilinguality in the Architecture of Dialogue SystemsMultilingual Dialogue Systems Based on InterlinguaMultilingual Dialogue Systems Based on Web ApplicationsSummaryFurther Reading
Article
In a spoken dialog system, determining which action a machine should take in a given situation is a difficult problem because automatic speech recognition is unreliable and hence the state of the conversation can never be known with certainty. Much of the research in spoken dialog systems centres on mitigating this uncertainty and recent work has focussed on three largely disparate techniques: parallel dialog state hypotheses, local use of confidence scores, and automated planning. While in isolation each of these approaches can improve action selection, taken together they currently lack a unified statistical framework that admits global optimization. In this paper we cast a spoken dialog system as a partially observable Markov decision process (POMDP). We show how this formulation unifies and extends existing techniques to form a single principled framework. A number of illustrations are used to show qualitatively the potential benefits of POMDPs compared to existing techniques, and empirical results from dialog simulations are presented which demonstrate significant quantitative gains. Finally, some of the key challenges to advancing this method – in particular scalability – are briefly outlined.
Conference Paper
This paper describes HearSay, a non-visual Web browser, featuring context-directed browsing, a unique and innova- tive Web accessibility feature, and an extensible VoiceXML dialog interface. The browser provides most of the standard browsing functionalities, including ∞exible navigation and form-fllling. The paper also outlines future work aiming to make the Web more accessible for individuals with visual impairments.
Conquest -an open-source dialog system for conferences
  • D Bohus
  • S G Puerto
  • V Keri
  • D Huggins-Danies
  • G Krishma
  • R Kumar
  • A Raux E
  • S Tomko
D. Bohus, S. G. Puerto, V. Keri D. Huggins-Danies, G. Krishma, R. Kumar, A. Raux e S. Tomko (2007). Conquest -an open-source dialog system for conferences. North American Chapter of the Association for Computational Linguistics.
Expressive talking heads: uma ferramenta de animação com fala e expressão facial sincronizadas para o desenvolvimento de aplicações interativas
  • Paula Lucena Rodrigues
  • Bruno Feijão E Luiz
  • Velho
Paula Lucena Rodrigues, Bruno Feijão e Luiz Velho (2004). Expressive talking heads: uma ferramenta de animação com fala e expressão facial sincronizadas para o desenvolvimento de aplicações interativas. Em Proceedings of Webmedia. SBC.