Article

Técnicas para mejorar el reconocimiento de voz en presencia de habla fuera del vocabulario

01/2000;
Source: OAI

ABSTRACT Para que un sistema de reconocimiento automático de habla (ASR) sea usado en un ambiente real, debe ser preciso y robusto. Un sistema de reconocimiento de habla robusto debe tratar con habla espontánea que típicamente contiene titubeos, pausas, correcciones, palabras fuera del vocabulario, ruidos provocados por el locutor y ruidos en el medio ambiente, entre otros. En esta tesis se hace un estudio sobre el problema del habla fuera del vocabulario, en un intento por mejorar el reconocimiento de voz y aumentar la robustez de los sistemas ASR. La estructura experimental de esta tesis es un sistema ASR de diálogo dirigido llamado CONMAT, instalado en la Universidad de las Américas-Puebla. CONMAT es un conmutador automático con el dominio de nombres de personas y nombres de lugares dentro de la universidad. La meta de esta tesis consiste en hacer que el reconocedor encuentre palabras clave (nombres de personas y nombres de lugares) en frases con habla fuera del vocabulario y a la vez rechace las frases que contienen únicamente habla fuera del vocabulario. Las técnicas aquí investigadas combinan identificación de palabras clave (word spotting) con niveles de confianza. Se experimentan varias estrategias para modelar habla fuera del vocabulario, incluyendo el uso de fonemas, sílabas y palabras completas. Además, las técnicas se experimentan con el uso de modelos de lenguaje estocásticos (bigrams), con el propósito de disminuir el costo computacional que presentan los modelos "filler" o modelos basura. Todos los experimentos realizados en esta tesis usan el reconocedor basado en segmentos SpeechWorks, y son evaluados conforme a desempeño y costo computacional. El desempeño de reconocimiento es dado por una figura de mérito (FOM) especialmente diseñada en esta tesis para medir el desempeño de sistemas de diálogo dirigido. El costo computacional reportado en cada experimento representa el tiempo de reconocimiento por cada segundo de habla. En esta tesis se usa un corpus de desarrollo con 553 frases, en el cual se realizan los experimentos, y un corpus de prueba con 2806 frases, usado para evaluar los mejores experimentos. La mejor técnica para modelar el habla fuera del vocabulario desarrollada en esta tesis fue la que modela palabras y sílabas comunes con múltiples pronunciaciones usando bigrams. Una comparación de la mejor técnica con el experimento base que usa una gramática libre de contexto reporta una reducción de error del 35%, debido principalmente al buen desempeño para rechazar frases que no incluyen palabra clave. Keywords: Sistemas de diálogo dirigido, Identificación de palabras clave, Niveles de confianza.

1 Bookmark
 · 
256 Views