ArticlePDF Available

La notación del habla en corpus de vídeo

Abstract

The linguistic tagging of spoken language in multimodal corpora is a new and complex task. However, its possibilities for other tasks such as content extraction/ summarization and for further linguistic analysis are promising. This article reports on the state-of-the-art in the different analysis levels including experiences from international projects and stressing the importance of a common ground in spite of the current lack of standards. La anotación lingüística del habla en corpus multimodales es una labor tan nueva como costosa, pero también es prometedora para tareas como la extracción y el resumen de contenido, así como para abrir nuevos caminos en el análisis del habla espontánea. El presente artículo repasa el estado de la cuestión en los distintos niveles de análisis con ejemplos de proyectos internacionales y nacionales, resaltando la importancia de encontrar una base común a pesar de la actual falta de estándares.
La anotaci´on del habla en corpus de v´ıdeo
Manuel Alc´antara Pl´a
DFKI GmbH
Saarbr¨ucken
manuel.alcantara@dfki.de
Resumen: La anotaci´on ling¨ıstica del habla en corpus multimodales es una labor
tan nueva como costosa, pero tambi´en es prometedora para tareas como la extracci´on
y el resumen de contenido, as´ı como para abrir nuevos caminos en el an´alisis del
habla espont´anea. El presente art´ıculo repasa el estado de la cuesti´on en los distintos
nivelesdean´alisis con ejemplos de proyectos internacionales y nacionales, resaltando
la importancia de encontrar una base com´un a pesar de la actual falta de est´andares.
Palabras clave: anotaci´on ling¨ıstica, corpus multimodal, estandarizaci´on
Abstract: The linguistic tagging of spoken language in multimodal corpora is a new
and complex task. However, its possibilities for other tasks such as content extrac-
tion/summarization and for further linguistic analysis are promising. This article
reports on the state-of-the-art in the different analysis levels including experiences
from international projects and stressing the importance of a common ground in
spite of the current lack of standards.
Keywords: linguistic tagging, multimodal corpora, standardization
1. Introducci´on
El an´alisis ling¨ıstico de las transcripcio-
nes del habla extra´ıdas de corpus de v´ıdeo es
un campo de investigaci´on muy reciente den-
trodelaling¨ıstica computacional. La canti-
dad de colecciones de habla es tambi´en muy
limitada y a´un m´as si s´olo tenemos en con-
sideraci´on los corpus que incluyen alg´un ti-
po de anotaci´on ling¨ıstica. La aplicaci´on en
loscorpusoralesdelosetiquetadosdise˜nados
para la lengua escrita requiere de una adap-
taci´on costosa que empieza incluso en las ba-
ses te´oricas gramaticales, s´olo probadas hasta
ahora -en el mejor de los casos- sobre textos
escritos.
La necesidad de corpus anotados de es-
tas caracter´ısticasescadavezm´as obvia y
acuciante tanto en la ling¨ıstica como en las
aplicaciones enmarcadas dentro de la inteli-
gencia artificial. Por este motivo, el n´umero
de corpus de habla espont´anea ha crecido de
manera importante durante los ´ultimos a˜nos
y su desarrollo ha suscitado un buen n´ume-
ro de cuestiones que se est´an multiplicando
ahora al incluir las relaciones entre el habla y
el resto de elementos presentes en un corpus
multimodal.
Este art´ıculo describe cu´ales son los pro-
blemas m´as graves encontrados en este nuevo
reto de la ling¨ıstica de corpus as´ıcomoal-
gunas de las medidas que han sido adoptadas
hasta el momento para resolverlos. Dado que
muchos de los proyectos mencionados est´an
un desarroll´andose, he optado por citar a
piedep´agina el respectivo sitio de internet
en cada primera menci´on para facilitar el ac-
ceso a su estado actual. En las conclusiones
finales, se resaltar´a la necesidad de una ba-
se de trabajo com´un para el etiquetado del
habla.
2. La transcripci´on del habla
La anotaci´on del habla depende en prime-
ra instancia de las caracter´ısticasdelatrans-
cripci´on. La mayor´ıa de las transcripciones
se realizan o generan siguiendo las convencio-
nes ortogr´aficas de la lengua que se trate tal
y como recomiendan, entre otros, el Corpus
de Habla Holand´es (CGN)1, el Corpus Nacio-
nal Brit´anico (BNC)2y el Corpus de Japon´es
Espont´aneo (CSJ)3. Debido a que la trans-
cripci´on fon´etica se considera a´un demasiado
compleja para el habla espont´anea, los cor-
pusqueincluyentranscripcionesdeestetipo
en lugar -o adem´as- de ortogr´aficas se basan
en alfabetos fon´emicos en lugar de fon´eticos.
Con este fin, se utiliza el AFI en la ´ultima
verson del UAM-C-Oral-Rom (Moreno et al.,
2005) y en el Corpus Taiwan´es de Lengua In-
fantil (TAICORP) (Tsay, 2005), el sistema
1http://lands.let.kun.nl/cgn/ehome.htm
2http://www-dev.natcorp.ox.ac.uk/
3http://www2.kokken.go.jp/ csj/public/
ISSN: 1135-5948 © Sociedad Española para el Procesamiento del Lenguaje Natural
SAMPA4en el CGN y las s´ılabas Kana en
el CSJ. Precisamente este ´ultimo es un buen
ejemplo de intento de realizar transcripciones
fon´eticas con el objetivo de etiquetar fen´ome-
nos como la palatalizaci´on. Sus conclusiones
no son, sin embargo, muy alentadoras pues-
to que no fueron capaces de etiquetar todos
los rasgos fon´eticos que pretend´ıan original-
mente por el bajo nivel de acuerdo que se
encontraron entre los anotadores.
La transcripci´on, aun siendo ortogr´afica,
implica un buen n´umero de decisiones ar-
bitrarias tales como el tratamiento de las
may´usculas, los acr´onimos y los s´ımbolos, la
puntuaci´on, las marcas diacr´ıticas, los n´ume-
ros, los pr´estamos ling¨ısticos y las palabras
que no aparecen normalmente en fuentes es-
critas. Entre estas ´ultimas, son especialmente
importantes por su frecuencia las decisiones
con respecto a los rasgos dialectales, las in-
terjecciones y los marcadores discursivos. A
este respecto, es importante se˜nalar la exis-
tencia de gu´ıas como el Est´andar de Codifica-
ci´on de Corpus (XCES) del grupo EAGLES5,
que desgraciadamente s´olo cubren los aspec-
tos m´as generales.
Las convenciones ortogr´aficas han proba-
do ser problem´aticas por dos razones curiosa-
mente opuestas. Por un lado, hay casos en los
que son excesivamente ambiguas y necesitan
ser restringidas. Un ejemplo es el CSJ, que
hace un uso del Kanji (pictogramas chinos)
y del Kana (silabario japon´es) mucho m´as
estricto que el propuesto por las normas or-
togr´aficas del japon´es est´andar de modo que
acadaformas´olo le corresponda una cadena
onica.
Por otro lado, las convenciones pueden ser
excesivamente restrictivas como para reflejar
la creatividad del habla. El TAICORP es un
ejemplo en el que se usa la ortograf´ıa china
como base, pero se la acompa˜na del sistema
de romanizaci´on Taiwan Southern Min para
las palabras que no se pueden encontrar en
los diccionarios tradicionales.
Otro aspecto importante a tener en cuen-
taalahoradeanalizaruncorpusdehablaes
el modo en que se ha realizado la transcrip-
ci´on: de forma manual o autom´atica. El esta-
doactualdelossistemasdereconocimiento
autom´atico de habla (ASR) no permite obte-
ner a´un unos resultados fiables para el an´ali-
sis ling¨ıstico (Alc´antara y Declerck, 2007).
4http://www.phon.ucl.ac.uk/home/sampa/home.htm
5http://www.cs.vassar.edu/XCES/
Los sistemas m´as avanzados logran alrededor
del 90 % de palabras correctas, pero s´olo en
las mejores condiciones (lo que significa ha-
bla con gui´on producida en un laboratorio).
Si el corpus incluye diferentes hablantes y las
grabaciones han sido realizadas en contextos
naturales,elporcentajebajaabastanteme-
nos de la mitad.
3. Elementos no ling¨ısticos
Las transcripciones de habla suelen incluir
la anotaci´on de rasgos no ling¨ısticos que
ayudan a su posterior an´alisis. Estos datos,
generalmente en la cabecera del documento o
en un documento externo, est´an relacionados
tanto con la transcripci´on como con la fuente
original del v´ıdeo. Con respecto a los docu-
mentos, datos t´ıpicos son su tama˜no, su cali-
dad ac´ustica, los formatos, las fuentes, los ha-
blantes que aparecen (generalmente con algu-
nas caracter´ısticas como su edad, nivel educa-
tivo y g´enero), los responsables de las trans-
cripciones y los enlaces a otros archivos o do-
cumentos relacionados. La informaci´on sobre
la calidad ac´ustica suele acompa˜narse de de-
talles de la grabaci´on tales como el tipo de
micr´ofonos, la frecuencia o si el tratamiento
es digital o anal´ogico. La informaci´on sobre la
fuente es especialmente importante si los tex-
toshansidotomadosdecorpuspreexistentes.
En cuanto a los enlaces a otros documentos,
es recomendable realizarlos a trav´es de un do-
cumento externo de modo que sea m´as senci-
lla su gesti´on y la posibilidad de compartir o
reutilizar los contenidos del corpus. El marco
europeo Isle Meta Data Initiative 6est´apro-
poniendo un est´andar para este tipo de ges-
ti´on de corpus multimodales/multimedia.
En algunos casos, es fundamental la inclu-
si´on de informaci´on sobre el contexto y sobre
los rasgos socioling¨ısticosdelainteracci´on
contenida en el documento (como, por ejem-
plo, en CHILDES7o C-Oral-Rom). Etiquetas
ıpicas sobre el contexto son las condiciones
en las que se produjo la grabaci´on (incluyen-
do el papel que tuvo el grabador y el nivel
de espontaneidad), la fecha y el lugar en que
se produjo. Las anotaciones socioling¨ısticas
informan sobre los participantes de la interac-
ci´on (nombres, edades y lugares de nacimien-
to, g´eneros, papel en la conversaci´on, nivel
educativo, etc.) y son un criterio com´un para
6http://www.mpi.nl/IMDI/
7http://childes.psy.cmu.edu/
Manuel Alcántara Pla
132
el dise˜no de los corpus (p.ej. CGN, CHIL-
DES o C-Oral-Rom). Si el discurso est´a divi-
dido en turnos, un identificador ´unico se re-
laciona con cada participante para permitir
referencias en el di´alogo a la informaci´on del
hablante. Otros rasgos socioling¨ısticos como
el dialecto o el registro son, aunque tambi´en
frecuentes, m´as dependientes del objetivo del
corpus. El CSJ, por ejemplo, incluye datos
espec´ıficos sobre el nivel de fluidez, de expre-
sividad y de claridad articulatoria de los ha-
blantes.
Por ´ultimo, algunas anotaciones legales
pueden ser obligatorias dependiendo de la le-
gislaci´on vigente. El consentimiento de los
hablantes a ser grabados y los derechos de
la propiedad intelectual tienen que aparecer
expl´ıcitos en los corpus de la Uni´on Europea.
Los consentimientos deben explicitar si el so-
nido puede ser transcrito, usado para la inves-
tigaci´on y publicado. Aunque los derechos de
propiedad intelectual son m´as t´ıpicos de los
documentos escritos, tambi´en son relevantes
en grabaciones literarias o con valor cient´ıfico
(por ejemplo, conferencias) as´ıcomoendocu-
mentostomadosdemediosdecomunicaci´on.
Este aspecto puede repercutir en el valor del
corpus de dos maneras diferentes. Por un la-
do, las ventajas de un corpus que cuenta con
todos los permisos para su utilizaci´on y publi-
caci´on son evidentes para una investigaci´on
exitosa. Por otro lado, estos requisitos lega-
les pueden comprometer la espontaneidad de
lo grabado puesto que es dif´ıcil lograr una in-
teracci´on natural despu´es de haber advertido
a los interlocutores de que sus palabras no
van a ser s´olo grabadas, sino tambi´en minu-
ciosamente analizadas y probablemente pu-
blicadas.
Como ocurre tambi´en con los dem´as ni-
velesdeanotaci´on en el corpus, las etiquetas
elegidas para los elementos no ling¨ısticos di-
fieren completamente entre los distintos pro-
yectos. Por este motivo, son de gran impor-
tancia iniciativas como la citada IMDI, que
nos facilitar´an en el futuro tanto el dise˜no de
nuevos corpus como la utilizaci´on de los ya
existentes.
4. Los l´ımites pros´odicos
La falta de una puntuaci´on ortogr´afica en
la lengua oral le da una especial relevancia
a otros criterios m´as ling¨ısticos, en especial
los l´ımites pros´odicos (p.ej. las proferencias) y
pragm´aticos (p.ej. los actos de habla). Debe-
mos se˜nalar, no obstante, que existen corpus,
generalmente no entre los m´as recientes, que
ısegu´ıan por la puntuaci´on (p.ej. el COR-
LEC8). El an´alisis de este ´ultimo muestra que
la puntuaci´on normativa influye a veces en la
fiabilidad de la transcripci´on.Eltranscriptor
tiende a adaptar lo que escucha a las formas
normativamente correctas ya que en muchas
ocasiones no es posible de otro modo ponerle
puntos y comas al habla espont´anea.
Como consecuencia en parte de que los
estudios se hayan centrado tradicionalmen-
te en la lengua escrita, las unidades de
an´alisis pros´odicas son todav´ıa controverti-
dasencuantoasudenici´on y nomenclatu-
ra. La proferencia (utterance )eselt´ermino
as com´un (Cresti y Moneglia, 2005; Mi-
ller y Weinert, 1998), pero no hay acuerdo
en cuanto a su definici´on. Para algunos cor-
pus como el CIAIR-Corpus de Di´alogos en
Coches (Kawaguchi et al., 2005) o el CSJ,
los silencios son las pistas determinantes,
pero la mayor´ıa de corpus combinan crite-
rios de otros niveles ling¨ısticos, sobre todo
pragm´aticos y sint´acticos. Estos criterios son,
no obstante, tambi´en discutidos con frecuen-
cia. Mientras que los pragm´aticos se critican
por basarse en los actos de habla de Aus-
tin, considerados a menudo demasiado subje-
tivos para una anotaci´on extensa y coheren-
te, los sint´acticos se critican por la dificultad
de aplicar reglas fundamentadas en la lengua
escrita sobre textos que tienen caracter´ısti-
cas diferentes como, por poner un ejemplo,
un tercio de oraciones no verbales (Cresti y
Moneglia, 2005).
Algunos proyectos proponen criterios mix-
tos para evitar estos problemas. El corpus
TRAINS93, por ejemplo, se basa en dos cla-
ves para establecer los l´ımites pros´odicos: por
un lado, se da una ruptura en el discurso del
hablante y otro hablante interviene; por otro
lado, se produce una ruptura en la entona-
ci´on, en la sintaxis (coincidencia con un l´ımite
de categor´ıa sint´actica) o hay una respiraci´on
(Heeman y Allen, 1995). En C-Oral-Rom, se
distingue entre proferencias simples y com-
plejas (con una o m´as de una unidad tonal) y
se comparan las proferencias con los actos de
habla de Austin (Austin, 1962) y las unida-
des tonales con las unidades informativas de
Halliday (Halliday, 1976), pero siempre consi-
derando los cambios entonativos la pista m´as
8ftp://ftp.lllf.uam.es/pub/corpus/oral/
La notación del habla en corpus de vídeo
133
determinantealahoradeanotarl´ımites, con
un fuerte protagonismo de los perfiles termi-
nales (Crystal, 1975). Cabe se˜nalar que este
´ultimo ejemplo lo es de una experiencia exito-
sa puesto que el proyecto cono con un 95 %
de acuerdo ent re los anotadores.
Otras unidades han sido utilizadas en
otros proyectos dependiendo del objetivo de
sus an´alisis. Por poner dos ejemplos distintos,
el CGN tiene anotadas las s´ılabas prominen-
tes, los l´ımites pros´odicos entre palabras y los
alargamientos segmentales (Hoekstra et al.,
2002) mientras que el sistema de Multilevel
Annotation Tools Engineering (MATE9)eti-
quetagruposdeacentos,pies,s´ılabas y mo-
ras.
Entre las aproximaciones m´as ac´usticas, el
sistema TOBI10 (Tone and Break-Index) se
ha utilizado como est´andar para la transcrip-
ci´on de entonaci´on y estructuras pros´odicas al
menos para el ingl´es,elalem´an, el japon´es, el
coreano y el griego, con las adaptaciones per-
tinentes en cada caso. Junto con el contorno
de la frecuencia fundamental y la transcrip-
ci´on ortogr´afica, el TOBI incluye un nivel pa-
ra los tonos y otro para los ´ındices de los dis-
tintos l´ımites. Las etiquetas transcriben las
variaciones de tono como secuencias de to-
nos altos (H) y bajos (L) e incluyen marcas
diacr´ıticas con su funci´on (el inventario de
eventos tonales est´a basado en an´alisis au-
tosegmentales). Los l´ımites marcan los gru-
pos pros´odicos en una proferencia etiquetan-
do el final de cada palabra sobre una escala
del 0 (la uni´on perceptible m´as fuerte con la
siguiente palabra) al 4 (la mayor separaci´on).
Un ejemplo de adaptaci´on del sistema es el
X-JTOBI, versi´on del TOBI de japon´es le´ıdo
para el habla espont´anea11. Las etiquetas pa-
ra los tonos y los l´ımites fueron extendidas
en el X-JTOBI para poder representar rasgos
paraling¨ısticos propios de la entonaci´on es-
ponanea, incluyendo fen´omenos de disfluen-
cia tales como las pausas largas, las palabras
fragmentadas y las pausas dentro de una pa-
labra.
Los diferentes sistemas existentes no se
diferencian s´olo en el modo en que se defi-
nen los conceptos que manejan, sino tambi´en
en c´omo estos son anotados. Una convenci´on
muy extendida es la de Gross (Gross, Allen, y
9http://mate.nis.sdu.dk/
10http://www.ling.ohio-state.edu/ tobi/
11http://www.ling.ohio-
state.edu/research/phonetics/J ToB I /
Traum, 1993) con las proferencias separadas
en distintas l´ıneas o incluso ficheros, nume-
radas seg´un el n´umero de turno y el n´ume-
ro de proferencia dentro de ese turno (como
describen Nakatani y Traum sobre su corpus
(Nakatani y Traum, 1999)). Otra convenci´on
frecuentemente utilizada es la del asterisco
(*) junto a un c´odigo que identifique al ha-
blante para marcar el inicio de un turno y
la de las dobles barras (//) para marcar los
ımites pros´odicos (p.ej. en CHILDES y en
C-Oral-Rom).
Adem´as de los l´ımites pros´odicos, la len-
gua hablada incluye otros fen´omenos que
tambi´en suelen etiquetarse dentro de la
anotaci´on pros´odica a pesar de que, dadas
sus peculiaridades, afectan a pr´acticamente
todoslosniveles(Gonz´alez et al., 2004). El
citado art´ıculo los clasifica en dos grupos: ras-
gos de producci´on y rasgos de la interacci´on.
Los primeros incluyen, entre otros, las pa-
labras fragmentadas, los apoyos voc´alicos y
los reinicios. Los segundos son los cambios de
turnos y los solapamientos.
5. Unidades morfosint´acticas
La anotaci´on morfosint´actica de la lengua
habladaesdiferentealadelaescritayno
puede llevarse a cabo con los sistemas de eti-
quetado preexistentes. La morfosintaxis de la
lengua oral es a´un controvertida incluso en
los aspectos m´as fundamentales. Por poner
un ejemplo b´asico, algunos corpus utilizan los
blancos para delimitar palabras (lo hacen as´ı,
p.ej., el BNC y el CGN) mientras que otros
prefieren considerar palabras aquellos grupos
ınimos de sonidos que tienen un significa-
do propio (p.ej. el UAM C-Oral-Rom o el
USAS12). Esta ´ultima decisi´on, aunque arbi-
traria en muchos casos, evita circunstancias
como la descrita en las especificaciones del
BNC, con etiquetados diferentes para formas
distintas de una misma palabra (p.ej. “fox-
hole” o “fox hole”).
En el habla se encuentran muchas partes
dif´ıcilmente categorizables dentro de las ti-
polog´ıas morfol´ogicas tradicionales. Un uso
com´un es no transcribirlas como palabras,
sinoatrav´es de s´ımbolos (o simplemente no
transcribirlas en absoluto, lo que merma con-
siderablemente la riqueza del corpus). Esta
´ultima soluci´on fue la adoptada por los pri-
meros corpus tales como el CORLEC, carac-
12http://www.comp.lancs.ac.uk/ucrel/usas/
Manuel Alcántara Pla
134
terizados, como hemos visto antes, por seguir
una transcripci´on ortogr´afica normativa. Los
corpus m´as modernos est´an intentando am-
pliar la tipolog´ıa para dar cabida a estas pa-
labras, con lo que est´an ganando prominencia
categor´ıas que antes eran marginales como es
la de los marcadores discursivos.
Como era de esperar, las caracter´ısticas de
cada lengua influyen directamente en las de-
cisiones tomadas con respecto al an´alisis mor-
fol´ogico de modo que la anotaci´on de corpus
como el CGN y el CSJ es claramente distin-
ta. El ´ultimo, por ejemplo, distingue entre
palabras cortas (de uno o dos morfemas) y
largas (compuestas de varias cortas y part´ıcu-
las), algo que no ser´ıa pertinente en un corpus
de una lengua romance o germ´anica. Es im-
portante se˜nalar que esta influencia proviene
frecuentemente m´as de la tradici´on ling¨ısti-
caquedelalenguaens´ı. Un ejemplo claro
es la imposibilidad de acuerdo para las cla-
sesdepalabrasentreloscuatrogruposde
C-Oral-Rom, cuyas respectivas lenguas (por-
tugu´es, italiano, franc´es y espa˜nol) eran en
teor´ıa muy parecidas.
Precisamentelasclasesdepalabrasson
la informaci´on morfosint´actica m´as b´asica y
frecuente en los corpus, casi siempre acom-
pa˜nada de los lemas de las palabras. Los sis-
temas de etiquetado autom´atico basados en
etodos estad´ısticos como el TnT (Brants,
2000) o el de E. Brill (Brill, 1993) han demos-
trado resultados satisfactorios (p.ej. en los
sistemas CLAWS4 (Leech, Garside, y Bryant,
1994) y GRAMPAL (Moreno, 1991)), pero
siempre despu´es de su adaptaci´on a la lengua
hablada. As´ıla´ultima versi´on de GRAMPAL
incorpora marcadores discursivos y elementos
enf´aticos mientras que el BNC utiliza el men-
cionado sistema CLAWS4 adapt´andolo a al-
gunos fen´omenos propios de la oralidad como
son las repeticiones. La calidad de la anota-
ci´on depende tambi´en de la adaptaci´on de las
categor´ıas que son frecuentes en la escritu-
ra puesto que sus posiciones y frecuencias no
suelen coincidir con las del habla. Los mar-
cadores discursivos y las interjecciones, por
ejemplo, son en general palabras utilizadas
con otras funciones al escribir, lo que difi-
culta su desambiguaci´on categorial hasta el
punto de haber sido obviadas hasta ahora en
la mayor´ıa de los corpus (como los menciona-
dos CGN, EAGLES, BNC y XCES). En los
corpus en los que se ha optado por adaptar la
anotaci´on, la redefinici´on de las categor´ıas se
ha realizado desde criterios funcionales (p.ej.
en el UAM C-Oral-Rom) o formales (p.ej. en
el CGN).
as all´a de los problemas de definici´on,
no podemos olvidar aquellos heredados de
la transcripci´on, como son la pronunciaci´on
extra˜na de palabras, la alta frecuencia de
pr´estamos ling¨ısticos y el uso de neologis-
mos (casi siempre a trav´es de morfemas deri-
vativos), que a˜nadengrancantidadderuido
a los an´alisis morfosint´acticos. Por regla ge-
neral, las normas de etiquetado suelen incluir
un protocolo describiendo las decisiones que
se han tomado para anotar estos fen´omenos
orales.
En cuanto a la anotaci´on puramente
sint´actica, muy pocos corpus orales la in-
cluyen por la dificultad de distinguir au-
tom´aticamente unidades complejas (sintag-
mas y oraciones) en el habla. Algunos ejem-
plos de estas experiencias son el CGN y el
CSJ. Un 10 % del primero fue etiquetado
semi-autom´aticamente con el programa AN-
NOTATE siguiendo un an´alisis de dependen-
cias dise˜nado con la m´axima sencillez para
minimizar los costes (Hoekstra et al., 2002).
El mismo criterio llev´o a elegir las proposi-
ciones como unidad de anotaci´on de un sub-
corpus del CSJ de 500.000 palabras tomadas
de mon´ologos. Las proposiciones son m´as sen-
cillas de segmentar que las oraciones porque
los verbos conjugados y las conjunciones se
colocan al final de ellas en japon´es.
6. La sem´antica
La anotaci´on sem´antica se realiza habi-
tualmente desde dos perspectivas en principio
diferentes: la conceptual ylaestructural. Los
sistemas conceptuales etiquetan documentos
o palabras seg´un el campo al que pertene-
cen y se distinguen entre s´ıporeln´umero de
categor´ıas y los criterios involucrados en sus
ontolog´ıas. Por ejemplo, cada noticia graba-
da de los telediarios en la Digital Video Li-
brary13 se etiqueta autom´aticamente dentro
de una de sus 3178 categor´ıas tem´aticas gra-
cias a un algoritmo de cercan´ıa K. Un ejemplo
de etiquetado de palabras para lengua escrita
y hablada -en ingl´es- es el USAS utilizado en
el software UCREL para an´alisis sem´anticos
autom´aticos. Incluye 232 categor´ıas divididas
en 21 campos (como “educaci´on”o“comi-
da”) y sus reglas de desambiguaci´on depen-
13http://www.open-video.org/
La notación del habla en corpus de vídeo
135
den de la categor´ıa morfol´ogica de la palabra,
de sus apariciones en el mismo texto, del con-
texto y del dominio en el que se encuadra el
discurso.
Otro caso t´ıpico de etiquetado conceptual
es el del reconocimiento de entidades propias
(NE). En el Corpus Japon´es de Di´alogos pa-
ra An´alisis de Enfermer´ıa (itoh Ozaku et al.,
2005), se utiliz´olaherramientaNExTpara
extraer nombres propios, medicamentos y en-
fermedades de modo que se pudieran inferir
acilmente las situaciones que aparec´ıan en
cada grabaci´on. Gracias al car´acter multimo-
dal del corpus, la desambiguaci´on se llevaba a
cabo teniendo en cuenta datos extraling¨ısti-
cos como la localizaci´on en la que se encontra-
ba la enfermera cuando pronunciaba las pa-
labras (las enfermeras llevaban unos sensores
de posici´on, lo que tambi´en permit´ıa saber
qui´en participaba en cada interacci´on).
La anotaci´on estructural difiere m´as de la
lengua escrita que la conceptual y es, por lo
tanto, uno de los grandes retos en los nuevos
corpus. Su atractivo es grande debido a las ya
mencionadas dificultades que plantea la es-
tructuraci´on sint´actica del habla espont´anea
ya´un m´as si se utiliza conjuntamente con
la informaci´on ontol´ogica. Uno de los escasos
ejemplos ya finalizados es SESCO (Alc´anta-
ra, 2005), donde las estructuras eventivas fue-
ron utilizadas en un etiquetado que buscaba,
de nuevo, la mayor simplicidad para ser fle-
xible en el an´alisis de un corpus de habla es-
ponanea sin restricciones. La anotaci´on se
bas´oenlaestructuraci´on composicional de
tres ´unicos tipos eventivos (estados, procesos
yacciones)quepod´ıan ser subdivididos seg´un
los argumentos que requisieran. El resultado
es un ejemplo claro de la potencialidad de
este tipo de etiquetados puesto que sus es-
tructuras se est´an utilizando en la actualidad
como base para el an´alisis de otros niveles
ling¨ısticos.
Otro ejemplo es el Spanish Framenet, ac-
tualmente en desarrollo. Aunque el corpus
que se utiliza en este proyecto es b´asicamen-
te de lengua escrita, incluye tambi´en un 12 %
de habla espont´anea (alrededor de 35 millo-
nes de palabras seg´un los datos expuestos en
la p´agina del proyecto14). El etiquetado es-
tructura la lengua en marcos relacionando los
lexemas con situaciones protot´ıpicas que in-
cluyen diferentes tipos de participantes. Al
14http://gemini.uab.es:9080/SFNsite
contrario que en SESCO, aqu´ıelprocesono
comienza en el corpus, sino en la identifica-
ci´on de los marcos. Una vez que el marco
est´a definido, se buscan oraciones en el cor-
pus que ejemplifiquen su tipo, anotando las
distintas partes con las etiquetas apropiadas.
El primer lexic´on derivado de este trabajo
est´a anunciado para principios del 2008.
7. La pragm´atica
La codificaci´on de elementos pragm´aticos
ha tenido un gran avance en las ´ultimas d´eca-
das gracias al desarrollo de sistemas aplicados
para tareas espec´ıficas. Un ejemplo conocido
es el Corpus de Tareas con Mapas (MTC)
de la Universidad de Edimburgo (Anderson
et al., 1991), que cuenta con tres niveles de
anotaci´on discursiva. En la superior, el di´alo-
go se divide en transacciones en las que se
completan los pasos de la tareas. Esas tareas
se subdividen a su vez en juegos conversacio-
nales similares a lo que Grosz y Sidner de-
nominan segmentos discursivos (Grosz y Sid-
ner, 1986). Por ´ultimo, estos juegos se compo-
nen de inicios y respuestas clasificados seg´un
tipos de movimientos conversacionales.
Tamb en relacionado con el modelo de
Grosz y Sidner, el CSJ ha sido anotado con
un sistema basado en el IAD de Nakatani
(Nakatani et al., 1995). El anotador tiene que
dividir manualmente el discurso en segmen-
tos asign´andoles su finalidad. El manual del
proyecto aclara que ´esta es una labor muy
costosa que requiere trabajo en equipo y de-
cisiones complejas. Sin embargo, han sido ca-
paces de etiquetar un peque˜no subcorpus de
mon´ologos con patrones de cohesi´on (es de-
cir, ”oraciones que tienen una relaci´on local
entre ellas”) y subhistorias (la finalidad de
una parte completa del discurso).
Un ejemplo diferente, m´as conectado con
los aspectos morfosint´acticos, es el esquema
propuesto por Marco de Rocha para el an´ali-
sis de expresiones anaf´oricas en la lengua ha-
blada (de Rocha, 1997). Cada discurso se eti-
queta con un tema que est´a formado por seg-
mentos, los cuales son anotados seg´un sus
funciones discursivas (p.ej. introducci´on de
un tema). Por ´ultimo, las expresiones anaf´ori-
cas son etiquetadas junto a su tipo, el tipo
morfosint´actico del antecedente, el estatus de
topicalidad del antecedente y el tipo de cono-
cimiento necesario para procesarla.
Nakatani y Traum ofrecen un ejemplo
de etiquetado m´as centrado en los hablan-
Manuel Alcántara Pla
136
tes. Anotan unidades de elementos comunes
(CGU) que marcan “el acuerdo entre los ha-
blantes sobre su entendimiento de lo que se
dice” (Nakatani y Traum, 1999). Cada CGU
contiene las oraciones necesarias para funda-
mentar un contenido, mientras que varias de
estas unidades son anotadas juntas como uni-
dades intencionales o informativas.
Otro de los corpus mencionados anterior-
mente, el CIAR, tambi´en incluye la anotaci´on
de actos de habla con unas etiquetas denomi-
nadas marcas de intenci´on (LIT), que indi-
can la intenci´on que tienen las oraciones pa-
ra el hablante. Cada LIT est´a formado por
cuatro niveles: acto discursivo, acci´on, obje-
to y argumento, y se asume que la oraci´on
-vinculada al LIT- es la unidad fundamental
del di´alogo. Varias oraciones forman una par-
te del discurso (PoD) que aparece etiquetada
con la tarea principal que est´e llevando a ca-
bo el hablante.
8. El alineamiento del texto con
el sonido y la imagen
La anotaci´on pros´odica est´a estrechamen-
te relacionada con el alineamiento del sonido
y el texto ya que se suelen tomar unidades
de la prosodia para realizar el proceso. Las
aplicaciones autom´aticas para el alineamien-
to se basan en rasgos ac´usticos (f´ısicamente
reconocibles) que generalmente se correspon-
den con perfiles terminales, pero sus resulta-
dos son a´un muy limitados. Algunos proyec-
tos han utilizado unidades de definici´on m´as
compleja, pero realizando la tarea manual-
mente (C-ORAL-ROM), mientras que otros
han sacrificado esta complejidad para faci-
litar su automatizaci´on, tomando unidades
como las pausas mayores de tres segundos
(p.ej. el CGN) o los fonemas (realizado con
un sistema HMM para el CSJ y siendo revi-
sado despu´es manualmente).
El alineamiento del habla con las im´age-
nes en corpus multimodales es un campo en
el que apenas contamos con experiencias, pe-
rolosprimerosintentosyahanevidencia-
do la dificultad de sus retos, centrados espe-
cialmente en la conciliaci´on entre los rasgos
ling¨ısticos y los puramente audiovisuales. La
segmentaci´on del documento en unidades que
sean relevantes tanto desde un punto de vista
visual como ling¨ıstico es el primer problema
a solucionar. Las divisiones para el an´alisis
audiovisual se basan en rasgos ac´usticos y de
la imagen detectados autom´aticamente, como
pueden ser el cambio de c´amara o el movi-
miento de la imagen. Estas unidades (deno-
minadas shots) raramente coinciden con los
ımites ling¨ısticos. Aunque ser´ıa lo ideal pa-
ra el an´alisis del contenido, parece que la re-
levancia de la segmentaci´on visual para la
anotaci´on ling¨ıstica es escasa (Alc´antara y
Declerck, 2007).
9. Conclusiones para el futuro
La multimodalidad supone un paso m´as
en la evoluci´onquesehavenidoproduciendo
en la ling¨ıstica de corpus durante las ´ulti-
mas dos d´ecadas (Moreno, 2002). Esta nueva
generaci´on de corpus ofrece un gran poten-
cial para el an´alisis ling¨ısticoyeldesarrollo
de aplicaciones de inteligencia artificial den-
tro de un contexto en el que la dependencia
de los corpus y de los avances tecnol´ogicos
est´a resultando ser claramente bidireccional.
No obstante, las caracter´ısticas de estas colec-
ciones hacen que requieran de un esfuerzo im-
portante en la anotaci´on tanto si se parte de
la reutilizaci´on de sistemas como si se crean
otros nuevos.
El mayor problema que afrontamos al de-
sarrollar corpus multimodales es, como se de-
duce de lo descrito en las secciones previas,
la falta de una estandarizaci´on eficiente, un
problema que en parte viene heredado de la
brev´ısima tradici´on en el trabajo con corpus
de habla (Llisterri, 1997). Como hemos des-
crito en este art´ıculo, cada nivel de an´alisis
cuenta en la actualidad con experiencias tan
interesantes como dispares y la discrepancia
no se da ´unicamente en el plano te´orico, sino
tambi´en en la forma en que se codifican las
informaciones. El uso cada vez m´as extendi-
do del XML (lo que incluye tambi´en la tra-
ducci´on de formatos antiguos a este formato)
nos permite a este respecto compartir recur-
sos con mayor facilidad ahora que en el pa-
sado, pero compatibilizar las diferentes infor-
maciones sigue resultando una tarea ardua.
El contar con sistemas compatibles entre
ı nos ayudar´ıa a reutilizar y mejorar recur-
sos ya existentes. Adem´as, es un requisito in-
dispensable para poder realizar investigacio-
nes que impliquen m´as de un nivel ling¨ısti-
co. Este ´ultimo paso facilitar´ıa la resoluci´on
de muchos de los problemas aqu´ı planteados.
Un ejemplo claro es la mencionada segmenta-
ci´on del documento en unidades pertinentes
ling¨ısticamente. Las experiencias con habla
espont´anea demuestran que no es una tarea
La notación del habla en corpus de vídeo
137
acil en ning´un nivel, pero el uso combina-
do de la informaci´on obtenida en varios de
ellos nos est´a dando resultados prometedores
(Alc´antara, 2007).
Un problema relacionado es el de la ex-
cesiva especificidad de muchas anotaciones.
Por poner un ejemplo, pocos proyectos de los
mencionados en este art´ıculo est´an dise˜nados
para etiquetar m´as de una lengua. De hecho,
en la mayor´ıa de los casos ni tan siquiera
se pretende cubrir una lengua completa, sino
una peque˜na parte estrictamente delimitada
por rasgos como el dominio o el tipo de ha-
blantes, dados por los objetivos inmediatos
de cada proyecto. Esta especificidad dificulta
tambi´en el intercambio de informaci´on y, lo
que es a´un m´as grave, impide la escalabilidad
de los sistemas. Como es l´ogico, los estudios
ling¨ısticosqueestoscorpuspermitentam-
poco se pueden extrapolar a las caracter´ısti-
cas generales de la lengua.
Nos encontramos en un momento positivo
porque contamos, por primera vez, con cor-
pus multimodales y las posibilidades t´ecnicas
necesarias para etiquetarlos incluyendo infor-
maci´on ling¨ıstica. Sin embargo, la escasez de
experiencias comunes y la necesidad de con-
seguir objetivos en cada caso diferentes nos
sit´uanenunaposici´on en la que los avan-
ces no son tan importantes como cabr´ıa es-
perar por el inter´es y el trabajo dedicados.
El progreso en la anotaci´on del habla necesi-
ta que nos esforcemos en encontrar una base
com´untantoenloqueseetiquetacomoen
omo se etiqueta. En otras ocasiones, como
ocurri´o con los corpus de lengua escrita, los
est´andares se han ido imponiendo de forma
natural por sistemas de etiquetado que por
diversos motivos han gozado de una acep-
taci´on mayoritaria, pero parece que la ra-
pidezdelosdesarrollosactualesrecomienda
la puesta en marcha de propuestas como la
de, por ejemplo, la red europea de excelen-
cia K-Space15, dirigidas a acelerar ese proce-
so de convergencia. Esfuerzos de estandari-
zaci´on como el ya mencionado de Eagles (y
otroscomoeldelaTextEncodingInitiati-
ve16 o el de la Red de Corpus Europeos de
Referencia-NERC (Teubert, 1993)) son una
base de gran inter´es para este fin que deber´ıa
tenerse en cuenta para los futuros desarrollos.
15http://kspace.qmul.net/
16http://www.tei-c.org/
10. Agradecimientos
El autor quiere mostrar aqu´ı su agradeci-
miento a la citada red europea de excelencia
K-Space (Knowledge Space of semantic in-
ference for automatic annotation and retrie-
val of multimedia content, FP6-027026) de la
que forma parte y, especialmente, a los otros
miembros del equipo del DFKI que partici-
pan en dicha red, Thierry Declerck y Paul
Buitelaar. El trabajo de este art´ıculohasi-
do financiado con una beca posdoctoral del
Ministerio de Educaci´on y Ciencia.
Bibliograf´ıa
Alc´antara, Manuel. 2005. Anotaci´on y recu-
peraci´on de informaci´on sem´antica even-
tiva en corpus. Ph.D. tesis, Universidad
Aut´onoma de Madrid.
Alc´antara, Manuel. 2007. Merging semantics
and prosody to structure spoken language.
En Proceedings of the IWCS-7.
Alc´antara, Manuel y Thierry Declerck. 2007.
Shallow semantic analysis of asr trans-
cripts associated with video shots. En
Proceedings of the IWCS-7.
Anderson, A., M. Bader, E. Bard, E. Boy-
le, G.M. Doherty, S. Garrod, S. Isard,
J. Kowtko, J. McAllister, J. Miller, C. So-
tillo, H.S. Thompson, y R. Weinert. 1991.
The hcrc map task corpus. Language and
Speech, 34.
Austin, J.L. 1962. HowtodoThingsWith
Words. Harvard University Press.
Brants, Thorsten. 2000. Tnt - a statistical
part-of-speech tagger. En Proceedings of
the Sixth Applied Natural Language Pro-
cessing Conference ANLP-2000.
Brill, E. 1993. A Corpus-Based Approach
to Language Learning. Ph.D. tesis, Phila-
delphia.
Cresti, Emanuela y Massimo Moneglia, edito-
res. 2005. C-ORAL-ROM. Integrated Re-
ference Corpora for Spoken Romance Lan-
guage. Benjamins.
Crystal, David. 1975. The English tone of
voice: essays in intonation, prosody and
paralanguage. Edward Arnold.
de Rocha, Marco, 1997. Corpus-Based and
Computational Approaches to Discourse
Anaphora, cap´ıtulo Corpus-Based Study
of Anaphora in English and Portuguese.
UCL Press.
Manuel Alcántara Pla
138
Gonz´alez, Ana, Guillermo de la Madrid, Ma-
nuel Alc´antara, Ra´uldelaTorre,yAnto-
nio Moreno. 2004. Orality and difficulties
in the transcription of spoken corpora. En
IV International Conference on Language
Resources and Evaluation (LREC2004).
Gross,Derek,JamesF.Allen,yDavidR.
Traum. 1993. The Trains 91 Dialogues.
University of Rochester.
Grosz, B.J. y C.L. Sidner. 1986. Attention,
intention, and the structure of discourse.
Computational Linguistics, 12(3).
Halliday, M.A.K. 1976. System and Function
in Language. Oxford University Press.
Heeman, Peter A. y James F. Allen. 1995.
The Trains spoken dialog corpus (CD-
ROM). Linguistic Data Consortium.
Hoekstra, H., M. Moortgat, B. Renmans,
M. Schouppe, I. Schuurman, y T. van der
Wouden. 2002. Cgn syntactische annota-
tie. Informe t´ecnico, Radboud University
Nijmegen.
itoh Ozaku, Hiromi, Akinori Abe, Noriaki
Kuwahara, Futoshi Naya, Kiyoshi Kogure,
y Kaoru Sagara. 2005. Building dialogue
corpora for nursing activity analysis. En
Proceedings of the LINC05.
Kawaguchi, Nobuo, Shigeki Matsubara, Ka-
zuya Takeda, y Fumitada Itakura. 2005.
Ciair in-car speech corpus: Influence of
driving status : Corpus-based speech te-
chnologies. IEICE transactions on infor-
mation and systems.
Leech, G., R. Garside, y M. Bryant. 1994.
Claws4: The tagging of the british natio-
nal corpus. En Proceedings of the 15th In-
ternational Conference on Computational
Linguistics (COLING 94).
Llisterri, Joaquim. 1997. Transcripci´on, eti-
quetado y codificaci´on de corpus orales.
Seminario de Industrias de la Lengua -
Fundaci´on Duques de Soria.
Miller, J. y R. Weinert. 1998. Spontaneous
Spoken Language. Syntax and Discourse.
Oxford University Press.
Moreno, Antonio. 1991. Un modelo compu-
tacional basado en la unificaci´on para el
an´alisis y la generaci´on de la morfolog´ıa
del espa˜nol. Ph.D. tesis, Universidad
Aut´onoma de Madrid.
Moreno, Antonio. 2002. La evoluci´on de los
corpus de habla espont´anea: la experien-
cia del lli-uam. En Actas de las Segundas
Jornadas de Tecnolog´ıas del Habla.
Moreno, Antonio, Guillermo De la Ma-
drid, Ana Gonz´alez, Jose Mar´ıa Guirao,
RaulDelaTorre,yManuelAlc´antara,
2005. C-ORAL-ROM: Integrated Referen-
ce Corpora for Spoken Romance Langua-
ges, cap´ıtulo The Spanish corpus. Benja-
mins.
Nakatani, C. H. y David R. Traum. 1999.
Coding discourse structure in dialogue
(version 1.0). Informe t´ecnico, University
of Maryland.
Nakatani, Christine H., Barbara J. Grosz,
David D. Ahn, y Julia Hirschberg. 1995.
Instructions for annotating discourse. In-
forme t´ecnico, Center for Research in
Computing Technology.
Teubert, W. 1993. Phonetic/phonemic and
prosodic annotation. final report. Informe
ecnico, IDS Mannheim.
Tsay, Jane S. 2005. Taiwan child langua-
ge corpus: Data collection and annotation.
En Fifth Workshop on Asian Language
Resources (ALR-05).
La notación del habla en corpus de vídeo
139
ResearchGate has not been able to resolve any citations for this publication.
Article
Full-text available
This paper analyses the effects of certain oral features on the process of transcription of spontaneous speech recordings. On the basis of the statistical analysis of the data obtained from the C-ORAL-ROM corpus, it will be shown empirically that transcription difficulties vary according to the communicative situation, the degree of formality and the number of participants.
Article
Full-text available
AT R Intelligent R obotics and C om m unication L abs H ikaridai 2-2-2, K eihannna S cience C ity, K yoto, 619-0288 Abstract In this paper, w e introduce our corpora under developm ent, w hich are recorded in a real environm ent. T hese corpora com prise dialogues collected in hospi-tals w ith the aim of developing a nurs-ing service support system through a com prehensive understanding of nurs-ing activities. We use the corpora to analyze how nurses perform their nurs-ing duties and how they express the per-form ance of their tasks. To understand nursing activities, w e investigated nurs-ing services and the relevant m edical charts by using the corpora. In the pa-per, w e show features and prom ising applications of the corpora.
Article
This paper describes a corpus of unscripted, task-oriented dialogues which has been designed, digitally recorded, and transcribed to support the study of spontaneous speech on many levels. The corpus uses the Map Task (Brown, Anderson, Yule, and Shillcock, 1983) in which speakers must collaborate verbally to reproduce on one participant's map a route printed on the other's. In all, the corpus includes four conversations from each of 64 young adults and manipulates the following variables: familiarity of speakers, eye contact between speakers, matching between landmarks on the participants’ maps, opportunities for contrastive stress, and phonological characteristics of landmark names. The motivations for the design are set out and basic corpus statistics are presented.
Article
Taiwan Child Language Corpus contains scripts transcribed from about 330 hours of recordings of fourteen young children from Southern Min Chinese speaking families in Taiwan. The format of the corpus adopts the Child Language Data Exchange System (CHILDES). The size of the corpus is about 1.6 million words. In this paper, we describe data collection, transcription, word segmentation, and part-of-speech annotation of this corpus. Applications of the corpus are also discussed.