Content uploaded by Víctor Fresno Fernández
Author content
All content in this area was uploaded by Víctor Fresno Fernández on Feb 06, 2015
Content may be subject to copyright.
Evaluaci´on de la Selecci´on, Traducci´on y Pesado
de los Rasgos para la Mejora del Clustering
Multiling¨ue
S. Montalvo1, A. Navarro1, R. Mart´ınez2, A. Casillas3, and V. Fresno1
1Dpt. Inform´atica, Estad´ıstica y Telem´atica
Universidad Rey Juan Carlos
{soto.montalvo, victor.fresno}@urjc.es, axelux@gmail.com
2Dpt. de Lenguajes y Sistemas Inform´aticos
UNED
raquel@lsi.uned.es
3Dpt. Electricidad y Electr´onica
Universidad del Pa´ıs Vasco
arantza.casillas@ehu.es
Resumen En este trabajo hemos realizado un estudio para evaluar
el impacto de utilizar diferentes representaciones de documentos en
el resultado del clustering multiling¨ue. Para ello, seguimos un modelo
basado en la selecci´on y traducci´on de rasgos. La selecci´on se basa en la
utilizaci´on de informaci´on sobre la categor´ıa gramatical y el contexto. La
traducci´on se ha llevado a cabo utilizando EuroWordNet 1.0 y aplicando
un m´etodo de desambiguaci´on autom´atica. Adem´as, se han utilizado
diferentes funciones de pesado de los rasgos (TF, TF-IDF y WIDF).
El objetivo principal es estudiar la importancia de cada uno de estos
elementos y as´ı poder determinar una o varias combinaciones de ellos
que conduzcan a obtener buenos resultados en el clustering multiling¨ue.
La evaluaci´on se ha llevado a cabo con un corpus comparable de noticias
escritas en castellano e ingl´es. Se ha usado un algoritmo de clustering
de partici´on de la librer´ıa CLUTO y la calidad de los resultados se ha
determinado mediante una medida de evaluaci´on externa. Los mejores
resultados se obtienen representando con las entidades nombradas de
todo el documento y con las funciones de pesado TF y TF-IDF.
1. Introducci´on
El clustering multiling¨ue parte de un conjunto de documentos escritos en
varios idiomas y tiene como objetivo agruparlos de manera que se puedan ob-
tener clusters o grupos multiling¨ues. Un cluster multiling¨ue contendr´a aquellos
documentos que est´en relacionados o traten del mismo tema aunque est´en escri-
tos en diferentes lenguas. Mientras que un cluster monoling¨ue estar´a compuesto
´unicamente de documentos relacionados escritos en el mismo idioma.
El aumento de la cantidad de documentos electr´onicos escritos en diferen-
tes lenguas conlleva la necesidad de desarrollar sistemas que manejen toda esta
informaci´on y faciliten su acceso a los potenciales usuarios. El clustering mul-
tiling¨ue puede facilitar tareas como la recuperaci´on de informaci´on multiling¨ue
(agrupando documentos antes y despu´es de la recuperaci´on), alineaci´on de cor-
pora paralelos y comparables, entrenamiento de par´ametros para sistemas de
traducci´on autom´atica estad´ıstica, etc.
Los diferentes enfoques a la hora de abordar el clustering multiling¨ue se
pueden clasificar en dos grandes grupos: por un lado, aquellos que hacen uso de
t´ecnicas de traducci´on y, por otro, aquellos que transforman el documento en
una representaci´on independiente del lenguaje.
En los sistemas basados en traducci´on, bien para traducir los documentos
completos a una lengua eje, o bien para seleccionar ciertos rasgos y s´olo traducir
´estos a una lengua eje, es crucial la exactitud de la traducci´on obtenida. Los
recursos biling¨ues que se utilizan, normalmente ofrecen varias posibilidades o
sentidos en la traducci´on de una palabra y no es trivial elegir el adecuado.
Aunque se pueden aplicar m´etodos de desambiguaci´on autom´atica, ´estos no est´an
libres de errores y no elegir el sentido de la traducci´on apropiado puede conducir
a un agrupamiento err´oneo.
Por otro lado, los sistemas que transforman el documento en una representa-
ci´on independiente del lenguaje tienen ciertas limitaciones. Por ejemplo, aquellos
que trabajan con tesauros dependen fundamentalmente del alcance de ´estos. La
identificaci´on de datos num´ericos y de fechas puede resultar muy apropiada para
ciertos tipos de clustering y documentos. Sin embargo, en otros casos este tipo
de datos puede no ser relevante y resultar una fuente de ruido. Adem´as, la iden-
tificaci´on de cognados, que suele ser otra forma de representaci´on independiente,
est´a muy ligada al tipo de lenguas de que conste el corpus.
En este trabajo presentamos los resultados de un estudio que hemos llevado
a cabo para evaluar el impacto de la utilizaci´on de diferentes representaciones
de los documentos en el resultado del clustering multiling¨ue. Para ello, hemos
utilizado el modelo basado en la selecci´on y traducci´on de los rasgos. La selecci´on
se ha basado en seleccionar o no rasgos pertenecientes a diferentes categor´ıas
gramaticales, entidades nombradas y determinados contextos. La traducci´on
se ha llevado a cabo mediante EuroWordNet 1.0 [Vossen 1998], aplicando un
m´etodo de desambiguaci´on autom´atica. Tambi´en hemos utilizado diferentes
funciones de pesado de los rasgos (TF, TF-IDF y WIDF). El objetivo principal es
estudiar la importancia de cada uno de estos aspectos y, as´ı, poder determinar
una o varias combinaciones de ellos que conduzcan a la obtenci´on de buenos
resultados en el clustering multiling¨ue.
La evaluaci´on se ha llevado a cabo con un corpus comparable de noticias
escritas en castellano e ingl´es. Con el fin de utilizar medidas de evaluaci´on
externa, se ha recopilado un subconjunto de noticias comparable que ha sido
agrupado manualmente y que ha servido como soluci´on de referencia. Como el
´enfasis del estudio se ha puesto en la selecci´on y traducci´on de los rasgos y no
en el algoritmo de clustering, se ha utilizado un algoritmo de partici´on bien
conocido en la literatura.
El resto del art´ıculo se estructura como sigue: en la Secci´on 2 se describen
brevemente algunos trabajos relacionados. La Secci´on 3 explica, mostrando cada
una de sus fases, el estudio realizado. En la Secci´on 4 se presenta la colecci´on
utilizada en la evaluaci´on, as´ı como los experimentos junto con los resultados
obtenidos. Por ´ultimo, la Secci´on 5 incluye las conclusiones y trabajo futuro.
2. Trabajos Relacionados
El clustering multiling¨ue de documentos normalmente se aplica sobre
corpus paralelos [Silva et. al. 2004] o corpus comparables ([Rauber et. al. 2001],
[Mathieu et. al 2004], [Pouliquen et. al. 2004], [Chen and Lin 2000],
[Steinberger et. al. 2002], [Lawrence 2003]).
Si tenemos en cuenta los trabajos basados en el uso de t´ecnicas de traducci´on,
se emplean dos estrategias: (1) traducir el documento completo a una lengua eje,
y (2) traducir algunos rasgos del documento a una lengua eje.
Con respecto a la primera aproximaci´on, algunos autores utilizan sistemas
de traducci´on autom´atica, mientras que otros traducen el documento palabra a
palabra, consultando un diccionario biling¨ue. En [Lawrence 2003] se presentan
varios experimentos de clustering sobre un corpus comparable de Ruso e Ingl´es;
varios de estos experimentos est´an basados en el uso de sistemas de traducci´on
autom´atica.
Cuando se trata de traducir s´olo algunos rasgos del documento, en primer
lugar es necesario seleccionar qu´e rasgos se van a traducir (normalmente
nombres, entidades nombradas, verbos y adjetivos) para, a continuaci´on, traducir
dichos rasgos mediante un diccionario biling¨ue o consultando un corpus paralelo.
En [Mathieu et. al 2004], antes del proceso de clustering, se lleva a cabo
un an´alisis ling¨u´ıstico que extrae los lemas y reconoce entidades nombradas de
diversas categor´ıas (lugar, organizaci´on, persona, expresi´on temporal, expresi´on
num´erica, evento). Por lo tanto, los documentos se representan mediante un
conjunto de rasgos. Adem´as, los autores tienen en cuenta su frecuencia para
seleccionar los rasgos m´as relevantes. Finalmente, utilizan un diccionario biling¨ue
para traducir los rasgos seleccionados. En [Rauber et. al. 2001] los autores
presentan una metodolog´ıa que consiste en la extracci´on de todas las palabras
que aparecen en ndocumentos, exceptuando las palabras vac´ıas de contenido.
Posteriormente, mediante sistemas de traducci´on autom´atica construyen un
corpus monoling¨ue. Una vez finalizado el proceso de traducci´on, de forma
autom´atica, los documentos se organizan en diferentes clusters usando un m´etodo
de aprendizaje no supervisado mediante redes neuronales.
Algunas aproximaciones llevan a cabo un proceso de clustering independiente
en los documentos de cada lengua, es decir, un clustering monoling¨ue.
Posteriormente, tratan de encontrar relaciones entre los clusters monoling¨ues
obtenidos, generando as´ı clusters multiling¨ues. Sin embargo, otros trabajos
comienzan con un proceso de clustering multiling¨ue buscando relaciones
entre los documentos de todos los idiomas involucrados. Este es el caso de
[Chen and Lin 2000], donde los autores proponen una arquitectura de res´umenes
de noticias que incluye un proceso de clustering monoling¨ue y multiling¨ue. El
clustering multiling¨ue toma como entrada los resultados de una fase previa
de clustering monoling¨ue. Los autores seleccionan diferentes tipos de rasgos
dependiendo del tipo de clustering: para el clustering monoling¨ue usan entidades
nombradas y para el clustering multiling¨ue, adem´as, tienen en cuenta los verbos.
Las estrategias de clustering que generan para cada documento una
representaci´on independiente del idioma en el que est´a escrito, intentan
estandarizar o normalizar los contenidos de varias formas: (1) mapeando
los contenidos a una representaci´on independiente, o (2) reconociendo rasgos
independientes del lenguaje dentro del texto. Ambas posibilidades se pueden
emplear de forma aislada o combinada.
La primera aproximaci´on requiere la existencia de recursos ling¨u´ısticos
multiling¨ues, como tesauros, para crear una representaci´on del texto que
consista en un conjunto de entradas de tesauro. Normalmente, en un tesauro
multiling¨ue, los elementos de las diferentes lenguas se relacionan mediante
entradas independientes de la lengua. Por lo tanto, dos documentos escritos en
distinto idioma pueden ser considerados similares si tienen una representaci´on
parecida de acuerdo a lo que indica el tesauro. En algunos casos, es necesario el
uso de tesauros combinados con m´etodos de aprendizaje autom´atico para realizar
un mapeo correcto de los documentos con el tesauro. En [Steinberger et. al. 2002]
calculan la similitud sem´antica representando los contenidos de los documentos
de forma independiente a la lengua en la que est´an escritos, por medio del tesauro
Eurovoc.
La segunda aproximaci´on, reconocer en el texto rasgos independientes de la
lengua, implica poder identificar elementos como: fechas, n´umeros y entidades
nombradas. Por ejemplo, en [Silva et. al. 2004] los autores presentan un m´etodo
basado en lo que denominan Expresiones Relevantes (ER). Una expresi´on
relevante es una unidad l´exica de cualquier longitud extra´ıda de los documentos
mediante la herramienta LiPXtractor. Las expresiones relevantes se usan para
extraer un conjunto de rasgos, pero los clusters obtenidos son monoling¨ues.
Otros trabajos combinan la identificaci´on de rasgos independientes del idioma
(como n´umeros, fechas, . .. ) con el mapeo de los rasgos del texto con un tesauro.
En [Pouliquen et. al. 2004] la similitud entre los clusters multiling¨ues se basa
en la combinaci´on lineal de tres tipos de entradas: (a) cognados, (b) detecci´on
autom´atica de nombres de referencias geogr´aficas, y (c) los resultados de un
proceso de mapeo de un sistema de clasificaci´on multiling¨ue, que mapea los
documentos en un tesaruo multiling¨ue (Eurovoc ).
En [Steinberger et. al. 2004] proponen extraer caracter´ısticas independientes
del idioma usando gazetters y expresiones regulares, adem´as de tesauros y
sistemas de clasificaci´on.
3. Representaci´on y clustering de documentos
Para la representaci´on de los documentos utilizamos el modelo de espacio
vectorial [Salton and McGill 1983]. Seg´un este modelo, para cada documento se
obtiene un vector en el que cada componente representa el peso de un rasgo en
dicho documento.
Nuestra propuesta para el clustering multiling¨ue de documentos se compone
de las siguientes fases:
1. Selecci´on de rasgos.
2. Generaci´on de la representaci´on intermedia.
3. Traducci´on de rasgos.
4. Generaci´on de la representaci´on final.
5. Clustering.
3.1. Selecci´on de rasgos
En esta primera fase se seleccionan los rasgos que se van a tener en cuenta
en la representaci´on de cada documento. En nuestro enfoque, esta selecci´on
requiere que el corpus est´e analizado morfo-sint´acticamente, lematizado y con las
entidades nombradas identificadas y categorizadas. En este trabajo ´unicamente
hemos tenido en cuenta las entidades de las categor´ıas PERSONA, LUGAR,
ORGANIZACI ´
ON y MISCEL ´
ANEA.
La selecci´on se basa en 3 aspectos:
La categor´ıa gramatical.
Normalmente se consideran categor´ıas m´as discriminantes los nombres,
verbos y adjetivos.
Ser o no entidad nombrada.
En el caso particular de los documentos de noticias, tiene sentido
que las entidades nombradas sean consideradas como rasgos realmente
discriminantes. Por ello, en principio, cabr´ıa pensar que las representaciones
que incluyan dicho tipo de rasgos conseguir´an mejores resultados en el
clustering que aquellas que no los consideren. Aunque realmente ser´an ´utiles
para la representaci´on en la medida en que los recursos utilizados para la
traducci´on sean capaces de dar cuenta de ellas.
El contexto.
Otro aspecto a tener en cuenta en la selecci´on de rasgos es el contexto en
el que se encuentran. En el estilo period´ıstico es habitual que en el primer
p´arrafo se resuma el contenido primordial de la noticia. De ah´ı que nosotros
hayamos considerado dos tipos de contexto en nuestro estudio: el documento
completo y el primer p´arrafo.
3.2. Generaci´on de la representaci´on intermedia
Una vez extra´ıdos los rasgos que se van a tener en cuenta, se generar´a una
representaci´on intermedia por cada parte monoling¨ue del corpus.
Esta representaci´on intermedia consiste en una matriz, donde cada fila es un
vector que se corresponde con uno de los documentos del corpus. Cada columna
representa uno de los rasgos que aparecen en el corpus y que ha sido seleccionado.
Los valores de cada componente de los diferentes vectores que forman la ma-
triz se asignan por medio de funciones de peso. En este estudio hemos utilizado
funciones bien conocidas en la literatura (TF, TF-IDF y WIDF) que se describen
a continuaci´on:
Term Frequency, TF [Luhn 1957]: cada rasgo tiene una importancia propor-
cional al n´umero de veces que aparece en el documento.
Inverse Term Frequency, TF-IDF [Salton and Yang 1973]: la combinaci´on de
pesos de un t´ermino ten un documento d, siendo Nel n´umero de documentos
ydf(t) el n´umero de documentos que contienen el rasgo t, viene dada por:
T F −I DF (d, t) = T F (d, t)×ID F (t); IDF (t) = log N
df(t)(1)
Weighted Inverse Term Frequency, WIDF [Salton 1989]: extensi´on de IDF
que incorpora la frecuencia del t´ermino sobre la colecci´on de documentos:
W I DF (d, t) = T F (d, t)X
i²D
T F (i, t) (2)
3.3. Traducci´on de rasgos
Para traducir los rasgos se dispone de la base de datos l´exica EuroWordNet
1.0. Con este recurso se traducen a castellano todos los rasgos que aparecen en
la representaci´on intermedia del corpus en ingl´es.
En la traducci´on, uno de los factores clave es la desambiguaci´on autom´atica.
Cuando para un rasgo en ingl´es se obtiene m´as de un sentido posible como
traducci´on hemos aplicado el m´etodo de desambiguaci´on que se describe a
continuaci´on. De los diferentes sentidos obtenidos por EuroWordNet, se elige
aqu´el que est´e presente entre los rasgos de la matriz del corpus en castellano.
Nuestra hip´otesis es que dado que trabajamos con un corpus comparable,
esperamos que la traducci´on correcta de una palabra aparezca, en la mayor´ıa
de los casos, en el corpus del otro idioma.
En el caso de que al intentar traducir un rasgo no se encuentre ninguna
traducci´on, dicho rasgo se elimina de la representaci´on, salvo que se trate de una
entidad nombrada. As´ı, se contempla que pueda haber entidades nombradas,
aunque no se puedan traducir, ya que pueden coincidir en ambas lenguas.
3.4. Generaci´on de representaci´on final
Una vez que se han generado dos representaciones intermedias, una por cada
corpus monoling¨ue y, adem´as, la del corpus en ingl´es se ha traducido, se fusionan
en una ´unica representaci´on. Entonces, como representaci´on final para el proceso
de clustering multiling¨ue se dispone de una ´unica matriz.
3.5. Clustering
Para realizar el clustering usamos un algoritmo de partici´on. En particular,
el algoritmo Direct de la conocida librer´ıa CLUTO [Karypis 2002]. El n´umero
total de clusters que se quieren obtener es un dato que hay que proporcionar al
algoritmo.
4. Evaluaci´on
En esta secci´on se presenta el corpus con el que se realiza la evaluaci´on,
as´ı como los experimentos realizados y los resultados obtenidos.
4.1. Corpus
Un corpus comparable es una colecci´on de textos similares en diferentes
idiomas o diferentes variedades de un mismo idioma. En este trabajo usamos una
colecci´on de noticias escritas en ingl´es y castellano, referentes al mismo periodo
de tiempo. Las noticias se encuentran clasificadas y se trata de noticias de la
agencia EFE que han sido recopiladas en el proyecto HERMES4. Esta colecci´on
se puede considerar como un corpus comparable. Para realizar la evaluaci´on
hemos usado un subconjunto de noticias que se compone de 79 noticias en
castellano y 70 noticias en ingl´es, en total 149 noticias.
Para poder comprobar la bondad de los resultados del algoritmo de clustering
con las diferentes representaciones se ha realizado una agrupaci´on manual de
la colecci´on. Tres personas han sido las encargadas de leer los documentos y
formar grupos atendiendo a sus contenidos. La soluci´on manual se compone de
26 clusters, siendo todos ellos multiling¨ues.
4.2. Experimentos y Resultados
Se realizaron experimentos con diferentes combinaciones de todos los criterios
de selecci´on de rasgos descritos en la Secci´on 3.
La calidad de los resultados se ha evaluado mediante una medida de eva-
luaci´on externa, la medida-F [van Rijsbergen 1974]. Esta medida compara la
soluci´on obtenida por nuestro sistema con la soluci´on humana. La medida-F
combina las medidas de precisi´on y recall:
F(i, j) = 2×Recall(i, j)×P r ecision(i, j)
(P recision(i, j) + Recall(i, j ),(3)
denominamos clase al grupo de la soluci´on humana y cluster al grupo devuelto
por el sistema, as´ı: Recall(i, j ) = nij
ni,P recision(i, j) = nij
nj, donde nij es el
4http://nlp.uned.es/hermes/index.html
n´umero de miembros de la clase ien el cluster j,njes el n´umero de miembros
del cluster jyniel n´umero de miembros de la clase i. Para todos los clusters:
F=X
i
ni
nmax{F(i, j)},(4)
donde nes el n´umero de documentos. Esta funci´on est´a acotada entre los valores
0 y 1, que representan la peor y mejor calidad de clustering respectivamente.
En la tabla 1 se presentan los mejores resultados obtenidos con las diferentes
medidas de pesado utilizadas, TF, TF-IDF y WIDF respectivamente.
La primera columna de las tablas indica la categor´ıa gramatical de los rasgos
seleccionados: NOM (nombres), VER (verbos), ADJ (adjetivos), NE (entidades
nombradas) y 1er PAR (todos los rasgos de las categor´ıas seleccionadas que
aparezcan en el primer p´arrafo). La segunda columna representa la medida-F y
la tercera columna indica la relaci´on entre el n´umero de clusters multiling¨ues
obtenidos y el n´umero total de clusters multiling¨ues que se deber´ıan haber
obtenido. Recu´erdese que en el corpus de evaluaci´on la soluci´on manual ten´ıa
todos los clusters multiling¨ues.
Tabla 1. Resultados de clustering con las diversas representaciones
Rasgos seleccionados F. peso medida-F Clusters Multl./Total
NOM, VER TF 0.8164 16/26
NOM, VER, 1er PAR TF 0.7214 15/26
NOM, ADJ TF 0.8555 18/26
NOM, ADJ, 1er PAR TF 0.7769 21/26
NOM, VER, ADJ TF 0.8027 16/26
NOM, VER, ADJ, 1er PAR TF 0.7321 14/26
NE TF 0.8628 18/26
NE, 1er PAR TF 0.7012 15/26
NOM, VER TF-IDF 0.8534 21/26
NOM, VER, 1er PAR TF-IDF 0.7372 19/26
NOM, ADJ TF-IDF 0.8406 21/26
NOM, ADJ, 1er PAR TF-IDF 0.7517 22/26
NOM, VER, ADJ TF-IDF 0.7984 20/26
NOM, VER, ADJ, 1er PAR TF-IDF 0.7570 21/26
NE TF-IDF 0.8117 19/26
NE, 1er PAR TF-IDF 0.6823 21/26
NOM, VER WIDF 0.6705 26/26
NOM, VER, 1er PAR WIDF 0.5560 25/26
NOM, ADJ WIDF 0.7302 26/26
NOM, ADJ, 1er PAR WIDF 0.6486 26/26
NOM, VER, ADJ WIDF 0.7090 26/26
NOM, VER, ADJ, 1er PAR WIDF 0.6155 25/26
NE WIDF 0.7323 24/26
NE, 1er PAR WIDF 0.6747 22/26
Como era de esperar los resultados var´ıan en funci´on de la representaci´on
utilizada.
Los mejores valores de la medida-F se obtienen, en general, con las funciones
de pesado TF y TF-IDF, quedando a bastante distancia las representaciones con
la funci´on WIDF. El ´unico punto a favor de esta ´ultima es que sus soluciones,
aunque de peor calidad, obtienen un n´umero de clusters multiling¨ues m´as cercano
al de la soluci´on manual.
En cuanto al tipo de rasgos, las entidades nombradas (NE) obtienen los
mejores valores de medida-F en dos de las representaciones, y el tercer mejor valor
en la otra. Estos resultados indican que se trata de rasgos muy representativos
de los documentos del corpus. Por otra parte, las representaciones con NOM,
ADJ y NOM, VER tambi´en obtienen buenos resultados con las tres funciones
de pesado.
5. Conclusiones y Trabajos Futuros
Hemos realizado un estudio para determinar el impacto de la utilizaci´on
de diferentes representaciones de los documentos en el resultado del clustering
multiling¨ue. Para ello, partiendo del modelo basado en la traducci´on de rasgos
de los documentos, el ´enfasis se ha puesto en una selecci´on de rasgos basada en
informaci´on obtenida de: las categor´ıas gramaticales, el uso de las entidades
nombradas y la elecci´on del contexto. Adem´as, se han utilizado diferentes
funciones de pesado de los rasgos. Para la desambiguaci´on en la traducci´on de
los rasgos se ha propuesto un m´etodo sencillo basado en la naturaleza de los
corpus comparables.
La experimentaci´on se ha realizado sobre un corpus comparable de noticias
escritas en castellano e ingl´es y se ha utilizado un conocido algoritmo de
clustering.
Los resultados indican que las representaciones obtenidas con las funciones
de pesado TF y TF-IDF obtienen un agrupamiento de m´as calidad que con
la funci´on WIDF. Por otra parte, las entidades nombradas (NE) resultan ser
los rasgos que mejor representan el corpus utilizado en la experimentaci´on, un
corpus de noticias. Tambi´en las representaciones con rasgos de tipo NOM, ADJ
y NOM, VER muestran un buen comportamiento.
En cuanto a la elecci´on del contexto, se aprecia que a menor tama˜no de
contexto los resultados empeoran. En todas las representaciones cuyo contexto
es el primer p´arrafo, los resultados empeoran con respecto a las representaciones
cuyo contexto es el documento completo.
Como posibles trabajos futuros est´an combinar diferentes recursos para la
traducci´on con el fin de aumentar el n´umero de entidades nombradas que se
traducen, por ejemplo utilizar gazetters adem´as de la base de datos l´exica
y aplicar reglas de equivalencia. Asimismo, la distinci´on entre las diferentes
categor´ıas de entidades nombradas puede resultar ´util en la fase de selecci´on
de rasgos.
Referencias
[Karypis 2002] Karypis G.: “CLUTO: A Clustering Toolkit”. Technical Report: 02-
017. University of Minnesota, Department of Computer Science, Minneapolis, MN
55455, 2002.
[Mathieu et. al 2004] Benoit Mathieu and Romanic Besancon and Christian Fluhr.
“Multilingual document clusters discovery”. RIAO 2004, p. 1-10, 2004.
[Pouliquen et. al. 2004] Bruno Pouliquen and Ralf Steinberger and Camelia Ignat
and Emilia K¨asper and Irina Temikova. “Multilingual and cross-lingual news topic
tracking”. Proceedings of the 20th International Conference on computational
Linguistics, p. 23-27, 2004.
[Rauber et. al. 2001] Andreas Rauber and Michael Dittenbach and Dieter Merkl.
“Towards Automatic Content-Based Organization of Multilingual Digital Libraries:
An English, French, and German View of the Russian Information Agency Novosti
News”. Third All-Russian Conference Digital Libraries: Advanced Methods and
Technologies, Digital Collections Petrozavodsk, RCDI’2001.
[Silva et. al. 2004] Joaquin Silva and J. Mexia and Carlos Coelho and Gabriel Lopes.
“A Statistical Approach for Multilingual Document Clustering and Topic Extraction
form Clusters”. Pliska Studia Mathematica Bulgarica, v.16, p. 207-228, 2004.
[Vossen 1998] Vossen, P. “Introduction to EuroWordNet”. Computers and the Huma-
nities Special Issue on EuroWordNet, 1998.
[Chen and Lin 2000] Hsin-Hsi Chen and Chuan-Jie Lin. “A Multilingual News
Summarizer”. Proceedings of 18th International Conference on Computational
Linguistics, p. 159-165, 2000.
[Steinberger et. al. 2002] Ralf Steinberger and Bruno Pouliquen and Johan Scheer.
“Cross-Lingual Document Similarity Calculation Using the Multilingual Thesaurus
EUROVOC”. CICling’2002, p. 415-424.
[Lawrence 2003] Lawrence J. Leftin. “Newsblaster Russian-English Clustering Perfor-
mance Analysis”. Columbia computer science Technical Reports.
[Steinberger et. al. 2004] Ralf Steinberger and Bruno Pouliquen and Camelia Ignat.
“Exploting multilingual nomenclatures and language-independent text features as
an interlingua for cross-lingual text analysis applications”. SILTC 2004.
[Luhn 1957] H. P. Luhn. “A statistical approach to mechanized encoding and searching
of literaty information”. IBM Journal of Research and Development, 1957.
[Salton and McGill 1983] G. Salton and M. McHill. “Introduction to Modern Informa-
tion Retrieval”. McGraw-Hill, New York. 1983.
[Salton and Yang 1973] G. Salton and C.S. Yang. “On the specification of term values
in automatic indexing”. Journal of Documentation, 1973.
[Salton 1989] G. Salton. “Automatic Text Processing: The Transformation, Analysis,
and Retrieval of Information by Computer”. Addison-Wesley, 1989.
[van Rijsbergen 1974] C.J. van Rijsbergen. “Foundations of evaluation”. Journal of
Documentation, 30, p. 365-373, 1974.
[Vossen 1998] P. Vossen. “Introduction to EuroWordNet”. Computers and the Huma-
nities Special Issue on EuroWordNet. 1998.