ArticlePDF Available

Extracción de contextos definitorios en corpus especializados: Hacia la elaboración de una herramienta de ayuda terminográfica

Authors:

Abstract

Uno de los objetivos principales del trabajo terminográfico es la identificación de conocimiento sobre los términos que aparecen en textos especializados. Para confeccionar diccionarios, glosarios u ontologías, los terminógrafos suelen buscar definiciones sobre los términos que pretenden definir. La búsqueda de definiciones se puede hacer a partir de corpus especializados, donde normalmente aparecen en contextos definitorios, es decir, en fragmentos de texto donde un autor explícitamente define el término en cuestión. Hoy en día hay un interés creciente por automatizar este proceso, basado en la búsqueda de patrones definitorios sobre corpus especializados anotados morfosintácticamente. En este artículo presentamos una investigación centrada en la extracción automática de contextos definitorios. Presentamos una metodología que incluye tres procesos automáticos diferentes: la extracción de ocurrencias de patrones definitorios, el filtrado de contextos no relevantes, y la identificación de elementos constitutivos, es decir, términos, definiciones y patrones pragmáticos. http://repositori.upf.edu/handle/10230/16965
Revista Española de Lingüística (RSEL) 37, 2008, pp. 247-000
(ISSN xxxx-xxxx)
EXTRACCIÓN DE CONTEXTOS DEFINITORIOS HACIA
LA ELABORACIÓN EN CORPUS ESPECIALIZADOS:
DE UNA HERRAMIENTA DE AYUDA TERMINOGRÁFICA
Rodrigo Alarcón - Carme Bach - Gerardo Sierra
UPF - IULATERM, UPF - GIL, UNAM
ABSTRACT
One of the main goals of terminography
work is the identification of knowledge
about terms in specialised texts. In order to
compile dictionaries, glossaries or ontolo-
gies, terminographers used to search for
definitions about the terms that they are in-
tent to define. The search for definitions can
be done in specialised corpus, where they
usually appear in definitional contexts, i.e.
text fragments where an author explicitly
defines a term. Nowadays there is a growing
interest to automate this process, based on
the searching for definitional patterns, and
helped by morphosintactically annotated
specialised corpus.
In this paper we present a research fo-
cused on the automatic extraction of defini-
tional contexts. We present a methodology
which includes three different automatic
processes: the extraction of definitional
pattern’s occurrences, the filtering of non-
relevant contexts, and the identification of
constitutive elements, i.e. terms, definition
and pragmatic patterns.
RESUMEN
Uno de los objetivos principales del trabajo
terminográfico es la identificación de cono-
cimiento sobre los términos que aparecen
en textos especializados. Para confeccionar
diccionarios, glosarios u ontologías, los ter-
minógrafos suelen buscar definiciones so-
bre los términos que pretenden definir. La
búsqueda de definiciones se puede hacer a
partir de corpus especializados, donde nor-
malmente aparecen en contextos definitori-
os, es decir, en fragmentos de texto donde
un autor explícitamente define el término en
cuestión. Hoy en día hay un interés crecien-
te por automatizar este proceso, basado en
la búsqueda de patrones definitorios sobre
corpus especializados anotados morfosin-
tácticamente.
En este artículo presentamos una inves-
tigación centrada en la extracción automá-
tica de contextos definitorios. Presentamos
una metodología que incluye tres procesos
automáticos diferentes: la extracción de
ocurrencias de patrones definitorios, el fil-
trado de contextos no relevantes, y la iden-
tificación de elementos constitutivos, es
47-247-278 Rev.Esp.Ling. 37.indd 247 10/7/08 13:17:55
I. Introducción
Un problema general de cualquier área de conocimiento es la organi-
zación y descripción de sus conceptos. La terminografía ocupa un lugar
importante para la resolución de este problema, ya que se encarga, por un
lado, de la elaboración de ontologías que representen la red conceptual de
un área específica, y por otro lado de la elaboración de diccionarios donde
se explique el significado de los términos.
Para la elaboración de diccionarios, el terminógrafo identifica en pri-
mer lugar los términos de un área especializada y en segundo lugar reali-
za un estudio de éstos para encontrar su significado.
El avance tecnológico en el desarrollo de herramientas que faciliten el
trabajo terminográfico ha provisto al terminógrafo tanto de corpus lin-
güísticos especializados donde se almacena digitalmente una gran canti-
dad de documentos técnicos, como de sistemas para la extracción auto-
mática de términos.
Actualmente existe un creciente interés por el desarrollo de sistemas
para la identificación automática de información sobre términos que sea
útil para describir su significado. Diversos estudios coinciden en la idea
de que en textos especializados, cuando se define un término, se suelen
emplear ciertos patrones léxicos y metalingüísticos recurrentes, los cua-
les pueden ser reconocidos de manera automática (Pearson 1998, Meyer
2000).
Partiendo de esta idea, en este artículo se presenta una propuesta me-
todológica para la elaboración de un extractor de contextos definitorios
(ECODE), junto con los primeros resultados obtenidos de aplicar dicha
metodología sobre un corpus etiquetado morfosintácticamente. Este ex-
tractor está enfocado a la lengua española y tiene como principal campo
de aplicación el ámbito terminográfico y el conocimiento especializado.
Principalmente serviría para la elaboración de ontologías, es decir, bases
Extracción de contextos definitorios..
248 RSEL 37 (2008)
decir, términos, definiciones y patrones prag-
máticos.
Palabras clave: terminografía, contexto de-
finitorio, extracción de conocimiento, ex-
tracción de contextos definitorios.
Keywords: terminography, definitional con-
text, knowledge extraction, definitional
contexts extraction.
47-247-278 Rev.Esp.Ling. 37.indd 248 10/7/08 13:17:55
Revista Española de Lingüística 37 (2008) 249
Varios autores
de datos de conocimiento léxico, glosarios o diccionarios especializados,
tanto semasiológicos como onomasiológicos.
La metodología que presentamos para extraer contextos definitorios
(CDs) en textos etiquetados morfosintácticamente podría extenderse, en
primer lugar, a textos especializados no etiquetados, y en segundo lugar,
a textos de lengua general no etiquetados, con lo que el ámbito se amplia-
ría hasta la búsqueda general del significado de unidades léxicas tanto
especializadas como de lengua general.
En cuanto a la estructura de este artículo, se describirá en primer lugar
nuestro objeto de estudio. En segundo lugar se hará una breve descripción
de trabajos previos que han abordado el tema de la extracción automáti -
ca de CDs. Por último se presentará la propuesta metodológica, así como
las primeras aproximaciones y los resultados obtenidos hasta el momento.
II. Contextos definitorios
En esta investigación se entenderá por «contexto definitorio» (CD)
todo aquel fragmento textual de un documento especializado donde se
define un término. Los CDs están formados por un término (T) y una de-
finición (D), los cuales se encuentran conectados mediante un patrón
definitorio (PD), por ejemplo verbos como definir o entender. Opcional-
mente pueden incluir un patrón pragmático (PP), esto es, estructuras que
aportan condiciones de uso del término o que matizan su significado, por
ejemplo en términos generales o en esta investigación.
En la siguiente figura se puede observar una representación de los
elementos de un CD, donde T y D junto con PD forman una unidad que
puede estar modificada por el elemento optativo PP.
Figura 1. Estructura de un contexto definitorio.
47-247-278 Rev.Esp.Ling. 37.indd 249 10/7/08 13:17:55
Extracción de contextos definitorios...
250 RSEL 37 (2008)
Un ejemplo sería el siguiente, donde enmarcamos los elementos cons-
titutivos dentro de los símbolos «<> </>»:
<PP>De manera más formal,</PP> <T>la biología molecular</T>
<PD>se ha definido como</PD> <D>una materia interdisciplinaria,
que utiliza los métodos de la bioquímica, la genética y la química es-
tructural para descubrir las bases moleculares de la forma, la función
y el origen evolutivo de los seres vivos.</D>
En este contexto el término es «biología molecular»; la definición es
todo lo que va desde «una materia interdisciplinaria [...]» hasta el final del
enunciado; el patrón definitorio es «se ha definido como»; y el patrón
pragmático es «de manera más formal», que en este caso se utiliza para
indicar un matiz especial del significado del término. En seguida se des-
cribe cada elemento constitutivo de un CD.
2.1. Término
El término es la unidad sobre la cuál se aporta información relevante
y puede tener estructuras sintácticas diferentes. El núcleo de un término
generalmente será nominal, aunque no se debe descartar que en ocasiones
pueda ser de otro tipo, como verbal o adjetival.
Siguiendo la clasificación propuesta por Estopà 2001, un término en
este estudio corresponderá a una Unidad de Significación Especializada
(USE). Estas unidades pueden ser lingüísticas y no lingüísticas. En el
grupo de las USE lingüísticas encontramos USE léxicas y USE no léxi-
cas. Las primeras pueden ser nominales, adjetivales, verbales o adverbia-
les, mientras que las segundas pueden ser unidades fraseológicas especia-
lizadas o combinaciones recurrentes. En el grupo de las USE no léxicas
se encuentran los símbolos, nombres en latín y fórmulas.
Creemos que en el estudio de CD con fines de su extracción automá-
tica no se debe descartar la posibilidad de que los términos correspondan
a la categoría de USEs no léxicas. Dependiendo del área especializada es
común que en ocasiones lo que se defina esté más relacionado con fór-
mulas o elementos que, si bien no siguen patrones morfosintácticos co-
munes a los términos, sí representan una unidad de conocimiento espe-
cializada.
47-247-278 Rev.Esp.Ling. 37.indd 250 10/7/08 13:17:55
Revista Española de Lingüística 37 (2008) 251
Varios autores
2.2. Definición
La definición en un CD corresponde a la información relevante que se
aporta sobre un término y que puede ayudar para su comprensión. La
definición es también una unidad especializada en tanto que provee el
significado de un término especializado, por lo cual estás unidades están
relacionadas con un área de conocimiento particular.
Meyer 2001 establece una tipología de distintos tipos de definiciones
que se pueden encontrar en un CD. Partiendo de un modelo aristotélico,1
propone que las definiciones presentes en contextos ricos en conocimien-
to (Knowledge-rich Contexts = KRCs) son de dos tipos distintos:
A) KRCs definitorios (Defining KRCs). Son el tipo más común y pre-
sentan la fórmula antes mencionada de una definición aristotélica: De-
finición = Género próximo + Diferencia específica, que en la fórmula
de Meyer está dada como X = Y + características distintivas.
B) KRCs explicativos (Explanatory KRCs). Son aquellos donde sólo
se proporciona información sobre el término, excluyendo la clase ge-
neral a la cual pertenece. En la fórmula de Meyer se representa como
X características, donde el símbolo significa que el elemento X
debe tener, o por lo general tiene, una o varias características concep-
tuales.
El primer tipo se considera el más completo, ya que en él se detalla la
clase general a la cual pertenece el término y además se detallan las ca-
racterísticas que lo distinguen de otros términos de su misma clase. En el
segundo tipo la información sobre el término sólo permite crear una cla-
sificación de éste a partir de la relación conceptual que establece con otros
términos de su misma clase. Este tipo de definiciones sirven por lo gene-
ral para encontrar relaciones conceptuales específicas como hiponimia,
meronimia, sinonimia, por citar algunas.
1 El cual sigue la fórmula: X = genus + diferencia, donde X es el término, genus es la
categoría general a la cual pertenece dicho término, y diferencia es lo que distingue la
categoría general del término que se define.
47-247-278 Rev.Esp.Ling. 37.indd 251 10/7/08 13:17:55
Extracción de contextos definitorios...
252 RSEL 37 (2008)
2.3. Patrones definitorios
En un CD los términos y las definiciones están ligados mediante un
patrón definitorio. Los patrones definitorios pueden estar formados por
elementos tipográficos o sintácticos, y ambos se utilizan para conectar el
término con su definición.
Para este estudio se ha considerado que los patrones definitorios pue-
den ser patrones tipográficos definitorios (PTD), o bien patrones sintácti-
cos definitorios (PSD), los cuales a su vez pueden ser patrones verbales
definitorios (PVD) o marcadores reformulativos definitorios (MRD).
Los PTD cuando funcionan como conectores entre términos y defini-
ciones son signos de puntuación (dos puntos, viñetas, guiones, etc.). Cuan-
do se utilizan para resaltar la presencia de un término suelen ser marcas
tipográficas o bien la propia tipografía del texto, por ejemplo el uso de
comillas, subrayado, negrita, cursiva, etc.
Los PVD utilizan verbos metalingüísticos como definir o denominar,
o bien verbos comunes al lenguaje general que pueden funcionar a nivel
definitorio como ser o conocer. En un estudio previo (Alarcón 2003) se
clasificaron los patrones verbales definitorios de acuerdo con su estructu-
ra en dos grupos: «simples» y «compuestos».
a) Los patrones verbales definitorios simples (PVDS) incluyen un
verbo que se presenta de forma simple, sin ninguna otra partícula
gramatical que los acompañe: X significa Y; Y denominado X,
(donde X representa el término e Y la definición).
b) Los patrones verbales definitorios compuestos (PVDC) incluyen
además del verbo ciertas partículas gramaticales, como adverbios,
preposiciones o pronombres, y crean estructuras sintácticas com-
puestas: X se define como Y; X sirve para Y. Estas partículas las
denominamos «nexos» (NX) y sirven para delimitar la estructura
de un PVDC.
Los MRD, a grandes rasgos, son estructuras sintácticas que se en-
cuentran relacionadas con un proceso también metalingüístico que en el
caso de los CDs sirve para explicar el propio lenguaje, como señala Bach
2005, p. 2:
47-247-278 Rev.Esp.Ling. 37.indd 252 10/7/08 13:17:55
Revista Española de Lingüística 37 (2008) 253
Varios autores
La reformulación es un proceso de reinterpretación textual, mediante
el cual un locutor determinado retoma algún elemento discursivo an-
terior para presentarlo de otra forma y con una función discursiva de-
terminada.
En el grupo de marcadores reformulativos definitorios encontramos
estructuras como por ejemplo, es decir y esto es.
2.4. Patrones pragmáticos
En los CDs se puede encontrar, además de la definición, otro tipo de
información relevante para entender al término dentro del contexto en el
cual aparece. Esta información está en relación con la introducción del
término en el texto especializado, sus condiciones de uso, modificación y
alcance (Rodríguez 1999). Este tipo de patrones se denominan «patrones
pragmáticos» (PP) y pertenecen a un paradigma estructural amplio ya que
su composición puede variar de acuerdo con formas estructurales o esti-
lísticas utilizadas por cada autor. No obstante, encontramos patrones re-
currentes, por ejemplo: adverbios y frases adverbiales (usualmente, de
manera general), frases prepositivas (desde el punto de vista genético), o
palabras simples (definición, concepto, término).
III. Estado de la cuestión
El estudio de la extracción automática de CDs ha sido abordado desde
una perspectiva teórico-descriptiva que ha dado paso al desarrollo de
aplicaciones concretas para diferentes lenguas.
3.1. Estudios teórico-descriptivos
Uno de los estudios teórico-descriptivos más importantes es el trabajo
de Pearson 1998, en el que se describe el comportamiento de los términos
en el contexto real en el que aparecen y donde se menciona que, cuando
un autor define un término, suele recurrir a patrones tipográficos para re-
saltar visualmente la presencia del término y/o la definición, y a patrones
léxicos y metalingüísticos para conectar los dos elementos anteriores me-
diante estructuras sintácticas.
47-247-278 Rev.Esp.Ling. 37.indd 253 10/7/08 13:17:55
Extracción de contextos definitorios...
254 RSEL 37 (2008)
Esta última idea fue reforzada por el estudio de Meyer 2001, quien
sostiene que en un texto especializado los patrones definitorios que co-
nectan los términos con su definición pueden también introducir claves
que permitan reconocer automáticamente el tipo de definición presente en
los CDs, así como elaborar automáticamente una red conceptual.
En este sentido, y partiendo del estudio de los distintos verbos que
pueden encontrarse en distintas relaciones conceptuales, en el estudio de
Feliu 2004 se ha propuesto una tipología para la clasificación de dichos
verbos y relaciones conceptuales con el fin de poder identificar relaciones
conceptuales.
En el estudio de Bach 2005, referente a marcadores reformulativos, se
ha propuesto una metodología que consiste en buscar automáticamente
las ocurrencias de dichos marcadores en un corpus especializado, para, en
conjunto con un sistema de identificación de términos, poder encontrar de
manera semi-automática aquellos contextos donde se presente un proceso
de reformulación textual útil para encontrar información definitoria.
El trabajo de Rodríguez 1999 detalla las «Operaciones Metalingüísti-
cas Explícitas» (OMEs), que son operaciones comunicativas especializa-
das donde se puede localizar, entre otro tipo de informaciones, la defini-
ción del término o bien información sobre su origen o direcciones de uso.
Estos trabajos comparten la idea de buscar patrones recurrentes como
punto de inicio en la búsqueda de información relevante sobre términos.
Los patrones pueden englobarse en patrones tipográficos y patrones léxi-
cos. Los primeros hacen referencia a la tipografía de un texto o a signos
de puntuación, mientras que los segundos se refieren a verbos metalingüís-
ticos, marcadores reformulativos o estructuras semántico-pragmáticas.
3.2. Investigaciones aplicadas
Existen investigaciones aplicadas que han partido de los estudios teó-
rico-descriptivos para elaborar metodologías de extracción automática de
CDs. Entre estas investigaciones se encuentran sistemas con distintas
finalidades:2
2 Es importante señalar que en principio, el desarrollo de estas aplicaciones ha sido
enfocado a lengua inglesa, siendo reciente el intento de elaborar sistemas para otras len-
guas, entre ellas la lengua española.
47-247-278 Rev.Esp.Ling. 37.indd 254 10/7/08 13:17:55
Revista Española de Lingüística 37 (2008) 255
Varios autores
a) el reconocimiento automático de definiciones en textos médicos
(Klavans y Muresan 2000), y en textos jurídicos (Sánchez y Már-
quez 2005);
b) la identificación automática de definiciones en sistemas de pregun-
ta respuesta (Saggion 2004);
c) la extracción automática de información metalingüística para ter-
minología (Rodríguez 2004);
d) la elaboración automática de ontologías (Malaisé 2005).
Las investigaciones aplicadas tienen como finalidad la extracción auto-
mática de información relevante sobre términos. Al igual que en los estu-
dios teórico-descriptivos, la finalidad específica de cada autor es distinta
aunque compartan ciertas ideas. La principal de ellas es que la búsqueda
automática de las ocurrencias de patrones léxicos y metalingüísticos pue-
de ser un buen punto de inicio para encontrar términos y definiciones.
Comparten también la idea de que en la búsqueda de patrones se ob-
tendrá ruido (contextos donde no se aporta información relevante sobre
un término) que podría ser filtrado automáticamente, y la idea de que una
vez identificadas las ocurrencias donde posiblemente se presente infor-
mación sobre un término, es necesario identificar cuál es dicho término y
cuál es su definición.
En cuanto a la evaluación, todos toman como referencia los índices de
precisión y cobertura (precision and recall) para comprobar que toda la
información extraída automáticamente haya sido únicamente informa-
ción relevante y que toda la información relevante haya sido extraída.
Cabe señalar que existen otros estudios que siguen por lo general las
mismas líneas metodológicas que los anteriores. Alguno de estos trabajos
son por ejemplo, una aplicación relacionada con el estudio teórico-des-
criptivo de Meyer, desarrollada por Davidson 1997; una investigación
relacionada con la detección automática y la anotación de definiciones de
términos especializados en corpus lingüísticos en alemán (Storrer y We-
llinghoff 2006); o bien la propuesta y descripción de un primer acerca-
miento para la detección automática de relaciones conceptuales entre dos
términos en textos especializados (Feliu y otros 2006).
47-247-278 Rev.Esp.Ling. 37.indd 255 10/7/08 13:17:55
Extracción de contextos definitorios...
256 RSEL 37 (2008)
IV. Propuesta metodológica
Como se ha señalado anteriormente, la principal finalidad de un ex-
tractor de CDs sería facilitar la búsqueda de información relevante sobre
términos, siendo la base de este extractor la búsqueda de ocurrencias
de patrones definitorios. Un extractor que sólo obtuviera las ocurrencias de
Figura 2. Esquema general del ECODE.
47-247-278 Rev.Esp.Ling. 37.indd 256 10/7/08 13:17:55
Revista Española de Lingüística 37 (2008) 257
Varios autores
dichos patrones ya sería una buena herramienta de ayuda en las distintas
tareas terminográficas. Sin embargo, el análisis manual de estas ocurren-
cias supondría todavía un esfuerzo que podría simplificarse mediante un
extractor que incluyera un procesamiento automático de las ocurrencias.
La metodología que aquí se propone incluye no sólo la extracción de
ocurrencias de patrones definitorios, sino también el filtrado automático
de excepciones (es decir, contextos no relevantes), así como la identifica-
ción automática de los elementos constitutivos de un CD. Esta metodolo-
gía se representa mediante la figura número 2:
4.1. Extracción automática de ocurrencias de patrones definitorios
Para este trabajo se ha tomado como punto de partida el Corpus Téc-
nico del IULA y su interfaz de búsqueda bwanaNet.3 Este corpus está
formado por documentos especializados en español, catalán, inglés, fran-
cés y alemán en las áreas del derecho, genoma, economía, medio ambien-
te, medicina, informática y lenguaje general. Además, el corpus está eti-
quetado con POS4 mediante el estándar EAGLES5 para representar los
distintos tipos de palabra y sus características específicas.
Como parte de la aplicación de la metodología aquí propuesta, por
ahora se han hecho pruebas con patrones verbales definitorios que inclu-
yen los verbos: concebir, definir, entender e identificar. Seleccionamos
estos verbos con la intención de representar la divergencia de enunciados
que pueden recuperarse con verbos que tienen un matiz claramente más
definitorio, como concebir o definir, frente a enunciados que se pueden
emplear en una gran variedad de enunciados distintos,6 como los recupe-
rados con entender o identificar.
En un estudio anterior (Alarcón y Sierra 2003) se encontró que estos ver-
bos pueden constituir los siguientes patrones verbales definitorios, donde:
3 http://bwananet.iula.upf.edu/bwananetla.es.htm.
4 Partes de la Oración, por sus siglas en inglés (Part Of Speach).
5 http://www.ilc.cnr.it/EAGLES96/home.html.
6 Cabe aclarar que somos concientes de la gran diversidad de patrones verbales que
pueden emplearse en CDs, tanto aquellos que incluyen verbos definitorios como aquellos
de lengua general. Tal es el caso del verbo ser, cuyo carácter general presupone de ante-
mano la recuperación de una mayor cantidad de ruido. Se tiene contemplado trabajar con
este y otros verbos, al igual que con patrones tipográficos y marcadores reformulativos.
47-247-278 Rev.Esp.Ling. 37.indd 257 10/7/08 13:17:55
Extracción de contextos definitorios...
258 RSEL 37 (2008)
SE = Pronombre impersonal se
VAux = Verbo auxiliar
VDef_Inf = Verbo definitorio forma impersonal infinitivo
VDef_Par = Verbo definitorio forma impersonal participio
VDef_Con = Verbo definitorio forma personal vonjugado
Pron = Pronombre
NX = Nexo
.* = Cualquier palabra o conjunto de palabras
Tabla 1. Patrones verbales definitorios
Formas impersonales en infinitivo
SE (Pron) VAux VDef_Inf | VAux VDef_Inf (SE | Pron) | VDef_Inf (Pron) .* NX
Ejemplo: puede definir (se | lo) .* como
Formas impersonales en participio
(SE VAux | Vaux{1,2}) Vdef_Par + NX
Ejemplos: se ha definido .* como
Formas personales conjugadas
(SE) VDef_Con + NX
Ejemplos: se define .* como
En la tabla anterior los verbos auxiliares (VAux) pueden ser formas
personales o impersonales de cualquier verbo y los elementos entre pa-
réntesis son optativos. Considerando que entre el verbo definitorio y el
nexo podrían aparecer tanto términos (Ts) como patrones pragmáticos
(PPs), utilizamos el símbolo «*» para representar una distancia n de pala-
bras posibles.
Para el caso de los verbos que aquí se tratan, estos patrones (PPs) se
han buscado mediante la opción de búsqueda compleja de bwanaNet, y
se ha delimitado la distancia entre el lema definitorio y el nexo como a 15
palabras. La ecuación de búsqueda general ha sido la siguiente:
[lemma=”concebir|definir|entender|identificar” & pos=”V[^G]....|H.*
”] [word!= “como”] {0, 15} [word=”como”]
47-247-278 Rev.Esp.Ling. 37.indd 258 10/7/08 13:17:56
Revista Española de Lingüística 37 (2008) 259
Varios autores
Con esta ecuación se obtienen ocurrencias con patrones como conce-
bido como; se ha concebido como; fue concebida al principio como, etc.
Una vez obtenidas las ocurrencias de cada patrón verbal definitorio,
éstas pasan por un proceso de preparación que tiene la finalidad de simpli-
ficar su procesamiento automático. Este proceso es una simple anotación
automática de cada ocurrencia con unas etiquetas que se han denominado
«etiquetas contextuales», las cuales parten del patrón definitorio y anotan
dentro de una etiqueta todas las palabras que están a la izquierda de dicho
patrón, y dentro de otra etiqueta todas las palabras que aparecen a su de-
recha. La anotación tiene como finalidad establecer fronteras que ayuden
en el proceso de identificar automáticamente las diversas posiciones que
pueden ocupar los términos, las definiciones y los patrones pragmáticos
en un CD.
Para ello se ha desarrollado una secuencia de comandos (script) en
Perl7 que asigna las siguientes etiquetas al patrón verbal definitorio, de-
pendiendo de si la forma verbal es impersonal y se encuentra en infinitivo
o participio, o bien si es una forma personal conjugada:
<pvd-inf> </pvd-inf> Forma impersonal en infinitivo
<pvd-par> </pvd-par> Forma impersonal en participio
<pvd-con> </pvd-con> Forma personal conjugada
Asimismo, todo lo que aparece a la izquierda del patrón definitorio se
anota con: «<izq></izq>», y todo lo que aparece a la derecha del patrón
definitorio es anotado con: «<der></der>». En el caso de que haya un
nexo, como el adverbio como en ciertos PVD, se anota con «<nexo></
nexo>» todo lo que aparece entre el verbo definitorio y dicho nexo. Un
ejemplo es el siguiente:
<izq>El metabolismo</izq> <pvd-inf>puede definirse</pvd-inf>
<nexo>en términos generales como</nexo> <der>la suma de todos
los procesos químicos ( y físicos ) implicados:</der>.
7 Se escogió este lenguaje de programación por su capacidad para integrar la búsqueda
de expresiones regulares, las cuales son una base fundamental en todos los procesos de la
metodología aquí propuesta.
47-247-278 Rev.Esp.Ling. 37.indd 259 10/7/08 13:17:56
Extracción de contextos definitorios...
260 RSEL 37 (2008)
4.2. Filtrado de contextos no relevantes
Una vez extraídas y anotadas las ocurrencias de patrones verbales de-
finitorios, el siguiente proceso es el filtrado automático de contextos don-
de probablemente no se define un término. Como se ha señalado anterior-
mente, los patrones definitorios no se emplean únicamente en enunciados
donde se aporta información relevante sobre términos. En el caso de los
PVDs, algunos de los verbos tienden a tener un nivel metalingüístico mu-
cho más alto que otros, por ejemplo definir o denominar frente a concebir
o identificar. A su vez, los mismos verbos con un nivel metalingüístico
alto no se utilizan siempre en enunciados en la definición de un término.
En un trabajo previo (Alarcón 2006) se realizó un análisis manual
para determinar qué tipo de partículas gramaticales o secuencias sintácti-
cas podrían encontrarse recurrentemente en los casos en que un patrón
verbal definitorio no funcionara como tal. Con las partículas y secuencias
encontradas se elaboraron reglas para filtrar, de los contextos obtenidos
mediante la búsqueda de PVDs, aquellos contextos no relevantes.
Las posiciones en que pueden aparecer las partículas o secuencias son 3:
antes del patrón verbal definitorio: __PVD; entre dicho patrón y un nexo:
PVD__NEXO, o bien después del nexo: NEXO__. Para cada posición hay
una frontera de inicio o límite representada mediante una etiqueta contextual.
Tabla 2. Patrones regulares utilizados para el filtrado de excepciones
Posición Partícula o secuencia
_PVD 1 no | en ningún caso | tampoco </izq>
2 para </izq>
PVD_NEXO
3 <nexo> verbo conjugado
4 no nexo </nexo>
5 [así | ya] nexo </nexo>
6 [Tan | tanto] .* nexo </nexo>
7 [más | poco | poco más] nexo </nexo>
8 [gerundio | que (signo)] nexo </nexo>
9 «,» nexo </nexo>
10 verbo personal conjugado nexo </nexo>
(continúa)
47-247-278 Rev.Esp.Ling. 37.indd 260 10/7/08 13:17:56
Revista Española de Lingüística 37 (2008) 261
Varios autores
Posición Partícula o secuencia
NEXO_
11 <der> no
12 <der> [antes | cuan | para | si]
13 <der> (se) verbo personal conjugado
14 <der> adjetivo verbo
15 <der> adjetivo signo
Para implementar estas reglas se desarrolló otro script, el cual parte de
la identificación de las partículas o secuencias en una posición determinada
respecto a la frontera de cada regla. Este script esta basado no sólo en el
reconocimiento de una palabra específica en una posición determinada, sino
también en la búsqueda de secuencias sintácticas mediante la ayuda de las
etiquetas POS. Por ejemplo, en el caso número 14, donde la regla incluye
un adjetivo seguido de un verbo en la primera ocurrencia de la posición
derecha. Algunos ejemplos clasificados como contextos no relevantes a
partir de ciertas regularidades son los siguientes:
Regla 3:
<izq>Ciertamente esta observación tiene una mayor fuerza cuando el
número de categorías </izq> <pvd-par>definidas</pvd-par> <nexo>es
pequeño, como </nexo> <der>en nuestro análisis .</der>
Regla 14:
<izq>Ahora,</izq> <pvd-con>entiendo</pvd-con> <nexo>que
como</nexo> <der>profesionales debemos dar una imagen, pero si
utilizamos un término y luego el contenido no corresponde a [...]</
der>
4.3. Identificación automática de elementos constitutivos
Una vez realizado el filtrado de excepciones, el siguiente proceso de
la metodología que se propone es identificar automáticamente cuál es el
término, cuál es la definición, y cuál es el patrón pragmático, en el caso
de que lo haya, en las ocurrencias extraídas con PVDs.
Es necesario aclarar que, dependiendo del patrón definitorio, los tér-
minos y las definiciones pueden ocupar un lugar específico en los CDs.
(continuación)
47-247-278 Rev.Esp.Ling. 37.indd 261 10/7/08 13:17:56
Extracción de contextos definitorios...
262 RSEL 37 (2008)
Por ejemplo, los patrones definitorios tipográficos generalmente presen-
tarían el término en la posición izquierda y la definición en la posición
derecha: T : D, mientras que los patrones verbales definitorios presenta-
rían otras posiciones recurrentes para T y D: T se define como D o D es
denominado T.
Las distintas posibilidades respecto a las posiciones en las que pueden
aparecer los elementos constitutivos dependiendo del patrón definitorio
se han denominado «patrones contextuales». En el caso de los PVDs y
dependiendo del verbo que se utilice para conectar al término con su de-
finición, el número de distintas posiciones aumenta considerablemente,
como en el caso de los PVDC que siguen el patrón se define como. En
estos casos, T y D pueden aparecer a izquierda o derecha, además T puede
aparecer entre el patrón verbal definitorio y el nexo, en el caso de que lo
haya. A su vez, los elementos pragmáticos añaden un mayor número de
combinaciones posibles.
Para identificar los elementos constitutivos se ha desarrollado un últi-
mo script a partir de los patrones y etiquetas contextuales. Al igual que en
el filtrado de excepciones, las etiquetas contextuales referentes a las posi-
ciones de izquierda, nexo y derecha (<izq>, <nx> y <der>) se utilizaron
como fronteras para delimitar las instrucciones del proceso automático de
identificación. Además se han establecido expresiones regulares para re-
presentar las estructuras sintácticas de los elementos constitutivos.
La lista de las expresiones regulares que se han utilizado para represen-
tar un término,8 una definición y un patrón pragmático son las siguientes:
Término: FRON (Det.) + N + Adj. {0,2} .* FRON
Patrón pragmático: FRON (signo) (Prep | Adv) .* (signo) FRON
Definición: FRON Det. + N .* FRON
Donde:
Det. = determinante
N = nombre
Adj. = adjetivo
8 Por ahora se ha considerado que los términos sean únicamente unidades de carácter
nominal, pero en un trabajo futuro se tiene contemplada la inclusión de expresiones regu-
lares para representar unidades de carácter verbal en forma impersonal.
47-247-278 Rev.Esp.Ling. 37.indd 262 10/7/08 13:17:56
Revista Española de Lingüística 37 (2008) 263
Varios autores
Prep. = preposición
Adv. = adverbio
FRON = frontera
.* = cualquier palabra o conjunto de palabras
En esta etapa, el procesamiento automático está fuertemente relacio-
nado con la toma de decisiones para determinar las distintas posiciones en
que pueden aparecer los elementos constitutivos en los candidatos a CDs.
Para resolver este problema se desarrolló un árbol de decisiones que de-
termina mediante inferencias lógicas las distintas posibilidades de apari-
ción de los términos, definiciones y patrones pragmáticos.
Según Moreno y otros 1994, p. 49: «un árbol de decisión es una repre-
sentación posible de los procesos de decisión involucrados en tareas in-
ductivas de clasificación». Los árboles de decisiones son funciones de
clasificación que están estructuradas como un árbol: tienen nodos, ramas,
y hojas. Los nodos son decisiones tomadas a partir de atributos represen-
tados por las ramas y las hojas son elementos clasificados.
En el árbol desarrollado, las ramas en un primer nivel son las posicio-
nes en las que pueden aparecer los elementos constitutivos, es decir iz-
quierda, derecha y opcionalmente nexo; en un segundo nivel son las ex-
presiones regulares para identificar cada elemento constitutivo. Los nodos
corresponden a las decisiones tomadas a partir de los atributos de cada
rama y están relacionados entre sí a nivel horizontal por inferencias del
tipo IF ‘si’, IF NOT ‘si no’, y a nivel vertical por inferencias del tipo
THEN ‘entonces’. Por último, las hojas son las distintas posiciones una
vez asignadas a un elemento constitutivo. Este árbol se implementó me-
diante otro script también en Perl.
En seguida se presenta un ejemplo de las inferencias que sigue el ár-
bol de decisiones para determinar a qué elemento o elementos constituti-
vos corresponde la información presente en la posición izquierda.
Observamos en primer lugar que las decisiones parten del reconoci-
miento de las expresiones regulares de término, patrón pragmático o de-
finición. Específicamente, con las inferencias 1 y 2 se puede determinar
que la posición izquierda equivale a un término, o a un término y un pa-
trón pragmático, que se distingue por una frontera como un signo de pun-
tuación, mientras que la posición derecha equivale a una definición. En
cambio, con la tercera inferencia se puede determinar que la posición iz-
47-247-278 Rev.Esp.Ling. 37.indd 263 10/7/08 13:17:56
Extracción de contextos definitorios...
264 RSEL 37 (2008)
quierda equivale únicamente a un patrón pragmático, y para saber en qué
posición se encuentran el término y la definición se recurre a algunas in-
ferencias de la posición de nexo. Así, si esta posición incluye únicamente
una expresión regular de término, la posición nexo será el término y la
posición derecha será la definición. Si la posición de nexo no incluye
ninguna expresión regular correspondiente a un elemento constitutivo,
entonces el término y la definición estarán en la posición derecha y po-
drán ser reconocidos a partir de una frontera como un signo de puntua-
ción. Con la inferencia número 4 se encuentra a la definición en posición
izquierda y al término en posición derecha. Esta última inferencia, al igual
que la número 1, recurren a las inferencias de la posición de nexo para
determinar si existe o no un patrón pragmático en esa posición.
Así, si tomamos el siguiente ejemplo:
Figura 3. Árbol de decisiones para la posición izquierda.
47-247-278 Rev.Esp.Ling. 37.indd 264 10/7/08 13:17:56
Revista Española de Lingüística 37 (2008) 265
Varios autores
<izq>En sus comienzos</izq> <pv-con>se definió</pv-con> <nexo>la
psicología como </nexo> <der> «la descripción y la explicación de
los estados de conciencia» (Ladd 1887).</der></s>.
Una vez identificado que el patrón verbal definitorio PVD correspon-
de a un PVDC (se definió como), se encontraría entonces que la posición
izquierda:
1. NO está ocupada únicamente por una ERT
2. NO está ocupada por una ERT y una ERPP
3. SÍ está ocupada únicamente por una ERPP
Por lo tanto, la posición izquierda corresponde a un PP (en sus co-
mienzos), y para identificar el término y la definición se recurre a las infe-
rencias de la posición de nexo, con lo que se encuentra que en este caso:
1. está ocupado únicamente por una ERT.
Por lo que la posición de nexo corresponde a un término (la psicolo-
gía) y la posición derecha corresponde a una definición («la descripción y
la explicación de los estados de conciencia» [...]), quedando los elemen-
tos constitutivos anotados de la siguiente forma:
Término = psicología
Definición = «la descripción y la explicación de los estados de la
conciencia» (Ladd 1887).
P. Verbal = se define como
P. Pragmática = En sus comienzos
V. Evaluación de los resultados
Para evaluar los resultados obtenidos hasta ahora se utilizaron los ín-
dices de precisión y cobertura. En este estudio, dichos índices se entien-
den de la siguiente forma:
La precisión es una medida para determinar cuánta información, de la
extraída automáticamente, corresponde a información «relevante». La
cobertura es una medida para determinar cuánta información «relevante»
47-247-278 Rev.Esp.Ling. 37.indd 265 10/7/08 13:17:56
Extracción de contextos definitorios...
266 RSEL 37 (2008)
del INPUT se extrajo automáticamente. Los índices se determinan con las
siguientes fórmulas:
# Total de CDs válidos extraídos automáticamentee
Precisión =
# Total de posibles CDs extraídos automáticamente
# Total de CDs válidos extraídos automáticamente,
Cobertura =
# Total de CDs en el INPUT
Para determinar el índice de precisión se debe saber cuántos CDs se
extraen de forma automática, mientras que para determinar el índice de
cobertura se debe conocer el número total de CDs en el INPUT de entra-
da, lo que supone un análisis manual previo. En los resultados de estos
índices un número cercano al 1 indica que se han obtenido mejores resul-
tados y por lo general suelen tener resultados inversos: si el número de
precisión es alto, el número de cobertura será bajo y viceversa.
Como se ha visto en la figura 2, cada uno de los procesos consta de un
sistema de evaluación propio, aparte de la evaluación global final. A con-
tinuación se expone el resultado obtenido para cada uno de los procesos
llevados a cabo hasta ahora con los verbos definitorios con que se ha tra-
bajado.
5.1. Resultado y evaluación de la extracción de ocurrencias de patrones
verbales definitorios
Para adquirir una muestra representativa de ocurrencias de los patro-
nes definitorios, se han tomado aleatoriamente 250 ocurrencias de cada
patrón que incluyen ejemplos de todos los subdominios del Corpus Téc-
nico del IULA. Los resultados de cada verbo se han analizado manual-
mente con la intención de encontrar contextos que realmente sean defini-
torios. En la siguiente tabla se presenta el número total de ocurrencias de
cada verbo definitorio y el número total de CDs encontrados:
Tabla 3. Total de ocurrencias de los patrones verbales definitorios
Verbo definitorio Ocurrencias CDs
Concebir 120 e74
Definir 250 192
(continúa)
47-247-278 Rev.Esp.Ling. 37.indd 266 10/7/08 13:17:56
Revista Española de Lingüística 37 (2008) 267
Varios autores
Verbo definitorio Ocurrencias CDs
Entender 264 e76
Identificar 250 e59
Para evaluar la efectividad de los patrones buscados se utilizó el índi-
ce de precisión de manera aislada, ya que para utilizar el índice de cober-
tura se debería saber la cantidad total de CDs que se encuentran en el
corpus de estudio. El índice de precisión corresponde en este caso al nú-
mero total de CDs extraídos mediante la búsqueda de PVDs, sobre el total
de ocurrencias recuperadas automáticamente. Así, para el índice de preci-
sión se obtienen los siguientes resultados:
Tabla 4. Precisión de los patrones
verbales definitorios
Verbo definitorio Precisión
Concebir 0.6166
Definir 0.768
Entender 0.2878
Identificar 0.236
Se observa que los verbos que pueden funcionar en mayor medida
como conectores entre un término y una definición, esto es, concebir y
definir, recuperan efectivamente una mayor cantidad de CDs. Por su par-
te, los verbos entender e identificar sólo recuperan CDs en una cantidad
inferior al 30 % del total recuperado, lo cual supone que recuperan una
cantidad de ruido mayor.
5.2. Resultado y evaluación del filtrado automático de excepciones
En esta etapa se determina el índice de precisión dividiendo el número
de CDs válidos extraídos automáticamente sobre el total de posibles CDs
extraídos automáticamente. La cobertura se determina dividiendo el nú-
mero total de CDs válidos extraídos automáticamente sobre el número
total de CDs presentes en las ocurrencias extraídas automáticamente y
(continuación)
47-247-278 Rev.Esp.Ling. 37.indd 267 10/7/08 13:17:56
Extracción de contextos definitorios...
268 RSEL 37 (2008)
detectadas previamente de forma manual (durante el primer proceso). En
estos casos los posibles CDs son las ocurrencias restantes una vez que se
ha realizado el filtrado automático de contextos no definitorios.
Tabla 5. Resultados de Precisión y Cobertura
Verbo definitorio Precisión Cobertura
Concebir 0.7115 0.9866
Definir 0.8495 0.9896
Entender 0.3619 0.9500
Identificar 0.3189 0.9076
Se observa que los índices de cobertura son superiores a 0.9, lo cual es
un indicio de que algunos CDs se han filtrado como una excepción. Por
su parte, se puede observar que los índices de precisión son buenos para
los casos de concebir y definir, mientras que para los casos de entender e
identificar dichos índices bajan notablemente.
Esto quiere decir que en el proceso de filtrar contextos no relevantes
se filtran correctamente las excepciones, aunque algunas de ellas se esca-
pan al script implementado, de forma que por el momento se deben detec-
tar manualmente. De un total de 470 excepciones, se filtran automática-
mente 146, lo cual indica que se puede detectar aproximadamente el 30 %
de los contextos que no funcionan a un nivel definitorio.
Si se comparan los resultados iniciales de precisión (obtenidos me-
diante la evaluación de los PVDs) con los resultados obtenidos con esta
misma medida una vez que se han aplicado las reglas de excepciones, se
encuentran los siguientes resultados:
Tabla 6. Comparación entre precisión del proceso 1 y proceso 2
Verbo definitorio Precisión
(proceso 1)
Precisión
(proceso 2)
Concebir 0.6166 0.7115
Definir 0.768 0.8495
Entender 0.2878 0.3619
Identificar 0.236 0.3189
47-247-278 Rev.Esp.Ling. 37.indd 268 10/7/08 13:17:56
Revista Española de Lingüística 37 (2008) 269
Varios autores
Se observa que el índice de precisión mejora los resultados, aunque
aún es necesaria una revisión y un refinamiento detallado de las reglas
con la intención de filtrar más contextos que no funcionen como definito-
rios y para tratar de no filtrar CDs válidos.
5.3. Resultado y evaluación de la identificación automática
de elementos constitutivos.
Con el script desarrollado para el proceso de identificación de los ele-
mentos constitutivos se pueden identificar correctamente contextos donde
se presenta el término en la posición de nexo y algún patrón pragmático
en la posición izquierda, por ejemplo:
Término = imitación.
Definición = el aprendizaje de un gesto a partir de la observación
de su ejecución; sigue vigente ese significado en la
actual investigación psicológica.
P. Verbal = definía como.
P. Pragmático = A principios de l siglo xx, Edward Thorndike.
Completo = <izq>A principios del siglo xx, Edward Thorndike</
izq> <pvd-con>definía</pvd-con> <nexo>la imita-
ción como</nexo> <der>el aprendizaje de un gesto
a partir de la observación de su ejecución ; sigue vi-
gente ese significado en la actual investigación psi-
cológica.</der>.
Se pueden clasificar también contextos que incluyen un término en la
posición izquierda y un patrón pragmático en la posición de nexo:
Término = metro.
Definición = la longitud de una determinada barra de platino iri-
diado mantenida en unas condiciones fijas.
P. Verbal = se definió como.
P. Pragmático = en 1889.
Completo = <izq>Por ejemplo , la unidad de longitud —el metro—
</izq> <pvd-con>se definió</pvd-con> <nexo>en
1889 como</nexo> <der>la longitud de una deter-
minada barra de platino iridiado mantenida en unas
condiciones fijas.</der>.
47-247-278 Rev.Esp.Ling. 37.indd 269 10/7/08 13:17:56
Extracción de contextos definitorios...
270 RSEL 37 (2008)
O bien contextos que incluyen un término en la posición izquierda,
nexo o derecha, por ejemplo:
Término = máquinas dedicadas.
Definición = ordenadores de terminal de trabajo (Workstations.
P. Verbal = están concebidas como.
Completo = <izq>Las máquinas dedicadas</izq> <pvd-par> es-
tán concebidas </pvd-par> <nexo>como</nexo>
<der>ordenadores de terminal de trabajo (Worksta-
tions).</der>.
Término = gen.
Definición = una unidad transcripcional, incluyendo sus regiones
reguladoras asociadas.
P. Verbal = se entiende como.
Completo = <izq>Ya se ha hecho mención de que el propio con-
cepto de gen ha ido cambiando a medida que ha pro-
gresado el conocimiento, pero en la mayoría de los
casos</izq> <pvd-con>se entiende</pvd-con> <ne-
xo>como</nexo> <der>gen una unidad transcrip-
cional, incluyendo sus regiones reguladoras asocia-
das.</der>.
Por otro lado, los autores de textos especializados no suelen emplear
constantemente un término sino que a veces utilizan referencias anafóri-
cas para referirse a él. En el extractor que aquí se propone no se excluye
la posibilidad de encontrar contextos donde se sustituye el término por
una referencia anafórica. Sin embargo, por el momento no se tiene con-
templada la búsqueda automática de su correferente, aunque no se descar-
ta para un futuro.
Se han identificado ya algunos casos donde el término puede ser una
posible referencia anafórica y puede venir señalado por un especificador
demostrativo más una parte genérica del término, o bien por un pronom-
bre personal:
R. Anafórica = Estos agentes.
Definición = carcinógenos en animales antes de que se descubrie-
ra su capacidad de transformar células en cultivos.
P. Verbal = fueron identificados como.
47-247-278 Rev.Esp.Ling. 37.indd 270 10/7/08 13:17:56
Revista Española de Lingüística 37 (2008) 271
Varios autores
Completo = <izq>Estos agentes </izq> <pvd-par>fueron iden-
tificados</pvd-par> <nexo> como </nexo> <der> car-
cinógenos en animales antes de que se descubriera su
capacidad de transformar células en cultivos.</der>.
R. Anafórica = lo.
Definición = un sistema de depuración del agua residual a través
del terreno, con posibilidad de aprovechamiento
agrícola o forestal del mismo.
P. Verbal = Podríamos definir como.
Completo = <izq>NULO</izq> <pvd-inf>Podríamos definir lo<
/pvd-inf> <nexo> como </nexo> <der>un sistema
de depuración del agua residual a través del terreno,
con posibilidad de aprovechamiento agrícola o fo-
restal del mismo .</der>.
Por otra parte, se ha observado también que en algunos casos donde se
presenta la partícula de negación no, también puede presentarse después
la partícula sino, con lo cuál se introduce, entre estas dos partículas, lo
que denominamos una «contra-argumentación definitoria»9 (CA-Def).
Por ejemplo:
Término = redes de colectores.
CA-Def = meros receptores pasivos de la escorrentía urbana.
Definición = parte de un sistema que incluye elementos de control
y cierta capacidad de almacenamiento, de manera
que es posible la laminación de las avenidas y [...].
P. Verbal = se conciben como.
P. Pragmático = desde un punto de vista cuantitativo.
Completo = <izq>Asimismo, desde un punto de vista cuantitativo,
las redes de colectores no</izq> <pvd-con>se con-
ciben</pvd-con> <nexo>como</nexo> <der>me ros
receptores pasivos de la escorrentía urbana sino como
parte de un sistema que incluye elementos de control
y cierta capacidad de almacenamiento, de manera que
es posible la laminación de las avenidas y [...]</der>.
9 Se propone este término basándonos en los principios de la Teoría de la Argumenta-
ción de Ducrot y Anscombre 1983, 1995.
47-247-278 Rev.Esp.Ling. 37.indd 271 10/7/08 13:17:57
Extracción de contextos definitorios...
272 RSEL 37 (2008)
Por último, cabe señalar que todos los contextos que el script no puede
identificar automáticamente se agrupan bajo la etiqueta «No Clasifica-
ble» (NC).
En esta etapa se utiliza el índice de precisión con el fin de determinar
la exactitud del script en el momento de identificar automáticamente cuál
es el término y cuál la definición del candidato a CD. Se ha limitado por
ahora la evaluación al caso de estos dos elementos constitutivos, debido
principalmente a la variedad de formas sintácticas que pueden represen-
tar los patrones pragmáticos en comparación con los términos y las defi-
niciones.
La evaluación se realizó analizando manualmente los resultados y
asignando un valor distinto a los candidatos a CDs en orden descendente,
tomando en cuenta los siguientes criterios:
CD3 para los candidatos donde lo clasificado automáticamente como
término y definición corresponde exactamente al término y la definición
del CD, por ejemplo:
Término = turismo.
Definición = la reproducción de los hábitos cotidianos en un am-
biente diferente.
P. Verbal = ha sido concebido como.
P. Pragmática = en términos generales.
Completo = <izq>El turismo en términos generales </izq> <pvd-
par>ha sido concebido</pvd-par> <nexo>como</
nexo> <der>la reproducción de los hábitos cotidia-
nos en un ambiente diferente.</der>.
CD2 para los casos en que lo clasificado automáticamente en el CD
como término y definición corresponde exactamente al término y la defi-
nición del CD, pero aparece otra información no relevante, por ejemplo:
Término = llamada proteinuria «postural», que.
Definición = proteinuria transitoria o invariable en posición erec-
ta pero no recumbente, puede ocurrir sin que haya
lesiones demostrables por estudio histológico de
biopsias renales; el pronóstico a largo plazo en esos
sujetos al parecer es excelente.
P. Verbal = se define como.
47-247-278 Rev.Esp.Ling. 37.indd 272 10/7/08 13:17:57
Revista Española de Lingüística 37 (2008) 273
Varios autores
P. Pragmática = en sujetos jóvenes.
Completo = <izq>Más aún, en sujetos jóvenes, la llamada pro-
teinuria «postural», que</izq> <pvd-con>se defi-
ne</pvd-con> <nexo>como</nexo> <der>protei-
nu ria transitoria o invariable en posición erecta pero
no recumbente, puede ocurrir sin que haya lesiones
demostrables por estudio histológico de biopsias re-
nales; el pronóstico a largo plazo en esos sujetos al
parecer es excelente. </der>.
CD1 si lo clasificado automáticamente no corresponde a un término o
una definición, pero éstos se encuentran en otra posición del CD, por
ejemplo:
Término = relación entre la cantidad de fármaco en el cuerpo y
su concentración en plasma.
Definición = el «volumen aparente de distribución» ( VD ) del
medicamento.
P. Verbal = se define como.
Completo = <izq>La relación entre la cantidad de fármaco en el
cuerpo y su concentración en plasma</izq> <pvd-
con>se define</pvd-con> <nexo>como </nexo>
<der>el «volumen aparente de distribución»(VD)
del medicamento .</der>.
Finalmente, en los casos en que la información en el candidato a CD
no se puede clasificar automáticamente se asigna el valor cero: CD0.
El índice de precisión se determina dividiendo el total de CDs de cada
grupo sobre el total de CDs encontrados automáticamente. En la siguien-
te tabla se observa el índice de precisión en la identificación automática
de cada uno de los grupos. En estos casos representamos los valores de
manera porcentual para dar una visión general de la cantidad de CDs que
se clasifican para cada grupo en relación con el total de los CDs extraídos
automáticamente.
47-247-278 Rev.Esp.Ling. 37.indd 273 10/7/08 13:17:57
Extracción de contextos definitorios...
274 RSEL 37 (2008)
Tabla 7. Precisión de la identificación automática
de los elementos constitutivos
Verbo CD 3 CD 2 CD 1 CD 0
Concebir 64,86 % 18,91 % 12,16 % 4,05 %
Definir 64,58 % 18,22 % 10,93 % 6,25 %
Entender 51,31 % 23,68 % 9,21 % 15,78 %
Identificar 47,45 % 5,08 % 38,98 % 8,47 %
Se observa que en la mayoría de los casos lo clasificado automática-
mente corresponde exactamente con un término o una definición (CD 3).
En este sentido todos los verbos presentan resultados semejantes, siendo
concebir el que obtiene un porcentaje mayor.
En un porcentaje menor lo clasificado automáticamente incluye infor-
mación extra o ruido (CD 2). Sin embargo, en estos casos la información
presente en las distintas posiciones se clasifica correctamente.
También en un porcentaje menor, los términos y definiciones se clasi-
fican en posiciones inversas (CD 1), exceptuando el verbo identificar,
cuyo porcentaje es elevado en comparación con los demás verbos.
Sólo para el caso del verbo entender, en más del 10 % de las ocurren-
cias la información contenida en las posiciones de izquierda, nexo y dere-
cha no se puede clasificar de forma automática (CD 0). En los demás
verbos la información que no se puede clasificar es menor al 6.5 % del
total de los CDs procesados automáticamente.
Lo anterior supone que deberá realizarse un estudio detallado para
determinar porqué razón algunos candidatos a CDs no se clasificaron auto-
máticamente y así poder incorporar nuevas inferencias en el árbol de de-
cisiones que permitan su clasificación.
VI. Conclusiones
Si bien la extracción automática de terminología es posible hoy en día
gracias a los sistemas de extracción de terminología, dichos sistemas de
extracción no permiten completar de forma automatizada el trabajo del
terminólogo. La obtención de términos es útil para la confección de glo-
47-247-278 Rev.Esp.Ling. 37.indd 274 10/7/08 13:17:57
Revista Española de Lingüística 37 (2008) 275
Varios autores
sarios especializados pero no es suficiente para la elaboración de diccio-
narios con definiciones.
El artículo que se ha presentado abre una nueva vía esperanzadora
hacia la automatización del trabajo del terminólogo o lexicógrafo en la
medida en que un extractor de contextos definitorios a partir de corpus
especializados como el que aquí se presenta, facilitará para cada contexto
obtenido un término, la definición que se le asocia, así como información
pragmática de cada entrada, lo que podría ser útil explotar en futuras in-
vestigaciones (por ejemplo en la posibilidad de estudiar la evolución de la
terminología a lo largo del tiempo).
De momento se ha expuesto una metodología con la que elaborar una
herramienta para la búsqueda automática de contextos definitorios que se
ha probado a partir de cuatro patrones verbales definitorios. Somos cons-
cientes de que queda aún bastante trabajo por hacer, el cual incluye fun-
damentalmente:
a) explorar todos los tipos de patrones definitorios a partir de los cua-
les puedan extraerse automáticamente contextos definitorios;
b) incorporar la búsqueda y filtrado de estos patrones en los scripts de
cada uno de los procesos expuestos;
c) mejorar el algoritmo para la identificación automática de los ele-
mentos constitutivos de cada contexto definitorio extraído;
d) realizar una evaluación de los resultados con el fin de obtener un
panorama general del funcionamiento de la metodología propuesta.
VII. Bibliografía
Alarcón, R. 2003: Análisis lingüístico de contextos definitorios en textos de espe-
cialidad, Tesis de licenciatura, México DF, Universidad Nacional Autónoma
de México.
—— 2006: Primeras aproximaciones a la extracción automática de contextos
definitorios, Barcelona, Institut Universitari de Lingüística Aplicada, Uni-
versitat Pompeu Fabra.
47-247-278 Rev.Esp.Ling. 37.indd 275 10/7/08 13:17:57
Extracción de contextos definitorios...
276 RSEL 37 (2008)
—— y Sierra, G. 2003: «El rol de las predicaciones verbales en la extracción
automática de conceptos», Estudios de Lingüística Aplicada 38, México DF,
Universidad Nacional Autónoma de México-Centro de Enseñanza en Len-
guas Extranjeras, pp. 129-144.
Anscombre, J. C., y otros 1995: Théorie des topoï, París, Kimé.
Bach, C. 2005: «Los marcadores de reformulación como localizadores de zonas
discursivas relevantes en el discurso especializado», Debate Terminológico 1,
(Revista electrónica), Riterm. [http://www.riterm.net/revista/n_1/bach.pdf]
Davidson, L. 1997: Knowledge extraction technology for terminology, Tesis de
maestría, Ottawa, University of Ottawa.
Danells, D. 2005: Recognizing swedish acronyms and their definitions in biome-
dical literature, Gotemburgo, Department of Swedish language, Göteborg
University.
Ducrot, O., y Anscombre, J. C. 1983: L’argumentation dans la langue, Bruselas,
Mardaga (trad. esp.: La argumentación en la lengua, Madrid, Gredos,
1995).
Estopá, R. 2001: «Elementos lingüísticos de las unidades terminológicas para su
extracción automática», en. Cabré, M. T. y Feliu, J. (eds.), La terminología
científico-técnica: reconocimiento, análisis y extracción de información for-
mal y semántica, Barcelona, Institut Universitari de Lingüística Aplicada,
Universitat Pompeu Fabra, pp. 67-80.
Feliu, J. 2004: Relaciones conceptuals i terminologia: anàlisi i proposta de de-
tecció semiautomàtica, Tesis de doctorado, Barcelona, Institut Universitari
de Lingüística Aplicada, Universitat Pompeu Fabra.
——, Vivaldi, J. y Cabré, M. T. 2006: «SKELETON: Specialised knowledge re-
trieval on the basis of terms and conceptual relations», 5th International Con-
ference on Language Resources and Evaluation LREC2006, Génova, Euro-
pean Language Resources, pp. 2377-2382.
Klavans, J. y Muresan, S. 2000: «Evaluation of the DEFINDER system for fully
automatic glossary construction», American Medical Informatics Associa-
tion Symposium, Washington, pp. 324-328.
Malaisé, V. 2005: Méthodologie linguistique et terminologique pour la structu-
ration d’ontologies différentielles á partir de corpus textuels, Tesis de docto-
rado, París, UFR de Linguistique, Universite Paris 7-Denis Diderot.
Meyer, I. 2001: «Extracting Knowledge-rich contexts for Terminography», en
Bourigalt, D., Jacquemin, C. y L’Homme, M. C. (eds.), Recent advances in
computational terminology, Ámsterdam, John Benjamins, pp. 278-302.
Moreno, R., Armengol, V., Béjar, A., Belanche, M., Cortés, U. Gavaldá, R., Gi-
meno, J., López, I., Martín, M., y Sánchez, M. 1994: Aprendizaje automáti-
co, Barcelona, Universidad Politécnica de Cataluña.
47-247-278 Rev.Esp.Ling. 37.indd 276 10/7/08 13:17:57
Revista Española de Lingüística 37 (2008) 277
Varios autores
Pearson, J. 1998: Terms in context, Ámsterdam, John Benjamins.
Rodríguez, C. 1999: Operaciones metalingüísticas explícitas en textos de espe-
cialidad, Trabajo de investigación, Barcelona, Institut Universitari de Lin-
güística Aplicada, Universitat Pompeu Fabra.
——, C. 2004: «Metalinguistic information extraction for terminology», 3rd In-
ternational Workshop on Computational Terminology (CompuTerm2004),
Génova, Coling, http://arxiv.org/ftp/cs/papers/0504/0504074.pdf.
Saggion, H. 2004: «Identifying definitions in text collections for question answe-
ring», 4th International Conference on Language Resources and Evaluation
LREC2004, Lisboa, European Language Resources, pp. 1927-1930.
Sánchez, A., y Márquez, M. 2005: «Hacia un sistema de extracción de definicio-
nes en textos jurídicos», I Jornada Venezolana de Investigación en Lingüísti-
ca e Informática, Venezuela, [http://alexy.sanchez.tripod.com/Documentos/
ExtraccionDefinicionesArticulo.pdf]
Sarmento, L., Maia, B., y Santos, D. 2004: «The Corpógrafo - a Web-based en-
viroment for corpora research». En 4th International Conference on Langua-
ge Resources and Evaluation LREC2004. Lisboa, European Language Re-
sources. pp. 449-452.
Storrer, A., y Wellinghoff, S. 2006: «Automated detection and annotation of term
definitions in german text corpora». En 5th International Conference on Lan-
guage Resources and Evaluation LREC2006. Génova, European Language
Resources, pp. 2373-2376.
47-247-278 Rev.Esp.Ling. 37.indd 277 10/7/08 13:17:57
47-247-278 Rev.Esp.Ling. 37.indd 278 10/7/08 13:17:57
... No obstante, al utilizar contextos, debido a la utilidad de sus relaciones conceptuales, suelen entenderse como cd. Estos se definen, para este estudio, como un fragmento de texto de un documento especializado, en el que aparece, mediante una serie de patrones lingüísticos, un término y su definición, u otros elementos semánticos contextualizados que ayuden a la conceptualización del término (Alarcón et al., 2007;Sierra, 2009). ...
... La dificultad que se identifica de los cd, como se enuncia en el párrafo anterior, radica en la manera en la que se relacionan los diferentes elementos que los conforman. Estos elementos que configuran el cd son el término (T), la definición (D) y el patrón definitorio (pd), con variaciones potenciales del pd, que podrían incluir una predicación verbal definitoria (pvd), marcadores reformulativos definitorios (mrd), marcadores tipográficos definitorios (mtd) o patrones pragmáticos (pp) (Alarcón et al., 2007;Sierra, 2009). ...
... El T se entiende como un signo lingüístico que hace referencia a un concepto especializado (Cabré, 2001), que puede estar presente o no mediante relación anafórica con otro elemento del texto o, como es habitual, por medio de una estructura nominal, con un sustantivo como núcleo (Alarcón y Sierra, 2006). Aunque no se puede desdeñar la idea de que los términos se concreten como unidades de significación especializada no léxicas (Estopà, 2001), en función del campo de conocimiento que se analice (Alarcón et al., 2007). La D, por otro lado, se entiende como la descripción del concepto que dicho término representa (Cabré, 2001), que podría darse mediante una definición aristotélica o por medio de la identificación de rasgos propios del término (Alarcón et al., 2007). ...
Article
Full-text available
Ante nuevos campos de conocimiento, los traductores se enfrentan a lagunas contextuales y termino­lógicas que los diccionarios especializados no cubren. Gracias al potencial que demuestran las herramien­tas de análisis y gestión de corpus, estas se perfilan como indispensables a la hora de estudiar las relaciones gramaticales entre palabras concretas y sus vínculos semánticos, y extraer información definitoria que supla las carencias de los diccionarios en el proceso de traducción. Por ello, esta investigación extrae con­textos definitorios en el ámbito de las tecnologías biomédicas, ámbito de conocimiento en continua expan­sión y con desarrollo constante de técnicas, instrumentos, metodologías y productos, mediante lenguaje de interrogación de corpus (Corpus Query Language, CQL) y expresiones regulares. En otras palabras, se pretende establecer unas pautas para la creación de búsquedas que combinen cql y expresiones regulares, para localizar información que defina, reformule o matice terminología presente en este ámbito. Para ello, se compila un corpus de 100 artículos en francés de investigación sobre ingeniería genética y biotecnología en la herramienta en línea de gestión de corpus Sketch Engine. Las ecuaciones de búsqueda y los ejemplos muestran la utilidad de esta estrategia para localizar contextos ricos en conocimiento que podrían resultar de interés no solo en el ámbito investigador, sino también en el ámbito profesional de la traducción espe­cializada del francés al español, que actualmente cuenta con pocos recursos terminológicos.
... Authors such as Alarcón, Bach and Sierra [6] indicate that a DC is all fragment, of undetermined size, within a document which describes clearly and precisely the definition of a term. These authors state that DCs are comprised of a term and a definition, which are interconnected by a verbal phrase such as "defined as" or "is understood as", to mention a couple, and which are also known as a definitional pattern (DP). ...
... On the one hand, the term is one of the non-accessory constituent elements of the DC, and it is the only element of which the context introduces relevant information [6]; on the other hand, the definition is a constituent element of the DC that contains the relevant information that is provided about the term. This definition is an explanation of the term [7]. ...
Conference Paper
Full-text available
This paper shows that results obtained from extracting definitions in computational lexicography , often have a high recall but a low precision. Herein, we present an improved, automated, rule-based analytical definitions extraction method that uses hypernym identification. This kind of definitions allow us to improve the state-of-the-art precision reported in definitions extracting. Furthermore, this method incorporates a hypernyms extraction module, which has proven to be a necessary first step for generating automated definitions.
... Estopà et al. 2006), and for automatic information retrieval (Araya and Vivaldi 2004). Alarcón, Bach, and Sierra (2007) present a methodology for the automatic extraction of definitional contexts involving: (1) the extraction of definition patterns; ...
Article
Full-text available
En términos generales, la reformulación supone un proceso de reinterpretación discursiva en el que se procura resolver problemas de origen semántico. Para la recuperación y reelaboración de contenidos con el fin de garantizar la cohesión y la progresión enunciativa, se emplean distintos recursos metalingüísticos llamados marcadores reformulativos parafrásticos, como pueden ser los verbos definitorios o las marcas tipográficas. Este artículo pretende examinar las relaciones discursivas que se establecen entre estos marcadores y los contextos neológicos en los que aparecen. El corpus de trabajo, procedente de los datos del catalán recogidos por el Observatori de Neologia de la Universitat Pompeu Fabra (España), ha de permitir, por un lado, entender por qué hay procesos de formación que conllevan una mayor presencia de reformulaciones y, por el otro, llevar a cabo una primera aproximación que delimite las funciones que desempeñan dichos marcadores en los enunciados que coocurren con contextos neológicos.
Conference Paper
Full-text available
The Bible has always attracted the interest of scholars from different fields, specifically, Jesus’ paths taken out from the writings are at the centre of an ongoing discussion in the literature. In this short paper, we study the relationship between Jesus and other biblical characters and places via a text mining network-based approach. from the World english Bible, we take the Gospel of Matthew, Mark, luke, John, and Acts of the Apostles and analyse the resulting corpus. Namely, people and places’ names are collected using a poStagger on the corpus and manually checked for finalising the pre-processing. Then, the selected names’ co occurrences are searched in each verse. It results in an adjacency matrix containing the frequencies of names’ co-occurrences and a set of nodes’ attributes. The strength of links between a couple of names is defined as the sum of times that the couple appears in all verses. Such a network is used to explore communities of names around Jesus. To do so, we use the louvain community detection method for each subnetwork referring to every book.
Article
Full-text available
En el marco de la lingüística de corpus aplicada a la traducción, nos proponemos ilustrar en este trabajo cómo compilar un corpus especializado mediante la herramienta BootCaT y cómo explotarlo posteriormente para resolver algunos de los problemas planteados al traducir del italiano al español un contrato de agencia. En concreto, el corpus ad hoc creado mediante esta herramienta nos servirá para abordar problemas de tipo terminológico, conceptual y textual. Los resultados de la experiencia nos demuestran que utilizar un programa que automatice en parte el proceso de construcción de un corpus supone un ahorro muy significativo en términos de esfuerzo y tiempo requeridos por el traductor, a la vez que deja perfectamente limpio y preparado el material que posteriormente podrá ser explotado por cualquier programa de gestión de corpus como, por ejemplo, AntConc 3.4.4w. Recorrer este camino permitirá asimismo poner a prueba algunas de las subcompetencias que conforman la competencia traductora, a saber, las subcompetencias temática, comunicativa, textual, instrumental y profesional.
Article
Full-text available
RESUMEN Los abstracts de trabajos de fin de grado son textos académicos redactados por estudiantes que se inician en la investigación. Aunque existen estudios sobre los abstracts producidos por expertos, son escasos los dedicados a producciones de estudiantes. En este artículo se analizan los abstracts redactados por futuros egresados en Lenguas Aplicadas en tres niveles de análisis: supratextual, macrotextual (movimientos retóricos) y microtextual (marcadores metadiscursivos). El análisis muestra la aparición de estructuras retóricas prototípicas del género, al igual que algunos movimientos emergentes. En cuanto a los recursos metadiscursivos, los estudiantes usan una gran variedad de marcadores, en la que destacan los metadiscursivos estructuradores (encapsuladores y ordenadores discursivos).
Article
Full-text available
This article examines some uses of corpora as efficient sources of terminological, textual and conceptual information. By compiling an ad hoc specialised corpus, students will have access to a variety of documents which will allow them to translate from Italian into Spanish more confidently and more successfully, especially in a specialised area such as cosmetics. Unfortunately, lexicographic resources for the language combination Italian-Spanish are not as numerous as those including other languages, particularly when it comes to specialised lexicography. That is why this article highlights the need of designing a flexible, low-cost tool -yet essential- for professional translators.
Thesis
Full-text available
Definition searching is the most common query in encyclopedic system sites such as Wikipedia, Encarta and Medline. The detection, classification and clustering of definitions are recently introduced tasks in increasing development. These tasks become even more complicated when those definitions are embedded in texts and recovered from the sites as they appear. We present here a clustering algorithm based on a new measure of distance between definitions derived from the textual energy that can be calculated from a text vector representation, which is language independent. The energy distance suggested in this work may also have application for short texts clustering such as snippets and titles, where is difficult to use the classic techniques of weighting as tf-idf since the frequencies of terms are very low. The results are quite encouraging and lead us to explore other properties of the proposed distance measure.
Article
Full-text available
En el presente trabajo se muestra parte de un proyecto en curso centrada en el diseño de un autómata lexicográfico. El objetivo principal de la investigación es la extracción de definiciones analíticas y relaciones semánticas de términos con datos tomados directamente de internet. Presentamos dos de las capacidades del sistema: la extracción de definiciones analíticas y de hiperónimos. La metodología consiste principalmente en la búsqueda automática de esta información con patrones construidos manualmente basados en la estructura léxica de definiciones analíticas en lenguaje natural. Con este desarrollo, ha sido posible mejorar la precisión reportada en el estado del arte. Se ha conseguido una precisión de 92.5% para la tarea de extracción de definiciones analíticas y de las relaciones de hiperonimia.
Article
Full-text available
One particular type of question which was made the focus of its own subtask within the TREC2003 QA track was the definition question ("What is X?" or "Who is X?"). One of the main problems with this type of question is how to discriminate in vast text collections between definitional and non-definitional text passages about a particular definiendum (i.e., the term to be defined). A method will be presented that uses definition patterns and terms that co-occurr with the definiendum in on-line sources for both passage selection and definition extraction.
Article
Full-text available
We describe an approach to automatically detect and annotate definitions for technical terms in German text corpora. This approach focuses on verbs that typically appear in definitions (= definitor verbs). We specify search patterns based on the valency frames of these definitor verbs and use them (1) to detect and delimit text segments containing definitions and (2) to annotate their main functional components: the definiendum (the term that is defined) and the definiens (meaning postulates for this term). On the basis of these annotations we aim at automatically extracting WordNet-style semantic relations that hold between the head nouns of the definiendum and the head nouns of the definiens. In this paper, we will describe our annotation scheme for definitions and report on two studies: (1) a pilot study that evaluates our definition extraction approach using a German corpus with manually annotated definitions as a gold standard. (2) A feasibility study that evaluates the possibility to extract hypernym, hyponym and holonym relations from these annotated definitions.
Article
In this paper we present the Corpógrafo, an integrated web-based environment for corpus linguistics and knowledge engineering that is being developed at the Porto node of Linguateca. The Corpógrafo aims to provide an integrated corpora research environment by making freely available on the web a comprehensive set of text and language tools (http://www.linguateca.pt/corpografo/). We describe the current stage of development of the Corpógrafo, discuss its current limitations and propose possible developments.
Article
In this paper we present a quantitative and qualitative evaluation of DEFINDER, a rule-based system that mines consumer-oriented full text articles in order to extract definitions and the terms they define. The quantitative evaluation shows that in terms of precision and recall as measured against human performance, DEFINDER obtained 87% and 75% respectively, thereby revealing the incompleteness of existing resources and the ability of DEFINDER to address these gaps. Our basis for comparison is definitions from on-line dictionaries, including the UMLS Metathesaurus. Qualitative evaluation shows that the definitions extracted by our system are ranked higher in terms of user-centered criteria of usability and readability than are definitions from on-line specialized dictionaries. The output of DEFINDER can be used to enhance these dictionaries. DEFINDER output is being incorporated in a system to clarify technical terms for non-specialist users in understandable non-technical language.
«Elementos lingüísticos de las unidades terminológicas para su extracción automática», en. cabré, m. t La terminología científico-técnica: reconocimiento, análisis y extracción de información formal y semántica
  • R Estopá
Estopá, r. 2001: «Elementos lingüísticos de las unidades terminológicas para su extracción automática», en. cabré, m. t. y feliu, J. (eds.), La terminología científico-técnica: reconocimiento, análisis y extracción de información formal y semántica, barcelona, Institut universitari de lingüística aplicada, universitat pompeu fabra, pp. 67-80.
Terms in context, ámsterdam, John benjamins. rodríguez, c. 1999: Operaciones metalingüísticas explícitas en textos de especialidad , trabajo de investigación
  • J Varios Autores Pearson
Varios autores pearson, J. 1998: Terms in context, ámsterdam, John benjamins. rodríguez, c. 1999: Operaciones metalingüísticas explícitas en textos de especialidad, trabajo de investigación, barcelona, Institut universitari de lingüística aplicada, universitat pompeu fabra.
Relaciones conceptuals i terminologia: anàlisi i proposta de detecció semiautomàtica, tesis de doctorado, barcelona, Institut universitari de lingüística aplicada
  • J Feliu
feliu, J. 2004: Relaciones conceptuals i terminologia: anàlisi i proposta de detecció semiautomàtica, tesis de doctorado, barcelona, Institut universitari de lingüística aplicada, universitat pompeu fabra. --, Vivaldi, J. y cabré, m. t. 2006: «SKElEtoN: Specialised knowledge retrieval on the basis of terms and conceptual relations», 5 th International Conference on Language Resources and Evaluation LREC2006, génova, European language resources, pp. 2377-2382.
Estudios de Lingüística Aplicada 38, méxico df, universidad Nacional autónoma de méxico-centro de Enseñanza en lenguas Extranjeras
  • G -Y Sierra
  • J C Anscombre
-y Sierra, g. 2003: «El rol de las predicaciones verbales en la extracción automática de conceptos», Estudios de Lingüística Aplicada 38, méxico df, universidad Nacional autónoma de méxico-centro de Enseñanza en lenguas Extranjeras, pp. 129-144. anscombre, J. c., y otros 1995: Théorie des topoï, parís, Kimé. bach, c. 2005: «los marcadores de reformulación como localizadores de zonas discursivas relevantes en el discurso especializado», Debate Terminológico 1, (revista electrónica), riterm. [http://www.riterm.net/revista/n_1/bach.pdf] davidson, l. 1997: Knowledge extraction technology for terminology, tesis de maestría, ottawa, university of ottawa.
Recognizing swedish acronyms and their definitions in biomedical literature, gotemburgo, department of Swedish language
  • D Danells
danells, d. 2005: Recognizing swedish acronyms and their definitions in biomedical literature, gotemburgo, department of Swedish language, göteborg university.
1983: L'argumentation dans la langue, bruselas, mardaga (trad. esp.: La argumentación en la lengua, madrid, gredos
  • O Ducrot
ducrot, o., y anscombre, J. c. 1983: L'argumentation dans la langue, bruselas, mardaga (trad. esp.: La argumentación en la lengua, madrid, gredos, 1995).