ArticlePDF Available

Determinación del umbral de representatividad de un corpus mediante el algoritmo N-Cor

Authors:

Abstract and Figures

En las páginas que siguen a continuación vamos a describir un método para calcular el umbral mínimo de representatividad de un corpus mediante el algoritmo N-Cor de análisis de la densidad léxica en función del aumento incremental del corpus. Se trata de una solución eficaz para determinar a posteriori, por primera vez de forma objetiva y cuantificable, el tamaño mínimo que debe alcanzar un corpus para que sea considerado representativo en términos estadísticos. Este método se ha visto implementado en la aplicación informática ReCor. Con dicha herramienta vamos a comprobar si un corpus de seguros turísticos en español que hemos compilado sería representativo para realizar estudios lingüístico-textuales y poder ser utilizarlo en traducción. In this paper we describe a method to determine the representativeness threshold for any given corpus. By using the N-Cor algorithm it is possible to quantify a posteriori the minimum number of documents and words that should be included in a specialised language corpus, in order that it may be considered representative. This method has been implemented by means of a computer program (ReCor). This program will be used here to check whether a corpus of insurance policies in Spanish is representative enough in order to carry out textlinguistic studies and translation tasks. El presente trabajo ha sido realizado en el seno del proyecto La contratación turística electrónica multilingüe como mediación intercultural: aspectos legales, traductológicos y terminológicos (Ref. nº HUM-892, 2006-2009. Proyecto de Excelencia, Junta de Andalucía)
Content may be subject to copyright.
Determinación del umbral de representatividad de un corpus
mediante el algoritmo N-Cor
1
Gloria Corpas Pastor
Departamento de Traducción e Interpretación
Facultad de Filosofía y Letras
Universidad de Málaga
gcorpas@uma.es
Míriam Seghiri Domínguez
Departamento de Traducción e Interpretación
Facultad de Filosofía y Letras
Universidad de Málaga
seghiri@uma.es
Resumen: En las páginas que siguen a continuación vamos a describir un método
2
para calcular
el umbral mínimo de representatividad de un corpus mediante el algoritmo N-Cor de análisis de
la densidad léxica en función del aumento incremental del corpus. Se trata de una solución
eficaz para determinar a posteriori, por primera vez de forma objetiva y cuantificable, el tamaño
mínimo que debe alcanzar un corpus para que sea considerado representativo en términos
estadísticos. Este método se ha visto implementado en la aplicación informática ReCor. Con
dicha herramienta vamos a comprobar si un corpus de seguros turísticos en español que hemos
compilado sería representativo para realizar estudios lingüístico-textuales y poder ser utilizarlo
en traducción.
Palabras clave: Representatividad, lingüística de corpus, compilación de corpus, corpus
especializado.
Abstract: In this paper we describe a method
3
to determine the representativeness threshold for
any given corpus. By using the N-Cor algorithm it is possible to quantify a posteriori the
minimum number of documents and words that should be included in a specialised language
corpus, in order that it may be considered representative. This method has been implemented by
means of a computer program (ReCor). This program will be used here to check whether a
corpus of insurance policies in Spanish is representative enough in order to carry out text-
linguistic studies and translation tasks.
Keywords: Representativeness, corpus linguistics, corpus compilation, specialised corpus.
1 Introducción
Hasta la fecha, mucho se ha escrito e
investigado en torno la cantidad como criterio
representativo así como sobre las posibles
fórmulas capaces de estimar un mínimo de
palabras y documentos a partir del cual un
corpus especializado puede considerarse
representativo sin llegar a resultados
concluyentes.
Los intentos de fijar un tamaño, al
menos mínimo, para los corpus especializados
han sido varios. Algunos de los más
significativos son los expuestos por Heaps
(1978), Young-Mi (1995) y Sánchez Pérez y
Cantos Gómez (1997). Según Yang et al. (2000:
21), tales propuestas presentan importantes
deficiencias porque se basan en la ley de Zipf.
La determinación del tamaño mínimo de un
corpus sigue siendo uno de los aspectos más
controvertidos en la actualidad (cf. Corpas
Pastor y Seghiri Domínguez, 2007/en prensa).
En este sentido, se han barajado cifras muy
dispares. A modo de ilustración, diremos que
Biber (1993), en uno de los trabajos más
influyentes sobre corpus y representatividad,
llega a afirmar que es posible representar la
práctica totalidad de los elementos de un
registro particular con relativamente pocos
ejemplos, mil palabras, y un número reducido
de textos pertenecientes a este registro,
concretamente diez.
Procesamiento del Lenguaje Natural, nº39 (2007), pp. 165-172 recibido 17-05-2007; aceptado 22-06-2007
ISSN: 1135-5948 © 2007 Sociedad Española para el Procesamiento del Lenguaje Natural
Urge, pues, resolver esta cuestión, ya
que no podemos olvidar que la mayoría de
estudios lingüísticos y traductológicos están
utilizando corpus de reducidas dimensiones,
adecuados para sus necesidades concretas de
investigación, colecciones de textos que
descargan directamente de fuentes de
información electrónicas. La red de redes es
hoy día uno de los principales proveedores de
materia prima para esta lingüística de corpus
“de andar por casa”. Además, este tipo de
corpus ad hoc, compilado virtualmente, ha
demostrado ser tremendamente útil tanto para
llevar a cabo estudios lingüísticos (cf. Haan,
1989, 1992; Kock, 1997 y 1991; Ghadessy,
2001) como para la enseñanza de segundas
lenguas (Bernardini, 2000; Aston et al., 2004) y
en traducción (Corpas Pastor, 2001, 2004,
Seghiri Domínguez, 2006).
Las cifras tan dispares que se han
manejado hasta la fecha, así como la poca
fiabilidad que dan las propuestas para su
cálculo, nos llevaron a reflexionar sobre una
posible solución, que se ha visto materializada
en la aplicación informática denominada
ReCor, que pasamos a describir a continuación.
2 Descripción del programa ReCor
Dejando a un lado que la representatividad de
un corpus depende, en primer lugar, de haber
aplicado los criterios de diseño externos e
internos adecuados, en la práctica, la
cuantificación del tamaño mínimo que debe
tener un corpus especializado aún no se ha
abordado de forma objetiva. Y es que no hay
consenso, como ha quedado manifiesto, sobre
cuál sea el número mínimo de documentos o
palabras que debe tener un determinado corpus
para que sea considerado válido y
representativo de la población que se desea
representar. Las cifras varían, además, como
hemos visto, de unos autores a otros. Pero todas
estas cifras no resuelven el problema de
calcular la representatividad de un corpus, dado
que son cifras establecidas a priori, carentes de
cualquier base empírica y objetivable.
Con este método pretendemos plantear
una solución eficaz para determinar, por
primera vez, a posteriori el tamaño mínimo de
un corpus o colección textual,
independientemente de la lengua o tipo textual
de dicha colección, estableciendo, por tanto, el
umbral mínimo de representatividad a partir de
un algoritmo (N-Cor) de análisis de la densidad
léxica en función del aumento incremental del
corpus.
2.1. El algoritmo N-Cor
El presente método calcula el tamaño mínimo
de un corpus mediante el análisis de la densidad
léxica (d) en relación a los aumentos
incrementales del corpus (C) documento a
documento, según muestra la siguiente
ecuación:
Cn= d1+ d2+d3+...+dn
Figura 1: Ecuación base del algoritmo N-Cor
Para ello, se analizan gradualmente
todos los archivos que componen el corpus,
extrayendo información sobre la frecuencia de
las palabras tipo (types) y las ocurrencias o
instancias (tokens) de cada archivo del corpus.
En esta operación se utilizan dos criterios de
selección de archivos, a saber, por orden
alfabético y de forma aleatoria, a fin de
garantizar que el orden en el que son
seleccionados los archivos no afecta al
resultado. Cuando se seleccionan los
documentos por orden alfabético, el algoritmo
analiza el primer archivo y para éste se calculan
los tokens y los types, y la densidad léxica
correspondiente. Con ello ya se obtiene un
punto en la representación gráfica que se
pretende extraer. A continuación, siguiendo el
mismo criterio de selección que en el primero,
se toma el siguiente documento del corpus y se
calculan de nuevo los tokens y los types, para
éste, pero sumando los resultados a los tokens y
los types de la iteración anterior (en este caso a
los del primer documento analizado), se calcula
la densidad léxica y con esto se obtiene un
segundo punto para la representación gráfica.
Se sigue este algoritmo hasta que se hayan
tratado todos los documentos que componen el
corpus que se estudia. La segunda fase del
Gloria Corpas Pastor y Miriam Seghiri
166
análisis es idéntica, pero tomando los
documentos en orden aleatorio.
Se emplea el mismo algoritmo para el
análisis de n-gramas, esto es, la opción de
realizar un análisis de la frecuencia de aparición
de secuencias de palabras (2-grama, 3-grama…,
n-grama). La aplicación ofrece la posibilidad de
hacer el cómputo de estas secuencias
considerando un rango de longitudes de
secuencia (números de palabras) definido por el
usuario. Al igual que se realiza con respecto a
los (tokens), se muestra un gráfico con la
información de representatividad del corpus
tanto para un orden aleatorio de los ficheros
como para un orden alfabético por el nombre de
éstos. En el eje horizontal se mantendrá el
número de ficheros consultados, y en el eje
vertical el cociente (número de n-gramas
distintos)/(número de n-gramas totales). A estos
efectos, cada instancia de un n-grama es
considerado como un token. Asimismo, los
ficheros de salida generados indican los n-
gramas.
Tanto en el análisis por orden alfabético
como en el aleatorio de n-gramas llegará un
momento en el que un determinado documento
no aporte apenas types al corpus, lo cual
indicará que se ha llegado a un tamaño
adecuado, es decir, que el corpus analizado ya
se puede considerar una muestra representativa
de la población en términos estadísticos. En una
representación gráfica estaríamos en el punto en
el que las líneas de types y tokens se estabilizan
y se aproximan al cero. Si el corpus es
realmente representativo la gráfica tenderá a
descender exponencialmente porque los tokens
crecerán en cada iteración mucho más que los
types, debido a que, en teoría, cada vez irán
apareciendo menos palabras nuevas que no
estén almacenadas en las estructuras de datos
que utiliza el programa. Así pues, podremos
afirmar que el corpus es representativo cuando
la gráfica sea constante en valores cercanos a
cero, pues los documentos siempre van a
contener variables del tipo números o nombres
propios, por ejemplo, que tenderán a constituir
instancias de hapax legomena y, por tanto,
aumentarán el grado de variabilidad léxica del
corpus. Una posible solución podría ser el
empleo de expresiones regulares y técnicas de
análisis superficial (shallow parsing) para la
detección de nombres propios. En cualquier
caso, conviene señalar que, en la práctica, es
imposible alcanzar la incorporación de cero
types en el corpus, aunque, por el contrario,
que irán presentado una tasa muy baja de
incorporación, como permite predecir la ley
Heaps.
2.1.2. Especificaciones del programa
ReCor es una aplicación informática creada con
objeto de poder estimar la representatividad de
los corpus en función de su tamaño y que se
caracteriza, ante todo, por la sencillez de su
interfaz de usuario (cf. Figura 2), frente a la
carga eminentemente matemática y de
formulación que abundan en este tipo de
trabajos.
Figura 2: Interfaz de ReCor (versión 2.1)
Hasta el momento se han implementado
tres versiones del programa ReCor: 1.0, 2.0 y
2.1. El funcionamiento es básicamente similar y
corresponde a la descripción genérica que
ofrecemos a continuación. Ahora bien, la
versión 2.0 difiere de la versión 1.0 en que
permite a) seleccionar automáticamente un
directorio completo de documentos (en vez de
tener que pulsar la tecla Shift como en la
versión anterior) y b) permite seleccionar un
número de n-gramas para el cálculo, donde n
1 y n 10. Ambas versiones (1.0 y 2.0) generan
archivos estadísticos en texto plano (.txt). La
versión 2.1. difiere de su predecesora en que
presenta los archivos estadísticos
simultáneamente en formato .txt y en forma de
tablas en Excel.
Determinación del Umbral de Representatividad de un Corpus mediante el Algoritmo N-Co
r
167
3 Funcionamiento del programa
En este apartado mostraremos el
programa ReCor en funcionamiento (versión
2.1.). Para la ilustración del funcionamiento del
programa hemos compilado un corpus de
seguros turísticos en español. Este corpus, por
su diseño
4
—es monolingüe
5
, comparable
6
,
textual
7
y especializado
8
—, responde a los
parámetros de creación de corpus, por lo que
estaría en condiciones de ser utilizado de forma
independiente para la realización de estudios
lingüísticos y traductológicos sobre los
elementos formales de este tipo contractual.
Gracias a una sencilla interfaz, ReCor
resulta de fácil manejo. Así, procedemos a la
selección de los archivos que conforman el
subcorpus de seguros turísticos en español
mediante el botón «Selección de los ficheros
del corpus». Una vez seleccionados los archivos
que integran el corpus en español, podremos
incorporar, si se desea, un «filtro de palabras».
En nuestro caso, hemos incluido un filtro que
contiene numeración romana. Además, el
programa genera tres ficheros de salida
(Análisis estadístico, Palabras ord. alf. y
Palabras ord. frec.) que se crearán por defecto
en la ubicación que determine la aplicación. Si
se desea otra localización de los archivos de
salida generados, puede indicarse una nueva
ruta. El primero, «Análisis estadístico», recoge
los resultados de dos análisis distintos; de un
lado, los ficheros ordenados alfabéticamente
por nombre; de otro, para los ficheros
ordenados en orden aleatorio. El documento
aparecerá estructurado en cinco columnas, a
saber, muestra de types,tokens, cociente entre
palabras distintas y totales (types/tokes),
número de palabras con una parición (V1) y
número de palabras con dos apariciones (V2).
El segundo, «Palabras ord. alfa.», generará dos
columnas en la que aparecerán las palabras
ordenadas por orden alfabético, de una parte, y
sus correspondientes ocurrencias, de otra. En
tercer lugar, «Palabras ord. frec.», presenta la
misma información que el fichero de salida
anterior, pero esta vez las palabras se ordenan
en función de su frecuencia, es decir, por rango.
Por último, procederemos a especificar
«Grupo de palabras», esto es, los n-gramas.
Escogemos, para una primera ilustración, uno
(cf. Figura 3). Asimismo, indicaremos «sí» en
la opción «Filtrar números».
3.1. Representaciones gráficas
Una vez se han seguido los pasos descritos más
arriba, la aplicación está lista para realizar el
análisis, cuyo resultado se expresa en forma de
representaciones gráficas y ficheros de salida en
.txt con datos estadísticos exportables a tablas y
tablas en Excel. Para generar las
representaciones gráficas A y B, pulsamos
«Aceptar». ReCor creará, además de los
ficheros de salida, las representaciones gráficas
A y B, que serán las que nos permitan
determinar si, efectivamente, nuestra colección
es representativa. (cf. Figura 3). El tiempo que
tarde el programa en generar las
representaciones gráficas y los archivos de
análisis dependerá del número de n-gramas
seleccionados para el cálculo, del tamaño del
corpus analizado y de la versión utilizada.
Figura 3: Representatividad del corpus de
seguros turísticos (1-grama)
A partir de los datos arrojados por
ReCor, podemos concluir que el corpus español
de contratación de seguros turísticos (cf. Figura
3) es representativo a partir de 140 documentos
y 1,0 millón de palabras.
Si deseamos ver los resultados para dos
o más gramas, repetiremos los pasos
anteriormente expuestos y especificaremos la
cifra en «Grupo de palabras». A continuación,
mostramos los resultados arrojados por ReCor
para 2-gramas.
Gloria Corpas Pastor y Miriam Seghiri
168
Figura 4: Representatividad del corpus de
seguros turísticos (2-gramas)
De este modo, a partir de los datos que
nos ofrece el programa para 2-gramas, se
desprende que el corpus español de contratación
de seguros turísticos (cf. Figura 4) es
representativo a partir de 150 documentos y
1,25 millones de palabras.
3.2. Datos estadísticos
Además de las representaciones gráficas A y B,
el programa también genera de forma
simultánea tres tipos de archivos de salida, cuyo
formato (.txt y Excel) depende de la versión
utilizada. El primero de ellos, presenta un
«Análisis estadístico» del corpus, tanto por
orden alfabético como aleatorio, estructurado en
cinco columnas: types, tokens, cociente entre
palabras distintas y totales (types/tokens),
número de palabras con una aparición (V1) y
número de palabras con dos apariciones (V2):
Figura 5: Fichero de salida (Análisis
estadístico)-Español (v. 2.1)
A partir de este análisis estadístico, se
puede observar cómo los types (primera
columna) no incrementan y se mantienen
estables —9265.0— a pesar de que el volumen
del corpus tokenssigue en aumento tal y
como ilustra la segunda columna (de 392012.0
a 540634.0). De este modo, se comprueba,
efectivamente que el corpus ya es
representativo para este campo de especialidad
y que la inclusión de nuevos textos apenas
incorporará novedades significativas al corpus.
En segundo tipo de archivo, «Palabras
ord. alf.», nos muestra las palabras que contiene
el corpus ordenadas por orden alfabético
(primera columna) acompañadas de su
frecuencia de aparición (segunda columna):
Figura 6: Ficheros de salida (Palabras ord. alf.)
de los corpus de seguros turísticos (español)
Por último, el tercer fichero de salida
«Palabrar ord. frec» presenta las palabras del
corpus ordenadas (primera columna) en función
de su frecuencia (segunda columna):
Determinación del Umbral de Representatividad de un Corpus mediante el Algoritmo N-Co
r
169
Figura 7: Ficheros de salida (Palabras ord. frec.)
de los corpus de seguros turísticos (español)
Finalmente, la versión 2.1. genera
simultáneamente, además los anteriores
resultados en .txt, tablas de Excel. La Fig. 8
ilustra una tabla en Excel de 2-gramas,
ordenados por frecuencia, que ha generado la
versión 2.1. para el corpus español.
Figura 8: Lista de 2-gramas por frecuencia-
Español (v. 2.1.)
4 Conclusiones
Una de las características principales de los
corpus virtuales o ad hoc es que suelen ser
eminentemente desequilibrados, puesto que su
tamaño y composición finales vienen
determinados, normalmente, sobre todo en los
lenguajes de especialidad, por la disponibilidad
(Giouli y Piperidis, 2002) y, por consiguiente,
es imprescindible contar con herramientas que
nos aseguren su representatividad. Sin embargo,
el problema estriba en que no existe acuerdo
sobre el tamaño que debe tener un corpus para
que sea considerado «representativo», a pesar
de que la «representatividad» sea el concepto
clave que diferencia a un corpus de otros tipos
de colecciones y repertorios textuales. Sin
embargo, las propuestas realizadas hasta la
fecha para el cálculo de la representatividad no
resultan fiables, como ya hemos señalado.
Conscientes de estas deficiencias, Yang et al.
(2000) intentaron superarlas con una nueva
propuesta, una formulación matemática capaz
de predecir la relación entre los types de un
corpus y el tamaño de éste (tokens). Sin
embargo, los autores, al concluir su trabajo
admiten que su enfoque presenta serias
limitaciones y entre ellas, destacan la siguiente:
«the critical problem is, however, how to
determine the value of tolerance error for
positive predictions» (Yang et al. 2000: 30).
Nuestra propuesta supera a las
anteriores en tanto no necesita determinar la
constante C (=tamaño del corpus) para sobre
ello intentar calcular su representatividad (algo,
por otra parte, casi tautológico), como es
habitual en los enfoques basados en la ley de
Zipf. Tampoco necesita determinar el valor del
error máximo de tolerancia, que es la principal
deficiencia del enfoque de Biber (1993) y del de
Yang et al. (2000). El algoritmo N-Cor permite
establecer a posteriori, sin tener que establecer
valores prefijados, el umbral de
representatividad de un corpus bien construido,
es decir, compilado conforme a criterios de
diseño cualitativos (externos e internos).
Concretamente, se parte de la idea de que el
cociente entre las palabras reales de un texto y
las totales —types/tokens—, que da cuenta de la
densidad o riqueza léxica de un texto, no
aumenta proporcionalmente a partir de un
número de textos determinado. Lo mismo
ocurre cuando la representatividad se calcula en
Gloria Corpas Pastor y Miriam Seghiri
170
función de la densidad léxica a partir secuencias
de palabras (n-gramas).
Sobre esta base teórica, se ha
implementado un programa (ReCor), que
permite ilustrar gráficamente el punto a partir
del cual un corpus que ha sido compilado según
criterios cualitativos comienza a ser
representativo en términos cuantitativos. La
representación gráfica, a partir de dos líneas
—documentos incluidos alfabéticamente y
aleatoriamente—, que se estabilizan a medida
que se aproximan al valor cero, muestra el
tamaño mínimo de la colección para ser
considerada representativa.
En el caso de los corpus especializados
de tamaño reducido de ámbitos concretos, no es
posible determinar a priori, exactamente, un
número óptimo de palabras o de documentos,
puesto que estará en función de las restricciones
propias del campo de especialidad, de cada país
y lengua. Nuestro método permite realizar dicha
estimación a posteriori, esto es, una vez que se
ha terminado de compilar el corpus, durante la
compilación o durante la fase de análisis y
verificación.
Hasta el momento esta metodología se
ha probado con éxito para corpus especializados
de seguros turísticos y condiciones generales de
contratos de viaje combinado en inglés,
español, alemán e italiano (cf. Corpas Pastor y
Seghiri Domínguez, 2007/en prensa). También
se ha utilizado para comprobar la
representatividad del corpus multilingüe
utilizado por la Agencia Catalana de Noticias
para alimentar su sistema de traducción
automática español-inglés-francés-catalán-
aranés (occitano).
Actualmente estamos trabajando en una
nueva versión (ReCor 3.0) que esté optimizada
para trabajar con múltiples ficheros o con
archivos de gran extensión de forma rápida y, al
mismo tiempo, permita extraer unidades
fraseológicas a partir del análisis en n-gramas
(n 1 y n 10) del corpus.
Bibliografía
Aston, G., S. Bernardini y D. Stewart.. 2004.
Corpora and Language Learners.
Amsterdam y Filadelfia: John
Benjamins.
Bernardini, S. 2000. Competence, capacity,
corpora. Bolonia: Cooperativa Libraria
Universitaria Editrice.
Biber, D. 1993. «Representativeness in Corpus
Design». Literary and Linguistic
Computing. 8 (4). 243-257.
Corpas Pastor, G. 2001. «Compilación de un
corpus ad hoc para la enseñanza de la
traducción inversa especializada».
TRANS: revista de traductología. 5.
155-184.
Corpas Pastor, G. 2004. «Localización de
recursos y compilación de corpus vía
Internet: Aplicaciones para la didáctica
de la traducción médica especializada».
En Consuelo Gonzalo García y
Valentín García Yebra (eds.). Manual
de documentación y terminología para
la traducción especializada. Madrid:
Arco/Libros. 223-257.
Corpas Pastor, G.; Seghiri Domínguez, S.
2007/en prensa. El concepto de
representatividad en lingüística de
corpus: aproximaciones teóricas y
consecuencias para la traducción.
Málaga: Servicio de Publicaciones de la
Universidad.
Ghadessy, M.., A. Henry, R. L. Roseberry
(eds.). 2001. Small corpus studies and
ELT: theory and practice. Ámsterdam y
Filadelfia: John Benjamins.
Giouli, V. y S. Piperidis. 2002. Corpora and
HLT. Current trends in corpus
processing and annotation. Bulagaria:
Insitute for Language and Speech
Processing. S. pag.
<http://www.larflast.bas.bg/balric/eng_f
iles/corpora1.php> [Consulta:
18/05/2007].
Haan, P. 1989. Postmodifying clauses in the
English noun phrase. A corpus-based
study. Amsterdam: Rodopi.
Haan, P. 1992. «The optimum corpus sample
size?». En Gerhard Leitner (ed.). New
dimensions in English language
corpora. Methodology, results,
software development. Berlín y Nueva
York: Mouton de Gruyter. 3-19.
Determinación del Umbral de Representatividad de un Corpus mediante el Algoritmo N-Co
r
171
Heaps, H. S. 1978. Information Retrieval:
Computational and Theoretical
Aspects. Nueva York: Academic Press.
Kock, J. 1997. «Gramática y corpus: los
pronombres demostrativos». Revista de
filología románica. 14 (1): 291-298.
<http://www.ucm.es/BUCM/revistas/fll
/0212999x/articulos/RFRM9797120291
A.PDF> [Consulta: 18/05/2007].
Kock, J. 2001. «Un corpus informatizado para
la enseñanza de la lengua española.
Punto de partido y término». Hispanica
Polonorum. 3: 60-86.
<http://hispanismo.cervantes.es/docume
ntos/kock.pdf> [Consulta: 18/05/2007].
Sánchez Pérez, A. y P. Cantos Gómez. 1997.
«Predictability of Word Forms (Types)
and Lemmas in Linguistic Corpora. A
Case Study Based on the Analysis of
the CUMBRE Corpus: An 8-Million-
Word Corpus of Contemporary
Spanish». International Journal of
Corpus Linguistics. 2 (2): 259-280.
Seghiri Domínguez, M. 2006. Compilación de
un corpus trilingüe de seguros
turísticos (español-inglés-italiano):
aspectos de evaluación, catalogación,
diseño y representatividad. Tesis
doctoral Málaga: Universidad de
Málaga.
Yang, D., P. Cantos Gómez y M. Song. 2000.
«An Algorithm for Predicting the
Relationship between Lemmas and
Corpus Size». ETRI Journal. 22 (2) :
20-31.
<http://etrij.etri.re.kr/Cyber/servlet/Get
File?fileid=SPF-1042453354988>
[Consulta: 18/05/2007].
Young-Mi, J. 1995. «Statistical Characteristics
of Korean Vocabulary and Its
Application». Lexicographic Study. 5
(6): 134-163.
1 El presente trabajo ha sido realizado en el seno
del proyecto La contratación turística electrónica
multilingüe como mediación intercultural: aspectos
legales, traductológicos y terminológicos (Ref.
HUM-892, 2006-2009. Proyecto de Excelencia,
Junta de Andalucía).
2 La metodología descrita en este trabajo ha
recibido el Premio de Investigación en Tecnologías
de la Traducción (III convocatoria) concedido por el
Observatorio de Tecnologías de la Traducción. Para
más información, véase
<http://www.uem.es/web/ott/>.
3 This method has been awarded the Translation
Technologies Research Award (Premio de
Investigación en Tecnologías de la Traducción) by
the Translation Technologies Watch (Observatorio
de Tecnologías de la Traducción). Further
information at the URL:
<http://www.uem.es/web/ott/>.
4 Para una visión más amplia acerca del
protocolo de compilación de corpus especializados,
véase Seghiri Domínguez (2006).
5 Aunque es un corpus monolingüe (español), se
encuentra delimitado diatópicamente. De este modo,
los textos que integran el corpus de seguros
turísticos son elementos formales del contrato que
hayan sido redactados exclusivamente en España.
6 Se trata de un corpus comparable pues está
integrado por textos originales para la contratación
turística, concretamente, elementos formales del
contrato y legislación.
7 El corpus de seguros turísticos compilado
incluye documentos completos ya que este tipo de
corpus es el que permite llevar a cabo
investigaciones lingüísticas léxicas y de análisis del
discurso, a la par que posibilita la creación de un
subcorpus, o un componente, a partir de la selección
de fragmentos más pequeños (Sinclair, 1991). De
hecho, Sinclair (1991) y Alvar Ezquerra et al. (1994)
han puesto de manifiesto la necesidad de incluir
textos enteros porque, de este modo, se elimina la
discusión en torno a la representatividad de las
distintas partes de un texto así como a la validez de
las técnicas de muestreo.
8 Los textos que integran el corpus de seguros
turísticos son, específicamente, elementos formales
del contrato, a saber, solicitudes de seguro,
propuestas, cartas de garantía y pólizas.
Gloria Corpas Pastor y Miriam Seghiri
172
... apartado 1), el cálculo del LR requiere trabajar con poblaciones representativas que permitan caracterizar a un autor respecto a toda la población y la mayoría de las veces no existe esta clase de corpus. Gran parte del problema de ausencia de textos de referencia proviene del hecho de que la Lingüística de corpus no defina de manera clara qué debe ser considerado como corpus representativo, qué variables de estudio deben considerarse de manera inequívoca al estudiarlo (Corpas & Seghiri, 2007) y cuál el mínimo de palabras o documentos necesarios para poder caracterizar el estilo con claridad (Stamatos, 2009). Todo ello va a lastrar otras disciplinas que dependen de tales consideraciones, como es el caso de la Lingüística forense. ...
Article
Full-text available
Authorship analysis refers to all those techniques aiming at determining who has written a certain text. In recent years, there has been a big development of this type of works, leading to a quick development of the discipline. This paper defines its origin and current situation, identifies its fields of application, and outlines its current methodological foundations. In this respect, the Likelihood Ratio is an appropriate approach to show the strength of the evidence in forensic sciences. This study builds a small corpus of short electronic texts and shows main issues to be resolved for its correct application: the selection of features, the appropriate characterization of an author's style based on them, and the calculation of probabilities and their interpretation.
Chapter
Full-text available
En este capítulo expondré la función del lingüista que analiza el lenguaje jurídico: describiré la disciplina, los ámbitos y las tareas relacionadas. También mostraré en qué puede trabajar un experto en esta variedad del lenguaje y propondré futuros estudios. La estructura de este capítulo conecta con la tríada que compone la labor del lingüista que estudia el lenguaje jurídico: investigar, enseñar y asesorar.
Chapter
Resumen Dada la carencia de recursos terminológicos para la traducción en el ámbito técnico, se presenta una metodología de explotación de corpus para la traducción inversa (español-inglés) que se aplica a las fichas técnicas de impresoras 3D. Esta metodología está integrada por tres pasos: de un lado, la aplicación de unos criterios claros de diseño, así como de un protocolo de compilación, que sirven para garantizar la representatividad cualitativa; y, de otro lado, el análisis de la muestra con ReCor, para garantizar la representatividad cuantitativa. El resultado obtenido ha sido un corpus paralelo representativo, fiable y de calidad denominado 3DCOR. Este corpus se ha gestionado y explotado mediante el uso del programa ParaConc para llevar a cabo la traducción al inglés de una ficha técnica de la impresora Lion 2 de la empresa española Lion3D. El corpus ha servido como único recurso para resolver problemas conceptuales, ortotipográficios, terminológicos y fraseológicos para proponer una traducción final. Palabras clave: corpus virtual, terminología, traducción técnica, ficha técnica, impresora 3D.
Conference Paper
Full-text available
This study aims at using Named Entity Recognition (NER) to extract a spe-cific type of multi-word entity, that is, multi-word organization names (MWORGs), from an English-Spanish comparable corpus of European Parliament documents. Fol-lowing a triadic, Peircean model of translation and grammar, we hypothesize that MWORGs are nominal constructions (or signs) which serve a semiotic function of me-diation in EU translations (Stecconi 2009; Torres-Martínez 2022). Specific perfor-mance of the VIP-DeepPavlov NER system (Corpas Pastor 2021) with MWORGs is evaluated in terms of precision, recall, and F-1 scores. Relevant MWORGs are then annotated and analyzed from a contrastive, semi-constructional approach (Boas 2010) to determine how many of them are mediating, and under which schemata. Results pre-dictably show that non-mediating constructions are prevalent in non-translated English (66 %), as mediating constructions are in translated Spanish (81 %). However, a sur-prising 34 % of the organization names in non-translated English are mediating; in-versely, 19 % of the MWORGs in translated Spanish serve a non-mediating function. Seven different mediation schemes (blending, borrowing, translation, and further com-binations of the three) where discovered among MWORGs, some of them language-preferent. This reinforces our belief that names are largely disregarded semiotic hubs, and indeed a crucial piece in the understanding of (non-)translations and (non-)inter-pretations as construction-based grammars with a specific number of similar, different, and mediating rules in each language and textual typology.
Conference Paper
Full-text available
The study focuses on contrastive research on fixed prepositional structures in German von + Substabstr + sein, which have no direct parallels in Slovak. In the translation process, therefore, we are faced with questions of their contextual anchoring, the distribution of adequate functional equivalents, as well as reversibility in the search for the initial German construction. The aim of the study is to find out by means of parallel corpus analysis what equivalent constructions are used in the given cases in the translation of texts and subsequently to reveal patterns in translation preferences on the bases of analysis and interpretation of empirical data.
Chapter
Full-text available
Forensic Linguistics is a domain focused on the scientific study of language with forensic purposes. It is a recent adopted area in Spain, which is generally defined as the interface between language and the law. Three main aspects are usually highlighted in this subject: language of the law, language of the legal process, and, finally, language as evidence. This last field is one of the most interesting nowadays, especially from the forensic phonetics area, which is bounded to forensic speaker identification. The workshop given at VII Congreso de la Sociedad Española de Lenguas Modernas presents roughly what Forensic Linguistics is, and which are their main working areas. Below, we introduce the main techniques related to forensic phonetics and speaker identification. These techniques comprehend the ‘combined analysis/method’, which is considered the most appropriate one and which is composed both for a traditional perceptive linguistic analysis based on articulatory phonetics and for the application of automatic voice statistical analyses. Attendees will have to face the author identification of an oral emission by using the analytical application of the techniques shown during the workshop.
Article
Full-text available
La internacionalización de la industria agroalimentaria en España va aparejada de un aumento exponencial de los servicios de redacción y de traducción del español al inglés. En el marco de esta necesidad pretendemos realizar un estudio contrastivo de la estructura retórica de las fichas descriptivas de embutidos en español y en inglés a partir del diseño, la compilación y la anotación retórica de un corpus virtual comparable, CGEFEM. Dicho estudio nos permitirá detectar los patrones de comportamiento retórico de un determinado género textual, las fichas descriptivas de embutidos, en las lenguas española e inglesa. Con los resultados que se desprendan del análisis de la estructura retórica a partir de la anotación de los movimientos y de los pasos del corpus con el Etiquetador de movimientos retóricos podremos vislumbrar similitudes y diferencias en las lenguas española e inglesa en este género textual para, en posteriores etapas, diseñar GEFEM, un generador de fichas descriptivas de embutidos basado en el procesamiento del lenguaje natural y destinado a satisfacer las necesidades de comunicación especializada del español al inglés de traductores y redactores del sector agroalimentario.
Article
Full-text available
Much research on natural language processing (NLP), computational linguistics and lexicography has relied and depended on linguistic corpora. In recent years, many organizations around the world have been constructing their own large corporal to achieve corpus representativeness and/or linguistic comprehensiveness. However, there is no reliable guideline as to how large machine readable corpus resources should be compiled to develop practical NLP software and/or complete dictionaries for humans and computational use. In order to shed some new light on this issue, we shall reveal the flaws of several previous researches aiming to predict corpus size, especially those using pure regression or curve-fitting methods. To overcome these flaws, we shall contrive a new mathematical tool: a piecewise curve-fitting algorithm, and next, suggest how to determine the tolerance error of the algorithm for good prediction, using a specific corpus. Finally, we shall illustrate experimentally that the algorithm presented is valid, accurate and very reliable. We are confident that this study can contribute to solving some inherent problems of corpus linguistics, such as corpus predictability, compiling methodology, corpus representativeness and linguistic comprehensiveness.
Book
Full-text available
El presente trabajo aborda la problemática de compilación de corpus y subcorpus, virtuales y multilingües que sean representativos y de calidad. El capítulo I se ocupa de la documentación como una parte esencial de la labor traductológica, tanto para el ejercicio de la profesión como para la docencia y la investigación. A continuación (capítulo II), se incide en la catalogación y evaluación de las fuentes de información electrónicas. La catalogación expuesta resulta de gran ayuda para la traducción especializada jurídico-turística, en general, en cualquier dirección y combinación lingüística. En el capítulo III se presenta una metodología protocolizada para el diseño e implementación de un corpus de seguros turísticos en español, inglés e italiano, llegando a un modelo de diseño propio. Se aborda con detenimiento, asimismo, las distintas concepciones que, hasta la fecha, se han venido ofreciendo de corpus y se delimita el objeto de estudio. El último capítulo se dedica a la integración del corpus trilingüe compilado, Segurtur, en el macrocorpus Turicor y, en estrecha relación con ello, la cuestión clave de la representatividad, que se determina deforma estadística a partir de la aplicación informática ReCor. Las principales aportaciones del estudio son la catalogación de los principales criterios de evaluación de recursos digitales; el establecimiento de un protocolo para la evaluación de dichos recursos, a partir del cual se ha diseñado una plantilla uniformada con indicadores puntuables; la creación de un catálogo de recursos jurídico-turísticos en línea así como localización de la legislación de seguros turísticos para los cuatro ordenamientos jurídicos implicados (España, Italia, Irlanda y Reino Unido). Se han establecido, a su vez, los elementos formales del contrato, las realizaciones textuales más frecuentes de este tipo textual, además de una propuesta de clasificación de pólizas de seguros turísticos, todo ello en lastres lenguas del estudio. Asimismo, se ha presentado un protocolo para la compilación de corpus virtuales o ad hoc. El resultado ha sido la creación de un corpus virtual de seguros turísticos representativo, equilibrado, fiable y de calidad. Este estudio piloto es válido no sólo para corpus trilingüe diseñado sino para cualquier otro componente, subcorpus o corpus.
Article
Full-text available
En este trabajo se exploran las posibilidades presentes y futuras que ofrece la lingüística del corpus para los Estudios de Traducción, con especial referencia a la vertiente pedagógica. En la actualidad, la investigación basada en corpus constituye un componente esencial de los sistemas de traducción automática, los programas de extracción terminológica y conceptual, los estudios contrastivos y la caracterización de la lengua traducida. Los dos tipos de corpus más utilizados para tales fines son los comparables y los paralelos. En este artículo, sin embargo, se parte de un corpus ad hoc de textos originales comparables en calidad de macrofuente de documentación para la enseñanza y el ejercicio profesional de la traducción inversa especializada.
Book
This edited volume includes a series of papers concerned with the use of electronic corpora in both language teaching and translation teaching. The principal themes of the volume are corpora constructed for learners, by learners and with learners.
Article
Various research centres and publishing companies all around the world have been developing corpus resources for many years, and there has been a growing awareness throughout the eighties of their importance to linguistic and lexicographic work. To give some idea of scale, the British National Corpus contains 100 million words, and its counterpart for Spanish—compiled by the Spanish Real Academia de la Lengua—will reach 100 million words at first and 200 million words in a second stage. However, little convincing research has been done in the direction of sample size—directly connected to a further topic: representativeness. We shall investigate here a related issue: Is it possible to predict the different word forms and lemmas of a given corpus? And if so, how? A positive answer to this question may contribute to decision making regarding some aspects of representativeness in given fields. We shall attempt further to find a reliable procedure to predict the total number of word forms (types) and lemmas in a specific corpus.
Article
Proefschrift Nijmegen. Lit. opg. - Index. - Met samenvatting in het Nederlands. Auteursnaam op omslag: Pieter de Haan.