ArticlePDF Available

Abstract

En este trabajo presentamos el proyecto de investigación Post Scriptum, que tiene por objeto la búsqueda, edición y estudio histórico-lingüístico de cartas privadas escritas en España y Portugal durante la Edad Moderna. Post Scriptum reúne una amplia colección epistolar y la ofrece en dos formatos preparados para la búsqueda: el de la edición crítica digital y el del corpus lingüísticamente anotado. En esta presentación se exponen los aspectos fundamentales sobre el diseño y elaboración de Post Scriptum, desde la búsqueda de los manuscritos en archivos históricos hasta la edición digital y anotación semiautomática de los textos y su publicación en línea; también se recogen resultados definitivos y se aportan algunos ejemplos de explotación del corpus en diferentes niveles de análisis.
Cuadernos del Instituto Historia de la Lengua (2018), 11, 69-93
DIRECCIÓN
Rosalía Cotelo García (Cilengua)
PRESIDENTE DEL CONSEJO CIENTÍFICO
José Antonio Pascual Rodríguez (Real Academia Española)
CONSEJO CIENTÍFICO
Enrique Balmaseda Maestu (Universidad de La Rioja)
Paz Battaner (Universitat Pompeu Fabra)
Mar Campos Souto (Universidad de Santiago de Compostela)
José Ramón Carriazo Ruiz (Universidad Nacional de Educación a Distancia)
Yolanda Congosto Martín (Universidad de Sevilla)
Jaime Coullaut Cordero (Universidad de Salamanca)
M.ª Pilar Díez de Revenga (Universidad de Murcia)
Steven N. Dworkin (University of Michigan)
Rosa María Espinosa Elorza (Universidad de Valladolid)
Jorge Fernández López (Universidad de La Rioja)
Javier Fernández Sebastián (Universidad del País Vasco)
M.ª Ángeles García Aranda (Universidad Complutense de Madrid)
Rafael García Pérez (Universidad Carlos III de Madrid)
Juan Gutiérrez Cuadrado (Universidad Carlos III de Madrid)
José Carlos de Hoyos Puente (Université Lumière Lyon 2)
Carmen Isasi Martínez (Universidad de Deusto)
Ángeles Líbano Zumalacárregui (Univesidad del País Vasco)
Dora Mancheva (Universidad de Sofía y Universidad de Ginebra)
M.ª Jesús Mancho Duque (Universidad de Salamanca)
Javier Mangado Martínez (Universidad de La Rioja)
Josefa Martín García (Universidad Autónoma de Madrid)
Dieter Messner (Universität Salzburg)
Marisa Montero Curiel (Universidad de Extremadura)
Jesús Pena Seijas (Universidad de Santiago de Compostela)
Ralph Penny (University of London)
José Ignacio Pérez Pascual (Universidade da Coruña)
Miguel Ángel Puche Lorenzo (Universidad de Murcia)
Daniel Riaño Rufilanchas (Universidad Autónoma de Madrid)
M.ª Nieves Sánchez González de Herrero (Universidad de Salamanca)
Ramón Santiago Lacuesta (Universidad Complutense de Madrid)
Carsten Sinner (Universität Leipzig)
Blanca Urgell Lázaro (Univesidad del País Vasco)
Concepción Vázquez de Benito (Universidad de Salamanca)
M.ª Belén Villar Díaz (Université Lumière Lyon 2)
Roger Wright (University of Liverpool)
CONSEJO DE REDACCIÓN
M.ª Esther Felipe Alcalde (Asociación de Archiveros, Bibliotecarios, Arqueólogos, Museólogos y
Documentalistas)
Guillermo Herráez Cubino (Karl-Franzens-Universität Graz)
Tamar Rosales Peña (Cilengua)
REDACCIÓN, ADMINISTRACIÓN Y SUSCRIPCIONES
Cilengua - Instituto Historia de la Lengua
Plaza del Convento, s/n.
26226 San Millán de la Cogolla. La Rioja
Página web: http://www.cilengua.es
Correo electrónico: qvadernos@cilengua.es
Teléfono: 941.373.389 / Fax: 941.373.390
Periodicidad: anual
I.S.S.N.: 1889-0709
Depósito Legal: LR-273-2008
Impresión: Gráficas RIOCAR
Cuadernos del Instituto Historia de la Lengua nació en el año 2008 con un triple pro-
pósito: reunir trabajos dispersos sobre cuestiones lingüísticas y culturales atinen-
tes a la historia del español en ambos mundos para dar cuenta de investigaciones
en curso; contribuir, por medio de entrevistas, al conocimiento de algunas claves
de la lingüística histórica actual; y, en tercer lugar, por medio de las recensiones
de la bibliografía imprescindible referente a lo histórico, particularmente del
ámbito léxico, informar sobre las principales novedades editoriales. Con la divi-
sión en secciones que presenta cada número se logra la mezcla de lo estricta-
mente investigador (Artículos, de carácter monográfico, y Miscelánea, de carácter
abierto), divulgativo (Entrevista y Actividades científicas) y crítico (Reseñas y notas
bibliográficas y Bibliografía, vaciado sistemático del catálogo de la Biblioteca del
Cilengua de aquellos trabajos relacionados con el tema del monográfico).
El leitmotiv de los trabajos de Cuadernos del Instituto Historia de la Lengua es la
historia del español entendida en sentido amplio, desde los orígenes remotos de
la lengua hasta el mismo momento presente, por lo que esta publicación está
dirigida a investigadores y profesionales interesados en los avances de la lingüís-
tica hispánica.
CUADERNOS ESTÁ INCLUIDA EN LAS BASES DE DATOS
CIRC. Clasificación Integrada de Revistas Científicas.
Dialnet. Portal de difusión de la producción científica hispana.
Dice. Difusión y Calidad Editorial de las Revistas Españolas de Humanidades y Ciencias
Sociales y Jurídicas.
ISOC. Base de datos de sumarios (CSIC).
Latindex. Sistema Regional de Información en Línea para Revistas Científicas de Amé-
rica Latina, el Caribe, España y Portugal.
MIAR. Matriz de información para la evaluación de revistas.
Regesta Imperii. Akademie der Wissenschaften und der Literatur Mainz.
Reservados todos los derechos. Queda prohibida la reproducción total o parcial de esta publicación,
incluido el diseño de la maqueta y cubierta, su inclusión en un sistema informático, su transmisión
en cualquier forma o por cualquier medio, ya sea electrónico, mecánico, por fotocopia, registro u
otros métodos, sin el permiso por escrito de la REDACCIÓN DE LA REVISTA.
Cuadernos del Instituto Historia de la Lengua (2018), 11
Índice
Presentación
Rosalía Cotelo García . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
7
Entrevista
Aunque haya vida más allá de un proyecto de investiga-
ción…
Entrevista a María Jesús Mancho
Itziar Molina Sangüesa. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
11
Artículos
El origen etimológico del japonesismo
bonzo
Rafael Fernández Mata. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
29
La marcación diacrónica de familias léxicas en el diccio-
nario
Enrique Jiménez Ríos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
45
La difusión del patrimonio del Archivo Histórico Nacio-
nal. Entre tradición e innovación
María Jesús Álvarez-Coca González. . . . . . . . . . . . . . . . . . . . . .
69
Bonum dandum est:
Los proyectos de digitalización de
la Biblioteca de la RAE
Rosa Arbolí Iriarte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
95
La digitalización del archivo de la Real Academia Espa-
ñola: un camino de ida y vuelta
Covadonga de Quintana. . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . .
105
El Nuevo tesoro lexicográfico de la lengua española:
un
museo lexicográfico como base de datos
Gloria Clavería Nadal y Margarita Freixas Alás. . . . . . . . . . . . .
117
Escritura epistolar, edición digital y anotación de corpus
Gael Vaamonde. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
139
Cuadernos del Instituto Historia de la Lengua (2018), 11
El
Old Spanish Textual Archive
, diseño y desarrollo de
un corpus de textos medievales: el corpus textual
Francisco Gago Jover y F. Javier Pueyo Mena. . . . . . . . . . . . . .
165
Las imágenes digitales como herramientas lexicográfi-
cas: el caso del
DICTER
María Jesús Mancho Duque . . . . . . . . . . . . . . . . . . . . . . . . . . . .
211
Bibliotecas y hemerotecas digitales en el
NDHE
Mar Campos Souto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
237
Cuadernos del Instituto Historia de la Lengua (2018), 11, 139-164
Escritura epistolar, edición digital y anotación de
corpus*
Gael Vaamonde
Universidad de Lisboa
Recibido: 09-05-2017
Aceptado: 02-10-2017
Resumen: En este trabajo presentamos el proyecto de investigación
Post Scriptum, que tiene por objeto la búsqueda, edición y estudio histórico-
lingüístico de cartas privadas escritas en España y Portugal durante la Edad
Moderna. Post Scriptum reúne una amplia colección epistolar y la ofrece en
dos formatos preparados para la búsqueda: el de la edición crítica digital y
el del corpus lingüísticamente anotado. En esta presentación se exponen
los aspectos fundamentales sobre el diseño y elaboración de Post Scriptum,
desde la búsqueda de los manuscritos en archivos históricos hasta la edi-
ción digital y anotación semiautomática de los textos y su publicación en
línea; también se recogen resultados definitivos y se aportan algunos ejem-
plos de explotación del corpus en diferentes niveles de análisis.
Palabras clave: lingüística de corpus, corpus histórico, edición digital,
XML-TEI, cartas privadas.
Abstract: In this paper we present the project Post Scriptum, which
aims to build up a campaign of collection, edition and historical-linguistic
study of private letters written in Portugal and Spain along the Early Mod-
ern Ages. Not only does the Post Scriptum project present a wide collection
of private letters, but it also makes it available as a scholarly digital edition
and as an annotated corpus. Key aspects about the development of Post
Scriptum are explained in this paper, from the finding of manuscripts in
* Los datos aquí presentados forman parte del proyecto de investigación Post Scriptum, que ha sido
financiado por el Consejo Europeo de Investigación (7FP/ERC Advanced Grant - GA 295562).
140 Gael Vaamonde
Cuadernos del Instituto Historia de la Lengua (2018), 11, 139-164
historical archives to the digital edition and semi-automatic annotation of
texts and their publication online. Final results and some examples that
illustrate how the exploitation of this corpus works at different linguistic
levels are also included.
Keywords: corpus linguistics, historical corpus, digital edition, XML-
TEI, private letters.
1. INTRODUCCIÓN
En las últimas décadas, la progresiva expansión de las nuevas tecnolo-
gías y de los avances en el mundo de la computación han supuesto un
profundo cambio en el mundo de la investigación científica, y las ciencias
humanas no han permanecido ajenas a esta revolución. En el ámbito de la
lingüística, resultan obvias las ventajas que ofrece el uso de los ordenado-
res para el estudio del lenguaje, pudiendo almacenar y procesar grandes
cantidades de datos lingüísticos de manera rápida y eficaz mediante la crea-
ción de corpus en formato electrónico, que pueden ser anotados de ma-
nera automática. En el ámbito de la filología, se han desarrollado metodo-
logías y estándares de codificación para la creación de ediciones críticas
digitales de documentos, que combinan la visualización del facsímile con
bases de datos que contienen la transcripción del texto, las variantes tex-
tuales, listas de manuscritos, glosarios y otro tipo de información filológica.
Los beneficios que ofrecen las nuevas tecnologías al área de humani-
dades son innegables, aunque se echa en falta la creación de herramientas
digitales que sean útiles a diferentes disciplinas científicas. Generalmente,
las ediciones diseñadas por el filólogo o el historiador no son explotadas
por el lingüista del mismo modo que lo sería un corpus anotado; y vice-
versa, los corpus lingüísticos, pensados fundamentalmente para la obten-
ción de estadísticas y concordancias de palabras, constituyen un recurso
de escasa utilidad para la investigación histórica o la crítica textual.
En este trabajo presentamos un proyecto de investigación ya con-
cluido que incorpora las metodologías de las humanidades digitales y de la
lingüística de corpus para ofrecer un tratamiento unitario de fuentes que
pueden ser de interés en varias áreas de estudio. Se trata del proyecto P. S.
Post Scriptum. Archivo Digital de Escritura Cotidiana en Portugal y España en la
Edad Moderna (en adelante Post Scriptum), desarrollado en la Universidad
de Lisboa desde el año 2012 hasta el año 2017 y centrado en la búsqueda
sistemática, edición y estudio histórico-lingüístico de cartas privadas escritas
entre el siglo XVI y el primer tercio del siglo XIX. Formado por un equipo
Escritura epistolar, edición digital 141
Cuadernos del Instituto Historia de la Lengua (2018), 11, 139-164
de lingüistas e historiadores, este proyecto adopuna perspectiva clara-
mente multidisciplinar con el compromiso de cumplir un triple objetivo:
- Un objetivo histórico y cultural. Las cartas publicadas son en su ma-
yoría inéditas y constituyen un patrimonio cultural en sí mismo. En
Post Scriptum desarrollamos un trabajo de recopilación (y aun de re-
cuperación) de un amplio conjunto de fuentes epistolares a partir de
la consulta de diferentes fondos archivísticos a lo largo y ancho de la
geografía peninsular, para poder reunirlas en un único recurso electró-
nico: un archivo digital de escritura cotidiana.
- Un objetivo filológico. Preparamos una edición crítica digital de los
manuscritos y de sus contextos históricos mediante una transcripción
electrónica que conserva rigor filológico. Además, ofrecemos dos ni-
veles adicionales de acceso al texto: una edición con grafía normalizada
y la propia imagen del facsímile.
- Un objetivo lingüístico. Convertimos el contenido de las cartas en
dos corpus históricos con anotación lingüística, uno para el español y
otro para el portugués. En términos cuantitativos, estamos hablando
de dos corpus de un millón de palabras cada uno, lo que equivale apro-
ximadamente a 2500 cartas por lengua.
En este trabajo presentamos la metodología que se siguió en Post
Scriptum para alcanzar cada uno de estos objetivos y aportamos algunos
resultados ya prácticamente definitivos. También explicamos brevemente
el sistema de búsqueda utilizado para recuperar datos a través de este re-
curso electrónico y ofrecemos algunos ejemplos de explotación del cor-
pus. Las lenguas que constituyen el foco de interés en Post Scriptum son
el español y el portugués, si bien los datos que ofrecemos en este trabajo
se centran preferentemente en la parte española del proyecto.
2. BÚSQUEDA DE FUENTES
2.1 Cuestiones previas
Los datos a los que tenemos acceso para elaborar corpus contempo-
ráneos no son comparables, ni en cantidad ni en calidad, con los que po-
demos obtener para construir corpus históricos. La compilación de estos
últimos está condicionada por ciertas limitaciones bien conocidas, que sue-
len ser más acusadas a medida que retrocedemos en el tiempo: conserva-
ción fragmentaria de textos, dificultad de datación, falta de contextualiza-
ción, distribución errática de géneros, etc. (Kohnen, 2007; Claridge, 2008;
Kytö, 2011).
142 Gael Vaamonde
Cuadernos del Instituto Historia de la Lengua (2018), 11, 139-164
A estos problemas inherentes a la preservación de fuentes históricas
hay que sumar además otra particularidad que, por obvia, no resulta menos
importante: la carencia de fuentes directas de lengua hablada. La lingüística
histórica en general y especialmente la pragmática y la sociolingüística his-
tóricas necesitan acceder a muestras de uso real del lenguaje al tiempo que
deben asumir la palabra escrita como fuente legítima de datos. Esta dis-
crepancia entre lo deseable y lo disponible fue formulada por Labov en
una cita recurrente que ya ha pasado a convertirse en definitoria de la lin-
güística histórica: Historical linguistics can then be thought of as the art
of making the best use of bad data (Labov, 1994: 11).
Asumida la imposibilidad de contar con grabaciones de habla, la alter-
nativa pasa por reunir muestras de lengua que, aun siendo producidas en
un medio gráfico, se acerquen lo máximo posible a la dimensión de lo
hablado. La carta de contenido privado se revela en este sentido como un
caso paradigmático al cumplir, por lo general, una serie de parámetros que
la sitúan en el polo de la inmediatez comunicativa: privacidad, familiaridad
entre los interlocutores, fuerte implicación emocional, espontaneidad re-
lativa (Koch y Oesterreicher, 2007: 29-30). En esta línea, se entiende que
el uso de escritura epistolar como fuente de datos para la investigación en
lingüística histórica haya sido puesto en valor en los últimos años (Jacobs
y Jucker, 1995; Nevalainen y Tanskanen, 2007; Raumolin-Brunberg y Ne-
valainen, 2007; Elspass, 2012; Dossena y Del Lungo Camiccioti, 2012):
Letters, and in particular private letters, are a rich source of data for his-
torical pragmatics. They may contain more intimate and more colloquial
language than other text types. It is an empirical question whether they
are therefore closer to the spoken language than other more formal text
types, but they contain many interactional features such as address terms,
directives, politenes smarkers, apologies, and so on (Jacobs y Jucker,
1995: 8).
En esta empresa de búsqueda de la oralidad en lo escrito resultan par-
ticularmente interesantes los testimonios producidos por gentes poco ins-
truidas, semialfabetizadas o en cualquier caso no profesionalizadas en la
escritura, puesto que es de esperar que sus textos estén menos mediatiza-
dos por tradiciones discursivas, por expresiones formulaicas o por niveles
de estandarización lingüística:
Clearly, letters do not represent spoken utterances; but when persons
who have had but limited experience in writing and exposure to the
norms of written expression are forced to write nevertheless, their writ-
ing reflects many features of their speech fairly accurately: what they do
is put their own “imagined” words onto paper, if only with difficulty.
Escritura epistolar, edición digital 143
Cuadernos del Instituto Historia de la Lengua (2018), 11, 139-164
Thus, what we are most interested in are letters by semi-literate writers.
(Schneider, 2013. 64)
El problema radica, una vez más, en la disponibilidad de material, pues
acceder a este tipo de fuentes epistolares no es tarea fácil. La correspon-
dencia de contenido privado tiene pocas posibilidades de sobrevivir al de-
venir histórico y, por tanto, parece lógico suponer que buena parte de la
producción de cartas del pasado se haya perdido, destruida por el tiempo o
por sus propios autores y destinatarios, que no debían encontrar motivos
suficientes para su conservación. Con todo, y como nos recuerda Elspass,
existen motivos para la esperanza: “Language historians will not come
across such ‘oral’ texts frequently, but these texts do exist and many are still
waiting to be unearthed from archives or private collections” (2012: 159).
2.2. Las fuentes en Post Scriptum
El punto de partida del proyecto Post Scriptum radica precisamente
en haber constatado previamente una de esas oportunidades excepcionales
sobre la conservación de fuentes históricas. Entre la documentación oficial
generada por los tribunales del Antiguo Régimen se conservaron cartas
particulares de gente muy diversa, cartas que llegaron hasta nuestros días
archivadas dentro de procesos judiciales y que en su momento fueron uti-
lizadas por los propios jueces como una prueba más de los delitos sobre
los que deliberaban. Generalmente, se conservaron porque su contenido
resultaba interesante a ojos de la ley para tomar decisiones sobre los crí-
menes de que eran acusados sus autores, sus destinatarios o terceras perso-
nas relacionadas con ellos o mencionadas por algún motivo en el texto. La
casuística resulta casi tan variada como los contextos en que se produjeron
las misivas que acabaron siendo archivadas. Veamos algunos ejemplos.
Muchas veces las cartas eran incautadas por los propios medios de
persecución de las instituciones, tanto de la Inquisicion como de tribunales
civiles, eclesiásticos y militares. Es el caso del pleito contra Juan José
Aranda, cura de Mazarulleque acusado del delito de proposiciones y he-
chos heréticos por la Inquisición de Cuenca en 1757. Tras varias sospe-
chas, los inquisidores decretaron su puesta en prisión y el embargo de sus
bienes, momento en el que se incautaron todas las cartas que tenía en su
casa para ser incorporadas a la causa como prueba. El reo fue condenado
a abjurar de levi, a dos años de reclusión en un convento y a una pena de
destierro durante tres años.
Otras veces las cartas eran aportadas por alguna de las partes litigantes
para demostrar algún hecho inculpatorio o exculpatorio. Es lo que sucede
144 Gael Vaamonde
Cuadernos del Instituto Historia de la Lengua (2018), 11, 139-164
en el pleito civil de 1702 entre Antonia Pardo Osorio y José Bermúdez de
Castro por el pago de una deuda. Junto a otro tipo de documentación, al
proceso se adjuntaron seis cartas. Tres de ellas fueron aportadas por la
demandante como prueba de que, efectivamente, existía una deuda, que
se valoraba en 681 reales; las tres restantes fueron aportadas por José Ber-
múdez de Castro para demostrar que dicha deuda era de tan solo 260
reales.
Tambn encontramos correspondencia producida a raíz del propio
proceso judicial (entre abogados y clientes, entre acusados ya apresados y
sus familiares o allegados, etc), que presentan igualmente una interacción
entre bastidores y pueden ser encuadradas en términos situacionales. Así
sucede en el caso de Tomas García, quien denunció en una carta a su abo-
gado los malos tratos recibidos por parte del juez que lo había encarcelado
por un delito de amancebamiento con María Cunga. Dicha carta fue utili-
zada por el destinatario para solicitar la puesta en libertad de su cliente,
aunque la solicitud no tuvo éxito. Tomás García y María Cunga acabaron
fugándose de la cárcel.
Valgan estos casos, tomados de cartas encausadas incluidas en Post
Scriptum, como una pequeña muestra del tipo de situaciones que propi-
ciaron la utilización y consecuente preservación de misivas en pleitos judi-
ciales de la Edad Moderna. La verificación previa de que era factible reunir
un número importante de estas cartas privadas, contextualizables y en su
mayoría inéditas llevó al equipo de Post Scriptum a emprender un primer
objetivo de localización de estas fuentes
1
. Esta tarea, que fue continuada
pero a la que se concedió especial atención durante los dos primeros años
del proyecto, se llevó a cabo mediante la consulta en archivos históricos,
preferentemente de aquellos que contienen fondos judiciales o inquisito-
riales de la época mencionada.
Se visitaron numerosos centros archivísticos, dentro y fuera del terri-
torio peninsular, e incluyendo tanto archivos de ámbito estatal como de
ámbito regional, provincial o municipal, así como archivos diocesanos y
arzobispales. En la Tabla 1 recogemos la lista completa de instituciones en
las que se realizaron consultas para la localización de documentación epis-
tolar en español; dicha lista aparece ordenada en función del número apro-
ximado de cartas localizadas por archivo:
1
Esta verificación se inició con el proyecto CARDS (Cartas Desconhecidas), que dio como resultado
un archivo digital de cerca de 2000 cartas portuguesas de la Edad Moderna. Post Scriptum es una
continuación del proyecto CARDS que amplía el corpus portugués y crea un corpus español de
similar naturaleza y tamaño.
Escritura epistolar, edición digital 145
Cuadernos del Instituto Historia de la Lengua (2018), 11, 139-164
Archivo
Cartas
Archivo
Cartas
A. Histórico Nacional
1716
A. Municipal de Burgos
9
A. de la Real Chancillería de
Valladolid
601
A. Histórico Provincial de
Asturias
9
A. Diocesano de Cuenca
323
A. Histórico Provincial de
Pontevedra
9
A. Histórico Provincial de
Sevilla
200
A. General de Simancas
8
A. Nacional da Torre do
Tombo
170
Biblioteca Nacional de Es-
paña
7
A. General del Arzobispado
de Sevilla
148
A. General de la Nación
de México
6
A. de la Real Chancillería de
Granada
136
A. del Reino de Valencia
5
A. General de Indias
83
A. Histórico Provincial de
Orense
2
A. Histórico Provincial de
Zaragoza
64
A. Histórico Provincial de
Cuenca
2
A. Histórico Provincial de
Burgos
56
A. Histórico de la Ciudad
de Barcelona
2
A. del Reino de Galicia
56
A. Histórico Provincial de
Cantabria
1
A. Real y General de Navarra
47
A. General de la Región de
Murcia
1
A. Histórico Provincial de
Toledo
46
A. Générales du Royaume
1
A. Histórico Municipal de
Toledo
33
A. Histórico Provincial de
Huesca
0
A. Histórico de la Universi-
dad de Valencia
29
A. Histórico Provincial de
Teruel
0
A. Diocesano de Barcelona
27
A. Regional de Madrid
0
A. Histórico Provincial de
Murcia
25
A. Catedralicio de Palencia
0
A. Histórico Provincial de
Guadalajara
24
A. Municipal de Palencia
0
The National Archives
(Kew)
19
A. Diocesano de Burgos
0
A. Histórico de la Corona de
Aragón
13
A. General de la Villa de
Madrid
0
A. Municipal de Murcia
11
TOTAL
3889
Tabla 1. Archivos consultados y cartas españolas localizadas
146 Gael Vaamonde
Cuadernos del Instituto Historia de la Lengua (2018), 11, 139-164
Salvo contadas excepciones en que fue posible acceder en línea a fon-
dos digitalizados, la búsqueda en archivos históricos se realizó in situ me-
diante una consulta continuada de procesos judiciales. También se llevó a
cabo una lectura atenta de toda unidad procesal cuyo contenido incluyese
material epistolar, con el objetivo de poder contextualizarlo y obtener in-
formación biográfica sobre autores y destinatarios, como veremos más
adelante.
La búsqueda de correspondencia constituye una tarea compleja cuyo
resultado está sujeto en buena medida al azar. Por norma general, los ar-
chivos históricos no disponen de catálogos o bases de datos que ofrezcan
información detallada sobre el contenido de sus fondos judiciales. No es
usual, por ejemplo, poder filtrar resultados en función del tipo de docu-
mentación que incluye cada proceso judicial, y mucho más complicado
resulta saber de antemano si un proceso contiene o no cartas de carácter
privado. Si el fondo en cuestión es de tamaño reducido resulta factible un
vaciado íntegro, pero si se trata de fondos con un gran volumen de docu-
mentación se hace obligado delimitar un subconjunto de búsqueda.
En algunos casos, sobre todo en una etapa inicial de la búsqueda de
fuentes, se realizaron catas aleatorias sobre fondos documentales de gran
tamaño. Es el caso, por ejemplo, del Tribunal de Distrito de la Inquisición
de Toledo, un fondo inquisitorial perteneciente al Archivo Histórico Na-
cional, o del conjunto de pleitos criminales incluidos en el fondo de la Real
Audiencia y Chancillería de Valladolid. En otros casos, se combinaron
consultas aleatorias con criterios selectivos de búsqueda, con la finalidad
de incrementar las probabilidades de éxito en la localización de correspon-
dencia, objetivo principal del proyecto en esta fase de búsqueda.
Las estadísticas obtenidas a raíz de las catas plenamente aleatorias per-
miten hacernos una idea de la complejidad que entrañó esta tarea de loca-
lización de fuentes: el porcentaje de procesos válidos (i.e. aquellos que re-
velaron una o más cartas) sobre el total de procesos consultados es del
6.24% para el caso del fondo inquisitorial de Toledo y del 5.36% para el
caso del fondo criminal de Valladolid, como se desprende de los datos que
recogemos en la Tabla 2:
Fondo (Archivo)
Procesos
totales
Procesos
consultados
Procesos
válidos
Cartas
localiza-
das
Inquisición de Toledo
(AHN)
4581
2115
132
471
Pleitos criminales (ARCV)
12440
2740
147
481
Tabla 2. Relación de procesos y cartas en dos fondos con consulta aleatoria
Escritura epistolar, edición digital 147
Cuadernos del Instituto Historia de la Lengua (2018), 11, 139-164
Sin lugar a dudas, las mayores dificultades para la obtención de cartas,
tanto para el español como para el portugués, las encontramos en el siglo
XVI, como reflejan los datos de la Tabla 3. Basándonos en nuestra expe-
riencia consultando fondos históricos, podemos constatar que la docu-
mentación judicial quinientista que ha sobrevivido hasta el presente es bas-
tante inferior a la producida en siglos posteriores, lo que reduce conside-
rablemente la posibilidad de encontrar material epistolar.
Siglo
Cartas en español
Cartas en portugués
XVI
527
307
XVII
1127
1016
XVIII
1584
1247
XIX
651
791
Total
3889
3361
Tabla 3. Distribución por siglos de cartas encontradas
Durante los cinco años del proyecto se consultaron fondos albergados
en al menos 57 instituciones diferentes, contando archivos y bibliotecas:
37 en España, 13 en Portugal y 7 fuera de la península ibérica. En términos
históricos y culturales, esta variedad permite obtener un panorama más
completo de las sociedades tradicionales y de las relaciones interpersonales
en la Edad Moderna, reflejadas en los contextos históricos que acompañan
a cada carta o conjunto de cartas relacionadas. En términos lingüísticos,
supone el control de un espacio más amplio y, por tanto, la posibilidad de
incluir autores de diversa procedencia geográfica, lo que se traduce en un
corpus dialectalemente más rico.
3. EDICIÓN DIGITAL
3.1. Transcripción del texto
Una vez que las cartas han sido localizadas, el siguiente paso consiste
en transcribirlas con el objeto de ofrecer una edición digital del manus-
crito. Para tal fin, en Post Scriptum fue necesario adoptar una serie de
decisiones técnicas y metodológicas, que explicamos y ejemplificamos a
continuación.
En primer lugar, hubo que tomar partido acerca del nivel de transcrip-
ción sobre el que debíamos trabajar en el proceso de digitalización de los
textos, entendiendo por ello la cantidad de información contenida en el
documento original que consideramos necesario preservar o incluir en la
transcripción resultante. Partimos de la aceptación de que cualquier trans-
148 Gael Vaamonde
Cuadernos del Instituto Historia de la Lengua (2018), 11, 139-164
cripción implica siempre una selección de los hechos o características ob-
servables en el documento transcrito y de que, por tanto, no existe una
transcripción, por muy precisa que sea, capaz de representar la fuente ori-
ginal en su totalidad (Sperberg-McQueen, 2009: 31). Esto nos deja, no
obstante, con un amplio rango de posibilidades en función del grado de
detalle al que nos ajustemos en términos de conservación textual, rango
cuyos extremos son descritos del modo siguiente por Driscoll (2006):
At one end of the spectrum there are transcriptions which may be called
strictly diplomatic, in which every feature which may reasonably be re-
produced in print is retained. These features include not only spelling
and punctuation, but also capitalization, word division and variant letter
forms. The layout of the page is also retained, in terms of line-division,
large initials, etc. Any abbreviations in the text will not be expanded, and,
in the strictest diplomatic transcriptions, apparent slips of the pen will
remain uncorrected. [...] At the opposite end there are fully modernized
transcriptions, where the substantives are retained but everything else is
brought up to date, in some cases to such an extent as to make it ques-
tionable whether they are to be regarded as transcriptions at all. In be-
tween these two extremes a number of levels may be distinguished
‘semi-diplomatic’, ‘semi-normalized’, etc. depending on how the ac-
cidents of the original are dealt with.
En el caso de Post Scriptum, entendemos que los documentos reco-
pilados son interesantes como fuente de datos lingüísticos, pero también
como fuente de datos históricos y aun como objetos que representan frag-
mentos de una práctica, producidos manualmente por cientos de personas
que vivieron en algún punto de la Edad Moderna y que plasmaron en papel
sus preocupaciones diarias. En definitiva, estamos ante un tipo de docu-
mentación que puede y debe ser abordado desde tres perspectivas diferen-
tes: como artefacto, entendido como objeto físico; como texto, entendido
como contenido lingüístico; y como contexto, entendido como el con-
junto de circunstancias históricas asociadas al texto y al artefacto.
(Honkapohja, Kaislaniemi y Marttila, 2009: 453) .
Vista desde este triple perspectiva, nuestra labor como editores debe
ser una labor minuciosa que busque preservar cualquier detalle del
manuscrito. Por todo ello, en Post Scriptum partimos de una transcripción
bastante conservadora de estas fuentes epistolares. Aspectos como los
cambios de línea, la ortografía, las abreviaturas, los tachones, los subraya-
dos, las correcciones del autor, los accidentes del soporte o la orientación
de la escritura, entre otros aspectos, se han respetado en la transcripción
digital. Tan solo se ha normalizado la segmentación de palabras y el uso
Escritura epistolar, edición digital 149
Cuadernos del Instituto Historia de la Lengua (2018), 11, 139-164
de las grafías ‘i’, ‘j’, ‘u’ y ‘v’, decisiones que responden en ambos casos a
razones prácticas
2
. Esta transcripción semidiplomática se traduce en lo que
podríamos llamar una edición crítica digital del documento, entendiendo
por ello una edición en versión electrónica que mantiene rigor filológico,
permitiendo reconstruir tanto el contenido textual como el propio proceso
de escritura.
En consonancia con las prácticas actuales en el campo de las humani-
dades digitales, la transcripción de las cartas se ha realizado utilizando el
lenguaje de marcado XML (eXtensive Mark-up Language) y adoptando los
estándares de codificación propuestos por el consorcio TEI (Text Encoding
Initiative) para la representación de textos en formato digital
3
. El modelo
XML-TEI es una convención ya consolidada en la edición virtual de fuen-
tes primarias, lo que garantiza la integración con otros recursos electróni-
cos de naturaleza similar.
Conviene apuntar que al inicio del proyecto, en 2012, el consorcio TEI
no disponía todavía de un conjunto de etiquetas XML pensado específi-
camente para la marcación de material epistolar. Por este motivo, en un
primer momento se partió del modelo propuesto por el proyecto DALF
(Digital Archive of Letters by Flemish Authors and Composers from the 19th & 20th
century), que está basado a su vez en una versión ya desactualizada del ci-
tado consorcio (versión TEI-P4). La adopción de este primer modelo exi-
gió, además, numerosas modificaciones como consecuencia de las deman-
das que se iban imponiendo en Post Scriptum, bien por los objetivos con-
cretos del proyecto, bien por las propias características de corpus. El re-
sultado es un modelo altamente personalizado que no responde a criterios
estandarizados y que solo tiene validez como modelo de trabajo interno
(cf. Vaamonde, 2016).
Actualmente, Post Scriptum ofrece también un modelo estandarizado
que toma como referencia dos fuentes: la propuesta de la Red CHARTA
(Corpus Hispánico y Americano en la Red: Textos Antiguos)
4
y la propuesta del
módulo TEI-CORRESP-SIG para material epistolar creada por Peter
Stadler, Marcel illetschko y Sabine Seifert
5
. Ambas fuentes están basadas
en la versión TEI-P5, la más actual en el momento de redactar estas líneas.
Para ejemplificar el proceso de edición digital llevado a cabo en Post
Scriptum, ofrecemos el fragmento de una carta escrita en 1789 (Imagen 1)
2
En no pocas ocasiones, la caligrafía que presentan estas cartas hace imposible tomar decisiones
objetivas acerca de la delimitación entre palabras o la selección entre las grafías u y v.
3
TEI: <http://www.tei-c.org/index.xml>.
4
CHARTA: <http://www.redcharta.es/>.
5
Correspondence SIG: <http://www.tei-c.org/Activities/SIG/Correspondence/>.
150 Gael Vaamonde
Cuadernos del Instituto Historia de la Lengua (2018), 11, 139-164
y, a continuación, una versión simplificada de la transcripción correspon-
diente (Imagen 2)
6
. Obsérvese el uso de elementos XML-TEI para marcar
cambios de línea (<lb/>), segmentos añadidos fuera de línea (<add>),
abreviaturas (<abbr>) o tachones (<del>) en el documento original.
Imagen 1. Fragmento de una carta escrita en 1789
Imagen 2. Transcripción en XML-TEI
3.2. Descripción de metadatos
Por cada carta que pasa a forma parte del archivo digital de Post Scrip-
tum se genera un documento XML. Este documento consta de dos partes
principales: un elemento <text>, que incluye la transcripción del texto si-
guiendo las pautas apuntadas en el apartado anterior, y un elemento <tei-
Header>, en que se organiza diversa información de carácter extratextual.
Entre los metadatos que ofrecemos para cada manuscrito destacamos los
siguientes:
6
Por razones de claridad, se han eliminado de la transcripción todas las etiquetas XML-TEI que no
son relevantes para el ejemplo en cuestión. La transcripción completa está disponible en la
dirección electrónica del proyecto: <http://ps.clul.ul.pt/index.php>. Desde esta dirección
también se puede consultar el documento íntegro, al que se puede acceder a través de la búsqueda
por código de la carta, que en este caso es PS9026.
Escritura epistolar, edición digital 151
Cuadernos del Instituto Historia de la Lengua (2018), 11, 139-164
- Datos relativos a la referencia archivística: lugar y nombre del ar-
chivo, signatura del documento, foliación.
- Datos relativos a las características físicas: descripción del soporte,
disposición gráfica del texto, medidas del papel, estado de conserva-
ción.
- Datos relativos a la contextualización: fecha de la carta, lugar de ori-
gen y destino.
- Datos relativos al contenido: clasificación general (carta de amor, de
amistad, familiar, particular, anónima), clasificación particular de tipo
enunciativo (confesión, extorsión, súplica, petición, elogio, etc.), pala-
bras clave de tipo histórico, breve resumen del contenido.
Además, el hecho de que las cartas no se presenten de manera aislada
sino que estén integradas en una unidad documental mayor, como es el
proceso judicial, nos permite obtener dos tipos de información adicional
de especial interés.
Por un lado, generalmente es posible obtener un contexto más o me-
nos detallado de la carta, incluyendo la razón que motivó su escritura así
como su relación con el proceso en que fue archivada: por qué se inició el
proceso, quiénes fueron los litigantes, quién aportó la carta al pleito y con
qué objetivo, cuál fue la sentencia final, etc. En definitiva, el acceso al pro-
ceso judicial constituye la vía sobre la que establecer una reconstrucción
de la situación comunicativa de la carta.
Por otro lado, muchos procesos incluyen interrogatorios y declaracio-
nes hechas a diferentes personas relacionadas con el delito juzgado; y a
través de esos interrogatorios podemos obtener perfiles biográficos sobre
autores y destinatarios de las cartas. En no pocas ocasiones, es posible
rastrear datos como el nombre completo, la ocupación, el lugar de naci-
miento y/o residencia, la religión, la edad o el estado civil, entre otros as-
pectos. Por ejemplo, sabemos que el autor de la carta mostrada en la Ima-
gen 1 se llamaba Vicente Fernández, que era vecino de Asturias, que era
labrador y que fue acusado de estupro en 1789 por el padre de la destina-
taria de la carta. Toda esta información biográfica es almacenada en una
base de datos independiente, creada también en lenguaje XML, y puede
ser utilizada a voluntad del usuario, ya sea con un interés histórico, ya sea
para ser cruzada con los datos lingüísticos del corpus. Aspectos como la
edad, el sexo, la categoría social o la procedencia geográfica constituyen
variables sociales de particular interés para la sociolingüísica y la dialecto-
logía históricas.
152 Gael Vaamonde
Cuadernos del Instituto Historia de la Lengua (2018), 11, 139-164
4. CORPUS LINGÜÍSTICO
4.1. Cuestiones previas
La creación de un archivo digital de escritura cotidiana, formado par-
ticularmente por cartas de contenido privado, representa el objetivo filo-
lógico de Post Scriptum y para cumplirlo nos valemos de las prácticas de
marcación desarrolladas en los últimos años en el campo de las humani-
dades digitales. El otro gran objetivo que nos proponemos es de tipo lin-
güístico y consiste en la elaboración de un recurso electrónico que facilite
la explotacion y el tratamiento estadístico de los datos textuales. Valiéndo-
nos de la metodología de la lingüística de corpus, este objetivo se concre-
tiza en la creación de dos corpus históricos, uno por cada lengua, enrique-
cidos con diferentes niveles de anotación lingüística.
La consideración de este doble objetivo (filológico y lingüístico) nos
ha llevado a encarar un problema que ya ha sido apuntado en otras oca-
siones en el ámbito de la lingüística histórica: el hecho de que los métodos
de anotación desarrollados por las humanidades digitales y por la lingüís-
tica de corpus apenas presentan puntos de encuentro (Honkapohja,
Kaislaniemi y Marttila 2009). Esto se debe en parte a que ambos métodos
de anotación persiguen intereses diferentes. Los primeros, de acuerdo con
Elena Pierazzo, están encaminados a obtener un recurso electrónico que
permita inspeccionar el documento en su totalidad, esto es, una edición
digital que incluya ‘the source, the output and the tools to produce and
display it’ (Pierazzo 2011, 474). La lingüística de corpus, por otro lado, está
interesada fundamentalmente en el tratamiento estadístico de expresiones
lingüísticas y busca automatizar el proceso de anotación tanto como sea
posible. Las humanidades digitales buscan ofrecer una exploración ‘imagi-
nativa’ a través de la dimensión cultural de los documentos publicados
electrónicamente (Driscoll 2006); la lingüística de corpus pretende inves-
tigar la gramática, el léxico y el discurso del lenguaje desde una óptica más
empírica, menos impresionista.
En una primera etapa del proyecto, este conflicto de intereses llevó
consigo la necesidad de recurrir a diferentes herramientas de trabajo que
permitiesen dar respuesta tanto a la dimensión filológica como a la dimen-
sión lingüística de Post Scriptum. Por lo que se refiere a la edición digital,
el proceso de transcripción de las cartas se realizó con el programa
Oxygen, un editor de lenguaje XML. En cuanto a las tareas de corpus, para
la anotación morfosintáctica del español se hizo uso del anotador automá-
tico de Freeling 3.0 (Padró y Stalinovsky, 2012), mientras que para el caso
Escritura epistolar, edición digital 153
Cuadernos del Instituto Historia de la Lengua (2018), 11, 139-164
del portugués se utilizó la herramienta eDictor (Piaxão de Sousa et al.,
2013); la normalización ortográfica previa a la anotación lingüística se
realizó también con eDictor para las dos lenguas.
Repárese en que la utilización de esta batería de herramientas conlleva
una desventaja importante, pues es necesario trabajar con varios archivos
de salida, que presentan diferentes formatos y cuyo contenido no siempre
es posible relacionar, lo que dificulta tanto la gestión como la explotación
combinada de los datos. En otras palabras, la información relativa a la
marcación textual en TEI y la información relativa a la anotación lingüís-
tica acaban por ser almacenadas en archivos diferentes, lo que deriva en la
necesidad de mantener dos corpus independientes que apenas sí pueden
ser mutuamente aprovechados.
Para solucionar este inconveniente, desde finales de 2014 todo el tra-
tamiento lingüístico del corpus están centralizadas en TEITOK (Janssen
2016), una plataforma interactiva que permite reunir en un único soporte
XML tanto el corpus anotado como la edición crítica digital. TEITOK fue
pensado y diseñado originalmente para dar respuesta a las demandas de
Post Scriptum, pero actualmente son varios los proyectos de investigación
que han volcado sus datos a esta plataforma, que en palabras de su creador
puede ser definida del modo siguiente:
TEITOK is a web-based system for viewing, creating, and editing cor-
pora with both rich textual mark-up and linguistic annotation. For visi-
tors, the system provides a graphical user interface in which te annotated
document can be visualized in a number of different ways, depending on
what the user is interested in. And for administrators of the corpus,
TEITOK uses the same interface to easily and efficiently edit the under-
lying XML document. (Janssen 2014)
Por lo que se refiere a Post Scriptum, las transcripciones en TEI son
generadas fuera de TEITOK mediante la herramienta Oxygen. El archivo
XML generado en este programa, que contiene la transcripción del texto
y los metadatos, es importado a TEITOK, en donde se procede al trata-
miento lingüístico del texto así como a cualquier otro tipo de corrección
posterior. Este proceso incluye fundamentalmente las tareas de tokeniza-
ción, normalización ortográfica, lematización y anotación morfosintáctica,
que pasamos a describir brevemente en el siguiente apartado.
154 Gael Vaamonde
Cuadernos del Instituto Historia de la Lengua (2018), 11, 139-164
4.2. Tokenización
Una vez importado el archivo XML a la plataforma TEITOK, un pri-
mer paso consiste en la segmentación del texto en tokens, esto es, en ocu-
rrencias de palabras y signos de puntuación. Durante el proceso de toke-
nización, que se realiza de manera automática, cada forma original del
texto es marcada dentro de un elemento <tok>, al que se le asigna una
identificación única también de manera automática. Esta estructura inicial
permite delimitar cada token para su posterior edición lingüística y permite
salvaguardar además los diferentes niveles de edición, que se van almace-
nando en forma de atributos dentro de cada unidad <tok>. Por ejemplo,
la forma conpañia incluida en el manuscrito de la Imagen 1 y que coincide
con un cambio de línea, sería procesada en TEITOK del modo siguiente:
Imagen 3. Ejemplo de token en TEITOK
Los atributos @form, y @nform señalan la forma original y la forma
normalizada de la palabra, respectivamente. Otros niveles de edición,
como pueden ser la forma expandida de abreviaturas (@fform), variantes
dialectales (@dform), información metalingüística (@ltags), lemas
(@lemma) o etiquetas morfosintácticas (@mfs), también son añadidos de
forma correlativa mediante atributos dentro de <tok>, lo que asegura
siempre una vinculación entre los diferentes niveles para su posterior re-
cuperación a través del motor de búsqueda de la interfaz.
4.3. Normalización ortográfica
Es obvio que los manuscritos originales de las cartas presentan una
gran variedad ortográfica. Así, una misma palabra (p. ej. vergüenza) puede
aparecer escrita de muy diversas formas (p. ej. berguensa, verguensa, berguenza,
vergüenza, berguença, verguença, etc.). Esta diversidad tiene interés lingüístico,
principalmente para llevar a cabo estudios de carácter fonético o gráfico;
por eso, la forma original es respetada escrupulosamente y conservada en
uno de los niveles de edición, como ya se explicó. Tal variedad gráfica, no
obstante, constituye un problema para la anotación automática de textos
históricos (Sánchez-Marco et al., 2010). Esa es la razón principal por la
que se decidió realizar una normalización ortográfica de los textos, para
que sirva como archivo de entrada del anotador automático y maximice su
porcentaje de acierto; otra razón secundaria es la posibilidad de ofrecer al
Escritura epistolar, edición digital 155
Cuadernos del Instituto Historia de la Lengua (2018), 11, 139-164
público lego una edición que facilite la lectura de las cartas en versión es-
tandarizada.
En este nivel de edición, se ha normalizado la grafía y la acentuación
de todas las formas originales y se ha introducido la puntuación propia de
la lengua contemporánea, aunque la separación de párrafos se ha mante-
nido fiel al original. Este proceso de normalización ortográfica se llevó a
cabo de manera semiautomática. La plataforma TEITOK incluye una he-
rramienta de normalización automática que realiza una primera corrección
ortográfica del texto y el resultado correspondiente es revisado de forma
manual antes de pasar el anotador lingüístico. Véase como ejemplo el si-
guiente fragmento, que representa la versión normalizada de la transcrip-
ción recogida en la Imagen 2:
Marcelina, quieran los cielos divinos que estas cortas letras te hallen con
la salud más cumplida que para mí deseo, juntamente en compañía de tu
más pronto servidor a quien sus manos beso. Con mucha razón te quejas,
si es verdad lo que me avisaste, pero no tengo ninguna culpa habiendo
escrito cuatro con esta. En el mismo día que estuvo te respondí. No tuve
lugar para darle la carta a ella.
Conviene precisar que las modificaciones realizadas sobre el texto se
ciñen únicamente al nivel ortográfico, por lo que no se eliminó ni se añadió
ninguna palabra respecto del contenido original de la carta. Tampoco se
ha intervenido sobre el nivel léxico: se han conservado los regionalismos
y los arcaísmos léxicos, así como cualquier otra forma no estándar, si bien
se han tratado en un nivel independiente para facilitar su recuperación.
4.4. Anotación morfosintáctica
La versión del texto con ortografía normalizada es utilizada como ar-
chivo de entrada para la anotación morfosintáctica, que se lleva a cabo
nuevamente mediante un proceso de carácter semiautomático: un anota-
dor automático asocia cada palabra contenida en el texto con un lema y
una etiqueta morfosintáctica, y el resultado de esa anotación es revisado
manualmente por un equipo de lingüistas.
El anotador automático integrado en TEITOK es el etiquetador Neo-
tag (Janssen 2012). NeoTag no solo sirve para etiquetar los textos del cor-
pus, sino que además utiliza el propio corpus ya anotado como corpus de
entrenamiento, mejorando así progresivamente su porcentaje de acierto a
medida que se aumenta el conjunto de datos.
El sistema de etiquetas que aplica Neotag para los textos de Post Scrip-
tum está basado en la propuesta del grupo EAGLES para la anotación
156 Gael Vaamonde
Cuadernos del Instituto Historia de la Lengua (2018), 11, 139-164
morfosintáctica de lexicones y corpus para todas las lenguas europeas. El
conjunto de etiquetas EAGLES se rige por un sistema de posiciones: cada
etiqueta consta de una secuencia de letras y números, donde cada letra o
número representa un rasgo morfosintáctico determinado dependiendo de
su posición dentro de la secuencia. El significado de cada posición está
asociado a la categoría principal, representada por la primera letra de la
secuencia
7
.
Por ejemplo, la forma compañía lleva asociada la etiqueta NCFS000,
donde la N indica que se trata de un sustantivo y la C que se trata de un
nombre común; la F de la tercera posición señala el género, en este caso
femenino, y la S de la cuarta posición indica el número, en este caso sin-
gular. Los rasgos que no son aplicables o no son especificados para una
forma particular en una lengua dada se señalan con un cero. El token co-
rrespondiente a la forma compañía, una vez anotado, se mostraría en TEI-
TOK del modo siguiente:
Imagen 4. Ejemplo de token anotado en TEITOK
6. COMPOSICIÓN DEL CORPUS
Como ya hemos comentado, la búsqueda de documentación en espa-
ñol se llevó a cabo en 39 instituciones (archivos y bibliotecas) y arrojó un
total de 3889 cartas. No obstante, el total de cartas que pasaron a formar
parte del archivo digital y del corpus lingüístico fue menor, ya que sobre
el total de cartas localizadas se efectuó una selección en la que se tuvieron
en cuenta al menos dos criterios. En primer lugar, en casos de conjuntos
epistolares de gran tamaño escritos por una misma mano se seleccionaron,
por regla general, un máximo de 25 cartas. En segundo lugar, se seleccio-
naron únicamente cartas originales, entendiendo por tales las escritas de
puño y letra por su autor o los casos de escritura delegada, en las que un
autor mental se vale de un escriba para la redacción de la misiva. Quiere
esto decir que se desecharon las cartas que constituían copias de un origi-
nal, salvo en contadas ocasiones en las que su contenido resultó inusual-
mente interesante por razones históricas.
Teniendo esto en cuenta, el corpus que está actualmente accesible en
línea presenta la composición que recogemos en la Tabla 4. Los datos
ofrecidos en dicha tabla son prácticamente definitivos; faltaría añadir un
7
El conjunto de etiquetas utilizado para la anotación morfosintáctica del corpus Post Scriptum está
disponible en: <http://ps.clul.ul.pt/index.php?action=tagset>.
Escritura epistolar, edición digital 157
Cuadernos del Instituto Historia de la Lengua (2018), 11, 139-164
conjunto de 200 cartas españolas y 80 cartas portuguesas, aproximada-
mente, que en el momento de redactar estas líneas se encuentran todavía
en proceso de revisión:
Siglo
Español
Portugués
Cartas
Tokens
Cartas
Tokens
XVI
310
151439
254
136412
XVII
684
278616
578
257234
XVIII
933
383376
776
357059
XIX
512
166063
730
208018
Total
2439
979494
2338
958723
Tabla 4. Composición de los corpus español y portugués accesibles en línea.
Todos los manuscritos publicados están ya transcritos en XML-TEI,
lo que nos permite hablar de una colección digital compuesta por casi 5000
cartas en línea. También está finalizado el trabajo de normalización orto-
gráfica y de digitalización de las imágenes, posibilitando así tres vías de
acceso para todo documento ya publicado: la edición semidiplomática, la
edición normalizada y la edición facsimilar.
Por lo que se refiere al corpus lingüístico, ambos corpus rondan ac-
tualmente el millón de tokens. Para ambas lenguas, la anotación morfosin-
táctica se realizó sobre la mitad de los datos aproximadamente, si bien en
el caso del español una parte del corpus anotado está pendiente de revisión
manual. Post Scriptum ofrece también la anotación sintáctica de una pe-
queña parte del corpus, más reducida en el caso del español. Concreta-
mente, los datos relativos a la anotación lingüística, en número de tokens,
son los que recogemos en la Tabla 5:
Español
Portugués
Total corpus
979494
958723
Total anotado (POS)
638399
605148
Total anotado (sintaxis)
63388
228105
Tabla 5. Composición del corpus con anotación lingüística.
7. ALGUNOS EJEMPLOS DE EXPLOTACIÓN DEL CORPUS
Dedicamos este último apartado a explicar brevemente el sistema de
búsqueda en línea del corpus y a ofrecer algunos ejemplos sobre el tipo de
información que podemos obtener. Los datos de Post Scriptum integrados
158 Gael Vaamonde
Cuadernos del Instituto Historia de la Lengua (2018), 11, 139-164
en la plataforma TEITOK son accesibles a través de una interfaz de bús-
queda que está dividida en tres bloques principales, a saber:
- Búsqueda del documento, que permite obtener información relacio-
nada con el extratexto: lengua (español o portugués), año (incluyendo
un intervalo de años), lugar de origen y destino, datos biográficos del
autor (nombre, categoría social, sexo), entre otros aspectos. También
en este bloque se puede filtrar la búsqueda mediante un conjunto am-
plio y cerrado de palabras clave asociadas a cuestiones temáticas e his-
tóricas (cartas sobre carlismo o sobre adulterio o sobre judeoconver-
sos, por poner solo tres ejemplos).
- Búsqueda del discurso, que permite delimitar dos criterios adiciona-
les relacionados con la dimensión discursiva del texto: la parte de la
carta en que se aplicará la búsqueda, que puede ser el contenido narra-
tivo del texto o un segmento formular concreto (por ejemplo, el cierre
de la carta); y el tipo de carta según una clasificación general basada en
cinco opciones: amor, amistad, anónima, familiar, particular.
- Búsqueda del texto, que posibilita las búsquedas propiamente lin-
güísticas a partir de los diferentes niveles de edición del corpus: forma
original, forma normalizada, clase de palabra, lema, etc.
El usuario no interesado en el lenguaje puede destinar su búsqueda a
recuperar manuscritos epistolares que cumpla determinadas condiciones
recogidas en los dos primeros bloques. Por ejemplo, se pueden consultar
cartas de amor escritas en el siglo XVII por autores pertenecientes al esta-
mento eclesiástico, o cartas en español escritas desde Portugal y clasificadas
con la palabra clave Conspiración’, o cartas familiares escritas por mujeres
desde América a España. Por su parte, el usuario interesado en cuestiones
de lingüística histórica tiene a su disposición la búsqueda del texto que, a
su vez, permite realizar dos tipos de consultas: una consulta sencilla limitada
a una única palabra o una consulta más avanzada, basada en lenguaje CQP,
que permite obtener resultados que combinan dos o más palabras.
Por defecto, el resultado de cualquier búsqueda realizada en el texto
es siempre una lista de concordancias (key word in context), como muestra el
ejemplo que recogemos en la Imagen 5 a partir de la búsqueda de la forma
normalizada salud:
Escritura epistolar, edición digital 159
Cuadernos del Instituto Historia de la Lengua (2018), 11, 139-164
Imagen 5. Concordancias de la forma
salud
No obstante, es posible ordenar el resultado por frecuencias de apari-
ción de la forma original (i.e. la forma de la palabra tal como aparece escrita
en el manuscrito), algo que puede resultar de interés para investigaciones
de tipo ortográfico o incluso fonético. La Imagen 6 ilustra este tipo de
resultado de nuevo con la forma salud:
Imagen 6. Variedades ortográficas asociadas a la forma
salud
Utilizando la consulta avanzada, el usuario puede ampliar la búsqueda
a combinaciones de dos o más palabras. Por ejemplo, se pueden buscar
todos los tokens cuyo lema sea haber seguidos de un token anotado mor-
fosintácticamente como participio para recuperar de esta forma todas las
ocurrencias de tiempos compuestos
8
. O, por ejemplo, se pueden recuperar
todos los tokens anotadas como verbo seguidos de la forma normalizada
de, que, a su vez, preceda a la forma normalizada que
9
. Esta última consulta
8
En lenguaje CQP, esta consulta se podría hacer del modo siguiente: [lemma="haber"]
[pos="VMP.+"].
9
En lengauej CQP: [pos="V.+"] [nform="de"] [nform="que"].
160 Gael Vaamonde
Cuadernos del Instituto Historia de la Lengua (2018), 11, 139-164
permitiría iniciar un estudio sobre los casos de dequeísmo atestiguados en
el corpus:
Imagen 7. Ocurrencias de forma verbal +
de que
También es posible ordenar las búsquedas por frecuencia del lema, lo
que puede resultar interesante para estudios de carácter léxico. Por ejem-
plo, se pueden obtener todos los tokens anotados como nombre común y
ordenar el resultado por lema y etiqueta morfosintáctica. Obtendremos así
una lista como la que se recoge en la Imagen 8, que devuelve el conjunto
total de sustantivos del corpus ordenados por frecuencia de aparición:
Imagen 8. Sustantivos más frecuentes en Post Scriptum
Sirvan estos ejemplos como muestra del tipo de datos que son fácil y
rápidamente recuperables a través de la interfaz de búsqueda de Post
Scriptum. Además, la posibilidad de cruzar los datos lingüísticos del cor-
pus con variables extralingüísticas abre todavía más las opciones de explo-
Escritura epistolar, edición digital 161
Cuadernos del Instituto Historia de la Lengua (2018), 11, 139-164
tación del corpus. Por ejemplo, resulta factible analizar un fenómeno lin-
güístico determinado y asociarlo con la procedencia geográfica de los au-
tores para observar la dimensión dialectal de dicho fenómeno. Vinculando
cada lugar de procedencia con sus correpondientes coordenadas geográfi-
cas e importando los datos a un sistema de información geográfica se pue-
den trazar mapas dialectales de tipo histórico como el que ofrecemos en
la Imagen 9, que presenta la distribución de autores laístas en Post Scrip-
tum (i.e. autores para los que se ha atestiguado uno o más casos de uso del
pronombre átono la o las en función de objeto indirecto)
10
:
Imagen 9. Mapa de autores laístas en el corpus de Post Scriptum
Finalmente, téngase en cuenta que cualquier usuario puede descargar
los archivos XML en versión TEI-P5, que incluyen la transcripción y los
metadatos, así como el corpus completo en formato TXT, tanto en ver-
sión original, como en versión normalizada o en versión anotada. En de-
finitiva, junto a las posibilidades que ofrece nuestro sistema de búsqueda
el usuario es libre de descargar los datos en formatos adecuados para tra-
bajar sobre ellos con herramientas propias.
10
Para un estudio de la variación pronominal en español con los datos de Post Scriptum, véase
Vaamonde (2015).
162 Gael Vaamonde
Cuadernos del Instituto Historia de la Lengua (2018), 11, 139-164
8. CONCLUSIONES
Post Scriptum es un recurso de acceso libre en línea que aúna meto-
dologías y técnicas propias de las humanidades digitales y de la lingüística
de corpus. Está especialmente diseñado para ofrecer a un tiempo ediciones
críticas digitales y anotaciones lingüísticas del corpus, facilitando así tanto
estudios de carácter histórico (incluyendo historia de la lengua) como in-
vestigaciones centradas en el cambio lingüístico y la lingüística diacrónica.
Actualmente, desde la dirección electrónica del proyecto es posible con-
sultar, entre otros, los aspectos siguientes:
- Digitalización del facsímile.
- Edición crítica digital.
- Edición con grafía normalizada.
- Diversa información extratextual: fecha, lugar de origen y destino,
resumen del contenido, contexto situacional, descripción del soporte,
medidas, grafismo, estado de conservación, etc.
- Lematización y anotación morfosintáctica (parcial).
- Anotación sintáctica (parcial).
- Fichas biográficas de autores y destinatarios.
- Mapas con geolocalización de autores.
Toda esta información se integra en una interfaz que facilita no solo
la consulta de cualquiera de los aspectos mencionados sino también la bús-
queda cruzada de los datos. Además, cualquier usuario puede descargar el
corpus completo o cartas individuales en formato TXT y XML, tanto en
su transcripción original como en versión normalizada o anotada. En re-
sumen, Post Scriptum constituye un recurso electrónico que responda a
los intereses de varias disciplinas científicas, entre las que cabe destacar la
crítica textual, la lingüística histórica (incluyendo sociolingüística, pragmá-
tica y dialectología históricas), los estudios culturales o la historia de la
cultura escrita.
REFERENCIAS BIBLIOGRÁFICAS
CLARIDGE, Claudia (2008): «Historical Corpora», en A. Lüdeling y M.
Kytö (eds.), Corpus Linguistics: An International Handbook (Vol.1), Walter
de Gruyter, Berlin/New York, 242-259.
DOSSENA, Marina y Gabriella DEL LUNGO CAMICIOTTI (2012): Letter
Writing in Late Modern Europe, John Benjamins, Amsterdam/Philadel-
phia.
Escritura epistolar, edición digital 163
Cuadernos del Instituto Historia de la Lengua (2018), 11, 139-164
DRISCOLL, Mathew James (2006): «Levels of Transcription», en John Un-
sworth, Katherine O'Brien O'Keeffe y Lou Burnard (eds.), Electronic
Textual Editing. [28, 06, 2017] <http://www.tei-c.org/About/Ar-
chive_new/ETE/Preview/driscoll.xml>.
ELSPASS, Stephan (2012): «The Use of Private Letters and Diaries in Soci-
olinguistic Investigation», en Juan Manuel Hernández-Campoy y Juan
Camilo Conde-Silvestre (eds.), The Handbook of Historical Sociolinguistics,
Wiley-Blackwell, Malden, 156-169.
HONKAPOHJA, Alpo, Samuli KAISLANIEMI y Ville MARTTILA (2009):
«Digital Editions for Corpus Linguistics: Representing Manuscript Re-
ality in Electronic Corpora», en Andreas H. Jucker, Daniel Schreier y
Marianne Hundt (eds.), Corpora: Pragmatics and Discourse, Rodopi, Am-
sterdam/New York, 451475.
JACOBS, Andreas y Andreas H. JUCKER (1995): «The historical perspective
in pragmatics», en Andreas H. Jucker (ed.), Historical pragmatics: prag-
matics developments in the history of English, John Benjamins, Amster-
dam/Philadelphia, 3-33.
JANSSEN, Maarten (2012): «NeoTag: a POS tagger for grammatical neolo-
gism detection», Proceedings of the Language Resources and Evaluation Con-
ference (LREC 2012) ELRA, Estambul, Turquía, mayo de 2012, 2118-
2124.
JANSSEN, Maarten (2014): TEITOK. A Tokenized TEI environment. [28, 06,
2017] <http://teitok.corpuswiki.org/site/index.php>.
JANSSEN, Maarten (2016): «TEITOK: Text-Faithful Annotated Corpora»,
Proceedings of the Language Resources and Evaluation Conference (LREC 2016)
ELRA. Portoroz, Eslovenia, mayo de 2016, 4037-4043.
KOCH, Peter y Wulf OESTERREICHER (2007 [1990]): Lengua hablada en la
Romania: español, francés, italiano, Gredos, Madrid. [Versión española de
Araceli López Serena].
KOHNEN, Thomas (2007): «From Helsinki through the centuries: the de-
sign and development of English diachronic corpora», en Päivi Pahta,
Irma Taavitsainen, Terttu Navelainen y Jukka Tyrkkö (eds.), Studies in
Variation, Contacts and Change in English. Volume 2: Towards Multimedia in
Corpus Studies. [28, 06, 2017] <http://www.helsinki.fi/varieng/se-
ries/volumes/02/kohnen/>.
KYTÖ, Merja (2011): «Corpora and historical linguistics», Revista Brasileira
de Linguística Aplicada, Belo Horizonte, 11/2, 417-457.
LABOV, William (1994): Principles of Linguistic Change. Internal Factors, Black-
well, Oxford.
164 Gael Vaamonde
Cuadernos del Instituto Historia de la Lengua (2018), 11, 139-164
NEVALAINEN, Terttu y Sanna-Kaisa TANSKANEN (2007): Letter Writing,
John Benjamins, Amsterdam/Philadephia.
PADRÓ, Lluís y Evgeny STANILOVSKY (2012): «FreeLing 3.0: Towards
Wider Multilinguality», Proceedings of the Language Resources and Evaluation
Conference (LREC 2012) ELRA, Estambul, Turquía, mayo de 2012,
2473-2479.
PAIXÃO DE SOUSA, Maria Clara, Fabio KEPLER y Pablo Picasso Feliciano
DE FARIA (2013): E-DICTOR, Version 1.0 beta 10, 2013. [28, 06,
2017] <http://edictor.net/download>.
PIERAZZO, Elena (2011): «A Rationale of Digital Documentary Editions»,
Literary and Linguistic Computing, 26 (4) (December 1), 463477.
RAUMOLIN-BRUNBERG, Helena y Terttu NEVALAINEN (2007): «Histori-
cal sociolinguistics. The Corpus of Early English Correspondence», en
Joan C. Beal, Karen P. Corrigan y Hermann L. Moisl (eds.), Creating
and Digitizing Language Corpora: Diachronic Databases. Vol. 2, Palgrave
Macmillan, Basingstoke/New York, 148-171.
SÁNCHEZ-MARCO, Cristina, Gemma BOLEDA, Josep Maria FONTANA y
Judith DOMINGO (2010): «Annotation and Representation of a Dia-
chronic Corpus of Spanish», Proceedings of the International Conference on
Language Resources and Evaluation (LREC). Malta, mayo de 2010, 2713-
2718.
SCHNEIDER, Edgar W. (2013): «Investigating Historical Variation and
Change in Written Documents: New Perspectives», en J. K. Chambers
y Natalie Schilling (eds.), The Handbook of Language Variation and Change,
Wiley-Blackwell, Malden, 57-81.
SPERBERG-MCQUEEN, C. M. (2009). «How to teach your edition how to
swim», Literary and Linguistic Computing, 24: 2752.
VAAMONDE, Gael (2015): «Distribución de leísmo, laísmo y loísmo en un
corpus diacrónico epistolar», Res Diachronicae, 13, 58-79.
VAAMONDE, Gael (2016), Guía para la Edición Digital de Textos en P.S. Post
Scriptum, Centro de Linguística da Universidade de Lisboa, Lisboa.
... Lo mismo sucede en la tradición hispánica con la incorporación de diferentes tradiciones discursivas que, aun trasladadas al medio escrito, se aproximan a una concepción oralizante y cotidiana de la lengua, cercana, pues, al polo de la inmediatez comunicativa (Oesterreicher, 2004). Entre estas destacan, por ejemplo, las crónicas de soldados (Di Tullio y Resnik, 2019), las quejas (Octavio de Toledo y Huerta y Pons Rodríguez, 2017), las peticiones de ayuda a la beneficencia (Sánchez-Prieto Borja y Vázquez Balonga, 2019), los diálogos (Navarro Gala, 2020), las declaraciones de testigos (Calderón, 2015;Calderón y Vaamonde, 2020), los inventarios de bienes (Morala, 2012;Calderón y Vaamonde, 2020), la correspondencia privada (Fontanella de Weinberg, 1992;Fernández Alcaide, 2009;Arias Álvarez y Hernández Mendoza, 2013;Vaamonde, 2018), los diarios y otros géneros autobiográficos (Rivadeneira y Contreras, 2021;Frühbeck, 2022), etc. ...
... Los problemas reseñados en estos grandes corpus de referencia -junto a otros en los que no entraremos por cuestiones de espacio y oportunidad-han impulsado en los últimos años la creación de nuevas bases de datos textuales, cuyas dimensiones, más reducidas, se compensan con avances nítidos en otras esferas, entre las que se halla el interés por incluir géneros discursivos más cercanos a la oralidad. Diversos grupos de investigación han venido trabajando en los últimos años en esta empresa, como los proyectos CHARTA (Isasi, Pierazzo y Spence, 2020), CODEA +2022 (Sánchez-Prieto, 2012), CorLexIn (Morala, 2012), CORDEREGRA (Calderón, 2015), Oralia diacrónica del español (Calderón y Vaamonde, 2020), CORDIAM (Bertolotti y Company, 2014) o Post Scriptum (Vaamonde, 2018), por mencionar solo algunos de los más conocidos. Algunos de ellos presentan tipologías textuales de todo tipo, desde textos jurídicoadministrativos a literarios y cronísticos, pasando por documentos privados (CHARTA, CODEA, CORDIAM), al tiempo que otros se concentran justamente en los de este último tipo. ...
... Inicialmente, no todos los usuarios de la lingüística de corpus son partidarios de incorporar tales informaciones, y de hecho los hay que recelan de esta clase de bases de datos, que, en su opinión, no solo contaminan los textos, sino que, al tiempo, dificultan innecesariamente el análisis (Sinclair, 2004). Hoy son, sin embargo, cada vez más los partidarios de que los corpus -sincrónicos y diacrónicos-cuenten con diferentes niveles de anotación, no solo porque la incorporación de estos datos facilita la búsqueda de los fenómenos que interesan al analista, sino también porque los avances informáticos permiten manejar los distintos niveles sin perturbar en exceso tales búsquedas (Vaamonde, 2018;Calderón, 2019). Claro que esto último requiere de un nivel de formación tecnológica que no está al alcance de cualquiera, lo que explica que, por lo general, los escasos corpus diacrónicos que a día de hoy presentan algún grado de anotación reserven esta parte a empresas externas, sin duda mucho más duchas en la resolución de aspectos técnicos, pero, como contrapartida, con una formación lingüística limitada, lo que pueden entorpecer la tarea asignada. ...
Article
En el marco del debate acerca de la necesaria presencia de géneros discursivos cercanos al polo de la inmediatez comunicativa, como mejor estrategia para aproximarnos a la oralidad de tiempos pretéritos, en el presente artículo se describen los principios hermenéuticos y metodológicos de un corpus compilado a lo largo de la última década por el grupo de investigación Sociolingüística, de la Universitat Jaume I. Integrado por tradiciones escritas de impronta oral, mayoritariamente correspondencia privada, a la que se añaden en menor proporción algunos géneros autobiográficos (diarios, memorias de servicios, crónicas de soldados), el corpus supera ya los catorce millones de palabras, escritas por cerca de siete mil españoles de diferente extracción social y dialectal entre finales del siglo XV y la primera mitad del XX. A partir de las limitaciones que para el análisis sociolingüístico presentan otros corpus, en el artículo se revisan los principales fundamentos que guían la arquitectura de este, entre las que sobresale la necesidad de contar con una selección suficientemente amplia y representativa de los diferentes periodos estudiados, haciendo posible así la investigación sobre variables (morfosintácticas, léxicas, discursivas) que, por su propia naturaleza, poseen escasa recurrencia en el discurso. Tipológicamente, se configura, pues, como un corpus específico, por la finalidad de su aprovechamiento, eminentemente sociolingüística; y secundario, dada la explotación que en él se hace de textos editados previamente, aunque seleccionados, de acuerdo con parámetros rigurosos.
... La utilidad de TEITOK para la crear corpus lingüísticos a partir de ediciones digitales ha sido demostrada en proyectos como ODE (Calderón-Campos, en prensa) o Post Scriptum (Vaamonde 2018a(Vaamonde , 2018b, entre otros. ...
Article
Full-text available
Los corpus históricos de referencia disponibles para el español son de gran utilidad para investigar aspectos de carácter léxico y morfosintáctico, pero resultan inadecuados para extraer información de tipo fonético. Conscientes de esta necesidad, se están creando en los últimos años corpus especializados que prestan especial cuidado en el rigor gráfico de las transcripciones. El objetivo de este trabajo es doble. Por un lado, proponemos algunas líneas de mejora en la recolección de datos históricos que sean fiables para realizar estudios fonéticos. Por otro lado, presentamos el corpus especializado Oralia Diacrónica del Español, prestando especial atención a los aspectos que convierten a ODE en una herramienta idónea para abordar estudios cuantitativos sobre fonética histórica. Usando los datos de ODE, analizamos un estudio de caso, el de las grafías indicadoras de seseo y ceceo, con el objeto de demostrar la utilidad de este corpus para la investigación en fonética histórica del español clásico y moderno.
Article
Full-text available
This paper sets out to study the second person–number marking in the (indicative) simple past in the history of European Portuguese, with a particular focus on morphological innovations such as fostes tu, which are considered deviant. These innovations, according to some brief descriptions in the literature (cf. Piel 1989; Williams 1994), are considered a case of morphological change by analogy; however, it remains to be determined whether it is a case of analogical extension or, possibly, leveling that would have resulted in syncretism. Based on data retrieved from private letters from the 16th to the 20th century by almost illiterate authors, we will argue that this innovation results from an analogical extension, motivated by morphological and pragmatic factors.
Article
Full-text available
Este artículo analiza diferentes proyectos de edición digital de cartas en español que utilizan el marcado TEI, mostrando sus particularidades con respecto a otros proyectos epistolares del ámbito internacional. Se describen distintas prácticas tanto en el modelado de metadatos como de anotaciones en el texto y se valora su interés a la hora de extraer el máximo rendimiento de las posibilidades que ofrecen las humanidades digitales hoy para el conocimiento de los textos epistolares en sus múltiples dimensiones y, en particular, para la explotación de su estructura reticular.
Article
Full-text available
RESUMEN Este trabajo describe las bases metodológicas y contextuales del proyecto de investigación «Cuba y Andalucía en el siglo XIX: estudio de los lazos lingüísticos y culturales desde las Humanidades Digitales». El objetivo general es la creación y posterior tratamiento, con metodología propia de las Humanidades Digitales, de un corpus de documentación cubana del siglo XIX, su catalogación tipológica, estudio textual y análisis sociolingüístico. La originalidad de la propuesta consiste tanto en el rescate de una documentación inédita («documentos tomados al enemigo») como en el seguimiento de las ideas novedosas de la época en egodocumentos y prensa. Como resultado de todo ello se obtendrá un catálogo de rasgos variacionales cubanos y un esbozo de los conceptos y valores sociales y culturales que conforman la base de la identidad de la nueva Cuba. ABSTRACT This paper describes the methodological and contextual bases of the research project «Cuba and Andalucía in the 19 th century: a study of linguistic and cultural ties from the Digital Humanities». The general objective is the creation and subsequent treatment, with the methodology of the Digital Humanities, of a corpus of Cuban documentation from the 19 th century, its typological cataloguing, textual study and sociolinguistic analysis. The originality of the proposal consists both in the rescue of unpublished documentation («documents taken from the enemy») and in the follow-up of innovative ideas of the time in ego-documents and press. The result is a catalogue of Cuban variational features and an outline of the social and cultural concepts and values that define the basis of the identity of the new Cuba.
Article
Full-text available
Objetivo/Contexto: El texto propone un recorrido por la metodología y el proceso de trabajo seguidos en el proyecto Post Scriptum. A Digital Archive of Ordinary Writings (Early Modern in Spain and Portugal), el cual llevó a la conformación de un corpus epistolar digital -hoy disponible online- a partir de los fondos conservados en archivos judiciales durante la Edad Moderna en la Península Ibérica. Se reflexiona, desde un caso práctico, sobre la realidad del trabajo de campo realizado para construir un corpus digital y se evidencian sus fortalezas y debilidades, lo que nos permite ofrecer un examen de primera mano de algunos de los cambios y desafíos que supone la revolución digital en la que estamos sumergidos. Metodología: Se toman como punto de partida los avances en el campo de las Humanidades Digitales, a partir de los cuales se delinea la multidisciplinariedad que caracteriza tanto el proceso de conformación del corpus como sus posibilidades de análisis y estudio. Originalidad: Se muestra el trabajo completo que implica la transformación de las fuentes primarias en fuentes digitales en un proyecto innovador en el campo de las Humanidades Digitales y se plasman las problemáticas a las que se enfrenta el historiador/a en el trabajo con cartas privadas producidas por gente común (s. xvi-xix), que van desde la localización de estas fuentes hasta su selección, digitalización, edición, tratamiento y estudio posterior. Conclusiones: Además de mostrar el proceso de transformación de las fuentes y las posibilidades de análisis de un corpus digital, se evidencian los diferentes caminos de análisis de estas. Igualmente, se aborda la riqueza de los archivos como repositorios imprescindibles para recuperar fuentes epistolares privadas y cotidianas y se reflexiona sobre el futuro de la conservación en el entorno digital.
Article
Full-text available
This article presents Oralia diacrónica del español (ODE: Spanish diachronic oral corpus), a new digital resource for the study of historical dialectology. This corpus was created using TEITOK, ‘a web-based framework for corpus creation, annotation, and distribution, that combines textual and linguistic annotation within a single TEI-based XML document’ (Janssen, 2016, p. 3047). ODE is a diachronic corpus of Spanish documents written between 1492 and the end of the 19th century that consists of two sub-corpora: a main corpus comprising of manuscripts from the old Kingdom of Granada (the modern-day provinces of Granada, Málaga, and Almería) and a control corpus comprising of documents from the Northern half of Spain. The texts include inventories of goods, witnesses’ testimonies in criminal trials and medical certificates. The final goal is to create a corpus of approximately 600,000 tokens, especially designed for the analysis of historical dialectal research. The new online corpus has successfully overcome the following difficulties: (1) It combines a philological/textual scholarship and a corpus linguistics approach. (2) It allows working in a single edition visualised in different formats by the end user in the digital resource. (3) Furthermore, it permits independent management, since scholars can upload and edit their work, having control over their own research without the need for an external person in charge of the digital resource.
Thesis
Full-text available
En los siglos XVI-XIX el género epistolar era una forma muy extendida de comunicación para todo tipo ámbitos: comercial, ensayístico-literario, etc. También encontramos una gran cantidad de escritos epistolares particulares, en los que personas de toda clase social se informan sobre asuntos de diversa índole. Estas cartas ofrecen una importante oportunidad para estudiar el lenguaje empleado en esta época, teniendo en cuenta las peculiaridades propias del género en cuanto a estructura y discurso. Un corpus digitalizado y lematizado como Post Scriptum (CLUL, 2014) ofrece además la posibilidad de realizar un exhaustivo análisis cuantitativo y cualitativo. La importancia y presencia de la religión en todos los ámbitos de la España de los siglos XVI-XIX, y por lo tanto, en el lenguaje en esta época y en las fórmulas establecidas para el género epistolar, nos ha llevado a considerar de interés el análisis de esta terminología en el corpus español de Post Scriptum.
Article
Full-text available
En este trabajo, proponemos un estudio sobre leísmo, laísmo y loísmo desde una perspectiva diacrónica, basándonos en el material que ofrece P. S. Post Scriptum, un corpus compuesto por cartas privadas escritas entre el siglo XVI y el primer tercio del siglo XIX. Dentro de este marco temporal, nuestro objetivo es aportar nuevos datos y nuevos ejemplos sobre tres cuestiones que nos parecen fundamentales acerca de la variación pronominal: los diferentes grados de difusión que presentan los empleos innovadores de los pronombres, la distribución de estos empleos en función de las características referenciales del antecedente y el tratamiento de estos fenómenos de variación desde un punto de vista dialectal, ofreciendo algunos mapas dialectales y comparando la distribución geográfica actual con la que arrojan nuestros datos para la época estudiada.
Chapter
The Corpus of Early English Correspondence (CEEC) was compiled within the Sociolinguistics and Language History research project, which was funded by the Academy of Finland and the University of Helsinki in 1993–97. After that date, the researchers concerned with this project formed the core of the Historical Sociolinguistics team in the Research Unit for Variation and Change in English (VARIENG) at the University of Helsinki, which was chosen as one of the national Centres of Excellence by the Academy of Finland for 2000–05 and 2006–11. During this period the CEEC has been enlarged, and work with grammatical annotation and methodological development will continue.
Article
Until very recently, pragmatics has been restricted to the analysis of contemporary spoken language while historical linguistics has studied historical texts and language change in a decontextualized way. This has now radically changed and scholars from around the world are trying to build a new theoretical framework that integrates recent advances both in pragmatics and in historical linguistics. The volume, which contains 22 original articles, starts with an introduction that is both a state-of-the-art account of historical pragmatics and a programmatic statement of its future potential and its different subfields. Part I contains seven pragmaphilological papers that deal with historical texts and their interpretations by paying close attention to the communicative context of these texts. The second and third parts comprise papers in diachronic pragmatics. The ten papers of part II take a linguistic form as their starting point, e.g. particular lexical items or syntactic constructions, and study their pragmatic functions at different times (diachronic form-to-function mappings), while the four papers of part III take a particular pragmatic function as their starting point, e.g. discourse strategies or politeness, and study their linguistic realisation at different times (diachronic function-to-form mappings).
Chapter
The primary task of a linguist is to ?remove the filter? as far as possible, that is, to assess the nature of the recording process in all possible and relevant ways and to evaluate and take into account its likely impact on the relationship between the speech event and the record, to reconstruct the speech event itself, as accurately as possible. This chapter discusses some possibilities and problems associated with this approach, and some necessary considerations and steps in the process of ?filter removal.? It considers basic requirements for texts to be acceptable for variationist analyses, categorizes them by text types, and talks about some characteristics of the most important text types in the light of their usefulness for variationist purposes. The chapter proposes five text categories which represent a continuum of increasing distance between an original speech event and its written record.
Article
The mutability of electronic editions confronts editors with a new world, in which large parts of current editorial theory must be re-thought, based as it often is on assumptions based on the properties of paper editions. Software can adapt more easily than paper to the needs and interests of the reader, which means many choices about the selection of information in an edition and its presentation to the reader no longer need to be fixed for all time, but can be left open for the reader. Software also tends to have a very short lifetime compared to paper; in order to remain usable for more than a few years, electronic editions must find ways of representing the essential information of the edition in software-independent, non-proprietary ways.
«From Helsinki through the centuries: the design and development of English diachronic corpora
  • Thomas Kohnen
KOHNEN, Thomas (2007): «From Helsinki through the centuries: the design and development of English diachronic corpora», en Päivi Pahta, Irma Taavitsainen, Terttu Navelainen y Jukka Tyrkkö (eds.), Studies in Variation, Contacts and Change in English. Volume 2: Towards Multimedia in Corpus Studies. [28, 06, 2017] <http://www.helsinki.fi/varieng/series/volumes/02/kohnen/>.
E-DICTOR, Version 1.0 beta 10
  • Paixão De
  • Maria Sousa
  • Clara
  • Kepler Y Pablo Picasso Fabio
  • D E Feliciano
  • Faria
PAIXÃO DE SOUSA, Maria Clara, Fabio KEPLER y Pablo Picasso Feliciano DE FARIA (2013): E-DICTOR, Version 1.0 beta 10, 2013. [28, 06, 2017] <http://edictor.net/download>.
«Annotation and Representation of a Diachronic Corpus of Spanish
  • Cristina Sánchez-Marco
  • Gemma Boleda
  • Josep Maria Fontana Y Judith
SÁNCHEZ-MARCO, Cristina, Gemma BOLEDA, Josep Maria FONTANA y Judith DOMINGO (2010): «Annotation and Representation of a Diachronic Corpus of Spanish», Proceedings of the International Conference on Language Resources and Evaluation (LREC). Malta, mayo de 2010, 2713-2718.