Conference PaperPDF Available

L’Open Philology Project dell’Università di Lipsia: Per una filologia “sostenibile” in un mondo globale

Authors:

Figures

Content may be subject to copyright.
3
Table of contents
Collaborative Research Practices
and Shared Infrastructures
for Humanities Computing
2nd
Aiucd
Annual Conference,
Aiucd
2013
Padua, Italy, 11-12 December 2013
Proceedings of Revised Papers
Maristella Agosti and Francesca Tomasi (Eds)
4
Table of contents
Prima edizione: settembre 2014
ISBN 978 88 6787 260 2
cleup
sc
“Coop. Libraria Editrice Università di Padova”
via G. Belzoni 118/3 – Padova (t. 049 8753496)
www.cleup.it - www.facebook.com/cleup
© 2014
Aiucd
Tutti i diritti di traduzione, riproduzione e adattamento,
totale o parziale, con qualsiasi mezzo (comprese
le copie fotostatiche e i microfilm) sono riservati.
In copertina:
Graphic Design: Massimo Malaguti – Scuola Italiana Design (elaborazione del logo
di A
iucd
).
http://www.umanisticadigitale.it
5
Table of contents
Aiucd
2013 was organized by the Information Management Group of the
Department of Information Engineering of the University of Padua, Italy.
Committees
General Chair
Dino Buzzetti, Presidente
Aiucd
Program Chairs
Maristella Agosti, Dipartimento di Ingegneria dell’Informazione, Università
degli Studi di Padova
Anna Maria Tammaro, Dipartimento di Ingegneria dell’Informazione, Uni-
versità degli Studi di Parma
Program Committee
Fabio Ciotti, Dipartimento Studi Umanistici, Università di Roma Tor Vergata
Giorgio Maria Di Nunzio, Dipartimento di Ingegneria dell’Informazione,
Università degli Studi di Padova
Maurizio Lana, Dipartimento di Studi Umanistici, Università del Piemonte
Orientale
Federico Meschini, Dipartimento di Scienze Umanistiche, della Comunica-
zione e del Turismo, Università degli Studi della Tuscia
Nicola Orio, Dipartimento di Beni Culturali, Università degli Studi di Padova
Nicola Palazzolo, già ordinario nell’Università di Perugia
Organization
6
Table of contents
Roberto Rosselli Del Turco, Dipartimento di Studi Umanistici, Università di
Torino
Marco Rufino, Fondazione Rinascimento Digitale, Firenze
Francesca Tomasi, Dipartimento di Filologia Classica e Italianistica, Univer-
sità di Bologna
Award Chair
Francesca Tomasi, Dipartimento di Filologia Classica e Italianistica, Univer-
sità di Bologna
Local Committee
Debora Leoncini, Dipartimento di Ingegneria dell’Informazione, Università
degli Studi di Padova
Marta Manfioletti, Dipartimento di Ingegneria dell’Informazione, Universi-
tà degli Studi di Padova
Chiara Ponchia, Dipartimento di Beni Culturali, Università degli Studi di
Padova
Gianmaria Silvello, Dipartimento di Ingegneria dell’Informazione, Universi-
tà degli Studi di Padova
7
Table of contents
prefAce / prefAzione
11
Maristella Agosti, Francesca Tomasi
KEYNOTE
Keynote Address / intervento invitAto
Toward a Computational Narratology 17
Jan Christoph Meister
INVITED
contributions from reseArch Groups And centers
/
contributi di centri e Gruppi di ricercA
Nuovi scenari per la ricerca in filosofia: i testi e gli strumenti
del portale Daphnet 39
Michela Tardella, Cristina Marras
Acquisizione e Creazione di Risorse Plurilingui per gli Studi
di Filologia Classica in Ambienti Collaborativi 55
Federico Boschetti
Da Musisque Deoque a Memorata Poetis. Le vie della ricerca 69
intertestuale
Paolo Mastandrea, Luigi Tessarolo
Table of contents
8
Table of contents
PANELS
diGitAl resources And networK services for diGitAl humAnities
reseArch
/
risorse diGitAli e servizi di rete per lA ricercA
in cAmpo umAnistico
Digital humanities: difficoltà istituzionali e risposte infrastrutturali 81
Dino Buzzetti
Digital humanities e analisi dei testi 89
Paolo Mastandrea
Infrastrutture e risorse digitali. L’esperienza dell’I
liesi
93
Antonio Lamarra
D
h
@I
lc
: linee di attività e ricerca 101
Simonetta Montemagni
the diGitAl librAry to support the computer humAnist
/
lA bibliotecA diGitAle A supporto dellumAnistA informAtico
Digital libraries and digital humanities scholars: community context,
workflow and collaboration 115
Anna Maria Tammaro
e-Infrastructures per le esigenze della ricerca 121
Rossella Caffo
(Formal) Models for systems, infrastructures, communities,
and cultures 129
Nicola Ferro
Biblioteche digitali e studi umanistici 135
Maurizio Lana
Some remarks about Museo Galileo’s digital collections 143
Stefano Casati, Fabrizio Butini
PAPERS
diGitAl philoloGy / filoloGiA diGitAle
L’Open Philology Project dell’Università di Lipsia. Per una filologia
‘sostenibile’ in un mondo globale 151
Monica Berti, Greta Franzini, Emily Franzini,
Giuseppe Celano, Gregory R. Crane
9
Table of contents
A collaborative tool for philological research: experiments
on Ferdinand de Saussure’s manuscripts 163
Angelo Mario Del Grosso, Simone Marchi, Francesca Murano,
Luca Pesini
Edition Visualization Technology: a tool to publish digital editions 177
Raffaele Masotti, Julia Kenny
Codifying the codex. The digital edition of the Becerro Galicano
of San Millán 187
David Peterson
diGitAl culturAl heritAGe / pAtrimonio culturAle diGitAle
ASIt: Atlante Sintattico d’Italia: A linked open data geolinguistic
web application 197
Giorgio Maria Di Nunzio, Jacopo Garzonio, Diego Pescarini
The “Verbo-Visual Virtual” Platform for Digitizing and Navigating
Cultural Heritage Collections 205
Alessandro Marchetti, Sara Tonelli, Roberto Sprugnoli
Dante. A Web Application for the History of Art 219
Chiara Ponchia
Digital Lightbox: a web-based visualization framework applied
to paleographical research 229
Giancarlo Buomprisco
Towards a shared methodology for audio preservation:
Luciano Berio’s private collection of sound recordings 237
Federica Bressan, Sergio Canazza
Knowledge objects and bodies of knowledge: knowledge sharing
platforms applied to international relations 249
Giuseppe Vitiello
educAtionAl ApproAches / didAtticA
Moodle as a collaborative platform for digital humanities 261
Giuseppe Fiorentino, Maria Accarino,
Alessia Pierfederici, Daniela Rotelli
10
Table of contents
Geostoria del quotidiano. Proposte per un’analisi automatica
del testo letterario 269
Alessia Scacchi
Managing Educational Information on University Websites:
a proposal for Unibo.it 279
Federico Nanni
Author index 287
151
L’Open Philology Project dell’Università di Lipsia
L’
Open Philology Project
dell’Università di Lipsia.
Per una filologia ‘sostenibile’ in un mondo globale*
Monica Berti1, Greta Franzini1, Emily Franzini1,
Giuseppe G.A. Celano1, Gregory R. Crane1,2
1 Humboldt Chair of Digital Humanities / Universität Leipzig, Leipzig, Germany
{berti, franzini, efranzini, celano, crane}@informatik.uni-leipzig.de
2 Perseus Project / Tufts University, Medford,
mA, usA
gregory.crane@tufts.edu
Abstract: Argomento di questo articolo è la presentazione dell’Open Philology
Project della Humboldt Chair in Digital Humanities dell’Università di Lipsia. Il
progetto nasce nell’ambito delle attività del Perseus Project della Tufts University e
ha come scopo primario lo sviluppo di una collezione di risorse linguistiche greche e
latine leggibili dalla macchina, la creazione di manuali dinamici basati su corpora an-
notati e l’avvio di nuove forme di pubblicazione riguardanti le lingue classiche, che
possono includere sia annotazioni individuali che edizioni tradizionali integrate con
dati elaborabili dalla macchina. L’Open Philology Project include tre componenti
principali costituite dall’Open Greek and Latin, dall’Historical Languages e-Learning
Project, e dall’Open Access Publishing.
Parole chiave: big data, O
cr
, e-Learning, greco, latino, didattica, publishing, busi-
ness, treebanking, annotazione linguistica, riusi testuali.
1. Introduzione
L’Open Philology Project (O
pp
) della Humboldt Chair in Digital Huma-
nities dell’Università di Lipsia aspira a riaffermare il ruolo e il valore della
filologia nel senso più ampio del termine1. Due secoli fa, nella sua fonda-
mentale opera di ripensamento degli studi classici, il filologo tedesco August
Böckh definiva la filologia come universae antiquitatis cognitio historica et
philosophica (Böckh 1858, 105; Id. 1877, 12). Prendendo spunto da questa
affermazione, s’intende recuperare il significato originario della parola greca
philologia (φιλολογία), la quale denota lo studio più vasto ed esaustivo
*
M. Agosti, F. Tomasi (Eds). Collaborative Research Practices and Shared Infrastructures for Huma-
nities Computing. 2nd Aiucd Annual Conference, Aiucd 2013.
cleup
, Padova, 2014.
1 L’indirizzo del progetto è http://www.dh.uni-leipzig.de/wo/projects/
152
Monica Berti, Giuseppe Celano, Gregory R. Crane, Greta Franzini, Emily Franzini
possibile delle testimonianze linguistiche al fine di promuovere una cono-
scenza approfondita dell’attività intellettuale prodotta dall’uomo. Nel caso
specifico, l’O
pp
mira a concentrare l’attenzione sul greco e sul latino per
quattro diversi motivi: 1) sono già disponibili in rete collezioni e strumenti
dedicati a queste lingue; 2) esistono comunità di utenti particolarmente nu-
merose (circa 35.000 utenti al mese accedono alle collezioni di fonti greche
e latine della Perseus Digital Library2); 3) il progetto ha sede in Europa, il
cui patrimonio culturale costituisce un bacino naturale per la creazione, lo
sviluppo e la distribuzione di materiali pertinenti all’antichità greco-latina;
4) la città di Lipsia vanta una tradizione editoriale e libraria di prim’ordine
nel campo della filologia classica – basti pensare alle edizioni critiche di te-
sti greci e latini pubblicate dalla casa editrice Teubner3 – e si pone dunque
come spazio privilegiato per la ridefinizione della filologia nell’ambito degli
studi di informatica umanistica.
L’O
pp
è stato concepito con la speranza di creare un modello applicabile
anche allo studio di altre lingue storiche. Più in particolare, esso persegue tre
obiettivi diversi ma strettamente connessi fra loro: 1) la creazione di una col-
lezione di risorse linguistiche leggibili dalla macchina, le quali siano aperte,
estensibili e riutilizzabili; 2) lo sviluppo di manuali dinamici basati su corpora
annotati, che permettano di personalizzare il vocabolario e la grammatica
dei testi esistenti e coinvolgere gli studiosi e gli studenti a produrre nuove
annotazioni in maniera collaborativa; 3) la promozione di nuove forme di
pubblicazione, che possono consistere sia in annotazioni individuali argo-
mentate che in edizioni tradizionali integrate con dati elaborabili dalla mac-
china. Questi obiettivi sono definiti attraverso le tre componenti dell’O
pp
presentate qui di seguito: 1) Open Greek and Latin Project; 2) Historical
Languages e-Learning Project; 3) Open Access Publishing.
2. Open Greek and Latin Project
L’Open Greek and Latin Project (O
Gl
) si sta attualmente dedicando alla
raccolta e alla scannerizzazione di edizioni di testi classici al fine di realizza-
2 Il progetto O
pp
nasce nell’ambito delle attività del Perseus Project presso la Tufts University
http://www.perseus.tufts.edu/
3 Sulla Bibliotheca scriptorum Graecorum et Romanorum Teubneriana si veda la pagina della
casa editrice De Gruyter http://www.degruyter.com
153
L’Open Philology Project dell’Università di Lipsia
re la più grande biblioteca digitale in materia, contribuendo nel contempo
all’arricchimento della collezione greca e latina di Google Books. In questo
ambito l’
oGl
riveste anche un ruolo di consulenza sulla legge europea sul
diritto d’autore, dato che redige una lista di edizioni europee che Google
Books può digitalizzare, offrendo dunque una tutela contro eventuali cause
legali4.
Tale raccolta, che è open source e open access, fornisce anzitutto imma-
gini ricercabili di edizioni di testi classici libere dai vincoli del copyright,
corredandole di traduzioni multilingue e codificandole secondo lo standard
tei Xml
(subset EpiDoc5). L’architettura dell’
oGl
è concepita per gestire
e mettere a disposizione degli utenti edizioni e traduzioni diverse per ogni
opera classica prodotta dall’antichità greco-latina, coprendo un arco di tem-
po che va dall’epoca arcaica al 600 d.C. Questa caratteristica distingue l’
oGl
dalla maggior parte dei corpora esistenti (i quali prevedono generalmente
un’unica edizione per opera) e costituisce un presupposto imprescindibile
sul quale fondare edizioni digitali che siano realmente critiche e multite-
stuali (sul concetto di ‘multitesto’ si veda Blackwell-Crane 2009). Per poter
realizzare questo obiettivo, l’
oGl
ha avviato collaborazioni con istituzioni
accademiche di altri paesi al fine di promuovere lo scambio di dati con pro-
getti di respiro internazionale. Tra i paesi coinvolti si annoverano la Bulgaria
(progetti Romulus Bulgaricus e Theseus6), la Croazia (Università di Zaga-
bria, Dipartimento di Filologia Classica, progetto Croala7), la Georgia (Ivane
Javakhishvili Tbilisi State University8), il Nebraska (progetto Digital Athe-
naeus9) e l’Italia (Università del Piemonte Orientale, progetto digilibLT10).
Tale iniziativa vorrebbe naturalmente estendersi ad altri paesi europei, spe-
rando di spostarsi anche su zone meno esplorate come l’Est Europeo e il
Medio Oriente.
Lo sforzo intrapreso dall’
oGl
comporta un lavoro di inserimento di dati
e l’uso di tecnologie
ocr
per arricchire un corpus potenzialmente già esisten-
te, che sia aperto e sufficientemente ampio da includere i circa 100.000.000
4 Per quanto riguarda le leggi sul copyright vigenti in diversi paesi si può consultare la voce
Wikipedia http://en.wikipedia.org/wiki/List_of_countries%27_copyright_lengths
5 http://sourceforge.net/p/epidoc/wiki/Home/
6 Si vedano rispettivamente http://romulus-bg.net e http://theseus.proclassics.org
7 http://www.tei-c.org/Activities/Projects/cr02.xml
8 http://www.tsu.edu.ge/en/
9 http://www.dh.uni-leipzig.de/wo/open-philology-project/digital-athenaeus/
10 http://digiliblt.lett.unipmn.it
154
Monica Berti, Giuseppe Celano, Gregory R. Crane, Greta Franzini, Emily Franzini
di parole prodotte dai primordi della classicità sino al VII secolo d.C. A que-
sto riguardo
oGl
ha firmato contratti con due aziende in grado di produrre
tale mole di lavoro. Il primo contratto è stato firmato con la compagnia
francese Jouve, la quale si de-dica alla digitalizzazione e, dove necessario,
all’inserimento manuale dei dati del Corpus Scriptorum Ecclesiasticorum La-
tinorum (
csel
) e dei primi cinquanta volumi della Patrologia Latina11. Inol-
tre, alla luce della collaborazione italo-tedesca, Jouve si occuperà della digi-
talizzazione di volumi destinati all’arricchimento di digilibLT, la biblioteca
digitale dei testi latini tardoantichi dell’Università del Piemonte Orientale
di Vercelli12. Il secondo contratto è stato firmato con Digital Divide Data
(D
dd
), un’azienda americana con filiali in Laos e Cambogia13. D
dd
si occupa
di digitalizzare i volumi 51-122 della Patrologia Latina e di altre opere gre-
che, tra le quali quelle di Ateneo, Filone Alessandrino, Libanio, i commenti
greci ad Aristotele (Commentaria in Aristotelem Graeca) e, in un prossimo
futuro, la Patrologia Graeca14. L’intento, infatti, è quello di testare entrambi
i workflows e, qualora portassero a buoni risultati, rinnovare i contratti per
produrre edizioni elettroniche di Eschilo, della raccolta dei frammenti degli
storici romani (Historicorum Romanorum Reliquiae) e di qualsiasi altro au-
tore fosse richiesto dai collaboratori dell’
oGl
.
Il workflow di queste attività prevede che il gruppo di ricerca dell’Uni-
versità di Lipsia gestisca l’input e verifichi la validità del prodotto finale,
mentre le compagnie con le quali sono stati stipulati i contratti si occupano
della parte tecnica e meccanica del progetto. L’organizzazione del lavoro
può essere riassunta nel modo seguente:
Università di Lipsia – Ogni autore o volume o serie di volumi deve essere
codificata secondo la struttura dell’edizione di riferimento. Questa necessità
comporta la creazione di templates molteplici che riflettono la diversità delle
edizioni, pur rimanendo sempre compatibili con le specifiche di EpiDoc e
11 Per digitalizzazione si intende il riconoscimento ottico dei caratteri (O
cr
), la correzione
dell’output dell’O
cr
, nonché la codifica in EpiDoc XML. Per informazioni sul gruppo Jouve
si veda http://www.jouve.com/
12 Vd. n. 10.
13 http://www.digitaldividedata.org
14 La decisione di dividere i volumi della Patrologia Latina fra Jouve e D
dd
è stata dettata dal
desiderio di paragonare due differenti workflows e outputs. I risultati prodotti permetteranno
di scegliere il procedimento migliore in termini di metodo/qualità/prezzo.
155
L’Open Philology Project dell’Università di Lipsia
in particolare con la classe di marcatori (tags)
cite
-friendly15. Il gruppo di
lavoro dell’Università di Lipsia si occupa di analizzare la struttura di ogni
edizione e di ricavarne un documento descrittivo con template allegato da
inoltrare alle aziende ingaggiate per il lavoro. Esso, inoltre, si occupa anche
di scaricare e fornire le scansioni esistenti delle suddette edizioni in forma-
to
tiff, pnG
o J
p
216. Queste immagini vengono correttamente catalogate e
caricate su un server che contribuisce alla creazione del corpus Open Greek
and Latin. Per quanto concerne le collaborazioni, è responsabilità dell’ente
collaboratore fornire al gruppo di lavoro dell’Università di Lipsia le imma-
gini necessarie. Sebbene la correzione degli errori prodotti dall’OCR venga
effettuata dalle due aziende Jouve e D
dd
, lo strumento che queste ultime uti-
lizzano per svolgere tale compito è stato sviluppato dall’Università di Lipsia.
Nello specifico, il Proofreader (cfr. fig. 1) ottimizza uno strumento sviluppa-
to da Bruce Robertson e Federico Boschetti e permette di allineare l’output
dell’
ocr
a edizioni conosciute e consentire correzioni semi-automatiche
tramite un’interfaccia semplice e intuitiva (Boschetti et al. 2009; cfr. inoltre
Manmatha-Feng 2006 e Bryant et al. 2010)17. Il gruppo di lavoro di Lipsia
si occupa infine di supervisionare il workflow e assicurarsi che i termini e le
scadenze previste siano rispettati.
Jouve e D
dd
– Come si è detto, le due aziende si occupano di ‘O
cr
izzare’
le immagini fornite dall’Università di Lipsia, di correggere eventuali errori
utilizzando lo strumento loro fornito e di codificare il testo secondo le spe-
cifiche EpiDoc che sono state predisposte. Eventuali commenti, problemi e
richieste vengono gestite tramite posta elettronica e videoconferenze a sca-
denza regolare.
15 Sulla
cts/cite
Architecture sviluppata dall’Homer Multitext Project per la codifica dei
manoscritti omerici si veda http://www.homermultitext.org/hmt-doc/cite/
16 Le biblioteche digitali di riferimento sono Archive.org (https://archive.org/details/texts),
HathiTrust Digital Library (http://www.hathitrust.org/) e Deutsche Digitale Biliothek
(https://www.deutsche-digitale-bibliothek.de/). Le scansioni vengono scaricate e convertite
nel formato richiesto da Jouve e D
dd
in maniera semi-automatica con strumenti ad hoc svi-
luppati dal gruppo di lavoro dell’Università di Lipsia. Ogni scansione necessita anche una
corretta catalogazione in quanto le biblioteche digitali di riferimento spesso presentano meta-
data errati. Un esempio è la Patrologia Graeca sotto la quale risultano essere stati erroneamen-
te catalogati molti volumi, che richiedono pertanto un ulteriore controllo manuale.
17 Il Proofreader è stato sviluppato e ottimizzato da Frederik Baumgardt (Università di Lip-
sia), Bruce Robertson (Mount Allison University) e Federico Boschetti (C
nr
Pisa). Su questi
strumenti si vedano https://github.com/CoPhi e http://heml.mta.ca/rigaudon
156
Monica Berti, Giuseppe Celano, Gregory R. Crane, Greta Franzini, Emily Franzini
Un terzo contratto, ancora in fase di definizione, includerà la scansione
di edizioni pubblicate tra il 1922 e il 1985 e che sono dunque ancora sogget-
te ai vincoli del copyright. Parte del workflow della biblioteca responsabile
(tedesca per questioni di logistica) comporterà la rimozione degli apparati
critici e delle note, fornendo all’Università di Lipsia solo il testo latino o gre-
co dell’opera curata dall’editore. Tali scansioni verranno aggiunte al sistema
digitale bibliotecario tedesco per permettere a terzi di usufruirne. Qualora
la biblioteca in questione non disponesse dei libri necessari, sarà cura della
biblioteca dell’Università di Lipsia fornirgliene copia18.
Un progetto che verrà avviato in futuro vedrà anche la partecipazione
degli utenti al lavoro di digitalizzazione, come sta avvenendo ora mediante il
coinvolgimento degli studenti dei corsi di filologia digitale organizzati pres-
so l’Università di Lipsia e degli studenti Erasmus19. Il gruppo di lavoro di
Lipsia sta infatti sviluppando un processo computazionale integrato con un
sistema di pianificazione e notifica, che fornirà una visione sequenziale del
progresso dei lavori dell’
oGl
e faciliterà i contributi esterni, per esempio da
parte di ricercatori e studenti e di tutti coloro che sono interessati all’inizia-
tiva. Vista la natura pubblica e aperta del progetto
oGl
, il workflow dell’O
cr
è stato progettato con interfacce che permettono agli utenti di partecipare
18 La biblioteca di Lipsia, per quanto attrezzata in termini di digitalizzazione, non dispone
ancora delle risorse umane necessarie per svolgere questo lavoro in tempi brevi.
19 http://www.dh.uni-leipzig.de/wo/courses/
Fig. 1. Proofreader: strumento di correzione dell’output O
cr.
157
L’Open Philology Project dell’Università di Lipsia
al lavoro di digitalizzazione. Sviluppato sulla base dell’Oracle Grid Engi-
ne, il workflow consiste di tre componenti principali: 1) un nucleo (core)
intercambiabile di uno dei tre motori
ocr
(Gamera, Tesseract,
ocr
opus);
2) un livello di ottimizzazione sviluppato da Bruce Robertson e Federico
Boschetti; 3) un modulo per allineare l’output dell’
ocr
a edizioni conosciute
e consentire correzioni semi-automatiche.
I dati prodotti da questo processo vengono codificati secondo le speci-
fiche EpiDoc, le quali forniscono un tipo di marcatura standardizzata, ma
non ristretta, e compatibile con i testi dell’
oGl
. Tale codifica viene realizzata
in parallelo alla conversione in EpiDoc dei file della Perseus Digital Library.
La possibilità di disporre dei testi della Perseus D
l
e dell’
oGl
in forma-
to EpiDoc faciliterà lo scambio e il collegamento dei dati con le collezioni
di documenti epigrafici e papirologici che sono già stati codificati in que-
sto modo e con tutte quelle altre banche dati che sono attualmente in fase
di conversione, come per esempio
eAGle
(Europeana Network of Ancient
Greek and Latin Epigraphy)20.
3. Historical Languages e-Learning Project
Un’ulteriore componente dell’
opp
è rappresentata dall’Historical Lan-
guages e-Learning Project, il cui obiettivo è quello di realizzare un sistema
per l’apprendimento delle lingue storiche in ambiente digitale. Questo si-
stema permette di selezionare frasi che abbiano una certa morfosintassi e/o
un certo lessico, sulla base degli interessi specifici del discente o del docente
che vuole impiegare questo sistema per insegnare le lingue classiche. Il testo
selezionato per il pilot del progetto è una sezione del primo libro della Guer-
ra del Peloponneso di Tucidide nota come Pentecontaetia (Thuc. 1.89-118).
Lo scopo del pilot è quello di insegnare alcuni aspetti della lingua greca sia
tramite l’uso della piattaforma e-Learning sia tramite un’attiva partecipazio-
ne di annotazione al testo. Dal successo del pilot dipenderà l’espansione del
progetto per includere altri testi.
Per suscitare la curiosità del pubblico interessato e fidelizzare gli utenti,
i creatori del pilot lavorano anche all’estetica della piattaforma e all’organiz-
zazione del contenuto (cfr. fig. 2). L’intento è che il materiale sia disposto in
modo intuitivo, divertente e incoraggiante, e che sia permesso all’utente di
20 http://www.eagle-network.eu/
158
Monica Berti, Giuseppe Celano, Gregory R. Crane, Greta Franzini, Emily Franzini
imparare e partecipare, qualsiasi sia la sua conoscenza della lingua greca. La
piattaforma e-Learning offrirà ulteriori vantaggi: la possibilità di iscriversi
alla piattaforma (tramite registrazione e log in) e quindi la scelta di abban-
donare e riprendere l’apprendimento a piacere, la possibilità di visualizzare
il proprio percorso di apprendimento e una cronologia delle proprie anno-
tazioni al testo, e infine la possibilità di esercitare la propria conoscenza lin-
guistica tramite esercizi basati direttamente sul testo greco. La piattaforma
offrirà inoltre la possibilità di scegliere la lingua moderna così che gli utenti
possano imparare il greco con strumenti tradotti nella propria lingua madre
(che non sia necessariamente l’inglese).
Motore del progetto è l’annotazione morfosintattica. I testi greci e latini
sono annotati semi-automaticamente per la morfologia utilizzando il tagger
Morpheus sviluppato dal Perseus Project, il quale restituisce un testo con
l’analisi morfologica di ogni parola21. Nel caso di più analisi possibili, spet-
ta all’annotatore decidere quale sia quella corretta sulla base del contesto.
L’annotazione morfologica costituisce la base per l’annotazione sintattica
che viene eseguita manualmente. Attraverso l’interfaccia grafica offerta da
21 http://wiki.digitalclassicist.org/Morpheus
Fig. 2. Historical Languages e-Learning Project, Homepage.
159
L’Open Philology Project dell’Università di Lipsia
Alpheios22, l’annotatore costruisce un albero sintattico secondo delle guideli-
nes che si ispirano a quelle adottate per la Prague Dependency Treebank 2.023.
La Ancient Greek and Latin Dependency Treebank del Persues Project
conta circa 400.000 parole24. Al momento è in corso una revisione tesa ad
arricchire l’annotazione con l’aggiunta di glosse secondo lo schema delle
Leipzig Glossing Rules25, al fine di promuovere un tipo di analisi standard
per la morfologia di ogni parola. L’annotazione conterrà inoltre riferimenti
alla grammatica greca dello Smyth (1920) per coniugare il sapere della gram-
matica tradizionale con quello della Functional Generative Description della
treebank di Praga.
4. Open Access Publishing
Uno degli obiettivi principali dell’
opp
consiste nella creazione di un
nuovo modello di edizioni scientifiche native digitali. Questo obiettivo è
attualmente perseguito mediante l’implementazione di Perseids, che è una
piattaforma collaborativa della Perseus D
l
sviluppata mediante la persona-
lizzazione di risorse open source create per annotare fonti classiche codificate
secondo lo standard
tei Xml
(per una descrizione della piattaforma e di di-
versi progetti ad essa connessi si veda Almas-Beaulieu 2013)26. Perseids è un
ambiente condiviso dove gli utenti possono editare, tradurre e commentare
diverse tipologie di fonti antiche, comprese le iscrizioni e i manoscritti. L’o-
biettivo di Perseids è duplice, perché mira sia alla pubblicazione di edizioni
scientifiche che allo sviluppo di risorse didattiche per gli studenti dei corsi
universitari:
1) Per quanto riguarda la comunità scientifica, uno dei principali mo-
delli di pubblicazione all’interno di Perseids è il Fragmentary Texts Editor
(
fte
), che ha la funzione di produrre annotazioni complesse concernenti
opere conservate solo attraverso citazioni e riusi in testi coevi o posteriori
(Almas-Berti 2013a; Eadd. 2013b; Almas et al. 2013)27. A tal fine Perseids
22 http://alpheios.net/
23 http://ufal.mff.cuni.cz/pdt2.0/
24 http://nlp.perseus.tufts.edu/syntax/treebank/index.html
25 http://www.eva.mpg.de/lingua/resources/glossing-rules.php
26 Perseids è disponibile al seguente indirizzo ed è liberamente accessibile http://sites.tufts.
edu/perseids/
27 Per una demo dell’F
te
si veda http://perseids.org/sites/berti_demo/. Il codice sorgente è
disponibile al seguente indirizzo https://github.com/PerseusDL/lci-demo
160
Monica Berti, Giuseppe Celano, Gregory R. Crane, Greta Franzini, Emily Franzini
utilizza diversi metodi di in-line e stand-off markup combinando lo stan-
dard
tei Xml
e la
cts/cite
Architecture con altri data model, quali l’Open
Annotation Collaboration (
oAc
), il Systematic Assertion Model (
sAm
) e il
W3C Provenance Model (Almas et al. 2013). Parallelamente al Fragmentary
Texts Editor, la cattedra di informatica umanistica dell’Università di Lipsia
sta avviando il Leipzig Open Fragmentary Texts Series (
lofts
), il cui obiettivo
è la realizzazione di nuove edizioni native digitali di autori frammentari28.
Il progetto è supportato dal Perseus Project e avrà come sede di pubblica-
zione il Center for Hellenic Studies29. Il primo sforzo nell’ambito di questa
iniziativa è la digitalizzazione dei cinque volumi dei Fragmenta Historicorum
Graecorum pubblicati da Karl Müller tra il 1841 e il 1870 (progetto Digital
Fragmenta Historicorum Graecorum (
Dfhg
)), i quali costituiscono la prima
opera monumentale di raccolta dei frammenti degli storici greci e rappre-
sentano un ottimo punto di partenza per contribuire alla realizzazione di
edizioni digitali in materia30.
2) I risultati che Perseids mira a produrre non riguardano soltanto gli stu-
diosi ma anche gli studenti, i quali hanno l’opportunità di lavorare diretta-
mente sui documenti originali e contribuire ai risultati della comunità scien-
tifica. Questo tipo di attività è svolto in parallelo presso la Tufts University
e l’Università di Lipsia, la quale ha avviato una serie di corsi di filologia di-
gitale. Attraverso questi corsi gli studenti apprendono come trattare diverse
forme di organizzazione del sapere scientifico sviluppate dalla cultura della
stampa, come le edizioni critiche, i lessici, le enciclopedie, i commentari, gli
indici e le grammatiche. Gli studenti hanno inoltre l’opportunità di con-
centrarsi su temi particolarmente complessi, come l’annotazione linguistica
delle fonti storiche, la rappresentazione delle fonti frammentarie e dei riusi
testuali, o l’allineamento linguistico dei testi.
28
http://www.dh.uni-leipzig.de/wo/open-philology-project/the-leipzig-open-fragmentary-texts-
series-lofts/
29 http://chs.harvard.edu/
30 Per una descrizione del progetto si veda http://www.dh.uni-leipzig.de/wo/open-philology-
project/the-leipzig-open-fragmentary-texts-series-lofts/digital-fragmenta-historicorum-
graecorum-dfhg-project/. La pagina contiene un collegamento alle guidelines sviluppate dal
gruppo di lavoro dell’Università di Lipsia per la codifica dei volumi secondo lo standard
EpiDoc e un catalogo degli oltri 600 autori frammentari pubblicati dal Müller nei cinque
volumi dei FHG. Le linee guida, oltre a fornire uno strumento per tutti coloro che collabo-
rano al progetto, contribuiscono allo sviluppo generale delle guidelines di EpiDoc (http://
www.stoa.org/epidoc/gl/latest/), mentre il catalogo degli autori contribuisce allo sviluppo e
all’arricchimento del Perseus Catalog (http://catalog.perseus.org/).
161
L’Open Philology Project dell’Università di Lipsia
5. Open Data Revenue Models e Open Philology Publishing
A supporto dell’attività scientifica sopra descritta, l’
opp
intende svi-
luppare un business plan per creare strategie che permettano di sostenere
economicamente il progetto e renderlo in futuro autonomo da investimenti
esterni. Dato che l’
opp
è per definizione basato su un modello di accesso
libero e gratuito, la parte più complessa consiste nello sviluppare modelli
che consentano il sostenimento di una piattaforma di apprendimento aperta
e gratuita tramite l’aggiunta di servizi sofisticati a pagamento. Il principio
base è quello di creare un’alternativa all’attuale monopolio della produzione
del sapere, la cui fruizione è molto costosa per l’utente, favorendo un acces-
so gratuito, il quale sia però arricchito di servizi addizionali a basso costo
per apprendere, analizzare e contribuire ad una massa di dati complessi in
costante crescita. Il progetto intende fornire strumenti destinati a studiosi e
studenti, oltre che alle scuole e in generale al pubblico interessato. I servizi
offerti copriranno diverse aree, dai servizi informatici per l’e-Learning, ai
libri di testo interattivi, ai sistemi di valutazione e di ePortfolio.
6. Bibliografia
Almas B., Beaulieu M.C. (2013). Developing a New Integrated Editing Platform for
Source Documents in Classics. «Literary and Linguistic Computing», vol. 28, no
4, pp. 493-503. URL=http://llc.oxfordjournals.org/content/28/4/493.abstract.
[ultima visita 3.3.2014].
Almas B., Berti M. (2013a). Perseids Collaborative Platform for Annotating Text Re-
Uses of Fragmentary Authors. In F. Tomasi, F. Vitali, a. c. di, DH-Case 2013.
Collaborative Annotations in Shared Environments: metadata, vocabularies and
techniques in the Digital Humanities, ACM, art. no. 7.
URL=http://dl.acm.org/citation.cfm?id=2517986. [ultima visita 3.3.2014].
Almas B., Berti M. (2013b). The Linked Fragment: TEI and the Encoding of Text
Re-uses of Lost Authors. In F. Ciotti, A. Ciula, a. c. di, The Linked TEI: Text En-
coding in the Web. TEI Conference and Members Meeting 2013. Università Roma
La Sapienza, pp. 12-16.
URL=http://digilab2.let.uniroma1.it/teiconf2013/wp-content/uploads/2013/09/
book-abstracts.pdf. [ultima visita 3.3.2014].
Almas B., Berti M., Choudhury S., Dubin D., Senseney M., Wickett K.M. (2013).
Representing Humanities Research Data Using Complementary Provenance Mod-
els. Poster presentato al Building Global Partnerships - RDA Second Plenary
Meeting in Washington DC, 16-18 September 2013.
162
Monica Berti, Giuseppe Celano, Gregory R. Crane, Greta Franzini, Emily Franzini
URL=http://www.fragmentarytexts.org/wp-content/uploads/2013/09/LTH_
RDAPoster_2013.pdf. [ultima visita 3.3.2014].
Blackwell C., Crane C. (2009). Cyberinfrastructure, the Scaife Digital Library and Clas-
sics in a Digital Age. «Digital Humanities Quarterly», vol. 3, no 1. URL=http://
www.digitalhumanities.org/dhq/vol/003/1/000035/000035.html. [ultima visita
3.03.2014].
Böckh A. (1858). Gesammelte kleine Schriften, vol 1. Druck und Verlag von B.G.
Teubner.
Böckh A. (1877). Encyklopädie und Methodologie der philologischen Wissenschaften.
Druck und Verlag von B.G. Teubner.
Boschetti F., Romanello M., Babeu A., Bamman D., Crane G. (2009). Improving
OCR Accuracy for Classical Critical Editions. In Agosti M. et al., a. c. di, Research
and Advanced Technology for Digital Libraries, vol. 5714, Springer-Verlag, pp.
156-167.
URL=http://link.springer.com/chapter/10.1007%2F978-3-642-04346-8_17.
[ultima visita 3.3.2014].
Bryant M., Blanke T., Hedges M., Palmer R. (2010). Open Source Historical OCR:
The OCRopodium Project. In Lalmas M., Jose J., Rauber A., Sebastiani F., From-
mholz I., a. c. di, Research and Advanced Technology for Digital Libraries, vol.
6273, Springer-Verlag, pp. 522-525.
URL=http://link.springer.com/chapter/10.1007%2F978-3-642-15464-5_72.
[ultima visita 3.3.2014].
Manmatha R., Feng S. (2006). A Hierarchical, HMM-Based Automatic Evaluation
of OCR Accuracy for a Digital Library of Books. In Proceedings of the 6th ACM/
IEEE-CS Joint Conference on Digital Libraries, ACM, pp. 109-118.
URL=http://dl.acm.org/citation.cfm?doid=1141753.1141776.
[ultima visita 3.3.2014].
Smyth H.W. (1920). A Greek Grammar for Colleges. American Book Company.
... n. seg.). Nutro invece una certa diffi denza per l'opzione del crowdsourcing, sostenuta tra gli altri daBerti et al. 2014, Pierazzo 2015, pp. 26-31 e Robinson 2016 (con le sagge osservazioni di Rosellini 2017, pp. ...
Article
Against the opinion (false, to my mind) that Lachmannian textual criticism consists only in outdated technicalities, other voices, much more authoritative, but perhaps unheeded and certainly less mainstream, support the contrary view. Among the numerous aspects of this debate, by no means secondary is the constitution of digital text and apparatus in cases of complex recensio: between the extremes of a Lachmannian selective apparatus, and of a Bédier-style “democratic” one, the rules for a comprehensive digital apparatus remain to be created, and the enormous technical problems of tagging cannot and must not obscure the quintessentially scientific ones of the critical approach. With a series of operational reflections on two case studies (Cicero and Seneca the Philosopher), I try to trace a pathway that, while keeping a proper distance from any antiscientific, anticritical, antilachmannian, descriptive and genetic drift, makes it possible to fi nd, if one exists, a principium individuationis of the digital edition, with repercussions backwards, so to speak, on the choice of variants in the apparatus as traditionally printed.
Article
Full-text available
We present here the workshop DH-CASE 2013, aimed at investigating the state of art in the field of collaboration in text annotation, by exploring methods, tools and techniques used in the domain of the Digital Humanities (DH).
Conference Paper
Full-text available
http://digilab2.let.uniroma1.it/teiconf2013/program/papers/abstracts-paper#C126
Conference Paper
Full-text available
The goal of this document is to present a fragmentary texts demo built under Perseids, a collaborative platform being developed by the Perseus Project that leverages and extends pre-existing open source tools and services to support editing and annotating TEI XML documents in Classics: http://sites.tufts.edu/perseids/. The aim of this use case is to build a shared environment for multi-level annotations of text re-uses of ancient lost works: http://services.perseus.tufts.edu/berti_demo/index.html.
Conference Paper
Full-text available
This paper describes a work-flow designed to populate a digital library of ancient Greek critical editions with highly accurate OCR scanned text. While the most recently available OCR engines are now able after suitable training to deal with the polytonic Greek fonts used in 19th and 20th century editions, further improvements can also be achieved with postprocessing. In particular, the progressive multiple alignment method applied to different OCR outputs based on the same images is discussed in this paper.
Conference Paper
The Systematic Assertion Model (SAM) is a formal account of research data and its content - relating data identity, change over time, and varieties of scientific or scholarly equivalence directly to research transactions. Humanities use cases include a breadth of computational and interpersonal activities that call for a more inclusive understanding of provenance than SAM alone can provide. Integrating complementary views of the same research enterprise by combining SAM entities and properties with those from other models such as W3C's PROV and Open Annotation (OA) provides a richer, more contextualized view of data encoding and use in humanities research.
Article
The Department of Classics at Tufts University and the Perseus Project have jointly designed and tested an integrated platform (the Perseids Platform) on which students and scholars can collaboratively transcribe, edit, and translate Latin and Greek texts, creating vetted open source digital editions. This project, while giving students the opportunity to work with original untranslated documents, also contributes to the efforts of the scholarly community worldwide to meet the challenge of publishing large numbers of primary source documents online while preserving high editorial standards. The platform integrates the Son of SUDA Online software, originally developed to edit papyrological texts, and the Collections, Indexes, and Texts, with Extensions architecture, originally developed by the Center for Hellenic Studies of Harvard University to support the Homer Multitext Project. The present article discusses our scholarly and pedagogical objectives in developing the platform, the technical challenges we faced in the course of our work, and the results we obtained.
Conference Paper
In this paper we present some initial results of OCRopodium project to build a scalable workflow for OCR of historical collections. Large-scale digitisation projects dealing with text-based historical material face challenges that are not well-catered-to by commercial software. Open source tools allow for better customisation to match these requirements, particularly with regard to character model training and per-project language modelling.
Conference Paper
A number of projects are creating searchable digital libraries of printed books. These include the Million Book Project, the Google Book project and similar eorts from Yahoo and Microsoft. Content-based on line book retrieval usually re- quires rst converting printed text into machine readable (e.g. ASCII) text using an optical character recognition (OCR) engine and then doing full text search on the re- sults. Many of these books are old and there are a variety of processing steps that are required to create an end to end system. Changing any step (including the scanning process) can aect OCR performance and hence a good automatic statistical evaluation of OCR performance on book length material is needed. Evaluating OCR performance on the en- tire book is non-trivial. The only easily obtainable ground truth (the Gutenberg e-texts) must be automatically aligned with the OCR output over the entire length of a book. This may be viewed as equivalent to the problem of aligning two large (easily a million long) sequences. The problem is fur- ther complicated by OCR errors as well as the possibility of large chunks of missing material in one of the sequences. We propose a Hidden Markov Model (HMM) based hierarchical alignment algorithm to align OCR output and the ground truth for books. We believe this is the rst work to automat- ically align a whole book without using any book structure information. The alignment process works by breaking up the problem of aligning two long sequences into the problem of aligning many smaller subsequences. This can be rapidly and eectiv ely done. Experimental results show that our hi- erarchical alignment approach works very well even if OCR output has a high recognition error rate. Finally, we eval- uate the performance of a commercial OCR engine over a large dataset of books based on the alignment results.
The Linked Fragment: TEI and the Encoding of Text Re-uses of Lost Authors The Linked TEI: Text Encoding in the Web. TEI Conference and Members Meeting 2013
  • B Almas
  • M Berti
Almas B., Berti M. (2013b). The Linked Fragment: TEI and the Encoding of Text Re-uses of Lost Authors. In F. Ciotti, A. Ciula, a. c. di, The Linked TEI: Text Encoding in the Web. TEI Conference and Members Meeting 2013. Università Roma La Sapienza, pp. 12-16.
Representing Humanities Research Data Using Complementary Provenance Models . Poster presentato al Building Global Partnerships -RDA Second Plenary Meeting in Washington DC
  • B Almas
  • M Berti
  • S Choudhury
  • D Dubin
  • M Senseney
  • K M Wickett
Almas B., Berti M., Choudhury S., Dubin D., Senseney M., Wickett K.M. (2013). Representing Humanities Research Data Using Complementary Provenance Models. Poster presentato al Building Global Partnerships -RDA Second Plenary Meeting in Washington DC, 16-18 September 2013.