Conference PaperPDF Available

Lexikographie: Explizite und implizite Verortung in den Digital Humanities

Authors:

Abstract

Ziel der hier vorgestellten Studie ist eine Beschreibung der Schnittmenge von Diskursräumen in der Lexikographie bzw. Metalexikographie und den Digital Humanities (DH). Dabei geht es um die Bestimmung von explizit bzw. implizit als Teil der DH aufzufassenden Beiträgen zu lexikographischen Themen und, andersherum, von lexikographierelevanten Themen, die in den DH diskutiert werden. Zur Bestimmung der Diskursräume, von Schnitt- und disjunktiven Mengen, werden Volltexte und Metadaten analysiert, bibliometrische Netzwerke (Autoren- bzw. Zitationsnetzwerke) verglichen und Topic Modelings vorgenommen.
Digital Humanities im deutschsprachigen Raum 2018
entries/evolution-cultural/ [letzter Zugriff 16. Sep-
tember 2017].
Laubichler, Manfred / Renn, Jürgen (2015):
“Extended Evolution. A Conceptual Framework
for Integrating Regulatory Networks and Niche
Construction”, in: Journal of Experimental Zoo-
logy 324B: 565-577.
Lieven, Elena (2013): “Language Acquisition as
a Cultural Process”, in: Richerson, Peter / Chris-
tiansen, Morten (Eds.) : Cultural Evolution. So-
ciety, Technology, Language, and Religion. Cam-
bridge/Mass.
Mesoudi, Alex / Whiten, Andrew / Laland, Ke-
vin N. (2006): “Towards a Unified Science of Cul-
tural Evolution”, in: Behavioural and Brain Scien-
ces 29: 329-383.
Mesoudi, Alex (2016): “Cultural Evolution. In-
tegrating Psychology, Evolution and Culture”, in:
Current Opinion in Psychology 7: 17-22.
Meyer, Julien (2015): Whistled Languages. A
Worldwide Inquiry on Human Whistled Speech.
Berlin, Heidelberg.
Moretti, Franco (2000): “Conjectures on World
Literature”, in: New Left Review 1: 54-68.
Munroe, Robert / Fought, John / Macaulay, Ro-
nald (2009): “Warm Climates and Sonority Classes
not Simply More Vowels and Fewer Consonants”,
in: Cross-Cultural Research 43,2: 123-133.
Nettle, Daniel (2012): “Social Scale and Structu-
ral Complexity in Human Languages”, in: Philoso-
phical Transactions of the Royal Society B: Biologi-
cal Sciences 367,1597: 1829-1836.
Porubanova-Norquist, Michaela / Shaw, Da-
niel / Xygalatas, Dimitris (2013): “Minimal-Coun-
terintuitivenes Revisited. Effects of Cultural and
Ontological Violations on Concept Memorability”,
in: Journal for the Cognitive Science of Religion
1,2: 181-192 https://pure.au.dk/ws/files/71907173/
Porubanova_et_al.pdf [letzter Zugriff 16. Septem-
ber 2017].
Ross, Robert / Greenhill, Simon / Atkinson,
Quentin (2013): “Population structure and cul-
tural geography of a folktale in Europe”, in:
Proceedings of the Royal Society B: Biological
Sciences 280,1756, http://rspb.royalsocietypublis-
hing.org/content/280/1756/20123065 [letzter Zu-
griff 16. September 2017].
Ross, Shawna (2014): “In Praise of Oversta-
ting the Case. A Review of Franco Moretti,
Distant Reading”, in: Digital Humanities Quar-
terly 8,1 http://www.digitalhumanities.org/dhq/
vol/8/1/000171/000171.html [letzter Zugriff 16.
September 2017].
Stubbersfield, Joseph / Tehrani, Jamshid
(2013): “Expect the Unexpected? Testing for Mi-
nimally Counterintuitive (MCI) Bias in the Trans-
mission of Contemporary Legends: A Computa-
tional Phylogenetic Approach”, in: Social Science
Computer Review 31,1: 90-102.
Tehrani, Jamshid (2013): “The Phylogeny
of Little Red Riding Hood”, in: PLoS ONE
8,11: e78871, https://doi.org/10.1371/journal.po-
ne.0078871 [letzter Zugriff 16. September 2017].
Tehrani, Jamshid / d’Huy, Julien (2016): “Phy-
logenetics Meets Folklore. Bioinformatics Ap-
proaches to the Study of International Folkta-
les”, in: Kenna, Ralph / MacCaroon, Márían /
MacCarron, Pádraig (Eds.): Maths Meets Myths.
Quantiative Approaches to Ancient Narratives.
Zürich: 91-114, https://link.springer.com/chap-
ter/10.1007%2F978-3-319-39445-9_6 [letzter Zu-
griff 16. September 2017].
Trudgill, Peter (2011): Sociolinguistic Typology.
Social Determinants of Linguistics Complexity. Ox-
ford.
Windram, Heather / Shaw, Prue / Robinson,
Peter / Howe, Christopher (2008): “Dante’s Mon-
archia as a Text Case for the Use of Phylogentic
Methods in Stemmatic Analysis”, in: Digital Scho-
larship in the Humanities 23,4: 443-463.
Lexikographie:
Explizite und implizite
Verortung in den Digital
Humanities
Lindemann, David
david.lindemann@uni-hildesheim.de
Universität Hildesheim, Deutschland
Kliche, Fritz
fritz.kliche@uni-hildesheim.de
Universität Hildesheim, Deutschland
Kutzner, Kristin
kutzner@uni-hildesheim.de
Universität Hildesheim, Deutschland
Zusammenfassung
Ziel der hier vorgestellten Studie ist eine Be-
schreibung der Schnittmenge von Diskursräumen
in der Lexikographie bzw. Metalexikographie und
den Digital Humanities (DH). Dabei geht es um
die Bestimmung von explizit bzw. implizit als
Teil der DH aufzufassenden Beiträgen zu lexiko-
graphischen Themen und, andersherum, von le-
xikographierelevanten Themen, die in den DH
257
Digital Humanities im deutschsprachigen Raum 2018
diskutiert werden. Zur Bestimmung der Diskurs-
räume, von Schnitt- und disjunktiven Mengen,
werden Volltexte und Metadaten analysiert, bi-
bliometrische Netzwerke (Autoren- bzw. Zitati-
onsnetzwerke) verglichen und Topic Modelings
vorgenommen.
Einleitung
Der Einzug digitaler Methoden und Werkzeuge
in die Geistes- und Sozialwissenschaften, genauer:
der als „computational turn“ (Berry 2011) be-
zeichnete methodisch-epistemologische Quanten-
sprung, lässt sich in allen Disziplinen der Huma-
nities beobachten. In der Sprachwissenschaft hat
sich dieser Wandel bekanntermaßen besonders
deutlich in der Etablierung der Computerlinguis-
tik als eigene Disziplin niedergeschlagen. Neben
computerlinguistischen Verfahren der Textana-
lyse sind eine maschinenlesbare Wissensreprä-
sentation und -organisation, sind Formate für
digitale Editionen und komputationell erstellte Vi-
sualisierungen heute in allen textbasierten Diszi-
plinen in Gebrauch.
Der angesprochene Wandel lässt sich eben-
falls in der Lexikographie feststellen. Die Lexi-
kographie bzw. Metalexikographie, als solche be-
reits seit geraumer Zeit als Disziplin emanzipiert
(Tarp 2008; Wiegand 2013), haben den Über-
gang zum digitalen Medium inzwischen vollzo-
gen (cf. zum frühen Stand der Dinge De Schryver
2003) und sind beständig dabei, ihr komputatio-
nell informiertes methodisches Instrumentarium
weiterzuentwickeln (Heid 2013). Als zentrale As-
pekte gelten hier der Einzug korpuslinguistischer
Verfahren in die Lexikographie (Hanks 2008;
Heid 2008), komputationelle Methoden zur Da-
tenrepräsentation (Spohr 2012), speziell auch für
die digitale Edition historischer Wörterbücher
(Lemnitzer u. a. 2013) und zur Implementie-
rung funktionsgerichteter Benutzerschnittstellen
(Heid 2014) sowie zur Wörterbuchbenutzungsfor-
schung (Müller-Spitzer 2014).
In der hier vorgestellten Studie gehen wir der
Frage nach, wie sich der gemeinsame Diskurs-
raum als Schnittmenge von Lexikographie und Di-
gital Humanities mit quantitativen Methoden de-
finieren lässt. Nach einer nicht exhaustiven und
von Hand durchgeführten Voruntersuchung fol-
gen wir der Ausgangshypothese, der gemeinsame
Diskursraum sei um ein Vielfaches größer als man
annehmen könnte, folgte man allein denjenigen
Themen, die als lexikographierelevant gelten kön-
nen und die in Publikationen diskutiert werden,
die explizit zum Bereich der DH gehören (vgl. Abb.
1).
Abb. 1: Ausgangshypothese: Explizite und im-
plizite Schnittmengen.
Diejenigen Arbeiten, die im DH-Kontext ver-
öffentlicht werden und explizit einem Thema
der Lexikographie zugeordnet werden, sind recht
leicht über relevante Schlüsselwörter bestimm-
bar. Dazu tritt die Gruppe jener Publikationen, die
zur eingangs skizzierten Schnittmenge zu zählen
sind, ohne dass sie sich selbst ausdrücklich den
Digital Humanities zuordnen. Es ist das Ziel dieser
Untersuchung, zu bestimmen, welche in der Lexi-
kographie diskutierten Themen und welche Auto-
ren zu dieser Gruppe gerechnet werden und also
eine Zurechnung zu den Digital Humanities impli-
zieren können.
Voruntersuchung und Zwi-
schenergebnis: Explizite Ver-
ortung in den DH
Als Voruntersuchung zum benannten Gegen-
stand haben wir eine Recherche in den Archiven
bedeutender englischsprachiger Zeitschriften der
Digital Humanities 1 sowie in den Proceedings der
ADHO-Jahreskonferenzen 2 durchgeführt. Über
die Suchbegriffe „Lexicography“ und „Dictionary“
finden sich in den genannten Archiven 31 eng-
lischsprachige Beiträge, die sich mit lexikographi-
schen Themen befassen, und die sich qua Erschei-
nen in DH-Medien zu denjenigen Publikationen
zählen lassen, die sich explizit in den Digital Hu-
manities verorten.
Eine manuelle Zuordnung lexikographierele-
vanter Schlüsselwörter zu den genannten 31 Bei-
trägen ergibt das in Tabelle 1 wiedergegebene
Bild; dabei sind mehrfache Zuordnungen mög-
lich. Zunächst lässt sich ohne Verwunderung fest-
stellen, dass in allen Beiträgen die digitale Re-
präsentation lexikalischer Daten eine Rolle spielt,
258
Digital Humanities im deutschsprachigen Raum 2018
allerdings mit unterschiedlichen Fragestellungen,
Herangehensweisen und Zielsetzungen. Die drei
größten Themencluster haben wir hier, in die-
ser Reihenfolge, mit den Schlagwörtern „e-Wör-
terbücher / Visualisierung lexikalischer Daten“,
„Historische Lexikographie“ und „Korpuslingu-
istik“ bezeichnet. Ersteres benennt Fragen der
Produktion digitaler Wörterbücher einschließlich
neuer Methoden der Visualisierung, letzteres die
Erstellung und Nutzung elektronischer Textkor-
pora zu einer Reihe lexikographischer Zwecke.
Beide Bereiche sind durch die Heraufkunft digita-
ler Methoden überhaupt erst möglich geworden
und haben die Lexikographie revolutioniert. Die
Historische Lexikographie kann als philologische
Disziplin gelten, die sich mit der Edition histo-
rischer lexikalischer Datensammlungen befasst;
die diesem Schlüsselwort zugeordneten Beiträge
befassen sich grundsätzlich mit Methoden digita-
ler Edition, einem Kernbereich der DH.
Schlüsselwort (Topic) Zählung
Digitale Wissensrepräsen-
tation / Formate
31
e-Wörterbücher / Visuali-
sierung lexikalischer Da-
ten
14
Historische Lexikographie 10
Korpuslinguistik 9
Wörterbuchnetz 4
NLP-Lexicon 2
Bilingual Dictionary Draf-
ting
2
Autorenwörterbuch 2
Dialektologie 1
Tabelle 1: Schlüsselwörter, manuelles Cluste-
ring, manuelle Zählung
Unter den weniger häufig gewählten Schlüssel-
wörtern sticht das „Wörterbuchnetz“ hervor, das
Strategien zur Vernetzung lexikalischer Ressour-
cen bezeichnet. Hinzu kommen noch lexikalische
Datensammlungen zur Anwendung in der ma-
schinellen Sprachverarbeitung („NLP-Lexicon“),
Methoden zum Entwurf zweisprachiger Wörter-
buchinhalte („Bilingual Dictionary Drafting“), das
„Autorenwörterbuch“, also Extraktionen aus Kor-
pora, die aus dem Schaffen jeweils einer Litera-
tin oder eines Literaten bestehen, sowie in einem
Fall dialektologische Forschung mit digitalen Me-
thoden.
Methode für die Bestimmung
implizit in den DH verorteter
Arbeiten
Wir haben ein Textkorpus erstellt, das im Zeit-
raum 2000 bis zur Gegenwart (2018) erschienene
englischsprachige Beiträge aus Zeitschriften, Kon-
gressakten und Handbüchern zu den Digital Hu-
manities (Subkorpus DH) und der Lexikographie
(Subkorpus Lexicog) enthält; Tabelle 2 gibt die Ti-
tel der verarbeiteten Quellen wieder. Dabei wur-
den die ausgewählten Zeitschriften bzw. Sam-
melbände jeweils vollständig berücksichtigt; die
Beiträge wurden zusammen mit Metadaten, u. a.
Verfasser (Name und Affiliation), Datum, Text-
sorte, Umfang und Identifier (ISBN, DOI), im Tool
Zotero 3 verwaltet. Die Volltexte wurden semiau-
tomatisch bereinigt und zusammen mit Metada-
tensätzen in das Korpus aufgenommen. Darüber
hinaus wurden die in den Volltexten enthaltenen
bibliographischen Referenzen extrahiert (GRO-
BID, Lopez 2009).
DH / 1.422 (41%) Digital Humanities Quar-
terly: http://www.digital-
humanities.org/dhq / 284
DSH (ex LLC): https://aca-
demic.oup.com/dsh / 886
TEI Journal of the Text En-
coding Initiative: http://
jtei.revues.org / 63
Digital Studies/Le champ
numerique: https://ww-
w.digitalstudies.org/ / 152
Blackwell Companion
to DH: Schreibman et al.
(ed.) 2004 / 37
Lexikog
/ 2.056
(59%)
IJL: http://ijl.oxfordjour-
nals.org/ 282
Lexikos: http://lexiko-
s.journals.ac.za/pub / 376
Dictionaries (Journal of
the DSNA): https://mu-
se.jhu.edu/journal/540 /
257
Euralex: https://eura-
lex.org/publications/ / 782
eLex: https://elex.link/ /
202
HSK 5/4: Gouws et al. (ed.)
2013 / 110
The Routledge Handbook
of Lexicography: Fuer-
tes-Olivera (ed.) 2018 / 47
259
Digital Humanities im deutschsprachigen Raum 2018
Tabelle 2: Quellen für das DH/Lexikog Textkor-
pus / Zahl der Volltexte
Topic Modeling
Unüberwachtes Topic Modeling (LDA, einge-
setztes Tool: MALLET (McCallum 2002)) soll es
uns ermöglichen, die in Abb. 1 grob skizzierten
Mengen als sich überschneidende Diskursräume
zu bestimmen und zu visualisieren. Unsere Er-
gebnisse zeigen die relative Relevanz in beiden
Subkorpora von 50 durch den LDA-Algorithmus
bestimmten, jeweils mit einer Reihe von Schlüs-
sel-Tokens repräsentierten Topics. Eine Reihe
von Anhaltspunkten spricht für das zuverlässige
Funktionieren der Methode: Die Liste der Topics,
die besonders DH-relevant seien, wird von den
Tokens „digital humanities computing tools“ an-
geführt, die Liste der Lexikographie-Topics von
„dictionary dictionaries english words word lear-
ners language“.
Bei der Ansicht der im Mittelfeld befindlichen
Topics, also Themen, die in beiden Subcorpora als
relevant bezeichnet sind, stellt sich heraus, dass
sich hier nicht nur der digitale Wandel als Thema
widerspiegelt, sondern dass darüber hinaus wei-
tere Topics den gemeinsamen Diskursraum von
Lexikographie und DH ausmachen. Inmitten von
Zeilen, die, quasi erwartungsgemäß, Tokens wie
„information model data structure process analy-
sis“ oder „corpus words frequency texts word cor-
pora table“ sowie eine ganze Reihe von Namen na-
türlicher Sprachen enthalten, ist hier etwa das mit
den Tokens „women male female gender woman
man people [...] black [...] girl feminist [...]“ reprä-
sentierte Topic auffällig (40 der 100 für dieses To-
pic relevantesten Beiträge stammen aus dem DH-,
60 aus dem Lexikog-Subkorpus).
Abbildung 2 zeigt für 50 von MALLET bestimmte
Topics (Spalten) die Verteilung der 100 jeweils
relevantesten Texte über die Subcorpora (Aus-
gabe von MALLET; DH-Beiträge sind grün, Lexi-
cog-Beiträge violett unterlegt). Es wird deutlich,
dass ein Teil der Topics eindeutig einem der Sub-
korpora zuzurechnen ist, andere Topics dagegen
eine starke Durchmischung aufweisen.
Abb. 2: Visualisierung des Topic Modeling
Citation Network
Für alle Artikel des Korpus (siehe Tabelle 2) un-
tersuchten wir die Anzahl der auf Items innerhalb
des Netzwerks gerichteten Zitationen. Es zeigten
sich 2.431 Zitationen (31% DH, 69% Lexicog). Die
Zitationen aus DH sind nur zu 2% auf items aus
Lexicog gerichtet; die Zitationen aus Lexicog zu
1% auf items aus DH.
Ergebnisse und Schlussfolge-
rungen
Die vorgestellten korpuslinguistischen und bi-
bliometrischen Untersuchungen bieten wie be-
schrieben Aufschluss über Schnitt- und disjunkte
Mengen von Themen- und Autorenclustern der
Lexikographie und der Digital Humanities. Vi-
sualisierungen dieser Cluster und Listen der re-
levanten Keywords und Autoren werden bereit-
gestellt. Topic Modeling und Zitationsnetzwerke
bilden unterschiedlich große Schnittmengen zwi-
schen beiden Disziplinen ab: Während einerseits
deutlich wird, dass eine ganze Reihe von Themen
in beiden Disziplinen relevant ist, zitiert man sich
vergleichsweise selten gegenseitig.
Die gezeigten Ergebnisse können zunächst zu
einer verbesserten gegenseitigen Wahrnehmung
in Lexikographie und Digital Humanities beitra-
gen sowie in der lexikographischen Community
das Bewusstsein dafür stärken, ein Gutteil der Dis-
ziplin gehöre durch die inhaltliche Überschnei-
dung de facto zum Einflussbereich der Digital Hu-
manities. Dies wiederum kann in der Zukunft zu
einer stärkeren expliziten Verortung relevanter
lexikographischer Beiträge in den Digital Huma-
nities führen.
Weiterhin haben wir mit den für diese Studie
durchgeführten Arbeiten eine annotierte biblio-
graphische Datensammlung angelegt und die da-
zugehörigen Volltexte mit korpuslinguistischen
Methoden annotiert und analysiert. Wir beabsich-
tigen, diese Sammlung auch weiterhin zu pflegen
und öffentlich zugänglich zu machen.
Fußnoten
1. Digital Humanities Quarterly, DSH, TEI Journal
2. http://adho.org
3. http://www.zotero.org
260
Digital Humanities im deutschsprachigen Raum 2018
Bibliographie
Berry, David M. (2011): „The Computational
Turn: Thinking About the Digital Humanities“.
(The Computational Turn). In Culture Machine 12
(0).
De Schryver, Gilles-Maurice (2003): „Lexico-
graphers’ Dreams in the Electronic‐Dictionary
Age“. In International Journal of Lexicography 16
(2): 143–199.
Fuertes-Olivera, Pedro (ed.) (2018): The Rout-
ledge Handbook of Lexicography. London: Rout-
ledge.
Gouws, Rufus / Heid, Ulrich / Schweickard,
Wolfgang / Wiegand, Herbert E. (eds.). (2013):
Dictionaries. An International Encyclopedia of Le-
xicography. HSK 5/4. Berlin / Boston: De Gruyter
Mouton.
Hanks, Patrick (2008). „The Lexicographical Le-
gacy of John Sinclair“. In International Journal of
Lexicography 21 (3): 219–229.
Heid, Ulrich (2008). „Corpus linguistics and le-
xicography“. In Anke Lüdeling / Merja Kytö (ed.)
Corpus Linguistics. An international Handbook:
131–153. Berlin: Mouton de Gruyter.
Heid, Ulrich (2013): „The impact of computatio-
nal lexicography“. In Gouws et al. 2013: 24–30.
Heid, Ulrich (2014): „Natural Language Proces-
sing Techniques for Improved User-friendliness
of Electronic Dictionaries“. In Proceedings of EUR-
ALEX 2012: 47–61.
Lemnitzer, Lothar / Romary, Laurent / Witt,
Andreas (2013): „Representing human and ma-
chine dictionaries in markup languages (SGML,
XML)“. In Gouws et al. 2013: 1195–1209.
Lopez, Patrice (2009): „GROBID: Combining Au-
tomatic Bibliographic Data Recognition and Term
Extraction for Scholarship Publications“. In Rese-
arch and Advanced Technology for Digital Libra-
ries: 473–474. Lecture Notes in Computer Science.
Berlin / Heidelberg: Springer
McCallum, Andrew K. (2002): MALLET: A Ma-
chine Learning for Language Toolkit. http://malle-
t.cs.umass.edu/.
Müller-Spitzer, Carolin (2014): „Methoden der
Wörterbuchbenutzungsforschung“. In Lexicogra-
phica 30 (1): 112–151.
Schreibman, Susan / Siemens, Ray / Unsworth,
John (2004): A Companion to Digital Humanities.
Oxford: Blackwell
Spohr, Dennis (2012): Towards a Multifunctio-
nal Lexical Resource, Design and Implementation
of a Graph-Based Lexicon Model. Lexicographica
Series Maior, 141. Berlin / Boston: De Gruyter.
Tarp, Sven (2008): Lexicography in the border-
land between knowledge and non-knowledge: gene-
ral lexicographical theory with particular focus on
learner’s lexicography. Lexicographica, Series Ma-
yor 134. Tübingen: Niemeyer.
Wiegand, Herbert E. (2013): „Lexikographie
und Angewandte Linguistik“. In Zeitschrift für an-
gewandte Linguistik 58 (1): 13–39.
Liebe und Tod in
der Deutschen
Nationalbibliothek
Der DNB-Katalog als
Forschungsobjekt
der digitalen
Literaturwissenschaft
Fischer, Frank
ffischer@hse.ru
Higher School of Economics, Moskau
Jäschke, Robert
r.jaschke@sheffield.ac.uk
Humboldt-Universität, Berlin
Einleitung
Der Sammelauftrag der Deutschen Nationalbi-
bliothek (DNB) beginnt 1913 und bezieht sich auf
»lückenlos alle deutschen und deutschsprachigen
Publikationen« (»Wir über uns«, 16.03.2017). Der
DNB-Katalog ist natürlich längst digitalisiert und
die Arbeit mit ihm mittlerweile sehr komfortabel,
da der Datendienst der DNB unter http://www.d-
nb.de/datendienst vierteljährlich einen Komplett-
abzug der Katalogdaten im RDF-Format bereit-
stellt, unter der freien Lizenz CC0 1.0. Momentan
(Stand vom 23.06.2017) enthält er 14 102 309
Datensätze, also Metadaten zu von der DNB ge-
sammelten Medien. Bisher gibt es aus geisteswis-
senschaftlicher Sicht nur wenige Versuche, diese
Quelle nutzbar zu machen (eine Ausnahme bilden
etwa Häntzschel u.a. 2009). Wir präsentieren ein
einfaches Framework, mit dem verschiedene As-
pekte des DNB-Katalogs untersucht werden kön-
nen, seine Entwicklung über die knapp 105 Jahre
seit Bestehen der Nationalbibliothek (vgl. auch
Schmidt 2017, der für die Library of Congress ei-
nen ähnlichen Ansatz vorgestellt hat). Wir kon-
zentrieren uns dabei auf Romane als Untersu-
chungsobjekt, von denen in der DNB rund 180000
261
... For term candidates extracted with TrEx, relevant metadata categories, including provencance, are listed in Table 1. The starting point for our RDF modeling is a proposal presented by German National Library (DNB), 8 that uses the W3C's PROV Data Model and PROV Ontology. 9 Table 1 Points for provenance data for TrEx iterations and single term candidates. ...
... 10 See https://github.com/locdb. 11 See https://github.com/kermitt2/grobid. 12 See https://github.com/knmnyn/ParsCit.13 Preliminary experiments related to that are explained in[8]. ...
Article
Full-text available
This short paper presents preliminary considerations regarding LexBib, a corpus, bibliography, and domain ontology of Lexicography and Dictionary Research, which is currently being developed at University of Hildesheim. The LexBib project is intended to provide a bibliographic metadata collection made available through an online reference platform. The corresponding full texts are processed with text mining methods for the generation of additional metadata, such as term candidates, topic models, and citations. All LexBib content is represented and also publicly accessible as RDF Linked Open Data. We discuss a data model that includes metadata for publication details and for the text mining results, and that considers relevant standards for an integration into the LOD cloud. 1 Introduction Our goal is an online bibliography of Lexicography and Dictionary Research (i. e. metalex-icography) that offers hand-validated publication metadata as needed for citations, that represents, if possible, metadata using unambiguous identifiers and that, in addition, is complemented with the output of a Natural Language Processing toolchain applied to the full texts. Items are tagged using nodes of a domain ontology developed in the project; terms extracted from the full texts serve as suggestions for a mapping to the domain ontology. Main considerations regarding the project have been presented in [7]. In this publication, we focus on the data model for LexBib items, its integration into the LOD cloud, and on relevant details of our workflow. In Section 2 we describe how publication metadata and full texts are collected and stored using Zotero, data enrichment and transfer to RDF format. Section 3 addresses the text mining toolchain used for the generation of additional metadata, that are linked to the corresponding bibliographical items. As shown in Fig. 1, an OWL-RDF file is the place where this merging is carried out. In Section 4 we describe the multilingual domain ontology that will be used to describe the full text content with keywords or tags.
... For a study on the overlap of topics and citations between Digital Humanities (DH) and lexicography, an e-science corpus has been built and processed applying the methodology described in section 4. Table 3 shows the composition of the lexicography subcorpus, which is identical to the LexBib test set mentioned in section 2.1. The DH publications stem from four major DH journals and a DH handbook (see Lindemann, Kliche & Kutzner 2018 for the complete reference). ...
Conference Paper
Full-text available
This paper presents preliminary considerations regarding objectives and workflow of LexBib, a project which is currently being developed at the University of Hildesheim. We briefly describe the state of the art in electronic bibliographies in general, and bibliographies of lexicography and dictionary research in particular. The LexBib project is intended to provide a collection of full texts and metadata of publications on metalexicog-raphy, as an online resource and research infrastructure; at the same time, LexBib has a strong experimental component: computational linguistic methods for automated keyword indexing, topic clustering and citation extraction will be tested and evaluated. The goal is to enrich the bibliography with the results of the text ana-lytics in the form of additional metadata. 1 Introduction Domain-specific bibliographies are important tools for scientific research. We believe that much of their usefulness depends on the metadata they provide for (collections of) publications, and on advanced search functionalities. What is more, bibliographies for a limited domain may offer hand-validated publication metadata. As for lexicography and dictionary research, several bibliographies with different scopes and formats exist independently from each other; none of them covers the field completely, and most of them do not support advanced search functionalities, so that usability is dramatically reduced. Searches for bibliographical data and for the corresponding full texts are therefore most often performed using general search engines and domain-independent bibliography portals. However, big domain-independent repositories have two major shortcomings: They often contain noisy or incomplete publication metadata which have to be hand-validated by the users when copying them into their personal bibliographies, e. g. for citations. Closely related to that, the search functions of leading bibliography portals still focus on query-based information retrieval, since a combination of cascaded filter options using keywords and metadata such as persons, places, events, and relations to other items, only yields good results if the metadata meet certain requirements on precision and completeness. Our goal is a domain-specific online bibliography of lexicography and dictionary research (i.e. metalexicography) which offers hand-validated publication metadata as they are needed for citations, and which in addition is complemented with the output of an NLP toolchain. Several methods from computational linguistics produce useful results for seeking and retrieving scientific publications. For example, topic clustering has become very popular in the Digital Humanities. We suggest that assigning topics to publications provides valuable metadata for finding related work. Methods for term extraction have a similar objective. They detect text patterns (thus: terms) that are more significant in a (more specific) domain corpus than in a (more general) reference corpus.
ResearchGate has not been able to resolve any references for this publication.