DataPDF Available

DHd_2018_Lindemann_Kliche_Kutzner_Slides.pdf

Authors:
Lexikographie:
Explizite und implizite Verortung
in den Digital Humanities
david.lindemann@uni-hildesheim.de
fritz.kliche@uni-hildesheim.de
kristin.kutzner@uni-hildesheim.de
David Lindemann
Fritz Kliche
Kristin Kutzner
28. Feb. 2018
DHd-2018 | 2/21
david.lindemann@uni-hildesheim.de
fritz.kliche@uni-hildesheim.de
kristin.kutzner@uni-hildesheim.de
Übersicht
Hintergrund:
Daten:
Methoden:
Ergebnisse:
Schlussfolgerungen:
Schnittmenge von Lexikographie und DH
LexDH-Korpus
Topic Clustering, Zitationen, Termextraktion
Lexikographie und DH: Gemeinsame Themen
Beitrag zur gegenseitigen Sichtbarkeit
28. Feb. 2018
DHd-2018 | 3/21
david.lindemann@uni-hildesheim.de
fritz.kliche@uni-hildesheim.de
kristin.kutzner@uni-hildesheim.de
Hintergrund
Ausgangspunkt: Diskussion um DH
Digital Humanities als „big tent“?
Digital Humanities als neue Disziplin?
Beide Sichtweisen schließen sich nicht aus:
DH ist digitaler Methodenhelfer in den Geisteswissenschaften.
Diskussion um Komputationelle Lexikographie: Typisch DH?
Komputationelle Lexikographie ist ebenso im Aufschwung begriffen.
Komputationelle Lexikographie: Anwendungsbereich für DH-Methoden?
28. Feb. 2018
DHd-2018 | 4/21
david.lindemann@uni-hildesheim.de
fritz.kliche@uni-hildesheim.de
kristin.kutzner@uni-hildesheim.de
Lexikographie und DH
Digital Humanities
Lexikographie
Schnittmenge DH – Lexikographie: Ausgangsthese
Nur ein Teil verortet sich explizit in den DH
...und publiziert per DH-Journal/-Konferenz
...und bezeichnet seine Forschung als DH.
Der größere Teil lässt sich lediglich implizit in den DH verorten.
28. Feb. 2018
DHd-2018 | 5/21
david.lindemann@uni-hildesheim.de
fritz.kliche@uni-hildesheim.de
kristin.kutzner@uni-hildesheim.de
Voruntersuchung:
Schnittmenge Lexikographie & DH
Quellen:
Digital Humanities Quarterly: http://www.digitalhumanities.org/dhq
Digital Scholarship in the Humanities (ex LLC): https://academic.oup.com/dsh
TEI Journal of the Text Encoding Initiative: http://jtei.revues.org
DHCommons: http://dhcommons.org
DH Conferences: http://digitalhumanities.org/dh-abstracts/search | https://dh2017.adho.org/program/abstracts/
Keywords zu 31 relevanten Beiträgen:
Text Encoding / Markup / Encoding Formats / XML 31
E-Wörterbücher / Visualisierung 14
Historische Lexikographie 10
Korpuslinguistik 9
Wörterbuchnetz 4
NLP-Lexikon 2
Bilingual Dictionary Drafting 2
Autorenwörterbuch 2
Dialektologie 1
Voruntersuchung:
Verschlagwortung per Hand
28. Feb. 2018
DHd-2018 | 6/21
david.lindemann@uni-hildesheim.de
fritz.kliche@uni-hildesheim.de
kristin.kutzner@uni-hildesheim.de
Lexikographie & DH als Korpus
Identifikation einer Schnittmenge von Lexikographie und DH
mit DH-Methoden
Korpus: Wissenschaftliche Beiträge (Volltexte)
(1) Subkorpus DH-Beiträge
DH-Journal-Artikel
DH-Konferenzbeiträge
DH-Handbuchartikel
(2) Subkorpus Lexikographie-Beiträge
Lexikographie-Journal-Artikel
Lexikographie-Konferenzbeiträge
Lexikographie-Handbuchartikel
28. Feb. 2018
DHd-2018 | 7/21
david.lindemann@uni-hildesheim.de
fritz.kliche@uni-hildesheim.de
kristin.kutzner@uni-hildesheim.de
Daten: LexDH-Korpus
Lexikographie: Gesammelte Volltexte
Proceedings of Euralex (European Association of
Lexicography)
Lexikos (http://lexikos.journals.ac.za/pub)
International Journal of Lexicography (IJL)
Journal of the Dictionary Society of North America (DSNA)
Proceedings of eLex (Electronic Lexicography)
HSK 5/4: Dictionaries: An International Encyclopedia of
Lexicography (Gouws et al., 2013)
Routledge Handbook of Lexicography (Fuertes-Olivera, 2018)
782
376
282
257
202
110
47
28. Feb. 2018
DHd-2018 | 8/21
david.lindemann@uni-hildesheim.de
fritz.kliche@uni-hildesheim.de
kristin.kutzner@uni-hildesheim.de
Daten: LexDH-Korpus
Digital Humanities: Gesammelte Volltexte
Digital Scholarship in the Humanities (DSH/LLC)
Digital Humanities Quarterly (DHQ)
Digital Studies/Le champ numérique
Journal of the Text Encoding Initiative
Blackwell Companion to Digital Humanities
(Siemens et al. 2004)
886
284
152
63
37
28. Feb. 2018
DHd-2018 | 9/21
david.lindemann@uni-hildesheim.de
fritz.kliche@uni-hildesheim.de
kristin.kutzner@uni-hildesheim.de
Daten: LexDH-Korpus
Volltexte im Korpus
Digital Humanities-Korpus 1.380 Volltexte
Lexikographie-Korpus 1.919 Volltexte
Gesamt 3.299 Volltexte
28. Feb. 2018
DHd-2018 | 10/21
david.lindemann@uni-hildesheim.de
fritz.kliche@uni-hildesheim.de
kristin.kutzner@uni-hildesheim.de
Korpuserstellung: Volltextsammlung
Sammlung von E-Volltexten und Metadaten mit dem Werkzeug „Zotero“
Über einige Online-Repositorien Download von Volltext und Metadaten gruppenweise möglich
Zotero Cloud Service: Ermöglicht kollaborative Erstellung von Sammlungen
Manuelle Validierung/Editieren in Zotero-GUI: Metadaten, Qualität der PDFs
Export, Manipulation, Re-Import von Volltexten und/oder Metadaten
PDF-Manipulation: Abschneiden von Kolumnentiteln, Seitenzahlen, Boilerplates, etc.
Metadaten-Manipulation: Komplette Metadatensets für mögliche Weiterverwendung der Sammlung
28. Feb. 2018
DHd-2018 | 11/21
david.lindemann@uni-hildesheim.de
fritz.kliche@uni-hildesheim.de
kristin.kutzner@uni-hildesheim.de
Verarbeitungspipeline: Datensammlung
28. Feb. 2018
DHd-2018 | 12/21
david.lindemann@uni-hildesheim.de
fritz.kliche@uni-hildesheim.de
kristin.kutzner@uni-hildesheim.de
Drei Methoden
Topic Clustering:
LDA: Mallet
Zwei Durchläufe:
Rohtext, lemmatisierter Text
50 Topics
Entfernung von Stoppwörtern
Zitationsanalyse:
Grobid:
„GeneRation Of
BIbliographic Data”
Input: E-Papers als PDF
Output: TEI-XML
Zitationen:
Filter:
Nur Zitations-Links innerhalb
unseres Lex-DH-Korpus
Termextraktion:
„TrEx“: Termextraktion für CQP-Korpora
NN, NN-NN und NN-NN-NN-Muster
Referenzkorpus: BNC
McCallum, 2002
Schäfer et al., 2015
Lopez, 2009
Relative Häufigkeit im Lex-DH-Korpus
Relative Häufigkeit im Referenzkorpus
28. Feb. 2018
DHd-2018 | 13/21
david.lindemann@uni-hildesheim.de
fritz.kliche@uni-hildesheim.de
kristin.kutzner@uni-hildesheim.de
28. Feb. 2018
DHd-2018 | 14/21
david.lindemann@uni-hildesheim.de
fritz.kliche@uni-hildesheim.de
kristin.kutzner@uni-hildesheim.de
Zitationen
Validierungskategorie 1
Triplett Autor, Jahr, Titel
gefunden in LexDH
Validierungskategorie 2
Triplett Autor, Jahr, Titel
gefunden in LexDH, und es gilt:
Δ ( Jahr
i
, Jahr
j
)≤1
Lev (Autor
i
, Autor
j
)≤2
Lev (Titel
i
, Titel
j
)≤8
Normalisierung
Autor = Nachname des ersten Autors,
lowercase, [a-z]
Titel = lowercase, [a-z]
val_cat 1: 760
val_cat 2: 1639
28. Feb. 2018
DHd-2018 | 15/21
david.lindemann@uni-hildesheim.de
fritz.kliche@uni-hildesheim.de
kristin.kutzner@uni-hildesheim.de
Ergebnisse: Zitationen
1108 zitierende Artikel d. h. Artikel im LexDH-Korpus,
die einen Artikel im LexDH-Korpus zitieren
709 Lex
399 DH
2432 Zitationspaare d. h. Zitationen in Artikeln des LexDH-Korpus,
die einen Artikel im LexDH-Korpus zitieren
1674 Lex
758 DH
1057 zitierte Artikel d. h. Artikel im LexDH-Korpus,
die von einem Artikel im LexDH-Korpus zitiert werden
715 Lex
342 DH
742 Paare DH→DH
16 Paare DH→Lex
1659 Paare Lex→Lex
15 Paare Lex→DH
28. Feb. 2018
DHd-2018 | 16/21
david.lindemann@uni-hildesheim.de
fritz.kliche@uni-hildesheim.de
kristin.kutzner@uni-hildesheim.de
Ergebnisse: Termextraktion
28. Feb. 2018
DHd-2018 | 17/21
david.lindemann@uni-hildesheim.de
fritz.kliche@uni-hildesheim.de
kristin.kutzner@uni-hildesheim.de
Ergebnisse: Termextraktion
28. Feb. 2018
DHd-2018 | 18/21
david.lindemann@uni-hildesheim.de
fritz.kliche@uni-hildesheim.de
kristin.kutzner@uni-hildesheim.de
Ergebnisse: Topic Modeling
Ergebnisse: Topic Modeling
28. Feb. 2018
DHd-2018 | 19/21
david.lindemann@uni-hildesheim.de
fritz.kliche@uni-hildesheim.de
kristin.kutzner@uni-hildesheim.de
Ergebnisse: Topic Modeling
28. Feb. 2018
DHd-2018 | 20/21
david.lindemann@uni-hildesheim.de
fritz.kliche@uni-hildesheim.de
kristin.kutzner@uni-hildesheim.de
Schlussfolgerungen
Beitrag zur gegenseitigen Sichtbarkeit
Überlappung der Zitationen („explizite Überlappung“) kleiner als
„implizites“ Überlappen der Topics
Topics der Schnittmenge:
Gemeinsame Methoden
Beispiele: Korpuslinguistik; Language Documentation
Gemeinsame „dritte“ Forschungsinteressen
Beispiele: Gender; juristische Themen (Copyright etc.)
Ausblick
Close reading in Schnittmenge / disjunktiven Mengen
Wenn Terme / Topics überlappen: Um welche Texte geht es?
Wenn Zitationen überlappen, aber die extrahierten Terme / Topics nicht
Beispiel: Usability vs. Wörterbuchbenutzungsforschung
Weiterverwendung des LexDH-Korpus
DH-Korpus: Methoden in den DH
Lex-Korpus: Projekt LexBib
28. Feb. 2018
DHd-2018 | 21/21
david.lindemann@uni-hildesheim.de
fritz.kliche@uni-hildesheim.de
kristin.kutzner@uni-hildesheim.de
Literatur
Fuertes-Olivera, Pedro (2018): The Routledge Handbook of Lexicography. London: Routledge.
Gouws, Rufus; Heid, Ulrich; Schweickard, Wolfgang; Wiegand, Herbert (2013): Dictionaries. An international
encyclopedia of Lexicography. HSK 5/4. Berlin/Boston: De Gruyter Mouton.
Lopez, Patrice (2009): „GROBID: Combining automatic bibliographic data recognition and term extraction for
scholarship publications“. In Research and advanced technology for Digital Libraries. 473–474. Lecture Notes in
Computer Science. Berlin/Heidelberg: Springer.
McCallum, Andrew (2002): MALLET: A machine learning for language toolkit. http://mallet.cs.umass.edu. Febr. 2018
Schäfer, Johannes; Rösiger, Ina; Heid, Ulrich; Dorna, Michael (2015): „Evaluating noise reduction strategies for
terminology extraction.“ In Proceedings of TIA 2015. Granada, Spanien. November 2015.
Siemens, Ray; Unsworth, John; Schreibman, Susan (2004): A Companion to Digital Humanities, Blackwell Companions
to Literature and Culture. Oxford: Blackwell
Vielen Dank für Ihre Aufmerksamkeit! david.lindemann@uni-hildesheim.de
fritz.kliche@uni-hildesheim.de
kristin.kutzner@uni-hildesheim.de

File (1)

ResearchGate has not been able to resolve any citations for this publication.
GROBID: Combining automatic bibliographic data recognition and term extraction for scholarship publications
  • Patrice Lopez
Lopez, Patrice (2009): "GROBID: Combining automatic bibliographic data recognition and term extraction for scholarship publications". In Research and advanced technology for Digital Libraries. 473-474. Lecture Notes in Computer Science. Berlin/Heidelberg: Springer.