ChapterPDF Available
Gerhard Heyer, Gregor Wiedemann und Andreas Niekler
15 Topic-Modelle und ihr Potenzial für
die philologische Forschung
Abstract: Statistische Analyseverfahren, die über das bloße Auszählen von
Sprachdaten hinausgehen, gewinnen in der Korpuslinguistik zunehmend an
Bedeutung. Der Beitrag behandelt das sogenannte Topic Modelling als eine be-
sonders prominente Klasse statistischer Verfahren. Im Mittelpunkt steht der
grundlegende Modellierungsansatz von Topic-Modellen, der am Beispiel der
Latent Dirichlet Allocation (LDA) präsentiert wird. Beispielanwendungen auf
verschiedenen Textquellen werden vorgestellt und dabei auch die Aspekte
Reproduzierbarkeit und Reliabilität der Ergebnisse diskutiert.
Keywords: Architekturen, Evolutionäre Algorithmen, Forschungswerkzeuge,
Texttechnologie
 Einleitung
Im fortgeschrittenen Zeitalter der Digitalisierung sind über die letzten Jahr-
zehnte die uns zur Verfügung stehenden digitalen Textquellen in Größen-
ordnungen gewachsen, die sich nur noch schwer fassen lassen. Dies betrifft
sowohl die Retro-Digitalisierung von zunächst als Druckversion erschienenen
Texten, als auch neue, primär oder ausschließlich für das digitale Medium er-
stellte Texte, sogenannte born digital documents, wie etwa Microblogs oder
Texte in sozialen Netzwerken. Aufsehen erregte 2011 das Projekt Culturomics,
für das von Geisteswissenschaftlern in Zusammenarbeit mit Google ein digi-
tales Korpus aus Millionen von Büchern, ca. 4 % aller jemals gedruckten Titel,
erstellt wurde (Michel et al. 2011). Auch rein deutsche digitale Textsammlun-
gen wie das Deutsche Textarchiv mit ca. 145 Millionen beziehungsweise das
Gerhard Heyer, Universität Leipzig, Abteilung Automatische Sprachverarbeitung,
Augustusplatz 10, D-04109 Leipzig, E-Mail: heyer@informatik.uni-leipzig.de
Gregor Wiedemann, Universität Leipzig, Abteilung Automatische Sprachverarbeitung,
Augustusplatz 10, D-04109 Leipzig, E-Mail: gregor.wiedemann@informatik.uni-leipzig.de
Andreas Niekler, Universität Leipzig, Abteilung Automatische Sprachverarbeitung,
Augustusplatz 10, D-04109 Leipzig, E-Mail: aniekler@informatik.uni-leipzig.de
Open Access. © 2018 Gerhard Heyer, Gregor Wiedemann und Andreas Niekler, publiziert von
De Gruyter. Dieses Werk ist lizenziert unter der Creative Commons Attribution 4.0 Lizenz.
https://doi.org/10.1515/9783110538663-016 Unauthenticated
Download Date | 7/26/18 2:38 AM
352 Gerhard Heyer, Gregor Wiedemann und Andreas Niekler
Deutsche Referenzkorpus mit ca. 31 Milliarden laufenden Wortformen haben
mittlerweile einen beachtlichen Umfang erreicht. Die zeitgenössische Quellen-
lage dieses „digitalen Überflusses“ eröffnet den Sprach- und Literaturwissen-
schaften nicht nur neue Möglichkeiten empirischen Forschens, sie zwingt sie
gerade dazu, wenn die mühsam aufgebauten digitalen Äquivalente des Archivs
nicht in ähnlicher Weise verstauben sollen, wie ihre analogen Vorgänger. Diese
Problematik aufgreifend fragte der Altphilologe Gregory Crane (2006): „What
do you do with a million books?“ Neben der digitalen Aufbereitung für Suche
und Darstellung einzelner Werke liegt die digitale, computergestützte Aus-
wertung ganzer Kollektionen als Antwort nahe. 2007 formulierte der Italiener
Franco Moretti in diesem Sinne sein Forschungsprogramm des Distant Reading
aus (2007). Anstelle einen kleinen Korpus nahezu willkürlich selektierter Klas-
siker immer und immer wieder durch intensives Lesen zu studieren, sollten
sich Literaturwissenschaftler der „Weltliteratur“ annehmen, in dem sie viele
tausend Werke gleichzeitig und aus gewissem Abstand vergleichend unter-
suchen. Für Moretti war klar, dass dies nur mit (text-)statistischen Verfahren
und computergestützten Visualisierungen gelingen kann.
Seit einigen Jahren nun, in denen die Digital Humanities erblühen, führt
die digitale Quellenlage Literatur- und Sprachwissenschaftler, (Computer-)Lin-
guisten und Informatiker enger zusammen in ihren Bemühungen, den sehr
großen Textmengen Herr zu werden. Grundlage dafür sind neben den in der
Syntaxanalyse traditionell weit verbreiteten musterbasierten Ansätzen ins-
besondere statistische Modelle und Verfahren für die automatische und semi-
automatische Sprachanalyse, welche eine (qualitative) Auswertung sehr großer
Textmengen auf quantitativer Basis ermöglichen. Eine besonders prominente
Klasse statistischer Verfahren, die im Folgenden genauer ausgeführt werden
soll, ist das sogenannte Topic Modelling, mit dem eine große Dokumentmenge
vollkommen automatisch in unterschiedliche Themenbereiche unterteilt wer-
den kann (Blei 2012). Die Modellierungsannahme ist, dass jede Wortform einem
Themenbereich zugehörig ist und sich aus der Verteilung thematisch zusam-
mengehöriger Wortformen in einem Text die zugrundeliegenden Themenberei-
che, eben die Topics, ableiten lassen. Große Textkollektionen können damit
nicht nur thematisch unterteilt werden, sondern Texte beziehungsweise Text-
abschnitte können auch anhand der identifizierten Themenstruktur klassifi-
ziert und zusammengefasst werden. Topic-Modelle ermöglichen somit eine pri-
mär inhaltsgeleitete Strukturierung von Texten. Auch wenn sie nicht direkt zur
Extraktion individueller (Syntax-)Strukturen, Informationen oder Aussage-
regelmäßigkeiten beitragen, können die Ergebnisse der automatischen thema-
tischen Einteilung als Vorverarbeitungsschritt für die weitergehende Analyse
sehr nützlich sein. Insofern Topic-Modelle inhaltlich interpretierbare Cluster
Unauthenticated
Download Date | 7/26/18 2:38 AM
Topic-Modelle und ihr Potenzial für die philologische Forschung 353
rein aus statistischer Beobachtung von Regelmäßigkeiten in sprachlichen
Oberflächenstrukturen ableiten, nämlich dem gemeinsamen Vorkommen von
Wörtern in Dokumenten, können sie als eine interessante Brückentechnolo-
gie zwischen eher an Inhalten interessierten Geistes- und Sozialwissenschaft-
lichen (Sub-)Disziplinen und der Linguistik gesehen werden. Insbesondere
für Bindestrich-Linguistiken wie die Diskurs- (Spitzmüller & Warnke 2011),
Sozio- oder Polito-Linguistik (Niehr 2014) ergeben sich vielversprechende An-
knüpfungspunkte.
Quantitative Methoden spielen seit den späten 1960er Jahren eine zentrale
Rolle in der Korpuslinguistik (Kučera & Francis 1967). Verfahren, welche über
bloße Häufigkeitsstatistiken hinausgehen und vielmehr auf einem statistischen
Modell der Wortverteilungen im Text basieren, finden sich erst seit den 1990er
Jahren (Dunning 1993). Der Ansatz des Topic Modelling knüpft an derartige
wahrscheinlichkeitstheoretische Betrachtungen an und ist ein Bayes’scher An-
satz. Das heißt, es wird auf der Grundlage bedingter Wahrscheinlichkeiten das
Auftreten von Wortformen betrachtet, wobei für alle unbekannten Auftretens-
wahrscheinlichkeiten, die sogenannten Modellparameter, eine theoretische
Vorannahme, die sogenannte A-priori-Verteilung, definiert wird, die ein ange-
nommenes Vorwissen beziehungsweise Nicht-Wissen über die Parameter enko-
diert. Topic Modelling stellt eine Weiterentwicklung des sogenannten Probabi-
listic Latent Semantic Indexing (PLSI) dar,
1
einem für die semantische Analyse
von Texten angepasstem Verfahren zur Berechnung von latenten Variablen auf
der Grundlage bedingter Wahrscheinlichkeiten (Hofmann 1999).
Wir beginnen mit einer kurzen Darstellung der grundlegenden Model-
lierungsidee von Topic-Modellen (Abschnitt 2). Dabei zeigen wir, wie die Wort-
formen in einem Dokument bzw. einer Dokumentkollektion verteilt sind und
wie diese Verteilung für die Identifizierung von Topics genutzt werden kann.
Hierauf aufbauend skizzieren wir die wesentlichen Aspekte des ersten Topic-
Modells, der Latent Dirichlet Allocation (LDA; Abschnitt 3). Im folgenden Ab-
schnitt stellen wir Beispielanwendungen von Topic-Modellen auf verschiede-
nen Textquellen wie literarische Texte, Nachrichten und Social Media-Daten
vor (Abschnitt 4). Schließlich gehen wir auf einige wichtige Probleme und Best
Practices bei der fachwissenschaftlichen Anwendung von Topic-Modellen ein
(Abschnitt 5) und fassen abschließend die Möglichkeiten ihrer Nutzung in den
Sprachwissenschaften zusammen (Abschnitt 6).
1PLSI ist auch bekannt unter der Bezeichnung Probabilistic Latent Semantic Analysis (PLSA).
Unauthenticated
Download Date | 7/26/18 2:38 AM
354 Gerhard Heyer, Gregor Wiedemann und Andreas Niekler
 Intuition
Um die Grundidee des Topic Modeling nachvollziehen zu können, wollen wir
nachfolgenden Text von Ludwig M. Eichinger betrachten:
In analoger Weise wandte sich Maria Fernández-Villanueva der Frage zu, welche Stellung
die Wortbildungslehre in einem Germanistikstudium in Spanien haben solle. Im normalen
Curriculum der spanischen Germanistikstudiengänge habe die Wortbildungslehre einen
festen Platz, sowohl als Element der grammatischen Teile linguistischer Einführungs-
kurse, als auch in spezifischen Seminaren etwa zu lexikalischer Morphologie. Auch in
den Sprachkursen würden Lesestrategien zur Auflösung von Wortbildungen vermittelt.
Allerdings sollte man sich über die Art und Weise sowie über das Ziel dieser Vermittlung
nochmals Gedanken machen. Da die Muttersprache der Studierenden Spanisch, Katala-
nisch, Galizisch oder Baskisch ist, sei die kontrastive Perspektive zwischen Muttersprache
und Deutsch als Fremdsprache auszunutzen, nicht nur um Wortbildungsprozesse zu
erfassen, sondern auch um Funktionen zu erkennen, die in einer Sprache durch Wort-
bildung, in der anderen vielleicht häufiger durch syntaktische Strukturen oder andere Mit-
tel zum Ausdruck gebracht werden. Rezeptions- und Produktionsschwierigkeiten sollten
zum Anlass genommen werden, um Unterstützungsmaterialien zu Lese-, Exzerpt- und
Reformulierungsstrategien und zur Verfertigung von Begleitheften für Referate oder
Hausarbeiten zu entwickeln, die funktional die Wortbildung ausnutzen. (Eichinger, Meliss,
Dominguez Vasquez 2008: 354)
Offenbar handelt der Text von der Relevanz der Wortbildungslehre beim Lernen
von Deutsch als Fremdsprache. Naheliegende Themenfelder, in unserer Ter-
minologie also Topics, lassen sich dabei durch die Zusammenfassung von im
Text vorkommenden Wortformen beispielsweise wie folgt beschreiben:
1. Aspekte der Wortbildungslehre: Wortbildung, Wortbildungslehre, lexika-
lische Morphologie, Wortbildungsprozesse, Funktionen, syntaktische Struk-
turen, Rezeptions- und Produktionsschwierigkeiten etc.
2. Länder und Sprachen: Spanien, spanisch, Muttersprache, Spanisch, Kata-
lanisch, Galizisch, Baskisch, Deutch, Fremdsprache etc.
3. Sprachdidaktik: Curriculum, Germanistikstudium, Germanistikstudien-
gänge, Wortbildungslehre, linguistische Einführungskurse, spezifische Semi-
nare, Sprachkurse, Lesestrategien, Vermittlung, kontrastive Perspektive,
Rezeptions- und Produktionsschwierigkeiten, Referate, Hausarbeiten etc.
Die Grundidee bei der Latent Dirichlet Allocation, dem ersten von Blei, Ng &
Jordan (2003) eingeführten Topic-Modell, setzt genau an dieser Beobachtung
an. Die erste Modellannahme besteht darin, dass jedes Dokument durch eine
kleine Untermenge von global verfügbaren Themen charakterisiert werden
kann (in unserem Beispiel die drei über die Begriffslisten charakterisierten
Topics), wobei jedes Thema wiederum durch eine ebenfalls kleine Untermenge
Unauthenticated
Download Date | 7/26/18 2:38 AM
Topic-Modelle und ihr Potenzial für die philologische Forschung 355
des Gesamtvokabulars beschrieben wird. Für die Modellierung wird zweitens
angenommen, dass diese Themen einen zentralen, wenn auch versteckten,
oder latenten, Parameter bei der Generierung eines Textes darstellen – die
Wahrscheinlichkeit, in einem Text oder Textabschnitt eine bestimmte Wort-
form anzutreffen, hängt wesentlich davon ab, welches Thema vorab ausge-
wählt worden ist. Die dritte Annahme besagt, dass wir bei der Analyse eines
Textes oder einer Textkollektion mit dem Verfahren des Topic Modeling den
für die Textproduktion vorausgesetzten generativen Prozess umdrehen können
und aus den vorhandenen Daten, d. h. den Wortformen, welche den Text kons-
tituieren, die latenten Topics als den „besten“ Parameter inferieren können,
welcher die vorliegenden Daten am besten erklärt.
Die Grundlage des Algorithmus bildet also eine Menge artifizieller Topics.
Jedes dieser Topics ist eine Wahrscheinlichkeitsverteilung über das vorhandene
Vokabular und gibt an, wie wahrscheinlich ein Wort in diesem Topic ist. Jedes
Dokument wird nun als eine Wahrscheinlichkeitsverteilung über eben diese
Topics dargestellt, welche wiederum angibt, wie wahrscheinlich ein Topic für
das aktuelle Dokument ist. Die generative Annahme der Dokumententstehung
wählt pro Wortposition im Dokument zuerst ein Topic (proportional zu seiner
Wahrscheinlichkeit im Dokument) und danach ein Wort aus dem gewählten
Topic (ebenfalls proportional zu seiner Wahrscheinlichkeit im gewählten
Topic). Ausgehend von dieser Annahme und den tatsächlich vorhandenen
Wörtern in den Dokumenten können Rückschlüsse auf die Struktur der Wahr-
scheinlichkeitsverteilungen der Dokumente über Topics sowie der Topics über
Wörter gezogen und diese approximiert werden. Das Ergebnis ist ein feature-
transparentes Verfahren, welches in Aufgaben wie dem Dokument-Clustering,
der Bestimmung von Dokument-Ähnlichkeit, der Dokument-Klassifikation oder
der explorativen Suche nutzbringende Informationen beitragen kann.
Topic Modeling
Wir wollen diesen Modellierungsansatz nun konkretisieren. Grundlage der Text-
repräsentation bildet das sogenannten bag of words-Modell, d. h. wir gehen
davon aus, dass wir die Reihenfolge der Wortformen im Text ignorieren kön-
nen. Jeder Textkorpus C enthält eine Menge von D Dokumenten, und jedes
Dokument wiederum eine Menge von N
d
Wörtern (Tokens). Die Gesamtzahl der
Tokens eines Korpus bezeichnen wir mit N, das Vokabular des Korpus aller
voneinander verschiedener Wortformen (Types) mit V. Jedes Dokument ist eine
parametrisierte Repräsentation des Vokabulars bezogen auf die Frequenz der
Types im Dokument.
Unauthenticated
Download Date | 7/26/18 2:38 AM
356 Gerhard Heyer, Gregor Wiedemann und Andreas Niekler
Zur Modellierung der oben skizzierten bedingten Wahrscheinlichkeiten
nehmen wir an, dass jedes Dokument eine Mischung von (latenten) Topics ist
und jedes Topic eine (beobachtbare) Mischung aus Wortformen.
Notation
P(z) ist eine Verteilung über Topics z in einem Dokument
P(w|z) sind die Verteilungen über Wortformen w für Topics z
P(z
i
= j) ist die Wahrscheinlichkeit, dass für i-te Wortform Topic j gezogen
wird
P(w
i
|z
i
= j) ist Wahrscheinlichkeit von Wortform w
i
im Topic j
Die Wahrscheinlichkeit, zu welchem Topic eine Wortform gehört, können wir
nun als Produkt der bedingten Wahrscheinlichkeit P(w
i
|z
i
= j) mal der Wahr-
scheinlichkeit des Topics im Korpus P(z
i
= j) berechnen:
Um zu beschreiben, welche Topics für ein Dokument bzw. welche Wörter für
ein Topic wichtig (eigentlich: wahrscheinlich) sind, schreiben wir
.
Tatsächlich beschreiben die latenten Variablen φ und θ zwei Multinominalver-
teilungen bzw. Matrizen, nämlich die Zuordnung von Wörtern zu Topics (Wort-
Topic Matrix φ)sowie die Zuordnung von Dokumenten zu Topics (Dokument-
Topic Matrix θ). Die Wort-Topic Matrix hat zwei Dimensionen, Kund V, wobei
Kdie Anzahl der Topics im Modell bezeichnet (eine Größe, die vom Nutzer
vorher festgelegt werden muss) und Vdas Vokabular. Jeder Wert ɸ
kw
bezeich-
net somit die bedingte Wahrscheinlichkeit, mit der eine Wortform waus Vin
einem Topic kaus Kauftritt. Die Dimensionen der Dokument-Topic-Matrix θ
sind Kund D, wobei Kwieder die Anzahl der Topics im Modell bezeichnet und
Ddie Anzahl der Dokumente im Korpus. Jeder Wert θ
dk
bezeichnet also die
bedingte Wahrscheinlichkeit mit der Topic kaus Kin einem Dokument daus
Dauftritt.
Für die Berechnung eines Topic-Modells müssen die beiden Matrizen φ
und θ geschätzt werden. Hierfür werden für die skizzierte Modellierung folgende
Festlegungen getroffen:
Unauthenticated
Download Date | 7/26/18 2:38 AM
Topic-Modelle und ihr Potenzial für die philologische Forschung 357
1. Die Themenverteilung θ
(d)
von Topics zu Dokumenten ist eine Dirichlet-
Verteilung mit Hyperparameter α (die vom Nutzer vorab festgelegt werden
muss).
2
2. Die Zuordnung von Wortformen zu Topics φ
(j)
ist ebenfalls eine Dirichlet-
Verteilung mit Hyperparameter β (die vom Nutzer vorab festgelegt werden
muss).
3. Die latenten Variablen werden aus den beobachteten Wortformen im Text
durch statistische Inferenz abgeleitet, indem ein generativer Prozess simu-
liert wird, der die tatsächlich beobachtete a posteriori Verteilung der Wort-
formen am besten approximiert. (Meist wird hierfür das sogenannte Gibbs
Sampling verwendet).
3
4. Um sinnvoll interpretierbare Ergebnisse zu erhalten, müssen für die LDA-
Verteilungen θ und φ zwei konkurrierende Ziele austariert werden: Einer-
seits sollen jedem Dokument so wenig Topics wie möglich eine hohe Wahr-
scheinlichkeit haben, andererseits sollen aber auch in jedem Topic so wenig
wie möglich Wörter mit hoher Wahrscheinlichkeit enthalten sein. Triviale
Lösungen wären jeweils jedem Dokument nur ein Topic zuordnen, was aber
das Erreichen des zweiten Zieles erschwert, oder umgekehrt jedem Topic nur
ein Wort zuordnen, was aber das Erreichen des ersten Zieles erschwert. In
der praktischen Anwendung müssen also beide Ziele im Auge behalten wer-
den. Weiterhin ist zu bedenken, dass probabilistische graphische Modelle
sich allgemein nicht analytisch berechnen lassen, weil die Komplexität der
Evidenzberechnung exponentiell mit der Anzahl der Trainingspunkte
(Beobachtungen) steigt. Die effiziente Parameterschätzung in Topic-
Modellen stellt also für deren praktische Anwendung eine zentrale Heraus-
forderung dar, bei der allerdings in letzter Zeit große Fortschritte gemacht
worden sind (u. a. Schuster 2015; Teichmann 2016).
5. In den vergangenen Jahren wurden zahlreiche Varianten des ursprüng-
lichen LDA-Modells weiterentwickelt, welche unterschiedliche Aspekte in
die Modellierung von Textkollektionen mit einbeziehen. Das Correlated Topic
2Die Dirichlet-Verteilung legt fest, wie wahrscheinlich eine multinomiale Verteilung ist. Be-
trachten wir z. B. einen Würfel mit 6 Augen, dann gibt die Multinomialverteilung an wie wahr-
scheinlich 1, 2 etc. auftreten. Die a priori Dirichlet-Verteilung sollte derjenigen Multinomialvertei-
lung eine hohe Wahrscheinlichkeit geben, die allen Augenzahlen gleiche Wahrscheinlichkeit
zuweist. Aber auch andere Verteilungen sind denkbar, etwa Würfel, bei denen nur wenige
Augenzahlen eine hohe Wahrscheinlichkeit erhalten. Die Steuerung erfolgt über den Hyper-
parameter.
3Beim Gibbs Sampling wird für jedes Wort abhängig von allen anderen Zuordnungen seine
Topiczuordnung berechnet. Die hochdimensionale Verteilung wird durch wiederholtes Ziehen
von niedrigdimensionalen Variablen simuliert. Von Verteilung über z ausgehend, werden also
φ und θ iterativ approximiert.
Unauthenticated
Download Date | 7/26/18 2:38 AM
358 Gerhard Heyer, Gregor Wiedemann und Andreas Niekler
Model beispielsweise (Blei & Lafferty 2006) berücksichtigt, dass bestimmte
Themen bevorzugt gemeinsam in Dokumenten auftreten. Beim Author-Topic-
Modell (Rosen-Zvi et al.2004) wird die Autoren-Präferenz für bestimmte
Themen mit modelliert. Zeitdynamische Topic-Modelle (Jähnichen 2016)
erlauben die Modellierung der Veränderung thematischer Zusammen-
setzungen in diachronen Korpora. Darüber hinaus existieren zahlreiche wei-
tere Varianten, welche etwa die Verknüpfung von Dokumenten mit externen
Klassenvariablen erlauben (supervised LDA) oder gemeinsame Themen in
multilinguale, alignierten (Mimno et al. 2009) und nicht-aliginierte (Boyd-
Graber & Blei 2009) Dokumenten über Sprachgrenzen hinweg finden
können. Je nach Anwendungskontext und Forschungsfrage können diese
zusätzlichen Aspekte wertvolle Informationen für eine Analyse mitliefern.
In vielen Fällen können jedoch dieselben Auswertungen mit dem ursprüng-
lichen LDA-Modell in Verbindung mit den Dokument-Metadaten in ähn-
licher Qualität erstellt werden.
 Anwendungsbeispiele
Topic-Modelle können grundsätzlich überall dort eingesetzt werden, wo sehr
umfangreiche Textressourcen vorliegen, die im Zuge einer fachwissenschaft-
lichen Analyse nach inhaltlichen Kriterien strukturiert werden sollen, die mög-
lichst direkt aus den Texten abgeleitet worden sind. Dabei sind die Anwen-
dungsbereiche genau so vielfältig, wie die auszuwertenden Textressourcen
und reichen von der Marktanalyse über den Sicherheitsbereich bis in die tradi-
tionellen Geistes- und Sozialwissenschaften, etwa der Literaturwissenschaft
oder der Politikwissenschaft. Um die Bandbreite der Einsatzmöglichkeiten zu
verdeutlichen, möchten wir im Folgenden Beispiele für den Einsatz von Topic-
Modellen auf unterschiedlichen Textsorten und mit unterschiedlichen Erkennt-
nisinteressen vorstellen.
. Literaturstudien
Bereits einleitend haben wir auf das Culturomics-Projekt sowie Morettis For-
schungsprogramm eines Distant Reading in den Literaturwissenschaften hinge-
wiesen. Tatsächlich haben Topic-Modelle in den letzten Jahren zu einer Reihe
interessanter Forschungsprojekte beigetragen, bei denen große, diachrone
Literatursammlungen auf textübergreifende Zusammenhänge und Strukturen
untersucht wurden. Tangherlini & Leonhared (2013) beispielsweise greifen
Morettis Formulierung des „Great Unread“, der großen Menge ungelesener
Unauthenticated
Download Date | 7/26/18 2:38 AM
Topic-Modelle und ihr Potenzial für die philologische Forschung 359
Texte in den klassischen Kanons der Einzelphilologien, direkt auf. Unter Nut-
zung von Topic-Modellen entwerfen sie einen Forschungsablauf, mit dem sie
die vielen tausend dänischen Werke im Google Books-Projekt auf konkrete
Fragestellungen hin näher untersuchen. So untersuchen sie unter anderem,
wie sich die 1870 auf Dänisch erschienene Übersetzung von Darwins Ent-
stehung der Arten in der dänischen Literatur niedergeschlagen hat. Technisch
gelingt dies, indem ein Topic-Modell, berechnet auf Darwins Werk, auf Litera-
turtexte angewendet wird. So können Textpassagen identifiziert werden, die
thematisch bzw. von ihrem Wortgebrauch her Ähnlichkeiten zu den damals
revolutionären, naturwissenschaftlichen Betrachtungsweisen aufweisen. Mit
diesem Ansatz können Tangherlini & Leonhard (2013) einen großen Einfluss
der neuen, durch Darwin inspirierten Sicht auf den Menschen in der Literatur
nachweisen. Gleichzeitig identifizieren sie bekannte, populäre Texte passend
zu den Thematisierungsweisen, können aber auch heute bereits in Vergessen-
heit geratene Werke aus dem Google Books-Korpus zu Tage fördern. Mit ihrer
Methode gelingt es also, eine umfassende Analyse des Einflusses von Darwins
Werk auf die dänische Literatur zu zeichnen, die zudem reproduzierbar und
intersubjektiv nachvollziehbar Gegenstand neuer literaturwissenschaftlicher
Auseinandersetzungen werden kann. Mit Nachvollziehbarkeit und Güterkrite-
rien bei der Anwendung von Topic-Modellen beschäftigen sich auch Jockers &
Mimno (2013). Sie untersuchen in ihrer Arbeit 3.279 fiktionale Werke aus den
Jahren 1899 bis 1970 mit einem K= 500 topics umfassenden LDA-Modell. Ihre
Fragestellung lautete, wie sich externe Faktoren wie Geschlecht, Nationalität
oder Geburtsjahr auf die Themenwahl von Autoren in der englischsprachigen
Literatur des 19. Jahrhunderts auswirken. Methodisch entwickelten sie dafür
ein Verfahren, mit dem sich Signifikanz der Themenabhängigkeit von solchen
externen Faktoren bestimmen lässt.
. Wissenschaftsgeschichte
Nicht nur große Literaturkorpora lassen sich mit Topic-Modellen untersuchen.
Mittlerweile wird das Verfahren erfolgreich in der Wissenschaftsgeschichte ein-
gesetzt, um Schwerpunkte der thematischen Entwicklungen einzelner Diszi-
plinen über den Verlauf des 20. Jahrhunderts nachzeichnen zu können. Dazu
werden (retro-)digitalisierte Archive von wissenschaftlichen Fachjournalen
ausgewertet. Beye Riddel (2014) beispielsweise analysiert die Entwicklung von
Themen in vier germanistischen Journalen, die über den Archivanbieter JSTOR
zur Verfügung stehen. Sein Korpus umfasst mehr als 22.000 Fachartikel, die
zwischen 1928 und 2006 veröffentlicht wurden. Hit Hilfe einer LDA-Analyse
identifiziert er Trends abnehmender (etwa Sprachpädagogik), zunehmender
Unauthenticated
Download Date | 7/26/18 2:38 AM
360 Gerhard Heyer, Gregor Wiedemann und Andreas Niekler
(etwa feministische Literatur) und wiederkehrender (z. B. Grimm’sche Märchen)
Themen über die Zeit. Für einzelne Themen aus einzelnen Zeitabschnitten las-
sen sich repräsentative Fachartikel identifizieren, die eine tiefere inhaltliche
Charakterisierung der Themen erlauben. Zudem können die Informationen
über Topic-Zusammensetzungen jedes einzelnen Dokuments dazu genutzt wer-
den, thematisch ähnlich zusammengesetzte Artikel zu finden. Eine ähnliche
Analyse liefern Goldstone & Underwood (2012) mit ihrer Analyse der Artikel in
PMLA, dem seit 1884 erscheinenden Journal of the Modern Language Association
of America. Ihre Analyse ist besonders interessant, als dass beide Forscher un-
abhängig voneinander eine Topic-Modell-Analyse auf demselben Datensatz
durchgeführt haben und beide Ergebnisse miteinander vergleichen. Dadurch
zeigt sich das große Potenzial von solchen Analysen für intersubjektive Nach-
vollziehbarkeit, aber auch die möglichen Probleme und Fallstricke die auftre-
ten können. Der Artikel gibt exzellente Hinweise darauf, wie Ergebnisse von
Topic-Modellen in Abhängigkeit vom jeweiligen Forschungsinteresse inter-
pretiert werden können.
. Zeitgeschehen
Topic-Modelle eignen sich nicht nur dazu, in historischen Daten Zusammen-
hänge zu erkennen, sondern auch zur Beobachtung und Einordnung aktueller
Ereignisse des Zeitgeschehens. Ein Beispiel liefern die vom Projekt Deutscher
Wortschatz an der Universität Leipzig berechneten Wörter des Tages, welche
eine automatische Schlüsselwortextraktion auf Artikeln der Tagespresse durch-
führen, wobei die thematischen Zusammenhänge der zugrundeliegenden Arti-
kel anhand eines Topic-Modells berücksichtigt werden. Auf diese Weise entste-
hen themenspezifische Wortwolken, mit denen sich das Geschehen eines Tages
zusammenfassen und auf einen kurzen Blick erfassen lässt. Abbildung 15.1
zeigt eine solche Zusammenfassung für den 20. Januar 2017, bei der die Amts-
einführung des amerikanischen Präsidenten neben politischen Ereignissen in
Gambia und verschiedenen Sport- und Boulevardereignissen sichtbar wird.
Neben den klassischen Zeitungsmedien können Topic-Modelle aber auch
bei der Analyse sozialer Medien eingesetzt werden. So wurden im EU-Projekt
Slándáil, das zum Gegenstand hatte, die Nutzung sozialer Medien im Katastro-
phenfall zu untersuchen, auch Nachrichten in Facebook und Twitter mit Topic-
Modellen analysiert, die während der großen Flut in Sachsen 2013 von Betroffe-
nen abgesetzt worden sind (Gründer-Fahrer et al. 2018). Die Ergebnisse zeigen
zum einen, dass Facebook und Twitter von den Nutzern offenbar unterschied-
lich genutzt werden (vgl. Abb. 15.2): Die Nutzereinträge in Facebook, das die
Kommunikation von Nutzern in ihren sozialen Netzwerken zum Ziel hat und
Unauthenticated
Download Date | 7/26/18 2:38 AM
Topic-Modelle und ihr Potenzial für die philologische Forschung 361
Abb. 15.1: Wörter des Tages vom 20. 1. 2017.
4
Abb. 15.2: Topics in Facebook (links) und Twitter (rechts).
längere Texte sowie emotionale Wertungen erlaubt, haben einen Schwerpunkt
bei Topics, die sich der emotionalen Bewältigung der Flutkatastrophe sowie
der Organisation von Hilfeleistungen zuordnen lassen. Die Nutzereinträge in
Twitter, das auf die Verbreitung sogenannter Microblogs an ein Netzwerk aus
Followern ausgerichtet ist, werden Schwerpunkte in der Vermittlung sachlicher
bzw. subjektiver Information über Wetter und Pegelstände sowie Schadens-
meldungen erkennbar.
Zum anderen spiegeln die Topics im zeitlichen Verlauf deutlich die ver-
schiedenen Phasen der Flutkatastrophe wieder, wie es die vorstehende Abbil-
dung 15.3 für Facebook verdeutlicht: Zunächst steht der Austausch über die
tatsächliche Lage im Vordergrund, dann wird Hilfe organisiert und schließlich
geht es um Spendenaufrufe, emotionale Aufarbeitung und gegenseitigen Dank.
4http://wod.corpora.uni-leipzig.de/de/de/2017/01/20
Unauthenticated
Download Date | 7/26/18 2:38 AM
362 Gerhard Heyer, Gregor Wiedemann und Andreas Niekler
Abb. 15.3: Zeitlicher Verlauf von „Flut-Topics“ in Facebook.
Evaluierung und Best Practices
Zur Aufteilung einer Dokumentkollektion in Themen benötigt der LDA-
Algorithmus drei sogenannte Hyperparameter: K, die Anzahl an Themen, die
inferiert werden soll sowie α und β, die Dirichlet-Parameter, welche die Topic-
Dokument- bzw. die Wort-Topic-Verteilung steuern. Die Wahl dieser Hyperpara-
meter hat unmittelbare Auswirkungen die Qualität und Interpretierbarkeit der
Modelle. Je nachdem, wie viele K-Themen gefunden werden sollen, lassen sich
die Bedeutungen der einzelnen Topics unterschiedlich gut aus den in ihnen
enthaltenen, hochwahrscheinlichen Begriffen rekonstruieren. Wird nur eine
kleine Anzahl an Topics extrahiert, werden diese eher durch abstrakte, all-
gemein Begriffe geprägt. Ihnen lässt sich dann schlecht ein konkreter thema-
tischer Sinn zuordnen. Wird ein sehr hohes Kgewählt, so können Bedeutungen
der Topics stark auf seltene Aspekte in der Dokumentkollektion bezogen sein.
Die Anzahl an Themen sollte daher mit Bedacht gewählt und von verschiede-
nen forschungspraktischen Erwägungen abhängig gemacht werden. Dazu kön-
nen mehrere Modelle mit unterschiedlichen Kberechnet und evaluiert werden.
Die Qualität eines Topic-Modells kann in diesem Zusammenhang mit verschie-
denen Verfahren beurteilt werden (Maier et al. 2018). Qualitativ kann beurteilt
werden, ob den einzelnen Topics (intersubjektiv) ein bestimmter Sinn zuge-
Unauthenticated
Download Date | 7/26/18 2:38 AM
Topic-Modelle und ihr Potenzial für die philologische Forschung 363
schrieben werden kann. Quantitativ kann gemessen werden, ob hochwahr-
scheinliche Begriffe eines Topics tatsächlich gemeinsam miteinander in Doku-
menten auftreten (Topic Coherence). Diese Ansätze eignen sich gleichzeitig um
geeignete Werte für die beiden Dirichlet-Parameter α und β zu finden. Hohe
Werte (>= 1) dieser Parameter sorgen dafür, dass sich die Wahrscheinlichkeiten
von Topics bzw. Worten gleichmäßiger über die einzelnen Dokumente bzw.
Themen verteilen. Dadurch können Themen allgemeiner und weniger trenn-
scharf werden. Kleine Werte für α und β (< 1) sorgen dagegen dafür, dass die
Themen- bzw. Wortzusammensetzungen spezifischer werden, bei sehr kleinen
Werten jedoch ebenfalls zu einer schlechten Modellqualität führen kann.
Eine weitere Schwierigkeit im Umgang mit Topic-Modellen ergibt sich aus
deren eingeschränkter Reproduzierbarkeit aufgrund ihrer Berechnung mit sto-
chastischen Inferenzverfahren. In aller Regel arbeiten computergestützte statis-
tische Modelle und Verfahren für die automatische und semi-automatische
Sprachanalyse robust, was heißt, dass eine wiederholte Messung gleiche Er-
gebnisse erzielt. Diese Eigenschaft erfüllen Topic-Modelle nur bedingt. Die
Schätzmechanismen für die Parameter eines Topic-Modells, meist implemen-
tiert unter Verwendung von Gibbs Samplern oder variationellen Inferenz-
methoden, basieren auf der iterativen Annäherung an einen Optimalzustand,
also einen Zustand an dem das Modell die zugrunde liegenden Daten bestmög-
lich erklärt. Die Startwerte für die Parameter, von denen aus die Annäherung
an das Optimum begonnen wird, werden im Normalfall zufällig initialisiert
(engl. seed). Im Verlauf der Inferenz werden aus den geschätzten bedingten
Wahrscheinlichkeiten Stichproben gezogen (engl. sampling) und die Parameter
des Modells iterativ aktualisiert. Durch den Einfluss dieser Zufallsprozesse zu-
sammen mit den Verteilungseigenschaften natürlicher Sprache in den Doku-
menten, als auch in der gesamten Dokumentenkollektion (bedingt durchs
Zipf’sche Gesetz), kann es dabei zu unterschiedlichen Resultaten, also Topic
Verteilungen, kommen. Statt der analytisch optimalen Lösung der Modell-
gleichung (das globale Optimum, welches allerdings nicht berechenbar ist) fin-
den die stochastischen Inferenzprozesse also nur lokale Optima innerhalb des
Raums aller möglichen Wahrscheinlichkeitsverteilungen von φ und θ. Studien
zur Reliabilität haben gezeigt, dass sich die Modelle, je nach Kollektion und
Inhalt, hinsichtlich der Interpretierbarkeit und Ähnlichkeit der Topics lediglich
zu ca. 50–80 % reproduzieren lassen (Maier et al. 2018).
Diese Einschränkung muss in Anwendungen, die auf eine inhaltliche Inter-
pretation der Topics angewiesen sind, bedacht werden. Zudem wurden im
Zuge der Untersuchung dieses Phänomens Strategien vorgeschlagen, um die-
sem Problem zu begegnen. Die einfachste Strategie besteht darin, wiederholte
Berechnungen mit dem gleichen Startwert zu initialisieren. Dies führt zu sta-
Unauthenticated
Download Date | 7/26/18 2:38 AM
364 Gerhard Heyer, Gregor Wiedemann und Andreas Niekler
bilen Ergebnissen, suggeriert jedoch nur eine vermeintliche Stabilität der
Inferenz. Wesentlich vielversprechender sind Strategien, die eine vorherige
Initialisierung der Themenzughörigkeiten mit Hilfe von vorgeschalteten Ana-
lysen vornehmen (Lancichinetti et al. 2015), die Stichproben während der
Schätzung durch andere Wörter im Dokumentkontext zu beeinflussen (Koltcov,
Koltsova & Nikolenko 2014), oder versuchen die Topics mit deduktiv festgeleg-
ten Wortkontexten aus einem bestimmten Domänenvokabular zu fixieren
(Andrzejewski Zhu & Craven 2009).
 Zusammenfassung
Topic-Modelle stellen ein mächtiges Werkzeug dar, um große Textmengen in
einer Vielzahl von Anwendungskontexten zu erschließen. Insofern thema-
tische Zusammenhänge modelliert werden, können sie für die philologische
Forschung ganz direkt überall dort einen Beitrag leisten, wo die Auswertung
von Inhalten von Interesse ist. Dies ist mit Sicherheit für die oben genannten
Beispiele der Literaturstudien unter dem Distant Reading-Paradigma sowie für
die Wissenschaftsgeschichte von großem Interesse. Aber auch sprachwissen-
schaftliche Arbeiten jenseits der konkreten Inhalts- bzw. Themenebene können
in der Arbeit mit digitalen Textquellen von Topic-Modellen profitieren. Mit der
Zurückdrängung des Szientismus in der Linguistik sowie in der Inhaltsanalyse
als alleingültiges Paradigma (vgl. Fühlau 1981) ist die Notwendigkeit der
Beachtung vielfältiger, darunter auch inhaltlich-thematischer, Kontexte bei
der wissenschaftlichen Auseinandersetzung mit Sprachhandlungen offensicht-
lich geworden. Forschungsrichtungen wie die Begriffsgeschichte/Historische
Semantik oder Vokabularanalysen in der Sozio- und Polito-Linguistik können
in diesem Zusammenhang durchaus von einer thematischen Vorselektion ihres
(digitalen) Ausgangsmaterials profitieren. Im Projekt ePol − Postdemokratie
und Neoliberalismus (Wiedemann, Lemke & Niekler 2013) beispielsweise wurde
die Frage untersucht, ob sich im öffentlichen Diskurs der Bundesrepublik
Deutschland die Zunahme einer „Alternativlosigkeitsrhetorik“ in Bezug auf
politische Begründungen beobachten lässt (Ritzi & Lemke 2015). Gesucht wur-
de nach Begriffen wie „alternativlos“, „unabdingbar“ oder „unverzichtbar“ in
einem repräsentativen Zeitungskorpus von 1949 bis 2011. Zwar gibt schon eine
einfache Frequenzanalyse für diese Begriffe in allen Artikeln des Politikressorts
über die Zeit gewissen Anhaltspunkte für die Konjunktur von Alternativlosig-
keit als Begründungsmuster. Richtig aussagekräftig werden solche Vokabular-
analysen aber erst, wenn die Grundgesamtheiten, in denen die Frequenz-
Unauthenticated
Download Date | 7/26/18 2:38 AM
Topic-Modelle und ihr Potenzial für die philologische Forschung 365
messungen stattfinden nach bestimmten thematischen Kontexten vorgefiltert
werden. Grenzt man das Untersuchungskorpus vor der Messung auf europa-
politische, sicherheitspolitische oder gesundheitspolitische Themen ein, lassen
sich ganz spezifische Beobachtungen für die Verbreitung des Begründungs-
musters machen, sowie thematisch kohärente Beispieltexte für eine weitere
qualitative Analyse filtern. Topic-Modelle sind in diesem Szenario nicht ein
Endergebnis der Analyse selbst, sondern stellen lediglich ein exzellentes
Vorverarbeitungswerkzeug dafür zur Verfügung. Im Sinne dieser Vielfalt von
Verwendungsmöglichkeiten von Topic-Modellen stellen auch Goldstone &
Underwood (2012) in ihrer vergleichend-experimentellen Studie fest: „A topic
model doesn’t just show you what people are writing about […]. It can also
show you how they’re writing. […] To put this another way, topic modeling can
identify discourses as well as subject categories and embedded languages.“
(Goldstone & Underwood 2012) Dabei muss betont werden, dass der vollauto-
matische Ansatz keineswegs bedeutet, dass den sie nutzenden Forscherinnen
und Forschern Interpretation und das Abwägen zwischen Alternativen abge-
nommen würde. Tatsächlich erfordert die Interpretation eines Topic-Modells
und dessen Einbindung in ein kohärentes Forschungsdesign ein hohes Maß an
Kreativität und den Einsatz von Kontext- bzw. Fachwissen der Forschenden,
um aus den numerisch repräsentierten Clustern erhellende und zulässige
Schlüsse zu ziehen. Dass die Suche nach geeigneten Modellparametern und die
stochastischen Inferenzprozesse für wiederholte Modellberechnungen immer
wieder zu leicht anderen Ergebnissen führen, muss nicht zwingend als ein me-
thodisches Defizit betrachtet werden. Reproduzierbarkeit und Reliabilität an
ein methodisches Verfahren, die aus einer szientistischen Perspektive als zwin-
gende Bedingungen erscheinen, haben in einer poststrukturalistischen Per-
spektive deutlich geringeren Stellenwert. Hier kann die mangelnde Stabilität
der Modellergebnisse sogar als Vorteil erscheinen. Goldstone & Underwood be-
tonen den Fakt, dass leicht variierende Modelle aus wiederholten Modellbe-
rechnungen mit unterschiedlichen Parametern immer wieder neue Perspek-
tiven auf das zugrunde liegende Textkorpus ermöglichen. Dabei können alle
diese Perspektiven gleichsam Gültigkeit beanspruchen, insofern sie direkt aus
den Daten abgeleitet sind: „But they’re all pictures of the same evidence and
are by definition compatible. Different models may support different interpre-
tations of the evidence, but not interpretations that absolutely conflict.“ Für
die Nutzung computergestützter Verfahren in der philologischen Forschung
mit ihren vielfältigen Methoden, Schulen und Paradigmen ist dies eine kaum
zu unterschätzende Erkenntnis. Computergestützte Verfahren der automa-
tischen Sprachverarbeitung liefern uns eben nicht die eine objektive Wahrheit
auf die über Sprache vermittelten Forschungsgegenstände, sondern eröffnen
Unauthenticated
Download Date | 7/26/18 2:38 AM
366 Gerhard Heyer, Gregor Wiedemann und Andreas Niekler
uns stattdessen vielfältige, neue Perspektiven, mit denen der forschende Geist
in die Lage versetzt wird, Erkenntnis aus den mittlerweile händisch nicht mehr
überschaubaren Textmengen zu gewinnen.
Literatur
Andrzejewski, David, Xiaojin Zhu & Mark Craven (2009): Incorporating domain knowledge
into topic modeling via Dirichlet Forest priors. In: Proceedings of the 26th Annual
International Conference on Machine Learning, 25–32. New York: ACM (ICML ’09). Online
verfügbar unter http://doi.acm.org/10.1145/1553374.1553378 (letzter Zugriff: 6.11. 2017).
Beye Riddell, Allen (2014): How to read 22,198 journal articles: Studying the history of
German studies with topic models. In Matt Erlin & Lynn Tatlock (Hrsg.): Distant
readings: Topologies of German culture in the long nineteenth century: Boydell &
Brewer, 91–114. Online verfügbar unter http://www.jstor.org/stable/10.7722/
j.ctt5vj848.7 (letzter Zugriff: 6. 11. 2017).
Blei, David M. (2012): Probabilistic topic models. Surveying a suite of algorithms that offer
a solution to managing large document archives. Communications of the ACM 55 (4),
77–84.
Blei, David M. & John D Lafferty. (2006): Correlated topic models. In: Proceedings of
the 23rd International Conference on Machine Learning (ICML), 113–120. Pittsburgh: MIT
Press.
Blei, David M., Andrew Y. Ng & Michael I. Jordan (2003): Latent Dirichlet allocation. Journal of
Machine Learning Research 3, 993–1022. http://www.cs.princeton.edu/~blei/papers/
BleiNgJordan2003.pdf (letzter Zugriff: 6. 11. 2017).
Boyd-Graber, Jordan & David M. Blei (2009): Multilingual topic models for unaligned text. In:
Proceedings of the Twenty-Fifth Conference on Uncertainty in Artificial Intelligence,
75–82. Arlington: AUAI Press (UAI ’09). http://dl.acm.org/citation.cfm?id=
1795114.1795124Online verfügbar unter (letzter Zugriff: 6. 11. 2017).
Crane, Gregory (2006): What do you do with a million books? D-Lib Magazine 12 (3). http://
www.dlib.org/dlib/march06/crane/03crane.html (letzter Zugriff: 30. 11. 2017).
Dunning, Ted (1993): Accurate methods for the statistics of surprise and coincidence.
Computational Linguistics 19 (1), 61–74. Online verfügbar unter http://dl.acm.org/
citation.cfm?id=972450.972454 (letzter Zugriff: 6. 11. 2017).
Eichinger, Ludwig M., Meike Meliss & Maria José Dominguez Vasquez (Hrsg.) (2008):
Wortbildung heute. Tendenzen und Kontraste in der deutschen Gegenwartssprache
(= Studien zur Deutschen Sprache 44), 353–356. Tübingen: Narr.
Fühlau, Ingunde (1981): Inhaltsanalyse versus Linguistik. Analyse und Kritik 3 (1), 23–46.
Goldstone, Andrew & Ted Underwood (2012): What can topic models of PMLA teach us about
the history of literary scholarship? Online verfügbar unter https://tedunderwood.com/
2012/12/14/what-can-topic-models-of-pmla-teach-us-about-the-history-of-literary-
scholarship/ (zuletzt aktualisiert am 14. 12. 2012, letzter Zugriff: 9. 4. 2017).
Gründer-Fahrer, Sabine, Antje Schlaf, Gregor Wiedemann & Gerhard Heyer (2018): Topics and
topical phases in German social media communication during a disaster. Natural
Language Engineering 24 (2), 221–264.
Unauthenticated
Download Date | 7/26/18 2:38 AM
Topic-Modelle und ihr Potenzial für die philologische Forschung 367
Hofmann, Thomas (1999): Probabilistic latent semantic indexing. In: Proceedings of
the 22nd Annual International ACM SIGIR Conference on Research and Development in
Information Retrieval, 50–57. New York: ACM (SIGIR ’99).
Jähnichen, Patrick (2016): Time Dynamic Topic Models. Universität Leipzig. Online verfügbar
unter http://nbn-resolving.de/urn:nbn:de:bsz:15-qucosa-200796 (letzter Zugriff: 10. 4.
2017).
Jockers, Matthew L. & David Mimno (2013): Significant themes in 19th-century literature.
Poetics 41 (6), 750–769. doi:10.1016/j.poetic.2013.08.005.
Koltcov, Sergei, Olessia Koltsova & Sergey Nikolenko (2014): Latent Dirichlet allocation:
Stability and applications to studies of user-generated content. In: Proceedings of
the 2014 ACM Conference on Web Science, 161–165. New York: ACM (WebSci ’14). Online
verfügbar unter http://doi.acm.org/10.1145/2615569.2615680 (letzter Zugriff: 6. 11.
2017).
Kučera, H. & W. N. Francis (1967): Computational analysis of present-day American English.
Providence, Rl: Brown University Press.
Lancichinetti, Andrea, M. Irmak Sirer, Jane X. Wang, Daniel Acuna, Konrad Körding &
A. Nunes Amaral (2015): High-reproducibility and high-accuracy method for automated
topic classification. Physical Review X 5 (1), 11007. doi:10.1103/PhysRevX.5.011007.
Maier, Daniel, Annie Waldherr, Peter Miltner, Gregor Wiedemann, Andreas Niekler,
Gerhard Heyer, Alexa Keinert, Barbara Pfetsch, Thomas Häussler, Ueli Reber,
Hannah Schmid-Petri, Silke Adam (2017): Applying LDA topic modeling in
communication research: Toward a valid and reliable methodology. Communication
Methods and Measures, online vrfügbar unter https://doi.org/10.1080/
19312458.2018.1430754 (letzter Zugriff: 12. 4. 2018).
Michel, Jean-Baptiste, Yuan Kui Shen, Aviva P. Aiden, Adrian Veres, Matthew K. Gray,
The Google Books Team, Joseph P. Pickett, et al. (2011): Quantitative analysis of culture
using millions of digitized books. Science 331 (6014), 176–182. doi:10.1126/
science.1199644.
Mimno, David, Hanna M. Wallach, Jason Naradowsky, David A. Smith & Andrew McCallum
(2009): Polylingual topic models. In: Proceedings of the 2009 Conference on Empirical
Methods in Natural Language Processing: Volume 2, 880–889. Stroudsburg:
Association for Computational Linguistics (EMNLP ’09). http://dl.acm.org/
citation.cfm?id=1699571.1699627 (letzter Zugriff: 6. 11. 2017).
Moretti, Franco (2007): Graphs, maps, trees. Abstract models for literary history. London,
New York: Verso.
Niehr, Thomas (2014): Einführung in die Politolinguistik. Gegenstände und Methoden. 1. Aufl.
Göttingen: Vandenhoeck & Ruprecht.
Ritzi, Claudia & Matthias Lemke (2015): Is there no alternative? The discursive formation of
neoliberal power. Cybernetics and Human Knowing 22 (4), 55–78.
Rosen-Zvi, Michal, Thomas Griffiths, Mark Steyvers & Padhraic Smyth (2004): The author-
topic model for authors and documents. In: Proceedings of the 20th Conference on
Uncertainty in Artificial Intelligence. Arlington: AUAI Press, 487–494. http://dl.acm.org/
citation.cfm?id=1036843.1036902 (letzter Zugriff: 6. 11. 2017).
Schuster, Ingmar (2015): Gradient importance sampling. Cornell University Library.
arXiv:1507.05781 (letzter Zugriff: 6. 11. 2017).
Spitzmüller, Jürgen & Ingo Warnke (2011): Diskurslinguistik. Eine Einführung in Theorien und
Methoden der transtextuellen Sprachanalyse. Berlin, New York: de Gruyter.
Unauthenticated
Download Date | 7/26/18 2:38 AM
368 Gerhard Heyer, Gregor Wiedemann und Andreas Niekler
Tangherlini, Timothy R. & Peter Leonard (2013): Trawling in the sea of the great unread. Sub-
corpus topic modeling and humanities research. Poetics 41 (6), 725–749. doi:10.1016/
j.poetic.2013.08.002.
Teichmann, Christoph (2016): Markov chain Monte Carlo sampling for dependency trees.
Dissertation, Fakultät für Mathematik und Informatik, Universität Leipzig 2016.
Wiedemann, Gregor, Matthias Lemke & Andreas Niekler (2013): Postdemokratie und
Neoliberalismus – Zur Nutzung neoliberaler Argumentationen in der Bundesrepublik
Deutschland 1949–2011. Ein Werkstattbericht. Zeitschrift für politische Theorie 4 (1),
99–116.
Unauthenticated
Download Date | 7/26/18 2:38 AM
Article
Full-text available
Why are the Digital Humanities a genuine part of the Humanities? Attempts are currently being made by arguing that computational methods are at the same time hermeneutic procedures (‘screwmeneutics’, ‘hermenumericals’): computation and hermeneutics were mixed. In criticizing this fusion of ‘literacy’ and ‘numeracy’, it is argued that what really connects the classical Humanities and the Digital Humanities is methodologically based on the ‘cultural technique of flattening’ and not on hermeneutics. The projection of spatial and non-spatial relations onto the artificial flatness of inscribed and illustrated surfaces forms a first-order epistemic and cultural potential in the history of the Humanities: diagrammatic reasoning, the visualizing potential of writings, lists, tables, diagrams, and maps, the sorting function of alphabetically ordered knowledge corpora have always shaped and determined basic scholarly work. It is this ‘diagrammatical’ dimension to which the Digital Humanities are linked to Humanities in general. The metamorphosis of texts, pictures, and music into the surface configurations of machine-analyzable data corpora opens up the possibility of revealing latent and implicit patterns of cultural artifacts, and practices that mostly are not accessible to human perception. The quantifying, computational methods of the Digital Humanities operate like computer-generated microscopes and telescopes into the cultural heritage, ongoing cultural practices, and even the culturally unconscious.
Article
Full-text available
Social media are an emerging new paradigm in interdisciplinary research in crisis informatics. They bring many opportunities as well as challenges to all fields of application and research involved in the project of using social media content for an improved disaster management. Using the Central European flooding 2013 as our case study, we optimize and apply methods from the field of natural language processing and unsupervised machine learning to investigate the thematic and temporal structure of German social media communication. By means of topic model analysis, we will investigate which kind of content was shared on social media during the event. On this basis, we will, furthermore, investigate the development of topics over time and apply temporal clustering techniques to automatically identify different characteristic phases of communication. From the results, we, first, want to reveal properties of social media content and show what potential social media have for improving disaster management in Germany. Second, we will be concerned with the methodological issue of finding and adapting natural language processing methods that are suitable for analysing social media data in order to obtain information relevant for disaster management. With respect to the first, application-oriented focal point, our study reveals high potential of social media content in the factual, organizational and psychological dimension of the disaster and during all stages of the disaster management life cycle. Interestingly, there appear to be systematic differences in thematic profile between the different platforms Facebook and Twitter and between different stages of the event. In context of our methodological investigation, we claim that if topic model analysis is combined with appropriate optimization techniques, it shows high applicability for thematic and temporal social media analysis in disaster management.
Article
Full-text available
Much of human knowledge sits in large databases of unstructured text. Leveraging this knowledge requires algorithms that extract and record metadata on unstructured text documents. Assigning topics to documents will enable intelligent search, statistical characterization, and meaningful classification. Latent Dirichlet allocation (LDA) is the state-of-the-art in topic classification. Here, we perform a systematic theoretical and numerical analysis that demonstrates that current optimization techniques for LDA often yield results which are not accurate in inferring the most suitable model parameters. Adapting approaches for community detection in networks, we propose a new algorithm which displays high-reproducibility and high-accuracy, and also has high computational efficiency. We apply it to a large set of documents in the English Wikipedia and reveal its hierarchical structure. Our algorithm promises to make "big data" text analysis systems more reliable.
Article
Full-text available
External factors such as author gender, author nationality, and date of publication can affect both the choice of literary themes in novels and the expression of those themes, but the extent of this association is difficult to quantify. In this work, we apply statistical methods to identify and extract hundreds of topics (themes) from a corpus of 19th-century British, Irish, and American fiction. We use these topics as a measurable, data-driven proxy for literary themes and assess how external factors may predict fluctuations in the use of themes and the individual word choices within themes. We use topics not only to measure these associations but also to evaluate whether this evidence is statistically significant.
Article
Full-text available
Given a small, well-understood corpus that is of interest to a Humanities scholar, we propose sub-corpus topic modeling (STM) as a tool for discovering meaningful passages in a larger collection of less well-understood texts. STM allows Humanities scholars to discover unknown passages from the vast sea of works that Moretti calls the “great unread” and to significantly increase the researcher's ability to discuss aspects of influence and the development of intellectual movements across a broader swath of the literary landscape. In this article, we test three typical Humanities research problems: in the first, a researcher wants to find text passages that exhibit similarities to a collection of influential non literary texts from a single author (here, Darwin); in the second, a researcher wants to discover literary passages related to a well understood corpus of literary texts (here, emblematic texts from the Modern Breakthrough); and in the third, a researcher hopes to understand the influence that a particular domain (here, folklore) has had on the realm of literature over a series of decades. We explore these research challenges with three experiments.
Article
Latent Dirichlet allocation (LDA) topic models are increasingly being used in communication research. Yet, questions regarding reliability and validity of the approach have received little attention thus far. In applying LDA to textual data, researchers need to tackle at least four major challenges that affect these criteria: (a) appropriate pre-processing of the text collection; (b) adequate selection of model parameters, including the number of topics to be generated; (c) evaluation of the model’s reliability; and (d) the process of validly interpreting the resulting topics. We review the research literature dealing with these questions and propose a methodology that approaches these challenges. Our overall goal is to make LDA topic modeling more accessible to communication researchers and to ensure compliance with disciplinary standards. Consequently, we develop a brief hands-on user guide for applying LDA topic modeling. We demonstrate the value of our approach with empirical data from an ongoing research project. Free e-prints here: https://www.tandfonline.com/eprint/dhYKzC9xIghUdq6HcHKz/full
Article
The first of three essays setting out to demonstrate the power of abstract models to revolutionize our understanding of literary history. What do the quantitative curves of novel production tell us about the interplay of markets, politics, sexes, generations, in the life and death of literary forms?.
Article
Topic modeling, in particular the Latent Dirichlet Allocation (LDA) model, has recently emerged as an important tool for understanding large datasets, in particular, user-generated datasets in social studies of the Web. In this work, we investigate the instability of LDA inference, propose a new metric of similarity between topics and a criterion of vocabulary reduction. We show the limitations of the LDA approach for the purposes of qualitative analysis in social science and sketch some ways for improvement.
Conference Paper
We develop the multilingual topic model for un- aligned text (MuTo), a probabilistic model of text that is designed to analyze corpora composed of documents in two languages. From these doc- uments, MuTo uses stochastic EM to simulta- neously discover both a matching between the languages and multilingual latent topics. We demonstrate that MuTo is able to find shared top- ics on real-world multilingual corpora, success- fully pairing related documents across languages. MuTo provides a new framework for creating multilingual topic models without needing care- fully curated parallel corpora and allows applica- tions built using the topic model formalism to be applied to a much wider class of corpora.
Article
We describe latent Dirichlet allocation (LDA), a generative probabilistic model for collections of discrete data such as text corpora. LDA is a three-level hierarchical Bayesian model, in which each item of a collection is modeled as a finite mixture over an underlying set of topics. Each topic is, in turn, modeled as an infinite mixture over an underlying set of topic probabilities. In the context of text modeling, the topic probabilities provide an explicit representation of a document. We present efficient approximate inference techniques based on variational methods and an EM algorithm for empirical Bayes parameter estimation. We report results in document modeling, text classification, and collaborative filtering, comparing to a mixture of unigrams model and the probabilistic LSI model.