Conference PaperPDF Available

"Kann man denn auch nicht lachend sehr ernsthaft sein?"-Zum Einsatz von Sentiment Analyse-Verfahren für die quantitative Untersuchung von Lessings Dramen

Authors:
1
Cite as: Schmidt, T., Burghardt, M. & Dennerlein, K. (2018). “Kann man denn auch nicht
lachend sehr ernsthaft sein?” – Zum Einsatz von Sentiment Analyse-Verfahren für die
quantitative Untersuchung von Lessings Dramen. Book of Abstracts, DHd 2018.
Kann man denn auch nicht lachend sehr ernsthaft
sein?" Zum Einsatz von Sentiment Analyse-
Verfahren für die quantitative Untersuchung von
Lessings Dramen
Thomas Schmidt (thomas.schmidt@stud.uni-regensburg.de),
Lehrstuhl für Medieninformatik, Universität Regensburg
Manuel Burghardt (manuel.burghardt@ur.de),
Lehrstuhl für Medieninformatik, Universität Regensburg
Katrin Dennerlein (katrin.dennerlein@uni-wuerzburg.de),
Institut für Deutsche Philologie, Julius-Maximilians-Universität Würzburg
1 Sentiment Analyse und Dramenanalyse
Sentiment Analyse (SA) beschreibt eine Reihe von computergestützten Methoden
zur Prädiktion der Polarität eines Texts, versucht also vereinfacht gesagt
automatisiert herauszufinden, ob ein Text ein positives oder negatives Gefühl
ausdrückt (Liu 2016). Darüber hinaus werden teilweise auch komplexere
emotionale Kategorien (wie z.B. Zorn und Freude) betrachtet (Mohammad &
Turney 2010). Zentrale Anwendungsfelder der SA sind bislang vor allem die
Analyse von Online-Reviews (McGlohan, Glance & Reiter 2010) und Social Media-
Daten (Kouloumpis, Wilson & Moore 2011).
2
Zur Analyse von literarischen Texten mittels SA-Techniken finden sich bislang nur
wenige Studien, z.B. zu Märchen (Alm, Roth & Sproat 2005) und Romanen
(Kakkonen & Kakkonen 2011; Elsner 2012; Jannidis et al. 2016). Auf größeren
Textkorpora wurde getestet, inwiefern SA-Werte eines Textes und Emotionskurven
von Texten zur Genreklassifikation verwendet werden können (Kim, Padó &
Klinger 2017) und wie begriffsgeschichtliche Bedeutungsverschiebungen in
literarischen Texten mithilfe von erweiterten SA-Methoden erforscht werden
können (Buechel, Hellrich & Hahn 2017). In Dramentexten hat man bisher die
Verteilung von emotionalen Kategorien (Mohammad 2011) oder die Entwicklung
von Figurenbeziehungen (Nalisnick & Baird 2013) in Shakespeare-Dramen
untersucht. Auch der vorliegende Beitrag beschäftigt sich mit dem Einsatz von SA
im Bereich der Dramenanalyse. Es werden erstmals systematisch verschiedene
Methoden der SA für Dramen getestet und evaluiert. Zudem wird exploriert,
inwiefern bisher in der Literaturwissenschaft erforschte Aspekte von Dramen
mithilfe der SA erfasst werden und inwiefern die SA auch für die Gewinnung neuer
literaturwissenschaftlicher Erkenntnisse eingesetzt werden kann.
Das im Rahmen dieser Studie verwendete Lessing-Korpus umfasst ein mit
Strukturinformationen annotiertes Dramenkorpus mit 11 Dramen, bestehend aus
insgesamt 8224 Einzelrepliken. Sämtliche Dramen wurden über die Plattform
TextGrid
1
bezogen, so dass alle im Rahmen dieses Beitrags entwickelten Tools auch
auf andere TextGrid-Dramen anwendbar sind. Mit dem am besten evaluierten SA-
Verfahren wurde eine webbasierte Anwendung zur Analyse und Visualisierung
von Sentiment-Verteilungen und -Verläufen implementiert.
2 Evaluation unterschiedlicher SA-Verfahren
2.1 Lexikonsbasierte SA
Innerhalb der SA unterscheidet man zwei wesentliche Ansätze: (1) die Nutzung
maschinellen Lernens und (2) die Verwendung lexikonbasierter Verfahren. Für das
erstgenannte Vorgehen ist typischerweise ein mit Sentiment-Informationen
1
https://textgridrep.org/repository.html; Hinweis: alle im Beitrag erwähnte URLs wurden zuletzt am 12.1.2018
überprüft
3
annotiertes Trainingskorpus notwendig (D‘Andrea et al. 2015), welches für die
Dramenanalyse bislang nicht vorliegt. Aus diesem Grund werden in der
vorliegenden Arbeit lexikonbasierte Verfahren eingesetzt. Ein Sentiment-Lexikon
ist dabei eine Wortliste, in der für jedes Wort Sentiment-Informationen angegeben
sind (Liu 2016: 10), also z.B. ob es positiv oder negativ konnotiert ist und in welchem
Ausmaß (Polaritätsstärke). Ein derartiges Wort nennt man auch sentiment bearing
word (SBW; Liu 2016: 189).
2.2 SA-Parameter
Folgende SA-Optionen wurden in unterschiedlichen Kombinationen systematisch
evaluiert:
i) Lexika – Es wurden fünf zentrale Sentiment-Lexika für den deutschsprachigen
Bereich herangezogen: SentiWortschatz (SentiWS; Remus, Quasthoff & Heyer 2010),
die Berlin Affective Word List – Reloaded (Bawl-R; Vo et al. 2009), die deutsche Version
des NRC Emotion-Association Lexicon (NRC, Mohammad & Turney 2010), ein
Lexikon von Clematide & Klenner (2010; im folgenden CK genannt) und das
German Polarity Clues (GPC; Waltinger 2010). SentiWS, Bawl-R und CK enthalten
Polaritäten und Polaritätsstärken, das NRC und GPC nur Polaritätsangaben. Das
NRC enthält des Weiteren Annotationen zu acht unterschiedlichen Emotionen
(Zorn, Furcht, Erwartung, Freude, Vertrauen, Ekel, Traurigkeit, Überraschung).
ii) Historisch-linguistische Varianten Über ein Tool des Deutschen Text-Archivs
von Jurish (2011) wurde die Option der Lexikon-Erweiterung mit historischen
linguistischen Varianten der Originalwörter untersucht.
iii) Stoppwortlisten Analog zu Saif et al. (2014) wurde der Einfluss der
Verwendung von insgesamt drei unterschiedlichen Stoppwortlisten auf die
Qualität der SA untersucht. Grund hierfür ist, dass durch verschiedene
Kombination der Verfahren Sentiment-tragende Stoppwörter entstehen. Neben
herkömmlichen Stoppwörtern wurden dabei auch Listen mit hochfrequenten
Wörtern des Korpus untersucht. Dadurch wird der Einfluss von Wörtern analysiert,
die zwar als sentiment-tragend in SA-Lexika ausgezeichnet werden, aber aufgrund
der häufigen Nutzung im Korpus ein ungleichmäßiges Sentiment-Gewicht
erzeugen (z.B. Herr, Fräulein).
4
iv) Lemmatisierung Eine weitere untersuchte Verarbeitungsform für die SA ist
die Lemmatisierung. Als Lemmatisierer werden der Pattern-Lemmatisierer (De
Smedt & Daelemans 2012) der Python-Bibliothek textblob und der Python-Wrapper
des treetagger-Tools (Schmid 1995) evaluiert. Viele SA-Lexika enthalten lediglich
Grundformen. Aufgrund der Probleme und Schwierigkeiten der Lemmatisierung
im Deutschen (Eger, Gleim & Mehler 2016) soll vergleichend untersucht werden,
welcher Lemmatisierer die besten Ergebnisse in Kombination mit Lexika erzielt.
Ferner enthalten einige SA-Lexika manuell angegebene flektierte Wortformen. Es
wird somit auch die automatische Lemmatisierung mit der manuellen Erweiterung
verglichen.
2.3 SA-Metriken
Alle nachfolgenden Berechnungen wurden bezüglich aller kombinatorischen
Möglichkeiten der soeben beschriebenen SA-Parameter durchgeführt. Dabei
werden die jeweiligen SA-Metriken nach Term-Zähl-Methodik (Kennedy & Inkpen
2006) berechnet, d.h. ein Text wird hinsichtlich vorhandener SBWs untersucht,
positive und negative Wörter ausgezählt und für einen Polaritätswert die positive
von der negativen Zahl subtrahiert. SA-Metriken wurden auf folgenden Ebenen
über die jeweils zugehörigen Texte kalkuliert: Drama, Akte, Szenen, Repliken sowie
Sprecher und Sprecherbeziehungen pro Drama, Akt, Szene und Replik. Die
Beziehungen zwischen den Figuren wurden nach einer Heuristik von Nalisnick &
Baird (2013) berechnet.
2.4 Erstellung des Gold Standards
Zur systematischen Evaluation der Prädiktionsleistung der verschiedenen SA-
Ansätze wurde ein Evaluationskorpus bestehend aus 200 Repliken erstellt. Bei der
Auswahl der Repliken wurde darauf geachtet, dass die dramenspezifische
Verteilung berücksichtigt wird, längere Dramen sind also mit mehr Repliken
vertreten. Ferner wurden nur solche Repliken aufgenommen, die mindestens 19
Wörter umfassen. Diese Länge entspricht etwa -25% des Mittelwerts des
Gesamtkorpus und vermeidet damit die Selektion von zu kurzen Repliken. Es
wurde insgesamt auf eine gleichmäßige Längenverteilung geachtet.
5
Die Repliken wurden von insgesamt fünf Personen (4 weiblich, 1 männlich; alle
jeweils mit Deutsch als Muttersprache) jeweils unabhängig voneinander bezüglich
deren Polaritätswirkung bewertet. Die Polarität jeder Replik wurde jeweils
sechswertig (sehr negativ, negativ, neutral, gemischt, positiv, sehr positiv) und
binär (positiv, negativ) bewertet. Die Annotationen wurden bezüglich des
Übereinstimmungsgrades analysiert. Dazu wurden das Übereinstimmungsmaß
Fleiss‘ Kappa (Fleiss 1971) sowie der Durchschnittswert der prozentualen
Übereinstimmung aller Annotatoren und Annotatorinnen berechnet (vgl. Tabelle
1).
Tabelle 1. Annotator agreement.
Man erkennt eine geringe Übereinstimmung für die Bewertungsskala mit
sechsstufiger Polarität und eine moderate Übereinstimmung für die binäre
Variante. Die Ergebnisse verhalten sich konform zu verwandten Studien bei der
Interpretation literarischer Texte (Alm & Sproat 2005). Als finale Annotation für
eine Replik wird die binäre Polarität gewählt, die die Mehrheit der Annotatoren
und Annotatorinnen ausgewählt haben (Endresultat: 139 negativ, 61 positiv).
2.5 Evaluationsmaße
Als Evaluationsmaße wurden Genauigkeit (accuracy), Recall, Precision und F-
Werte (Gonçalves et al. 2013) herangezogen. Abb. 1 zeigt einen Ausschnitt aus den
je fünf besten Kombinationen pro Lexikon, geordnet nach Genauigkeit.
2
2
Die vollständige Tabelle ist online verfügbar unter:
https://drive.google.com/open?id=1cvyqiiLJ03XT1VNaWgSDoajeTE3wgeqxxr2PXp-VM4w
6
Abbildung 1: Ausschnitt aus der detaillierten Ergebnistabelle zur Evaluation der SA-
Kombinationsmöglichkeiten.
2.6 Ergebnisse der Evaluation
Nachfolgend erfolgt eine überblicksartige Zusammenstellung einiger zentraler
Ergebnisse aus der Evaluation:
Eine explizite Lemmatisierung führt zu einer verbesserten Leistung. Beide
Lemmatisierer erzielen dabei meist ähnliche Ergebnisse. Die
Lexikonerweiterung durch historische Varianten macht die explizite
Lemmatisierung jedoch weitestgehend unnötig, da hierbei auch eine
grundlegende Lemmatisierung inkludiert ist.
Es zeigt sich eine konsistente Verbesserung durch die Lexikonerweiterung
mittels der Wort-Varianten aus dem Tool von Jurish (2011).
Stoppwortlisten haben nur auf vereinzelte Lexika (GPC, CK) einen merklich
positiven Einfluss.
Lexika mit Polaritätsstärken sind meist besser als reine Term-Zähl-Verfahren
desselben Lexikons.
Das Lexikon, dass die höchsten Genauigkeiten für die SA erzielt, ist SentiWS
7
Die beste Leistung (unter Analyse aller Metriken) erzielt das erweiterte
SentiWS mit den Polaritätsstärken, lemmatisiert mittels Pattern-
Lemmatisierer und ohne Stoppwortliste (Genauigkeit = 0,67; F-Wert = 0,64).
Die Erkennungsrate ist besser als die random baseline von 0,576 aber
schlechter als viele Erkennungsraten auf anderen Anwendungsgebieten der
SA (Vinodhini & Chandrasekran 2012).
Aufgrund der Tatsache, dass hier ein verhältnismäßig simpler SA-Ansatz gewählt
wurde und bereits menschliche Annotatoren und Annotatorinnen Schwierigkeiten
mit der Polaritätsbestimmung haben, sind die Ergebnisse insgesamt durchaus
positiv zu bewerten.
3 Online-Tool
Abschließend wurde auf Basis des besten SA-Ansatzes ein Web-Tool für die SA bei
Dramen entwickelt. Dieses bietet interaktive Visualisierungen der Sentiment-
Verteilungen und -Verläufe für alle berechneten Ebenen. Neben den SentiWS-
Metriken wurden auch die Emotionskategorien des NRC integriert. Über das Tool
kann man erste Fallstudien auf Dramen-, Akt-, Szenen-, Repliken-, Sprecher- und
Sprecherbeziehungsebene durchführen. Die SA-Komponente ist online verfügbar.
3
Trotz der historischen Differenz stimmen die Ergebnisse der automatischen SA
tendenziell mit dem überein, was man in der Dramengeschichte über Bewertungen
von Figuren und deren Verhalten weiß. Zusätzlich ist aber ein wichtiger
heuristischer Mehrwert zu beobachten: eine Analyse allein auf der Basis von
Sentiment-Zuschreibungen führt dazu, dass man das Augenmerk gezielt auf Fakten
des Textes richtet, die bisher nicht berücksichtigt wurden.
Im Folgenden einige Beispiele für die Bestätigung bekannter Ergebnisse und für
Entscheidungen von Analysefragen.
3.1 Fallstudie: Minna von Barnhelm
Die Analyse von Minna von Barnhelm zeigt, dass die negativen emotionalen
Bewertungen insgesamt gegenüber den positiven deutlich überwiegen (vgl. Abb.
3
http://lauchblatt.github.io/QuantitativeDramenanalyseDH2015/FrontEnd/sa_selection.html
8
2). Dieser Befund bestätigt die bekannte Erkenntnis, dass Lessing das Schema des
rührenden Lustspiels verwendet hat. Während die Komik im Stück eher das
Ergebnis von Schlussprozessen ist, geht es auf der wörtlichen Ebene überwiegend
um ernste Vorwürfe und drohenden Identitäts- und Beziehungsverlust.
Abbildung 2: Polaritätsverteilung im Drama – Minna von Barnhelm
Es ist verschiedentlich behauptet worden (Saße 1993), Minna und nicht Tellheim sei
die lächerliche Figur des Stücks. Die Sympathielenkung auf der wörtlichen Ebene
des Textes, die in der unten stehenden Sentimentverteilung pro Akt abgebildet ist,
kann dazu herangezogen werden, diese Frage negativ zu bescheiden (vgl. Abb. 3).
Es ist eine auffällige Abweichung der Polarität im zweiten Akt erkennbar. In diesem
Akt tritt Minna von Barnhelm zum ersten Mal auf, Tellheim jedoch nicht.
9
Abbildung 3: Polaritätsverlauf pro Akt – Minna von Barnhelm
3.2 Fallstudie: Emilia Galotti
Die letzte Visualisierung kann genutzt werden die Frage zu diskutieren, warum
Emilia in Lessings Drama „Emilia Galotti“ sterben muss (vgl. Abb. 4). Auffällig ist
hier die starke negative Bewertung Emilias im zweiten Akt. Entgegen bisheriger
Interpretationen, in denen nur die Intrige des Prinzen und Marinelli dafür
verantwortlich gemacht werden, dass Emilia um ihre Tugend fürchten und ihren
Vater dazu bringen muss, sie umzubringen, wird dadurch die Abwertung allein
durch die Avancen des Prinzen sichtbar, die später sowohl Emilias als auch r
Odoardos Einschätzung der Ehrbarkeit Emilias in ihrem zukünftigen Leben
bestimmen.
10
Abbildung 4: Polaritätsverlauf von Sprechern pro Akt – Emilia Galotti
4 Fazit
Insgesamt sind die ersten Analyse-Ergebnisse über das Web-Tool sehr
vielversprechend. Dabei ist zu bedenken, dass über die Verwendung von SA-
Lexika ein sehr einfacher SA-Ansatz gewählt wurde. Über ML- oder Hybrid-
Ansätze können Besonderheiten der poetischen und veralteten Sprache
möglicherweise besser beachtet werden. Ferner ist fraglich, ob eine Reduktion auf
das sonst in der SA übliche binäre System positiv/negativ ausreichend ist für
komplexe Interpretationen von Emotionen in Dramen.
Durch Optimierung des SA-Verfahrens, Ausbau der Funktionen im Front-End und
Erweiterung des Tools mit zusätzlichen Dramen sollen künftig Möglichkeiten und
Nutzen der SA in der Dramenanalyse weiter exploriert werden.
11
5 Literatur
Alm, Cecilia Ovesdotter / Sproat, Richard (2005): "Emotional sequencing and development in fairy
tales.", in: International Conference on Affective Computing and Intelligent Interaction 668-674.
Alm, Cecilia Ovesdotter / Roth, Dan / Sproat, Richard (2005): "Emotions from text: machine
learning for text-based emotion prediction.", in: Proceedings of the conference on human language
technology and empirical methods in natural language processing 579-586.
Buechel, Sven / Hellrich, Johannes / Hahn, Udo (2017): “The Course of Emotion in Three Centuries
of German Text – A Methodological Framework.”, in: Digital Humanities 2017 176-179.
Clematide, Simon / Klenner, Manfred (2010): "Evaluation and extension of a polarity lexicon for
German.", in: Proceedings of the First Workshop on Computational Approaches to Subjectivity and Sentiment
Analysis 7-13.
D’Andrea, Alessia et al. (2015): "Approaches, tools and applications for sentiment analysis
implementation.", in International Journal of Computer Applications 125.3: 26-33.
De Smedt, Tom / Daelemans, Walter (2012): "Pattern for python.", in: Journal of Machine Learning
Research 13: 2063-2067.
Eger, Steffen / Gleim, Rüdiger / Mehler, Alexander. (2016). “Lemmatization and Morphological
Tagging in German and Latin: A Comparison and a Survey of the State-of-the-art.”, in: LREC 1507–
1513.
Elsner, Micha (2012): "Character-based kernels for novelistic plot structure.", in: Proceedings of the
13th Conference of the European Chapter of the Association for Computational Linguistics 634-644.
Fleiss, Joseph L. (1971): "Measuring nominal scale agreement among many raters.", in: Psychological
bulletin 76.5: 378-382.
Gonçalves, Pollyanna, et al. (2013): "Comparing and combining sentiment analysis methods.", in:
Proceedings of the first ACM conference on Online social networks 27-33.
Jannidis, Fotis, et al. (2016): "Analyzing Features for the Detection of Happy Endings in German
Novels.", in: arXiv preprint arXiv:1611.09028
Jurish, Bryan (2011): Finite-state canonicalization techniques for historical German. Diss.
Universitätsbibliothek der Universität Potsdam.
Kakkonen, Tuomo / Kakkonen, Gordana Galić (2011): "SentiProfiler: creating comparable visual
profiles of sentimental content in texts.", in: Language Technologies for Digital Humanities and Cultural
Heritage 62-67.
Kennedy, Alistair / Inkpen, Diana (2006): "Sentiment classification of movie reviews using
contextual valence shifters.", in: Computational intelligence 22.2: 110-125.
12
Kim, Evgeny / Padó, Sebastian / Klinger, Roman (2017): “Investigating the relationship between
Literary Genres and Emotional Plot Development.”, in: Proceedings of the Joint SIGHUM Workshop on
Computational Linguistics for Cultural Heritage, Social Sciences, Humanities and Literature 17–26.
Kouloumpis, Efthymios / Wilson, Theresa / Moore, Johanna D. (2011): "Twitter sentiment analysis:
The good the bad and the omg!.", in: In Proceedings of the Fifth International Conference on Weblogs and
Social Media 538-54.
Liu, Bing (2016): Sentiment analysis: Mining opinions, sentiments, and emotions. New York: Cambridge
University Press.
McGlohon, Mary / Glance, Natalie S. / Reiter, Zach (2010) "Star Quality: Aggregating Reviews to
Rank Products and Merchants.", in: Proceedings of the International Conference on Weblogs and Social
Media (ICWSM-2010) 114-121.
Mohammad, Saif (2011): "From once upon a time to happily ever after: Tracking emotions in novels
and fairy tales.", in: Proceedings of the 5th ACL-HLT Workshop on Language Technology for Cultural
Heritage, Social Sciences, and Humanities 105-114.
Mohammad, Saif M. / Turney, Peter D. (2010): "Emotions evoked by common words and phrases:
Using Mechanical Turk to create an emotion lexicon.", in: Proceedings of the NAACL HLT 2010
workshop on computational approaches to analysis and generation of emotion in text 26-34.
Nalisnick, Eric T. / Baird, Henry S. (2013): "Character-to-character sentiment analysis in
shakespeare’s plays.“, in: Proceedings of the 51st Annual Meeting of the Association for Computational
Linguistics 479–483.
Remus, Robert / Quasthoff, Uwe / Gerhard, Heyer (2010): "SentiWS-A Publicly Available German-
language Resource for Sentiment Analysis.", in: LREC 1168-1171.
Saif, Hassan, et al. (2014): "On stopwords, filtering and data sparsity for sentiment analysis of
twitter.", in: Proc. 9th Language Resources and Evaluation Conference (LREC) 810-817.
Saße, Günter (1993): Liebe und Ehe: oder, wie sich die Spontaneität des Herzens zu den Normen der
Gesellschaft verhält. Lessings Minna von Barnhelm. Tübingen: Niemeyer.
Schmid, Helmut (1995): "Improvements in part-of-speech tagging with an application to German.",
in: Proceedings of the acl sigdat-workshop.
Vinodhini, G. / Chandrasekaran, R. M. (2012): "Sentiment analysis and opinion mining: a survey.",
in: International Journal of Advanced Research in Computer Science and Software Engineering 2.6: 282-292.
Võ, Melissa LH, et al. (2009): "The Berlin affective word list reloaded (BAWL-R) ", in: Behavior
research methods 41.2: 534-538.
Waltinger, Ulli (2010): "Sentiment Analysis Reloaded-A Comparative Study on Sentiment Polarity
Identification Combining Machine Learning and Subjectivity Features.", in: Proceedings of the 6th
International Conference on Web Information Systems and Technologies (WEBIST '10).
... Kim & Klinger, 2018). Sentiment and emotion analysis have been used to investigate various types of literary texts like novels (Jannidis et al., 2016;Kakkonen & Kakkonen, 2011;Reagan et al., 2016), fairy tales (Alm & Sproat, 2005;Mohammad, 2011), plays (Mohammad, 2011;Nalisnick & Baird, 2013;Schmidt, Burghardt, & Dennerlein, 2018b;Schmidt, 2019;Yavuz, 2021), fan fictions (Kim & Klinger, 2019a, online writings (Pianzola et al., 2020), historical political texts (Sprugnoli et al., 2016) or pop song lyrics (Napier & Shamir, 2018;Schmidt, Bauer, Habler, Heuberger, Pilsl, & Wolff, 2020). Research goals vary for the application of sentiment and emotion analysis on these text sorts. ...
... Research goals vary for the application of sentiment and emotion analysis on these text sorts. Most research tries to explore general purpose applications on these texts to analyze descriptive results, e. g., with a focus on sophisticated visualizations of sentiment and emotion distributions and progression or comparisons of different works (Kakkonen & Kakkonen, 2011;Mohammad, 2011;Reagan et al., 2016, Napier & Shamir, 2018Schmidt, Burghardt, & Dennerlein, 2018b;Schmidt, 2019). Others evaluate different methodological approaches for this challenging text sort comparing the performance on annotated text units Kim & Klinger, 2019a). ...
Conference Paper
Full-text available
We present SentText, a web-based tool to perform and explore lexicon-based sentiment analysis on texts, specifically developed for the Digital Humanities (DH) community. The tool was developed integrating ideas of the user-entered design process and we gathered requirements via semi-structured interviews. The tool offers the functionality to perform sentiment analysis with predefined sentiment lexicons or self-adjusted lexicons. Users can explore results of sentiment analysis via various visualizations like bar or pie charts and word clouds. It is also possible to analyze and compare collections of documents. Furthermore, we have added a close reading function enabling researchers to examine the applicability of sentiment lexicons for specific text sorts. We report upon the first usability tests with positive results. We argue that the tool is beneficial to explore lexicon-based sentiment analysis in the DH but can also be integrated in DH-teaching.
... Lately, this area of study has been enhanced by computational sentiment analysis techniques, which are used to automatically predict sentiments and emotions in written texts (cf. Alm et al., 2005;Volkova et al., 2010;Jannidis et al., 2016;Kakkonen & Kakkonen, 2011;Kao & Jurafsky, 2012;Mohammad, 2011;Nalisnick & Baird, 2013;Schmidt et al., 2018). Sentiment analysis has become one of the most active areas of research in computational linguistics in recent years (Vinodhini & Chandrasekran, 2012) and is typically used for the analysis of online reviews and social media (Liu, 2016). ...
... However, a major problem for the application of sentiment analysis methods for literary texts is the lack of human-annotated training data. Such data is an important prerequisite for the evaluation of dictionary-based approaches (lists of words annotated with sentiment information), which are among the most popular methods for the sentiment analysis of literary texts (Mohammad, 2011;Nalisnick & Baird, 2013;Schmidt et al., 2018). Manually curated training data is even more important for unsupervised machine learning approaches, which have been proven to be very successful in the context of other areas of sentiment analysis (Pang et al., 2002). ...
Conference Paper
Full-text available
We present results of a sentiment annotation study in the context of historical German plays. Our annotation corpus consists of 200 representative speeches from the German playwright Gotthold Ephraim Lessing. Six annotators, five non-experts and one expert in the domain, annotated the speeches according to different sentiment annotation schemes. They had to annotate the differentiated polarity (very negative, negative, neutral, mixed, positive, very positive), the binary polarity (positive/negative) and the occurrence of eight basic emotions. After the annotation, the participants completed a questionnaire about their experience of the annotation process; additional feedback was gathered in a closing interview. Analysis of the annotations shows that the agreement among annotators ranges from low to mediocre. The non-expert annotators perceive the task as very challenging and report different problems in understanding the language and the context. Although fewer problems occur for the expert annotator, we cannot find any differences in the agreement levels among non-experts and between the expert and the non-experts. At the end of the paper, we discuss the implications of this study and future research plans for this area.
... Both methods have gained a lot of interest in Digital Humanities (DH) and Computational Literary Studies (CLS) (cf. [9]) and are applied to analyze emotions and sentiment in historical plays [12,17,23,25,26,27,29,40], novels [6,12,21], fairy tales [1,12], political texts [38], or online forums [14,35]. DH projects also explore more modern literary genres like fan fictions [8,7], original creative works on the web [19], subtitles of movies [5,42] or song lyrics [24]. ...
Conference Paper
Full-text available
In this paper, we present first work-in-progress annotation results of a project investigating computational methods of emotion analysis for historical German plays around 1800. We report on the development of an annotation scheme focussing on the annotation of emotions that are important from a literary studies perspective for this time span as well as on the annotation process we have developed. We annotate emotions expressed or attributed by characters of the plays in the written texts. The scheme consists of 13 hierarchically structured emotion concepts as well as the source (who experiences or attributes the emotion) and target (who or what is the emotion directed towards). We have conducted the annotation of five example plays of our corpus with two annotators per play and report on annotation distributions and agreement statistics. We were able to collect over 6,500 emotion annotations and identified a fair agreement for most concepts around a κ-value of 0.4. We discuss how we plan to improve annotator consistency and continue our work. The results also have implications for similar projects in the context of Digital Humanities.
... 2 Fallstudie: Sentiment Analysis für Dramen Vor diesem Hintergrund präsentieren wir erste Erfahrungen aus einem interdisziplinären und noch laufenden Projekt zur computergestützten Sentiment Analysis deutschsprachiger Dramen. Dabei wurden im Rahmen einer Evaluationsstudie unterschiedliche Lexika und NLP-Tools untersucht und gegen einen manuell erstellten Gold-Standard abgeglichen Schmidt, Burghardt & Dennerlein, 2018a;Schmidt, Burghardt & Dennerlein, 2018b). ...
Conference Paper
Full-text available
n diesem Beitrag wird über die Ergebnisse eines laufenden Digital Humanities-Projekt zur Sentiment Analysis in literarischen Texten berichtet und die Implikation von diesem diskutiert. In dem Projekt wer-den verschiedene Methoden der Sentiment Analysis auf Texte historischer Dramen des 18. Jahrhunderts von G. E. Lessing implementiert und gegeneinander evaluiert. Zur Evaluation wurde ein von Menschen bezüglich des Sentiments annotiertes Testkorpus erstellt. Basierend auf den ersten Erfahrungen des Projekts diskutieren wir über Probleme und Herausforderungen, die sich aus der Perspektive der Informatik zur Sentiment Analysis historischer Dramen ergaben. Es wird deutlich, dass bestehende Standardlösungen der Sentiment Analysis für dieses spezifische Szenario nicht ohne Weiteres anwendbar sind. Viel-mehr ist die Informatik gefordert, die bestehenden Methoden anzupassen, weiterzuentwickeln und sich mit besonderen Eigenheiten der Textform historischer literarischer Texte auseinanderzusetzen.
Conference Paper
Full-text available
We present Katharsis, a tool for "computational drametrics" that implements Solomon Marcus' (1973) theory of mathematical drama analysis. The tool computes and visualizes character configurations and speech statistics for different levels of analysis and allows users to compare different collections of plays. We illustrate the usefulness of the tool for literary studies via several use cases. The tool is freely available online for a test corpus of approximately 100 German plays: http://lauchblatt.github.io/Katharsis/index.html
ResearchGate has not been able to resolve any references for this publication.