Content uploaded by Manuel Burghardt
Author content
All content in this area was uploaded by Manuel Burghardt on Nov 09, 2020
Content may be subject to copyright.
Cite as: Burghardt, M., Meyer, S., Schmidtbauer, S. & Molz, J. (2019).
“The Bard meets the Doctor” – Computergestützte Identifikation
intertextueller Shakespearebezüge in der Science Fiction-Serie Dr.
Who. In Book of Abstracts, DHd 2019, Frankfurt a. M.
“The Bard meets the Doctor” – Computergestützte
Identifikation intertextueller Shakespearebezüge
in der Science Fiction-Serie Dr. Who
Manuel Burghardt (burghardt@informatik.uni-leipzig.de), Universität Leipzig
Selina Meyer (Selina.Meyer@stud.uni-regensburg.de), Universität Regensburg
Stephanie Schmidtbauer (Stephanie.Schmidbauer@stud.uni-regensburg.de), Universität Regensburg
Johannes Molz (johannes.molz@googlemail.com), Ludwig-Maximilians-Universität München
1. Einführung: Shakespeare und Intertextualität
In der jüngeren Literatur- und Kulturtheorie geht an davon aus, dass alle literarischen Texte
immer auch durch eine reiche Tradition, ja ein ganzes Ökosystem, bestehender Literatur
beeinflusst sind (Allen, 2000, S. 1). Dieser Einfluss, der sich im Text sowohl in impliziten als
auch in expliziten Querverbindungen durch Zitate offenbart, wird gemeinhin als
Intertextualität bezeichnet
1
. Als eine der zentralen Kulturtechniken der Postmoderne, lässt
sich das Zitat an keinem Autor so gut studieren wie an William Shakespeare, dessen
intertextuelles Nachwirken die gesamte westliche Kulturhemisphäre durchzieht (Maxwell &
Rumbold, 2018, S. 1). Eine Untersuchung dieser allgegenwärtigen Spuren ist somit zwingend
auch eine Geschichte unserer gesamten Kultur (Taylor, 1991) und beantwortet und eröffnet
Fragen, die weit über Shakespeare hinausgehen. Dabei finden sich intertextuelle Bezüge auf
das Werk Shakespeares nicht nur in unterschiedlichsten literarischen Genres, sondern in
zunehmendem Maße auch im Massenmedium Film und Fernsehen (Malone, 2018).
Wenngleich Film in erster Linie ein visuelles Medium ist, so bietet sich über die Dialoge
zusätzlich ein verbaler Analysezugang (vgl. Kozloff, 2000), Klarer (1998, S. 54) spricht in dem
Zusammengang gar von Film als semi-textuelles Genre. Die den Filmen zugrunde liegenden
Skripte lassen sich als Dramen lesen, da sie ausschließlich aus Figurennamen, Sprechakten
1
Für eine Einführung zu „Intertextualität“ siehe Allen (2000).
und Bühnenanweisungen bestehen. Für die quantitative Analyse von Intertextualitäts-
phänomenen bei Filmen liegt ein großer Vorteil in der Verfügbarkeit vollständig
transkribierter Dialoge die als Untertitel
2
, Drehbücher
3
oder Fan-Transkripte
4
über diverse
Online-Portale angeboten werden. Die maschinenlesbaren Dialoge können sodann mit
bestehenden Methoden und Algorithmen aus dem informatischen Anwendungsbereich der
text reuse detection, also der Identifikation einer Wiederverwendung bestimmter Textfragmente
in anderen Texten, eingesetzt werden. Verwandte Arbeiten zur computergestützten
Intertextualitätsforschung finden sich vor allem im Bereich historischer Sprachen,
insbesondere Latein und Griechisch (vgl. Berti et al., 2013; Büchler et al. 2014; Scheirer et al.,
2014; Forstall et al., 2015; Bamman & Crane, 2018), weniger im Bereich der Anglistik und fast
gar nicht in der Shakespeareforschung. Wenngleich das Thema umfangreich mit qualitativ-
hermeneutischen Methoden untersucht wurde und wird (vgl. etwa den Sammelband von
Maxwell & Rumbold, 2018), so finden sich nur wenige Arbeiten, die quantitative, digitale
Methoden einsetzen, bspw. das Hyper-Hamlet-Projekt
5
, bei dem eine große elektronische
Datenbank mit Hamlet-Referenzen aufgebaut wurde (Hohl Trillini & Quassdorf, 2010).
Vor diesem Hintergrund exploriert der vorliegende Beitrag intertextuelle Bezüge auf das
Werk Shakespeares in der britischen Fernsehserie Dr. Who und setzt dabei auf
computergestützte Analysemethoden, die bislang vor allem im Bereich klassischer
Altertumswissenschaften und historischer Sprachen eingesetzt wurden. Dr. Who eignet sich
dabei in besonderer Weise, da die TV-Serie fester Bestandteil der britischen Kultur ist, was
automatisch eine größere Nähe zum Werk ihres Landsmannes Shakespeare bedeutet.
Andererseits gibt es einige Folgen bei Dr. Who, bei denen bereits im Titel explizite
Shakespeare-Bezüge deutlich werden
6
, was auf die Identifikation weiterer Zitate und
Referenzen in anderen Folgen hoffen lässt. Unser Beitrag versteht sich im Wesentlichen als
Fallstudie anhand derer überprüft werden soll, ob sich Standard-Methoden der text reuse
detection prinzipiell auch für eine vergleichende Analyse von Shakespeare und TV-Serien
eignen. Gleichzeitig soll am Beispiel von Dr. Who exemplarisch untersucht werden, welche
Art und Menge von intertextuellen Shakespeare-Bezügen im Kontext von TV-Serien zu
erwarten sind, um darauf aufbauend den computergestützten Ansatz zu optimieren und
weitere Filme und Serien zu analysieren. Übergeordnetes und langfristiges Ziel ist es
demnach, systematisch die Referenzierung Shakespeares in Film und Fernsehen mithilfe
computergestützter Methoden zu erfassen und so die intertextuelle und intermediale
Durchdringung von Shakespeares Werk über die klassischen Literaturgenres hinaus zu
quantifizieren und zu kartieren.
2
Untertitel online verfügbar unter https://www.opensubtitles.org/de (alle URLs in diesem Artikel wurden zuletzt
am 14.10.2018 überprüft)
3
Drehbücher online verfügbar unter https://www.imsdb.com/
4
Fan-Transkripte online verfügbar unter http://transcripts.foreverdreaming.org/,
https://www.springfieldspringfield.co.uk/, http://www.chakoteya.net/
5
HyperHamlet online verfügbar unter http://www.hyperhamlet.unibas.ch/
6
Bspw. „The Shakespeare Code“, Dr. Who Folge 180, Transkription online verfügbar unter
http://www.chakoteya.net/DoctorWho/29-2.htm
2. Korpora: Shakespeare vs. Dr. Who
Im Rahmen unserer Fallstudie werden systematisch Referenzen aus zehn der bekanntesten
Shakespeare-Stücke (Hamlet, Macbeth, Merchant of Venice, Midsummer Night's Dream, Much Ado
About Nothing, Julius Caesar, The Tempest, Romeo and Juliet, King Lear, Othello) sowie aus 154
kurzen Sonetten identifiziert werden. Die Transkripte dieser Werke stammen von der Website
Open Source Shakespeare
7
und umfassen etwa 244.000 Tokens. Gesucht werden die
Shakespearebezüge in einem Vergleichskorpus, welches aus den transkribierten Dialogen der
TV-Serie Dr. Who besteht. Doctor Who ist eine der populärsten Science Fiction-Serien der
britischen Geschichte und wird seit 1969 vom BBC produziert. Mittlerweile umfasst die Serie
840 Folgen, verteilt auf über 36 Staffeln und 13 verschiedene Doktoren. Für die vorliegende
Studie wurden die Serientranskripte der ersten fünf Doktoren analysiert. Die Transkripte
wurden von der Fan-Seite Chakoteya
8
heruntergeladen und umfassen insgesamt 141 Folgen mit
einem Gesamtumfang von etwa zwei Millionen Tokens. Die Transkripte enthalten einerseits
die Dialoge und andererseits Metadaten zu den jeweiligen Szenen, die vergleichbar mit
Bühnenanweisungen bei Dramen sind.
3. Methodik: Suche nach local alignments und keywords
Für die Identifikation von textuellen Übereinstimmungen und Textähnlichkeiten (text reuse)
findet sich ein breites Spektrum an computergestützten Methoden, die im Überblickspapier
von Bär et al. (2012) grundlegend hinsichtlich (1) inhaltlicher, (2) struktureller und (3)
stilistischer Ähnlichkeit kategorisiert werden. In dieser Studie verwenden wir den Smith-
Waterman-Algorithmus (Smith & Waterman, 1981), ein Standard-Verfahren zur Identifikation
von local alignments, also textuellen Übereinstimmungen auf der Inhaltsebene, das u.a. auch
im Bereich der Bioinformatik für die Analyse von Genomsequenzen eingesetzt wird. Dabei
werden auch graduelle Unschärfen wie etwa gaps, also einzelne fehlende Worte in ansonsten
größtenteils identischen Wortgruppen, berücksichtigt. Zur Analyse der Korpora wurden die
R-Packages TextMining
9
für das Preprocessing der Daten und TextReuse
10
als Implementierung
für den Smith-Waterman-Algorithmus verwendet. Beim Preprocessing wurde schnell deutlich,
dass bspw. eine Stoppwortentfernung nicht sinnvoll ist, da diese teilweise sehr
charakteristisch für Shakespeare-Zitate sind (Bsp.: „to be or not to be”). Auch von Stemming
und Lemmatisierung wurde abgesehen, da dies zu sehr vielen falsch-positiven Treffern führt,
die dann aufwendig durch manuelle Kontrolle ausgefiltert werden müssen.
Weiterhin wurde das Shakespeare-Korpus in jeweils überlappende 9-Gramme (shingling), also
jeweils Gruppen von neun Wörtern zerlegt. Für jedes einzelne 9-Gramm wurde dann im Dr.
Who-Korpus mithilfe des im TextReuse-Package implementierten Smith-Waterman-
Algorithmus das optimale local alignment, also der beste Treffer ermittelt. Dabei ist
erwähnenswert, dass für jedes einzelne Shakespeare-9-Gramm immer ein optimales alignment
im Dr. Who-Vergleichskorpus berechnet wird, auch wenn dieses ggf. nur aus einem oder zwei
gemeinsamen Wörtern besteht. Der Vorgang ist somit einerseits sehr rechenintensiv und
liefert andererseits eine große Menge von alignments, deren ausschließlich manuelle Kontrolle
enorm aufwendig wäre. Dabei ist offensichtlich, dass die Verwendung einzelner, noch dazu
7
Open Source Shakespeare online verfügbar unter https://www.opensourceshakespeare.org/
8
Chakoteya Fan-Transkripte online verfügbar unter http://www.chakoteya.net/DoctorWho/index.html
9
Dokumentation online verfügbar unter https://cran.r-project.org/web/packages/tm/index.html
10
Dokumentation online verfügbar unter https://cran.r-project.org/web/packages/textreuse/index.html
sehr allgemeiner Wörter (Artikel, Konjunktionen, etc.) längst keinen intertextuellen Bezug
darstellt. Wir betrachten deshalb nur solche alignments näher, die aus mindestens drei oder
mehr Wörtern bestehen.
Gleichzeitig sind allerdings sehr kurze Referenzen, bspw. die Nennung einer Figur wie
„Othello“ oder „Macbeth“, nicht ausgeschlossen, gehen aber bei diesem Ansatz verloren. Wir
ergänzen den local alignment-Ansatz deshalb um eine keyword-Suche, bei der wir eine manuell
erstellte Liste mit etwa 140 Stichwörtern und sehr kurzen Phrasen verwendeten. Die Liste
enthält alle dramatis personae mit eindeutigen Namen (bspw. Ophelia, Romeo, Caliban, etc.),
die Titel aller Stücke und Apokryphen sowie allgemeine Referenzen zu Shakespeares Person
und Biographie (bspw. Shakespeare, Shaksper, The Bard, Stratford upon Avon, Anne
Hathaway, etc.).
4. Ergebnisse und Diskussion
Insgesamt wurden mit der keyword-Suche 201 Treffer im Dr. Who-Korpus identifiziert, wobei
ein Großteil der Treffer in einer einzelnen Folge vorkommen, da hier zwei der Hauptfiguren
Troilus (108) und Cressida (37) heißen (vgl. Tabelle 1).
Beispielreferenz: “TROILUS: I'm sorry, Cressida, but I must obey orders.”
Bei genauerer Überprüfung der Treffer wird schnell klar, dass Figurennamen aus
Shakespeares Historiendramen häufig auch in der ursprünglichen Bedeutung der
zugrundliegenden historischen Figur zitiert werden (bspw. Horatio [Nelson], King John, Julius
Caesar, Pericles) und somit keine genuine Shakespearereferenz vorliegt. Nach Entfernung
dieser falsch-positiven Treffer verbleiben 185 echte Shakespearereferenzen. Hier muss
allerdings angemerkt werden, dass die von uns verwendeten Transkripte neben den
eigentlichen Dialogen auch umfangreiche Kommentare und Metadaten zu den Stücken
enthalten, die häufig zusätzliche Shakespeare-Keywords enthalten. So kommt man
ausschließlich über die Dialoge auf 77 Treffer, in den Metadaten finden sich zusätzliche 108
Treffer.
Tabelle 1: Überblick zu den gefundenen Keywords und alignments im Dr. Who-Korpus. Kursiv gesetzte Treffer
sind falsch-Positive, d.h. nach manueller Prüfung stellte sich heraus, dass sie keine unmittelbare
Shakespearereferenz beinhalten.
Auffällig niedrig scheint im Vergleich zu den keyword-Treffern die Anzahl längerer alignments
zu sein: So finden sich insgesamt nur acht längere Shakespeare-Zitate in unserem Dr. Who-
Korpus, bspw.:
(1) “Friends, Romans, countrymen! Lend me your ears. I come to bury
Caesar, not to praise him.” (Julius Caesar, Akt 3, Szene 2)
(2) “To be or not to be.” (Hamlet, Akt 3, Szene 1)
(3) “By the pricking of my thumbs, something wicked this way comes.”
(Macbeth, Akt 4, Szene 1)
Gleichzeitig erhalten wir mit dem local aligment-Ansatz auch viele falsch-positive Treffer, die
zwar längere, in beiden Texten vorkommende Sequenzen beschreiben, aber keine genuinen
Shakespeare-Zitate sind, sondern eher hochfrequente Idiome, bspw.:
“You all know what you have to do.” (kommt gleichermaßen bei Shakespeare
und Dr. Who vor)
5. Methodenreflexion und Fazit
Der zweigleisige Ansatz einer local alignment- sowie einer gesonderten keyword-Suche bringt
mit 193 intertextuellen Shakespearebezügen in unserem Dr. Who-Korpus eine
beeindruckende Anzahl von Treffern, deren Identifikation manuell was Umfang und
Arbeitsaufwand angeht, so nicht ohne Weiteres möglich gewesen wäre. Damit ergeben sich
spannende Perspektiven für die Erweiterung des Ansatzes auf größere Korpora, mit weiteren
Serien und Filmen. Gleichwohl muss angemerkt werden, dass der Löwenanteil der Treffer
über den relativ trivialen Ansatz der keyword-Suche gefunden wurde. Von den insgesamt 193
Treffern stammen nur 8 aus dem local alignment-Ansatz. Bedenkt man den enormen
Rechenaufwand (fast 200 Stunden mit Standard-Laptops) und den Aufwand der manuellen
Filterung der alignments, so muss man den local alignment-Ansatz in dieser Form doch deutlich
hinterfragen. Denkbar wären hier für künftige Experimente weitere Optimierungen auf
algorithmischer Seite, bspw. die Berücksichtigung von Wortarten-Ngrammen oder die
Verwendung alternativer Algorithmen aus dem Bereich der content similarity (vgl. Bär et al.,
2012). Weitere Verbesserungen sind auf Seite der Ergebnispräsentation (vgl. Burghardt &
Wolff, 2015) möglich, welche die Beurteilung der Treffer deutlich erleichtern und damit
beschleunigen könnte. Sinnvoll scheint auch eine Vorfilterung durch die keyword-Suche, d.h.
nur diejenigen Episoden in denen bereits ein Shakespeare-keyword erkannt wurde werden
anschließend auch noch mit dem local alignment-Ansatz auf komplexere Zitate hin untersucht.
Als nächste Schritte sollen deshalb systematisch Korrelationen zwischen komplexen
alignments und einzelnen keywords in einem größeren Korpus untersucht werden.
Literatur
Allen, G. (2000). Intertextuality. London, New York: Routledge.
Bamman, D., & Crane, G. (2008). The Logic and Discovery of Textual Allusion. ACL Language Technol-
ogy for Cultural Heritage, (1986).
Bär, D., Zesch, T., & Gurevych, I. (2012). Text Reuse Detection using a Composition of Text Similarity
Measures. Proceedings of COLING 2012, 1(December), 167–184.
Berti, M., Büchler, M., Geßner, A., & Thomas, E. (2013). Measuring the Influence of a Work by Text Re-
use. In The Digital Classicist.
Burghardt, M., & Wolff, C. (2015). Humanist-Computer Interaction: Herausforderungen für die Digi-
tal Humanities aus Perspektive der Medieninformatik. In Book of Abstracts Workshop “Informatik
und die Digital Humanities”, Leipzig.
Büchler, M., Burns, P. R., Müller, M., Franzini, E., & Franzini, G. (2014). Towards a Historical Text Re-
use Detection. In C. Biemann & A. Mehler (Eds.), Text Mining, Theory and Applications of Natural
Language Processing. Springer International Publishing.
Forstall, C., Coffee, N., Buck, T., Roache, K., & Jacobson, S. (2015). Modeling the scholars: Detecting
intertextuality through enhanced word-level n-gram matching. Digital Scholarship in the Humani-
ties, 30(4), 503–515.
Hohl Trillini, R., & Quassdorf, S. (2010). A “key to all quotations”? A corpus-based parameter model
of intertextuality. Literary and Linguistic Computing, 25(3), 269–286.
Klarer, M. (1999). An Introduction to Literary Studies. London, New York: Routledge.
Kozloff, S. (2000). Overhearing Film Dialogue. Berkeley et al.: University of California Press.
Malone, T. (2018). Quoting Shakespeare in Twentieth- Century Film. In J. Maxwell & K. Rumbold
(Eds.), Shakespeare and Quotation (pp. 194–208). Cambridge: Cambridge University Press.
Maxwell, J., & Rumbold, K. (2018). Shakespeare and Quotation. Cambridge: Cambridge University Press.
Scheirer, W., Forstall, C., & Coffee, N. (2016). The sense of a connection: Automatic tracing of intertex-
tuality by meaning. Digital Scholarship in the Humanities, 31(1), 204–217.
Smith, T. F., & Waterman, M. S. (1981). Identification of Common Molecular Subsequences. Journal of
Molecular Biology, 147, 195–197.
Taylor, G. (1991). Reinventing Shakespeare: A Cultural History from the Restoration to the Present. Oxford:
Oxford University Press.