Content uploaded by Jan Goldenstein
Author content
All content in this area was uploaded by Jan Goldenstein on Dec 13, 2019
Content may be subject to copyright.
In: Raimund Hasse / Anne K. Krüger (Hg.): Neo-Institutionalismus: Kritik und Weiterentwicklung eines sozial-
wissenschaftlichen Forschungsprogramms, S. 215-246.
Die Erfassung und Messung von Bedeutungsstrukturen in großen Text-
sammlungen: Die Nutzung neuartiger Werkzeuge des Natural Langu-
age Processing im Neo-Institutionalismus
Jan Goldenstein
Philipp Poschmann
Peter Walgenbach
Friedrich-Schiller-Universität Jena
Stichworte: Maschinelles Lernen, Named Entity Recognition, grammatikalisches Parsing, To-
pic Modeling, Visualisierung
1
Seit über 40 Jahren werden die Konzepte der neo-institutionalistischen Organisationstheorie
mit großem Erfolg weiterentwickelt (vgl. Greenwood et al. 2017). In den letzten Jahren halten
mit der Verfügbarkeit von Big Data auch neue Methoden Einzug in die Theorie, mit denen sich
sowohl alte als auch neuere Konzepte der Theorie auch „großzahlig“ untersuchen lassen (vgl.
DiMaggio/Nag/Blei 2013; Mohr/Bogdanov 2013; Mohr et al. 2013; DiMaggio 2015;
Powell/Horvath/Brandtner 2016). Damit eröffnen sich neue Möglichkeiten für die empirische
Forschung. Im vorliegenden Kapitel wird ein Teil dieser Methoden vorgestellt und dargelegt,
wie das Analyserepertoire des Neo-Institutionalismus insbesondere durch Werkzeuge des Na-
tural Language Processing (NLP) sinnvoll erweitert werden kann. Im Folgenden wird illustriert,
wie Wissenschaftler diese NLP-Werkzeuge beispielsweise zur Untersuchung von Prozessen in
institutionellen Feldern nutzen können.
Felder stellen eine zentrale Analyseeinheit im Neo-Institutionalismus dar. Sie werden als aus
mehreren Gruppen von Akteuren bestehend konzeptualisiert, die in eine institutionelle Ordnung
eingebettet sind, d.h. in ein geteiltes Sinnsystem, welches die im Feld als legitim geltenden
Vorstellungen und Praktiken definiert (vgl. DiMaggio/Powell 1983; Scott 1994; Zietsma et al.
2017). Sinnsysteme bestehen vornehmlich aus von den Akteuren im Feld geteilten Bedeutun-
gen (vgl. Hoffman 1999; Wooten/Hoffman 2008, 2017; Beckert 2010; Ansari/Phillips 2011).
Für die Entwicklung der in institutionellen Feldern geteilten Bedeutungen wird dabei den nach-
folgend dargestellten Prozessen und Einflüssen – Isomorphie, institutioneller Wandel, Rahmun-
gen, Emotionen – eine zentrale Rolle zugeschrieben.
Der Prozess der Isomorphie beschreibt die zunehmende Angleichung von Akteuren innerhalb
eines institutionellen Feldes. Die zunehmende Angleichung von Akteuren insbesondere hin-
sichtlich ihrer strukturellen Merkmale und Praktiken resultiert aus der vermehrten Interaktion
zwischen den Feldmitgliedern und aus der Entwicklung eines geteilten Sinnsystems (vgl.
DiMaggio/Powell 1983). In Bezug auf die Interaktion zwischen Feldmitgliedern konnte bei-
spielsweise Fligstein (1985) zeigen, dass die Verbreitung der divisionalen Organisationsform
2
in den Vereinigten Staaten unter anderem dadurch vorangetrieben wurde, dass sich die Unter-
nehmen einer Industrie gegenseitig wahrnahmen und ihre Aktivitäten und ihre Struktur an ver-
meintlich erfolgreichen Unternehmen ausrichteten. Allerdings wird mit Blick auf Studien zur
Isomorphie kritisiert, dass die umfassende und longitudinale Untersuchung der Entstehung und
des Wandels von geteilten Bedeutungen in Feldern bislang weit weniger Beachtung erfahren
hat als die Analyse der strukturellen Angleichung der Akteure im Feld (vgl. Suddaby 2010;
Suddaby et al. 2010). Empirisch wurden vor allem kleine Samples (z.B. Maguire et al. 2004),
Samples mit wenigen Untersuchungszeitpunkten (z.B. Hardy/Maguire 2010) sowie Samples
mit nur weniger Akteursgruppen (z.B. Reay/Hinings 2005) genutzt. Diese Defizite korrespon-
dieren damit, dass vor allem manuelle Textanalysen durchgeführt wurden (z.B. Colyvas/Powell
2006; Meyer/Höllerer 2010; Bromley et al. 2011), die einen enormen Analyseaufwand bedin-
gen.
Durch die Nutzung von NLP-Werkzeugen können die bisherigen Ansätze zur Analyse von Be-
deutungen hochskaliert werden, indem »accounts« (Meyer 2010) oder »vocabularies« (Loe-
wenstein et al. 2012), durch welche die soziale Welt typisiert und objektiviert werden (vgl.
Schütz 1932; Berger/Luckmann 1967; Hasse/Schmidt 2010), unter Berücksichtigung vieler un-
terschiedlicher Akteursgruppen und anhand der von diesen produzierten Texten „großzahlig“
analysiert werden. Des Weiteren werden Typisierungen und Objektivierungen an nachfolgende
Generationen weitergegeben, weshalb eine longitudinale Betrachtung interessante Einsichten
birgt, die durch den Einsatz von NLP-Werkzeugen möglich wird.
Bereits in frühen neo-institutionalistischen Arbeiten wurde hervorgehoben, dass sich in institu-
tionellen Feldern nicht nur Prozesse der Isomorphie zeigen, sondern auch institutioneller Wan-
del vonstattengeht (vgl. Hirsch/Lounsbury 1997; Hoffman 1999). Campbell (2004) unterschei-
det zwei generelle Muster institutionellen Wandels. Einerseits können sich Institutionen evolu-
tionär verändern, d.h. durch die Akkumulation kleinerer Modifikationen über die Zeit. Ande-
rerseits besteht auch die Möglichkeit von revolutionärem Wandel. Diese Form des Wandels
3
bezeichnet substanzielle Modifikationen von Institutionen in einer kurzen Zeitspanne. Für beide
Formen des institutionellen Wandels wird in verschiedenen Arbeiten auf die Rolle von sich
ändernden kulturellen Bedeutungen auf der Makro-Ebene hingewiesen (vgl.
Phillips/Lawrence/Hardy 2004; Meyer 2010; Höllerer/Walgenbach/Drori 2017). Dennoch hat
sich auch hier die empirische Forschung bisher vor allem auf Wandel durch die Verbreitung
neuer und die Modifikation bestehender formaler Strukturen als Indiz für Bedeutungswandel
fokussiert (vgl. Schofer/Meyer 2005; Lim/Tsutsui 2012; Lim 2016). Die Untersuchung institu-
tionellen Wandels auf der Ebene der Bedeutungen verlangt jedoch nach einem Analyseinstru-
mentarium, welches eine feinkörnige Analyse von Sprache erlaubt. Gleichzeitig lassen sich die
Fragen, ob institutioneller Wandel evolutionär oder revolutionär erfolgt und wie er sich in ent-
stehenden oder sich wandelnden Bedeutungen manifestiert, oftmals nur durch die Analyse gro-
ßer Datenmengen beantworten.
Im Neo-Institutionalismus werden in jüngerer Zeit zudem Einflussfaktoren in den Blick ge-
nommen, mit denen Prozesse der Isomorphie und des Wandels exakter gefasst werden können.
Rahmung und Emotionen sind zwei dieser Faktoren, die in jüngeren Arbeiten intensiv diskutiert
werden (vgl. Cornelissen/Werner 2014; Lok et al. 2017). Das Konzept der Rahmung (Framing)
erlaubt, die Analyse der Konstruktion und des Wandels von kulturellen Bedeutungen in den
Blick zu nehmen. Akteure konstruieren Bedeutungen durch die Nutzung von im Feld vorhan-
denen kognitiven Rahmen (vgl. Cornelissen/Werner 2014). Unter einem kognitiven Rahmen
können »schemata of interpretation« (vgl. Goffman 1974: 21) verstanden werden, welche Ak-
teure nutzen, um sozialen Handlungen Sinn zu verleihen (vgl. Benford/Snow 2000). Ein Feld
besteht stets aus einer Vielzahl unterschiedlicher Akteure. Damit geht einher, dass oftmals im
Feld auch unterschiedliche Rahmen existieren, die von Akteuren zur Interpretation der sozialen
Welt genutzt werden können. Die empirische Forschung konnte zeigen, dass der Rahmen, den
Akteure im Feld nutzen, nicht willkürlich gewählt, sondern maßgeblich von der Beschaffenheit
und Struktur des Feldes beeinflusst wird (vgl. Meyer/Höllerer 2010; Litrico/David 2017). Es
4
wird daher vielfach angenommen, dass es in Feldern zu Kämpfen zur Durchsetzung bestimmter
kognitiver Rahmen kommt und als Resultat dieser Kämpfe um die Deutungshoheit ein oder
mehrere Feld-Rahmen hervorgehen, die von einem Großteil der Feldmitglieder übernommen
werden (vgl. Lounsbury/Ventresca/Hirsch 2003; Ansari/Wijen/Gray 2013). Allerdings wird die
vorliegende Forschung dahingehend kritisiert, einen zu starken Fokus auf die Verbreitung und
Übernahme von bereits existierenden Rahmen in Feldern zu legen. Dadurch wird der Prozess
der Konstruktion von Bedeutungen in Feldern vernachlässigt (vgl. Cornelissen/Werner 2014).
Konstruktion und Wandel von Bedeutungen in institutionellen Feldern können sich über län-
gere Zeiträume hinziehen und unter Beteiligung einer Vielzahl von Akteuren stattfinden, wes-
wegen es nötig ist, große Datenmengen über lange Zeiträume zu untersuchen.
Im Neo-Institutionalismus herrscht ein starker Fokus auf kognitive Prozesse vor (vgl.
DiMaggio/Powell 1991). Zunehmend werden jedoch auch hier Emotionen thematisiert (vgl.
Lok et al. 2017; WEIK IN DIESEM BAND). Creed et al. knüpfen dabei an das Rahmungskon-
zept an. Sie argumentieren, dass Emotionen der Ausdruck dessen sind, was Akteure in einer
gegebenen Situation empfinden. Diese Situation wird als institutionell geprägt angesehen, wo-
mit Emotionen selber als Gegenstand sozialer Konstruktion anzusehen sind (vgl. Creed et al.
2014). Emotionen werden folglich als ein Faktor definiert, der zu erklären vermag, wie und
warum Akteure in institutionellen Kontexten agieren und wie sie zu Institutionen Stellung be-
ziehen (vgl. Lok et al. 2017). In diesem Sinn sind Emotionen entscheidend, um die Motivation
von Akteuren zu verstehen, Institutionen entweder aufrechtzuerhalten oder zu verändern (vgl.
Lawrence/Phillips 2004; Voronov/Yorks 2015). Bislang fehlen jedoch Arbeiten, die Emotionen
unabhängig von vordefinierten Schlüsselworten (siehe zum Beispiel Newman et al. 2003) quan-
titativ messen. Die Nutzung von NLP-Werkzeugen ermöglicht es, den Fokus auf die Identifi-
zierung von in Sprachäußerungen latent transportierten Emotionen, d. h. emotionalen Stimmun-
gen, die sich aus der Gesamtheit eines Textes oder einer Aussage ergeben, zu legen.
5
Überwachtes maschinelles Lernen
Grundlagen
Der Ansatz des überwachten maschinellen Lernens ist die Grundlage dafür, dass moderne NLP-
Werkzeuge automatisch Kommunikationsstrukturen aufdecken, Akteurstypen identifizieren o-
der in Texten zum Ausdruck gebrachte emotionale Stimmungen klassifizieren können. Dies
wird dadurch ermöglicht, dass maschinelles Lernen auf computergestützten Prozessen basiert,
die vorliegende Zusammenhänge (z. B. Muster in der Verwendung von Sprache) auf Basis un-
terschiedlicher Daten nachbilden (vgl. Langley 1996; Mitchell 1997). Mit Blick auf die Verar-
beitung natürlicher Sprache zur Analyse von Isomorphie, institutionellem Wandel und insbe-
sondere Rahmungen und Emotionen sind geeignete Daten somit Textkorpora, welche die
Sprachnutzung in bestimmten Verwendungskontexten abbilden. Ein Textkorpus kann prinzipi-
ell aus unterschiedlichen Textgenres aufgebaut werden, wie z. B. aus Zeitungsartikeln oder
Produktbesprechungen. Eine solche Sammlung von Texten gilt als für maschinelles Lernen ge-
eignet, wenn der Korpus für den Zweck repräsentativ ist, für den er geschaffen wurde. Bei-
spielsweise kann ein Korpus repräsentativ sein, wenn er die regelmäßig auftretenden Sprach-
nutzung in Zeitungsartikeln abbildet (für eine ausführliche Diskussion und statistische Verifi-
kation in Bezug auf die Repräsentativität von Korpora, siehe Biber 1993). Um NLP-Werkzeuge
unter Verwendung von überwachtem maschinellem Lernen zu trainieren, werden die Textkor-
pora in sogenannte Baumbanken (treebanks) umgewandelt, die manuell oder halb-manuell mit
linguistischen Merkmalen annotiert wurden (z. B. Labels für Akteurstypen und Stimmungen
oder grammatikalische Funktionen von Worten). Indem die NLP-Werkzeuge auf Basis eines
Algorithmus automatisch jene Muster identifizieren, in denen die annotierten Merkmale auftre-
ten, erwerben diese die Fähigkeit, die grammatische Funktion von Worten oder das Auftreten
von Akteuren auch in unbekannten Texten erkennen zu können.
Das Ergebnis eines derartigen Trainings wird als Modell bezeichnet. Dies impliziert, dass die
Güte und Validität der Ergebnisse, die ein Modell liefert, im Wesentlichen von der verwendeten
6
Baumbank bzw. dem Textkorpus, auf dem diese basiert, abhängt. So dürfte beispielsweise. ein
NLP-Werkzeug, welches an professionell redigierten Texten (z.B. Zeitungsartikel) trainiert
wurde, sich als gut geeignet für die Analyse von Texten des gleichen bzw. eines verwandten
Genres erweisen, aber weniger gut für die Analyse von Texten mit fehlerhafter Grammatik oder
hoher sprachlicher Ambiguität (z.B. Posts auf Twitter). Daher ist es entscheidend, entweder ein
passendes Modell zu trainieren oder die NLP-Werkzeuge mit einem bereits vorhandenen Mo-
dell zu nutzen, das zu dem Textgenre passt, welches analysiert werden soll.
Analyse von Kommunikationsstrukturen sowie Identifizierung von Akteurstypen und
emotionalen Stimmungen
Überwachtes maschinelles Lernen ist für die nachfolgend aufgeführten NLP-Werkzeuge die
entscheidende technische Grundlage.
Kommunikationsstrukturen: Grammatikalisches Parsen
Grammatikalische Parser sind ein Werkzeug, das die Kommunikationsstruktur von Sätzen ana-
lysiert. Kommunikationsstrukturen lassen sich z. B. als semantische Tripletts von Subjekten,
Verben und Objekten operationalisieren (vgl. Franzosi 1989; Roberts 1989). Es stehen dabei
prinzipiell zwei Arten des grammatikalischen Parsens zur Verfügung. Erstens können Parser an
den grammatikalischen Konstituenten von Sätzen ansetzen (vgl. Matthews 1981). Der Parser
hebt dabei die Struktur von Sätzen in Phrasen hervor, die ein oder mehrere Wörter umfassen,
ohne jedoch die grammatische Beziehung zwischen den Wörtern aufzudecken. Eine Phrase be-
steht dabei aus mindestens einer Substantiv-Phrase und einer Verb-Phrase.
Zweitens können Parser auf einer Dependenzgrammatik aufgebaut werden (vgl. Mel’čuk 1988;
Nederhof/Satta 2013). Diese sogenannten Dependenzparser stellen auf die grammatikalische
Verbindung von Worten in Sätzen ab und betrachten Grammatik als ein Netzwerk von Abhän-
gigkeiten zwischen den Worten eines Satzes (vgl. Carroll 2004). Ein Wort stellt die Wurzel
eines Satzes dar, und alle anderen Worte hängen von dieser Wurzel direkt oder transitiv über
7
andere Worte ab. Dependenzparser kennzeichnen die Abhängigkeiten in einem Satz durch die
jeweiligen grammatischen Funktionen der Worte (vgl. de Marneffe/MacCartney/Manning
2006; Chen/Manning 2014). Sie eignen sich daher gut, um die Verbindung von Subjekten, Ver-
ben und Objekten in semantischen Tripletts zu erfassen.
Abbildung 1 zeigt ein Subjekt-Verb-Objekt-Triplett. Die Analyse der Abhängigkeit zeigt, dass
die Phrase »Deutsche Bank« das Subjekt (d. h. den Akteur) bezeichnet, das Verb »bear« be-
schreibt die Handlung und »responsibility« ist das Objekt des Satzes. Die Einheiten, die um
dieses Triplett angeordnet sind, dienen als Modifikatoren und liefern detailliertere Informatio-
nen. Der Entitätsmodifikator für »responsibility« ist beispielsweise »business«, weil er das Ob-
jekt des Satzes weiter spezifiziert. Das Objekt »responsibility« wird weiter spezifiziert durch
den Objektmodifikator »fraud«. Die zeitliche Ausrichtung des Verbs »bear« ist Präsens. Das
modale Hilfsverb »must«, welches vom Verb »bear« abhängt, liefert zusätzlich die Modalität
des Satzes. Zum Beispiel kann Modalität verwendet werden, um Verpflichtungen, Absichten
oder Möglichkeiten auszudrücken. In diesem Beispiel drückt »must« eine Verpflichtung aus.
Absichten (z. B. »want«) drücken den Willen zum Handeln aus, wohingegen Möglichkeiten
(z.B. »can«) auf bestimmte Bedingungen verweisen, die Handlungen ermöglichen.
Abbildung 1: Mit einem Dependenzparser analysierter Satz.
In den folgenden Anwendungsbeispielen wird ein Dependenzparser auf professionell redigierte
Texte angewandt (Texte auf Webseiten, Jahresberichte und Zeitungsartikel). Dabei wird Stan-
ford CoreNLP eingesetzt (vgl. Manning et al. 2014) und der Stanford-Parser verwendet, da
dieser mit einem Modell ausgeliefert wird, das auf der elaborierten Penn Treebank trainiert und
8
getestet wurde (für eine Beschreibung der Baumbank siehe Marcus et al. 1993). Das Ergebnis
dieses Tests zeigt, dass der Parser Sätze mit einer Genauigkeit von 92,20 Prozent analysieren
kann (vgl. Chen/Manning 2014). Da die Penn Treebank auf einem Korpus aus Zeitungsartikeln
des Wall Street Journals basiert, kann davon ausgegangen werden, dass das Modell auch für
die Analyse der in den Anwendungsbeispielen genutzten Texte geeignet ist, welche ebenfalls
professionell redigierte Texte darstellen.
Identifikation von Akteurstypen: Named-Entity-Recognition
Named-Entity-Recognizer erkennen Labels von Entitäten in Texten und klassifizieren sie u.a.
nach den vordefinierten Kategorien »Person« oder »Organisation« (vgl.
Finkel/Grenager/Manning 2005; Florian et al. 2003). In den folgenden Anwendungsbeispielen
wird der von Stanford CoreNLP bereitgestellte Named-Entity-Recognizer eingesetzt. Das Mo-
dell dieses NLP-Werkzeugs wurde unter Verwendung der Baumbanken MUC 6 und MUC 7
trainiert, welche aus Artikeln des Wall Street Journals bestehen. Das Modell wurde anschlie-
ßend anhand von Reuters Newswire-Artikeln getestet und erreichte dabei eine Genauigkeit von
86,86 Prozent (vgl. Finkel et al. 2005). Daher kann davon ausgegangen werden, dass das Modell
des Named-Entity-Recognizers auch für die in den Anwendungsbeispielen verwendeten Texte
gute Ergebnisse erzielt.
Klassifikation von emotionalen Stimmungen: Sentimentanalyse
Die Sentimentanalyse wurde entwickelt, um emotionale Stimmungen in Texten zu messen (vgl.
Liu 2015). Eine Sentimentanalyse basiert auf einem Klassifikator, der die Wahrscheinlichkeit
bestimmt, mit welcher eine gegebene Textpassage zu einer Stimmungskategorie im Spektrum
von negativ über neutral bis positiv gehört.
Stanford CoreNLP stellt ebenfalls ein Sentiment-Modul bereit (vgl. Socher et al. 2013). Das
standardmäßig mitgelieferte Modell wurde mit einer speziellen Sentiment-Baumbank von Pang
9
und Lee (2005) trainiert. Die Baumbank basiert auf Filmkritiken, welche manuell mit Senti-
ment-Ratings versehen wurden. Manuelle Tests des Modells zeigen, dass die Sentimentanalyse
eine Genauigkeit von 85,4 Prozent erreicht (vgl. Socher et al. 2013). Da Filmkritiken sich stark
von Jahresberichten, Firmenwebseiten und Zeitungsartikeln hinsichtlich der in ihnen verwen-
deten Sprache unterscheiden können, war es für die von uns im Folgenden vorgestellten Bei-
spiele notwendig, die Zuordnungen der Textpassagen zu den Stimmungskategorien manuell zu
überprüfen. Dabei konnte festgestellt werden, dass die Zuordnungen für die verwendeten Texte
zu 82 Prozent korrekt waren. Es muss jedoch darauf hingewiesen werden, dass bessere Ergeb-
nisse möglich wären, wenn eine speziell annotierte Baumbank für das Training verwendet wor-
den wäre.
Unüberwachtes maschinelles Lernen
Grundlagen
Im Folgenden beschreiben wir Topic Modeling als einen Ansatz zur Untersuchung von Texten
auf Basis des unüberwachten maschinellen Lernens (vgl. Langley 1996; Mitchell 1997). Topic
Modeling zielt darauf ab, latente semantische Strukturen in Texten zu erfassen. Vergleichbar
mit Dependenzparsen, Named-Entity-Recognition und Sentimentanalyse zielt diese Art des
maschinellen Lernens darauf ab, bestehende Strukturen in Textdaten abzubilden. Im Gegensatz
zu den erstgenannten Werkzeugen stellt Topic Modeling jedoch eine Form von sogenannten
generativ-probabilistischen Modellen dar, die keine annotierten Baumbanken benötigen (vgl.
Evans/Aceves 2016). Stattdessen identifizieren die Algorithmen des Topic Modelings, von de-
nen der Latent-Dirichlet-Allocation-Algorithmus der am häufigsten eingesetzte ist (vgl.
DiMaggio et al. 2013; Fligstein/Brundage/Schultz 2017; Mohr et al. 2013), latente semantische
Strukturen in unannotierten Texten, indem statistisch auffällige Muster von Wortkombinatio-
nen aufdeckt werden. Diese »word co-occurrences« werden in semantische Cluster gebündelt,
die dabei helfen, die beobachteten Wortverteilungen zu erklären (vgl. Blei/Ng/Jordan 2003).
10
Aufdecken von latenten semantischen Textstrukturen: Topic Modeling
Topic Modeling ist gut geeignet, um die latenten semantischen Strukturen in Texten zu erfassen
(vgl. Kirchner/Mohr 2010; Wagner-Pacifici/Mohr/Breiger 2015). Das Werkzeug ermöglicht es,
dem Umstand Rechnung zu tragen, dass sowohl Worte als auch komplexe Kommunikations-
strukturen keine festen Bedeutungen haben, sondern dass ihre Bedeutung von den semantischen
Strukturen, in welche sie eingebettet sind, abhängt (vgl. Krippendorff 2004; Popping 2012;
Vossen 2004).
Um die semantischen Strukturen in den folgenden Anwendungsbeispielen zu bestimmen, ver-
wenden wir das Python-Paket »lda«, das den Latent-Dirichlet-Allocation-Algorithmus umsetzt
(vgl. Blei et al. 2003). Um interpretierbare semantische Cluster zu erzeugen, besteht die Option,
beispielsweise nur bestimmte Wortarten wie Adjektive und Substantive in die Analyse einzu-
beziehen. Statt einer Liste von Stoppworten, d.h. von ex-ante bestimmten Worten, die nicht in
die Analyse eingehen sollen, kann auch ein auf überwachtem Lernen basierender Part-of-Spe-
ech-Tagger verwendet werden (vgl. Toutanova/Klein/Manning 2003). Dieser ermöglicht es,
bestimmte Wortklassen wie beispielsweise Präpositionen oder Eigennamen zu identifizieren,
die keine inhaltlichen Bedeutungen (vgl. Chung/Pennebaker 2007) tragen und deshalb gegebe-
nenfalls aus der Analyse ausgeschlossen werden sollten. Der Part-of-Speech-Tagger von Stan-
ford CoreNLP enthält ein Modell, das an der Penn Treebank trainiert und getestet wurde. In
den Tests erreichte die Bestimmung von Wortklassen eine Genauigkeit von 97,24 Prozent (vgl.
Toutanova et al. 2003).
Die Anwendung des Latent-Dirichlet-Allocation-Algorithmus erfordert es, vor der Durchfüh-
rung die Anzahl der zu entdeckenden semantischen Cluster festzulegen (vgl. Blei et al. 2003).
Es ist jedoch sinnvoll, mehrere Konfigurationen zu testen und anhand der Ergebnisse des Tests
die Anzahl der semantischen Cluster so zu wählen, dass diese interpretierbar und analytisch
nützlich sind (vgl. z.B. DiMaggio et al. 2013).
11
Tabelle 1 zeigt exemplarisch das Ergebnis von Topic Modeling. Die hier gezeigten semanti-
schen Cluster basieren auf einem Textkorpus, der auf Zeitungsartikeln zum Thema Unterneh-
mensverantwortung der New York Times und The Washington Post aus den Jahren 1950 bis
2013 beruht. Wie die Ergebnisse von Topic Modeling für tiefergehende Analysen verwendet
werden können, wird in den folgenden Abschnitten demonstriert.
Semantischer
Cluster
Semantisches
Label
Wichtigste Worte
in Co-Occurences
Shareholder issues
Stock market & investors
stock, investors, shares, market, companies, analysts, price, percent,
stocks, company, public, research, investment, investor, …
Stock market & profits
company, year, percent, last, analysts, earnings, share, sales, years,
quarter, profit, revenue, profits, analyst, …
Shareholders
shareholders, offer, takeover, company, shares, stock, board, manage-
ment, shareholder, time, percent, merger, share, control, …
Investors
capital, private, investment, equity, firm, deal, investors, company,
group, partners, buyout, venture, companies, deals, …
Management
Board of directors &
management
board, directors, committee, director, chairman, members, manage-
ment, boards, corporate, company, independent, member, govern-
ance, former, …
Board of directors &
management
management, association, company, board, owners, associations,
manager, members, community, new, contract, services, member,
time, …
Executive officers &
management
president, vice, executive, senior, director, chief, division, manager,
company, officer, general, new, group, operations, …
Executive officers &
management
executives, executive, chief, corporate, company, top, former, chair-
man, people, business, companies, officers, senior, president, …
Misconduct & risk
Risk, prices, & financial
crisis
bank, financial, risk, prince, executive, chief, derivatives, role, for-
mer, executives, markets, treasury, crisis, management, …
Losses, industry, & finan-
cial crisis
problems, last, losses, year, problem, week, bad, loss, days, industry,
analysts, money, big, financial, …
Bankruptcy & overexten-
sion
bankruptcy, company, plan, creditors, court, protection, chapter, as-
sets, debt, filing, agreement, agency, trustee, claims, …
Legal investigation &
lawsuit
case, government, criminal, fraud, federal, charges, guilty, prosecu-
tors, justice, department, former, investigation, scheme, court, …
Tabelle 1: Auszug eines mit Topic Modeling erzielbaren Ergebnisses.
Anwendungs- und Visualisierungsmöglichkeiten
Forschungsfragen, zu deren Beantwortung die Erhebung von Kommunikationsstrukturen, Akt-
euren, emotionalen Stimmungen und/oder latenten semantischen Textstrukturen relevant ist,
können mittels der vorgestellten NLP-Werkzeuge zur Verarbeitung von Texten adressiert wer-
den. Es ist jedoch von der konkreten Forschungsfrage abhängig, welche Form der Auswertung
gewählt wird. Im Folgenden stellen wir eine Auswahl von Anwendungs- und Visualisierungs-
möglichkeiten vor.
12
Hierarchisches Clustern
Hierarchisches Clustern kann dafür genutzt werden, um Ähnlichkeiten in der Zuschreibung von
Bedeutungen innerhalb von institutionellen Feldern zu untersuchen. In folgendem Anwen-
dungsbeispiel werden Kommunikationsstrukturen fokussiert. Dabei wird der Frage nachgegan-
gen, welche inhaltlichen Bedeutungen Organisationen als soziale Akteure ihrer Verantwortung
zuweisen. Gemäß neo-institutionalistischer Argumentation ist die Isomorphie dieser Bedeu-
tungszuweisungen in institutionellen Feldern zu erwarten. Entsprechend wird ein methodisches
Instrumentarium gewählt, mit dem sich einerseits die inhaltliche Bedeutung des Begriffes »Ver-
antwortung« erfassen lässt und andererseits die Ähnlichkeit der Bedeutungszuschreibung über
Organisationen hinweg verglichen werden kann (vgl. Goldenstein et al. 2019).
Als Datengrundlage wurden die englischsprachigen Webseiten der größten börsennotierten Un-
ternehmen in Deutschland, Großbritannien und den USA ausgewählt. Diese drei Länder wurden
gewählt, da ihr Bruttoinlandsprodukt im Jahr 2014 etwa 30 Prozent des Weltbruttoinlandspro-
dukts (WGDP) von 77,3 Billionen US-Dollar ausgemacht hat. Zusammengenommen repräsen-
tieren die von uns betrachteten Unternehmen zudem einen großen Teil der Weltwirtschaft. Ihr
Gesamtumsatz betrug im Jahr 2014 sieben Prozent des WGDP.
Konkret wurden die Webseiten der im Deutschen Aktienindex (DAX), im britischen Financial
Times Stock Exchange (FTSE) und im Dow Jones Industrial Average (DJIA) gelisteten Unter-
nehmen mit einem Web-Crawler automatisch heruntergeladen (für ein ähnliches Vorgehen
siehe Park/Lee/Hong 2016; Powell et al. 2016). Da sowohl der DAX als auch der DJIA die 30
am stärksten gehandelten und am höchsten bewerteten Unternehmen in den jeweiligen Ländern
enthalten, wurden auch die 30 am stärksten gehandelten und am höchsten bewerteten Unter-
nehmen aus dem FTSE 100 ausgewählt. Da die Webseite von The Home Depot – eines der
DJIA-Unternehmen –, welche die notwendigen Unternehmensinformationen enthält, nicht zu-
gänglich war, wurde dieses Unternehmen aus der Analyse ausgeschlossen, was das Sample auf
89 Unternehmen reduzierte.
13
Um die Webseiten herunterladen zu können, wurde eine eigens angepasste Version des Apache
Nutch Web-Crawlers verwendet. Mit diesem Crawler konnten zwischen dem 10. April und dem
30. Juni 2015 alle Webseiten gecrawlt werden, wobei ausgehend von der Startseite jeder Un-
ternehmenswebseite alle HTML- und PDF-Dokumente nach den Schlüsselworten »responsibi-
lity« und »responsibilities« durchsucht wurden. Im Falle des Auftretens der Schlüsselworte
wurden die entsprechenden Dokumente heruntergeladen und anschließend in einzelne Absätze
zerlegt. Dieser Prozess umfasste auch Überschriften und Unterüberschriften. Um die Vergleich-
barkeit zu verbessern, wurden abweichende Schreibweisen im britischen Englisch an das ame-
rikanische Englisch angepasst. Darüber hinaus wurde überprüft, ob die muttersprachlichen
Webseiten der deutschen Unternehmen mehr oder auch abweichende Inhalte enthalten. Im Er-
gebnis zeigte sich, dass die deutschen Webseiten eins-zu-eins ins Englische übersetzt wurden.
Schließlich ergab eine erste Überprüfung der Daten, dass viele Passagen wiederholt auf ver-
schiedenen Webseiten desselben Unternehmens auftraten. Nachdem identische Absätze auto-
matisch entfernt wurden, verblieben 84.623 eindeutige Absätze mit 44.712.784 Wörtern, die
für die Analysen verwendet wurden.
Die inhaltliche Bedeutung von Verantwortung wurde mithilfe von Kommunikationsstrukturen
erfasst. Dabei fand eine Fokussierung auf diejenigen grammatikalischen Wort-zu-Wort-Bezie-
hungen statt, die aufgrund theoretischer Vorüberlegungen als relevant zu erachten waren. Von
Organisationen als sozialen Akteuren wird gemäß Meyer und Jepperson (2000) erwartet, dass
sie Verantwortung für sich selbst, andere Akteure, Nicht-Akteure und kulturelle Prinzipien
übernehmen. Organisationen können diese Verantwortungsübernahme sprachlich darstellen,
indem sie Verben (welche Art von Handlungen sind mit Verantwortungsübernahme verbun-
den?), Adjektive (welche Art von Verantwortung wird übernommen?), Subjekte und Objekte
14
(wer trägt Verantwortung für wen und für was?) nutzen. Zusammenfassend wurde das Lemma
1
(»responsibility«) als das Schlüsselwort innerhalb der Kommunikationsstruktur definiert, wel-
ches die vier Arten der verantwortlichen Agentschaft im Sinne von Meyer und Jepperson (2000)
repräsentiert. Alle Subjekte, Adjektive, Verben und Objekte, die grammatikalisch mit Verant-
wortung verbunden sind, wurden ebenfalls lemmatisiert, um die Vergleichbarkeit zu erhöhen.
Die Methode des Dependenzparsens wurde genutzt, um die Textdaten zu analysieren. Wie oben
skizziert, eignet sich diese Art des Parsens sehr gut für eine automatische Analyse der Kommu-
nikationsstruktur in Sätzen. Um die Ähnlichkeit der Bedeutungszusprechung von Unternehmen
zu messen, wurden semantische Vektoren erzeugt. Unter Bezugnahme auf Kilgarriff (1997)
lässt sich ein semantischer Vektor als Cluster von grammatikalischen Wort-zu-Wort-Beziehun-
gen in einem spezifischen linguistischen Kontext konstruieren. Dies bedeutet, dass Unterneh-
men in ihren Kommunikationsstrukturen eine Sammlung von Subjekten, Adjektiven, Verben
und Objekten nutzen, welche grammatikalisch mit dem Lemma »responsibility« verknüpft sind
und gemeinsam auf die vom Unternehmen kommunizierte Verantwortungsübernahme verwei-
sen. Die von den Unternehmen dargestellten inhaltlichen Bedeutungen ihrer Verantwortung
können quantifiziert und verglichen werden, indem alle Subjekte, Adjektive, Verben und Ob-
jekte als Dimensionen eines Vektorraums dargestellt werden (vgl. Schütze 1998; Turney/Pantel
2010). Die Implikation eines solchen Vorgehens ist, dass Unternehmen, wenn sie ähnliche Wör-
ter mit einer ähnlichen Häufigkeit im Kontext von Verantwortung auf ihren Webseiten nutzen,
ihrer Verantwortung auch eine ähnliche inhaltliche Bedeutung zuweisen. Der numerische Wert
jeder der Dimensionen innerhalb der Vektoren wird durch die Zählung des jeweiligen Subjekts,
Adjektivs, Verbs und Objekts konstruiert (für einen ähnlichen Ansatz siehe Padó/Lapata 2007).
1
Ein Lemma ist die Grundform eines Wortes. In unserem Fall beinhaltet das Lemma »responsibility« sowohl
den Singular als auch den Plural des Wortes.
15
Dieser numerische Wert wird wiederum durch die Summe der Häufigkeiten aller Worte, die
sich auf Verantwortung beziehen, dividiert und insofern normalisiert.
Zur Berechnung der Ähnlichkeit bzw. Unähnlichkeit von Vektorräumen stehen verschiedene
mathematische Formeln zur Verfügung (vgl. Manning/Schütze 2000). In diesem Anwendungs-
beispiel wurde die Unähnlichkeit zwischen den Vektorräumen durch den invertierten Pearson-
Korrelationskoeffizienten berechnet (vgl. Liu/Si 2014).
Abbildung 2: Hierarchisches Clustern auf Basis semantischer Vektorräume
Abbildung 2 nutzt die konstruierten Unterschiede in den Bedeutungszuschreibungen durch Un-
ternehmen und visualisiert diese mithilfe eines hierarchischen Cluster-Verfahrens. Im vorlie-
genden Fall wurde hierfür der Ward.D Algorithmus eingesetzt, da dieser besonders geeignet
ist, um leicht interpretierbare Abbildungen zu erzeugen. Um die Lesbarkeit weiter zu erhöhen,
wird die Darstellung der Ergebnisse auf 30 Unternehmen reduziert. Der übergeordnete Befund
wird jedoch auch dann sichtbar, wenn alle 89 Unternehmen in die Visualisierung einbezogen
werden. Die Abbildung zeigt, dass Unternehmen aus demselben nationalen Feld dem Begriff
Verantwortung eine ähnliche Bedeutung zuschreiben. Sie zeigt zudem, dass das nationale Feld
einen größeren Effekt auf die Bedeutungszuschreibung besitzt als die Branche, welche in neo-
16
institutionalistischen Studien häufig als institutionelles Feld definiert wird. Dies wird beispiels-
weise dadurch erkennbar, dass Banken wie die Commerzbank, JPMorgan oder die Lloyds Ban-
king Group eine größere Distanz zueinander aufweisen als zu anderen Unternehmen der jeweils
selben nationalen Herkunft. Dementsprechend könnte die dargestellte Visualisierung als Aus-
gangspunkt für weitere feinkörnigere Analyseschritte genutzt werden. Beispielweise ließe sich
nun genauer analysieren, worin die inhaltlichen Differenzen in den Bedeutungszuschreibungen
zwischen den nationalen Felder bestehen. Weiterhin wäre es auch denkbar, innerhalb der nati-
onalen Felder die Differenzen in den Bedeutungszuschreibungen genauer zu analysieren.
Netzwerke
Eine Möglichkeit, um den Wandel von Bedeutungszuschreibungen sichtbar zu machen, ist die
semantische Netzwerkanalyse. Hierfür können Kommunikationsstrukturen und latente
Textstrukturen als Grundlage für die Visualisierung verwendet werden (vgl. Golden-
stein/Poschmann 2019). Im folgenden Beispiel wird betrachtet, wie sich die Rahmung von Un-
ternehmensverantwortung im öffentlichen Diskurs in den USA zwischen 1950 und 2013 ge-
wandelt hat. Methodisch wird dazu grammatikalisches Parsen und Topic Modeling genutzt.
Um die Entwicklung der Rahmung des Begriffs der Unternehmensverantwortung in den USA
im Laufe der Zeit darzustellen, wurden die Inhalte zweier landesweit erscheinender Tageszei-
tungen, New York Times und The Washington Post, zwischen 1950 und 2013 genutzt. Der Text-
korpus wurde mithilfe der ProQuest-Datenbank für historische Zeitungen für den Zeitraum
1950 bis 1977 und der Nexis-Datenbank für den Zeitraum 1978 bis 2013 erstellt. Beide Daten-
banken wurden nach allen verfügbaren Artikeln im Wirtschaftsteil der beiden Zeitungen durch-
sucht, in welchen das Lemma »responsibility« als Schlüsselwort enthalten ist. Das Lemma
wurde als semantisch mit einem Unternehmenskontext verbunden betrachtet, wenn der Artikel
sprachlich zum Ausdruck bringt, dass einem Unternehmen oder den Vertretern eines Unterneh-
mens Verantwortung zugesprochen wird. Um jene Artikel zu extrahieren, die diese Kriterien
17
erfüllen, wurde jüngeren Entwicklungen in den Sozialwissenschaften gefolgt und ein Bayes-
Klassifikator verwendet (vgl. Nardulli/Althaus/Hayes 2015). Der Klassifikator wurde mit 1.000
manuell klassifizierten Zeitungsartikeln trainiert. Tests mit 1.000 nicht klassifizierten Artikeln
ergaben ein Modell, das zu 97,3 Prozent korrekt funktioniert hat. Insgesamt umfasste der end-
gültige Textkorpus 15.371 Zeitungsartikel.
Die Rahmung von Verantwortung wurde auf zweierlei Weise operationalisiert. Einerseits
wurde grammatikalisches Parsen genutzt, um semantische Tripletts (d.h. die grammatikalische
Verkettung von Subjekten, Verben und Objekten) zu erzeugen und damit die Kommunikati-
onsstruktur im öffentlichen Diskurs abzubilden. Es ist wichtig zu beachten, dass in diesem An-
wendungsbeispiel das Lemma »responsibility« nur dann berücksichtigt wurde, wenn es als Ob-
jekt der semantischen Tripletts auftrat. Um die Rahmung von Unternehmensverantwortung um-
fassend zu analysieren, ist es jedoch geboten, nicht nur das Objekt des semantischen Triplets
zu fokussieren, nämlich das Lemma »responsibility«, sondern auch die Entitätsmodifikatoren
und Objektmodifikatoren dieses Objekts zu berücksichtigen. Das bedeutet, dass die genutzten
Tripletts folgende Gestalt hatten: »Subjekt-Verb-Entitätsmodifikatoren« und »Subjekt-Verb-
Objektmodifikatoren«. Da die grammatische Position der Subjekte häufig mit Eigennamen be-
setzt wird (z.B. Paul oder Goldman Sachs), wurde der Stanford Named-Entity-Recognizer ge-
nutzt, um alle grammatischen Subjekte automatisch den Kategorien »Person« oder »Organisa-
tion« zuzuordnen.
Des Weiteren wurde Topic Modeling eingesetzt, um die latenten semantischen Strukturen, in
welche die Tripletts eingebettet sind, zu berücksichtigen. Da die Anwendung des Latent-Dirich-
let-Allocation-Algorithmus eine vordefinierte Anzahl der zu ermittelnden semantischen Cluster
vorsieht, ist es wichtig, mehrere Modelle zu berechnen, um abschätzen zu können, welches
Modell semantische Cluster erzeugt, die interpretierbar und analytisch nützlich sind (vgl. z.B.
DiMaggio et al. 2013). Nach dem Testen mehrerer Modelle hat sich schließlich ein Modell mit
18
70 semantischen Clustern als geeignet erwiesen. Da im vorliegenden Anwendungsbeispiel un-
ternehmerische Verantwortung als gesellschaftliches Phänomen untersucht werden sollte, wur-
den alle semantischen Cluster ausgewählt, die einen Bezug zu gesellschaftlichen Themen auf-
wiesen, was die Zahl der Cluster auf 32 reduzierte. Dies bedeutet, dass semantische Cluster, die
sich beispielsweise auf makroökonomische Aspekte, Branchen oder rein funktionale Prozesse
in Unternehmen bezogen haben, ausgeschlossen wurden. Zweitens wurden Cluster, die ähnli-
che semantische Strukturen repräsentierten, in sechs Gruppen aggregiert, nämlich »Manage-
ment«, »Standards & Performance«, »Shareholder Issues«, »Employment«, »Social Issues« so-
wie »Misconduct & Risk« (für einen Auszug der Ergebnisse siehe Tabelle 1).
Um einen visuellen Eindruck der Analyse zu vermitteln, wird im Folgenden die sich wandelnde
semantische Einbettung der Tripletts mit Fokus auf die Cluster »Management«, »Shareholder
Issues« und »Misconduct & Risk« betrachtet.
Abbildung 3: Netzwerk auf Basis grammatikalischen Parsens und Topic Modelings
19
Abbildung 3 zeigt auszugsweise die Assoziation der semantischen Tripletts mit den jeweiligen
semantischen Clustern in den Jahren 1979 bis 2013. Tripletts, welche durch große Punkte bzw.
die Nennung eines Labels gekennzeichnet sind, waren zwischen den Jahren 1950 bis 1978 noch
in einen Management-Kontext eingebettet. Über die Zeit sind diese jedoch zunehmend mit
Shareholder Issues und Misconduct & Risk in Verbindung gebracht worden. Die semantischen
Tripletts, deren Label unterstrichen sind, haben sich nicht nur ab 1979 von einem Management-
Kontext entfernt, sondern sich zudem innerhalb der Zeitspanne von 1979 bis 2013 von einem
Crisis & Misconduct-Kontext wegbewegt, um schließlich primär mit einem Shareholder-Kon-
text assoziiert zu werden.
Die oben dargestellte Analyse macht übergeordnet deutlich, dass, selbst wenn Kommunikati-
onsstrukturen in Form von semantischen Tripletts unverändert bleiben, sich ihre latente Bedeu-
tung über die Zeit entscheidend ändern kann. Zum Beispiel existierte »PERSON-violate-fidu-
ciary« bereits im Zeitraum von 1950 bis 1978, ist jedoch über die Zeit durch die Assoziation
mit Shareholder Issues in den Jahren 1979 bis 2013 in einen anderen latenten Bedeutungszu-
sammenhang gesetzt worden. In Bezug auf die Analyse von institutionellem Wandel zeigt die-
ser Befund, dass institutionalisierte Vorstellungen oberflächlich betrachtet stabil bleiben mögen
(die äußere Form des semantischen Tripletts bleibt bestehen), sich jedoch latent entscheidend
wandeln können (die Einbettung in den latenten Bedeutungszusammenhang verändert sich).
Auch in diesem Fall kann die vorgestellte Visualisierung als Ausgangspunkt für tiefergehende
Analysen genutzt werden. Beispielsweise könnten mehr Zeithorizonte berücksichtigt werden,
um exaktere Aussagen über die Veränderung der Bedeutungszuschreibungen im Diskurs treffen
zu können. Zudem stellt das Netzwerk nur die Veränderung der latenten Bedeutung von bereits
im Zeitraum von 1950 bis 1978 existierenden semantischen Tripletts dar. Somit könnte die
Analyse dadurch angereichert werden, dass auch semantische Tripletts berücksichtigt werden,
die im Zeitraum von 1979 bis 2013 neu auftreten. Schließlich kann die Analyse mit (wirt-
schafts-)historischen Entwicklungen in den USA kontextualisiert werden.
20
Korrespondenzanalyse
Die dargestellten NLP-Werkzeuge können auch für eine automatisierte Diskursanalyse in ei-
nem institutionellen Feld genutzt werden. Hierbei wird auf die Frage fokussiert, wie in einem
institutionellen Feld die Debatten um Diskursgegenstände (z.B. Shareholder Value, Digitalisie-
rung) inhaltlich und emotional gerahmt werden. Für das Anwendungsbeispiel wurden US-Zei-
tungsartikel über die US-Präsidentschaftswahlen 2016 erhoben, die zwischen dem 1. Januar
2015 und dem 31. Dezember 2016 veröffentlicht wurden. Die Präsidentschaftswahl 2016 stellt
ein geeignetes Thema in einem Feld dar, weil zu vermuten ist, dass die Identifizierung von
Akteuren, die Bestimmung emotionaler Stimmungen sowie die Aufdeckung latenter semanti-
scher Strukturen besonders wichtig ist, wenn Themen untersucht werden, denen eine gesell-
schaftliche Bedeutung beigemessen wird. Das Textmaterial für dieses Anwendungsbeispiel
stammt aus der Quelle »Major US newspapers« der Nexis-Datenbank. Diese Quelle enthält
Artikel, die von verschiedenen US-amerikanischen Zeitungen veröffentlicht wurden, die hin-
sichtlich ihrer Verbreitung unter den Top 50 des Editor & Publisher Year Books eingestuft sind.
Nexis bietet die Möglichkeit, Artikel nach bestimmten Schwerpunkten auszuwählen. In diesem
Fall wurden Artikel ausgewählt, die zum Schwerpunkt »US presidential election« in Kombina-
tion mit »United States« veröffentlicht wurden, um sicherzustellen, dass alle Artikel aus US-
amerikanischer Perspektive über die Wahl berichten. Insgesamt besteht der Textkorpus aus
36.117 Zeitungsartikeln.
Mittels Named-Entity-Recognition wurden alle Kandidaten des US-Wahlkampfes 2016 extra-
hiert. Des Weiteren wurden mittels Topic Modeling die semantischen Strukturen aufgedeckt,
innerhalb derer die Namen der Kandidaten sprachlich eingebettet waren. Zusätzlich wurde mit-
hilfe einer Sentimentanalyse erhoben, welche emotionalen Stimmungen mit den Kandidaten im
Feld verknüpft wurden.
21
Abbildung 4: Darstellung eines Feldes auf Basis von Named Entity Recognition, Sentiment
Analyse und Topic Modeling
Abbildung 4 bildet einen Teil des Feldes zur Präsidentschaftswahl 2016 in den USA mittels
einer einfachen Korrespondenzanalyse ab. Der Fokus liegt hierbei auf den im Feld gemäß der
Häufigkeit ihrer Nennung sichtbarsten sechs Kandidaten, darunter Hillary Rodham Clinton und
Donald Trump. Diese Kandidaten sind in unterschiedlichem Ausmaß mit latenten semantischen
Strukturen sowie emotionalen Stimmungen assoziiert. Exemplarisch wurden hier die zehn pro-
minentesten semantischen Cluster des Wahlkampfes herausgegriffen sowie eine Einschränkung
auf drei Emotionskategorien, nämlich positiv, neutral und negativ, vorgenommen.
Die Korrespondenzanalyse zeigt, dass das Feld zu 79,6 Prozent durch zwei Dimensionen cha-
rakterisiert werden kann. Zum einen verläuft der Diskurs auf einer Achse (waagerecht) zwi-
schen einer neutralen und positiven emotionalen Stimmung. Zum anderen wird die zweite
Achse (senkrecht) durch die semantischen Cluster »Equality in Law« und »Immigration« be-
schrieben. Hillary Rodham Clinton und Donald Trump unterscheiden sich hinsichtlich ihrer
22
Rahmung im Feld deutlich. Hillary Rodham Clinton ist mit keinem inhaltlichen Thema ausge-
prägt assoziiert, während es bei Donald Trump einen Fokus auf »National Finances« und »Im-
migration« gibt. Zudem ist Hillary Rodham Clinton stärker mit einer negativen emotionalen
Stimmung verknüpft als Donald Trump.
Variablenkonstruktion für Regressionsanalysen
Jenseits der Verwendung für explorative Verfahren können die präsentierten NLP-Werkzeuge
zur Verarbeitung natürlicher Sprache auch zur Konstruktion von Variablen für hypothesentes-
tende statistische Regressionsverfahren dienen. Dazu werden im Folgenden drei Möglichkeiten
vorgestellt.
Häufigkeitsmaße
Der einfachste Fall der Variablenkonstruktion ist gewiss die Nutzung der Häufigkeit des Auf-
tretens von sprachlichen Artefakten, wie sich dies bereits in klassischen quantitativen Inhalts-
analysen findet (vgl. Duriau/Reger/Pfarrer 2007; Krippendorff 2004). Die Nutzung von NLP-
Werkzeugen zur Verarbeitung von Texten ergänzt quantitative Inhaltsanalysen allerdings um
wesentliche Aspekte. Wie in den Beispielen zur Netzwerk- und zur Korrespondenzanalyse be-
reits angedeutet, kann ein Named-Entity-Recognizer dazu genutzt werden, Akteure automatisch
in Texten zu identifizieren und zu klassifizieren. Anschließend lassen sich die Akteure oder die
Kategorien der Akteurstypen zählen. Eine derartige Nutzung von Named-Entity-Recognition
kann mit Unterstützung eines grammatikalischen Dependenzparsers sogar noch einmal weiter
ausdifferenziert werden. Der Einsatz des Parsers ermöglicht es zu ermitteln, wie häufig Akteure
oder Akteurstypen als Subjekt bzw. Objekt in Kommunikationsstrukturen auftreten. Wie in den
beiden Beispielen aufgezeigt, kann ein Dependenzparser auch dazu eingesetzt werden, die Häu-
figkeit des Auftretens bestimmter Kommunikationsstrukturen zu quantifizieren. So kann be-
stimmt werden, wie häufig bestimmte Worte in bestimmten grammatikalischen Beziehungen
auftreten (z. B. das Adjektiv »wirtschaftlich« im Zusammenhang mit »Verantwortung«) oder
23
wie häufig ein vollständiges semantisches Triplett (z.B. »ORGANISATION-auferlegen-Um-
weltschutz«) zur Beschreibung eines bestimmten Sachverhaltes herangezogen wird. Analog zu
den genannten Beispielen lässt sich weiterhin mit Topic Modeling die Häufigkeit des Auftre-
tens von semantischen Clustern quantifizieren.
Neben der Quantifizierung einzelner sprachlicher Artefakte lässt sich auch deren gemeinsame
Nennung in Texten als Variable nutzen (vgl. Pollach 2012). Die Analyse der US-Präsident-
schaftswahlen macht sich dieses gemeinsame Auftreten von Akteuren, emotionalen Stimmun-
gen und grammatikalischen Clustern zunutze, um einen Überblick über ein institutionelles Feld
zu gewähren. Auch gemeinsame Nennungen können hinsichtlich ihrer Häufigkeit gezählt und
als entsprechende Variable genutzt werden.
Ähnlichkeitsmaße
Im Neo-Institutionalismus ist Isomorphie von Organisationen bisher vor allem über die Mes-
sung des Vorhandenseins spezifischer Strukturelemente gemessen worden (Greenwood/Meyer
2008). Die Messung des Grades der Ähnlichkeit zwischen von Organisationen reflektierten Be-
deutungen kann ebenfalls als ein entscheidendes Maß angesehen werden, um Prozesse der Iso-
morphie in Feldern zu erfassen. In dem Beispiel zur Nutzung des Begriffs »Verantwortung«
durch Unternehmen wurde aufgezeigt, wie Vektorräume dazu genutzt werden können, die Ähn-
lichkeit von Organisationen bzw. ihre Verschiedenheit multidimensional zu bestimmen. Wel-
che sprachlichen Artefakte als Dimensionen von Vektoren genutzt werden, hängt vom konkre-
ten Anwendungsfall ab und ergibt sich aus der Forschungsfrage. Es wurde gezeigt, wie Worte,
die in einer bestimmten grammatikalischen Beziehung zu einem Schlüsselwort stehen, dazu
genutzt werden können, um die inhaltliche Bedeutung eines Begriffes abzubilden. Es wäre al-
lerdings auch möglich, beispielsweise durch Topic Modeling identifizierte semantische Cluster
als Dimensionen zu verwenden. Entscheidend ist, dass die Ähnlichkeit eines Vektors zu einem
24
sinnvollen Referenzvektor berechnet wird. Im ersten Beispiel wurde die Ähnlichkeit eines Un-
ternehmensvektors in Relation zu jedem einzelnen anderen Unternehmensvektor bestimmt.
Eine weitere Möglichkeit wäre es, die Ähnlichkeit eines Unternehmens zu einem Vektor, der
eine Gruppe anderer Unternehmen repräsentiert, zu berechnen oder die Vektoren (z. B. ein
Vektor für jedes Geschäftsjahr) eines Unternehmens über die Zeit zu vergleichen. Mathema-
tisch lässt sich die Ähnlichkeit von Vektoren mittels zahlreicher etablierter Maße berechnen.
Im ersten Beispiel wurde für das Hierarchische Clustern der Pearsons-Korrelationskoeffizient
genutzt bzw. dessen invertierte Form, um die Unähnlichkeit von Vektoren zu messen. Ein an-
deres gängiges Maß ist die Kosinus-Ähnlichkeit (vgl. Manning/Schütze 2000).
Zentralitätsmaße
Im Beispiel zur Veränderung der Rahmung von Unternehmensverantwortung über die Zeit
wurde aufgezeigt, dass Netzwerkanalysen verwendet werden können, um Entwicklungen in
Feldern auf der Ebene von Sprache zu untersuchen. In der klassischen Literatur zur sozialen
Netzwerkanalyse wird insbesondere den sogenannten Zentralitätsmaßen eine große Bedeutung
zugesprochen. Ein Zentralitätsmaß bestimmt für einen Netzwerkknoten den Grad der Verbun-
denheit mit den anderen Knoten im Netzwerk (vgl. McCulloh/Armstrong/Johnson 2013;
Wasserman/Faust 1999). Auch für Netzwerke, die auf Sprachdaten basieren, ist die Berechnung
von Zentralitätsmaßen geeignet. Die Netzwerkknoten müssen dabei nicht wie im genannten
Beispiel auf Tripletts begrenzt werden, sondern sie können auch aus anderen linguistischen
Artefakten (beispielsweise einem Wort, einem Akteurstyp oder einem semantischen Cluster)
konstruiert werden. Durch die Berechnung eines Zentralitätsmaßes kann die Variation der Do-
minanz von linguistischen Artefakten über verschiedene textuelle Kontexte (beispielsweise
Zeit, Länder oder Organisationen) statistisch gemessen werden. Ein weiterer Ansatz ist es, die
linguistischen Artefakte nicht als Knoten, sondern als Verbindungen zwischen den Knoten im
Netzwerk zu verwenden. So können Netzwerke untersucht werden, in denen Akteure auf Basis
25
der Verwendung eines bestimmten Vokabulars miteinander in Beziehung stehen. Beispiels-
weise kann der Grad der Assoziation von Akteuren innerhalb eines Feldes durch die Ähnlich-
keit der von ihnen kommunizierten Bedeutungen berechnet werden.
Fazit und Ausblick
Die Analyse großer Textmengen unter Verwendung von NLP-Werkzeugen wird aktuell als
wichtige methodische Entwicklung betrachtet (vgl. Evans/Aceves 2016; George/Haas/Pentland
2014). Dieser Einschätzung folgend wurden in diesem Kapitel verschiedene Beispiele vorge-
stellt, die illustrieren, wie der Neo-Institutionalismus von der Anwendung automatischer
Sprachanalyse profitieren kann. Dazu wurde einerseits die Analyse von Isomorphie und insti-
tutionellen Wandels sowie andererseits die Erfassung und Messung von Rahmungen und Emo-
tionen innerhalb von institutionellen Feldern fokussiert. Dabei demonstrieren die vorgestellten
Beispiele zwei elementare Beiträge der NLP-Werkzeuge zur Verarbeitung von Texten. Der
Einsatz der aufgeführten Werkzeuge ermöglicht es erstens, prinzipiell unbegrenzte Textmengen
zur Analyse sprachlich manifestierter institutioneller Phänomene heranzuziehen. Hierdurch
wird das Problem der mangelnden Repräsentativität von Textsammlungen für spezifische Fra-
gestellungen verkleinert bzw. gelöst. Zudem sind die vorgestellten NLP-Werkzeuge mittler-
weile so ausgefeilt, dass sie nicht nur große Textmengen verarbeiten, sondern diese auch fein-
körnig analysieren und somit der Texten innewohnenden Komplexität Rechnung tragen können
(vgl. Edelmann/Mohr 2018). Derartige Analysen erscheinen weiterhin besonders dann geeig-
net, wenn aufgrund bislang fehlender theoretischer und empirischer Einsichten nicht von vorn-
herein festgestellt werden kann, ob eine Stichprobe repräsentativ für das zu untersuchende Phä-
nomen ist. Entsprechend erscheint es geboten, eine umfassendere Stichprobe (beispielsweise
auf Basis aller verfügbaren Zeitungsartikel zum Thema Unternehmensverantwortung in den
USA) zu nutzen.
26
Die dargestellten NLP-Werkzeuge zeigen zweitens Wege auf, wie neo-institutionalistische For-
schungsfragen nach der Ähnlichkeit von Deutungsmustern als Grundlage für strukturelle Iso-
morphie oder nach dem Wandel von formalen Organisationsstrukturen aufgrund von Bedeu-
tungsverschiebungen über die Zeit mithilfe von großen Textsammlungen untersucht werden
können, welche bislang eher durch den Einsatz induktiver Textanalysen adressiert wurden (vgl.
Mohr/Wagner-Pacifici/Breiger 2015). Wie in diesem Kapitel aufgezeigt wurde, können die
NLP-Werkzeuge gleichermaßen sowohl manifeste Kommunikationsstrukturen als auch latente
sprachliche Artefakte, wie beispielsweise emotionale Stimmungen und semantische Strukturen,
in Texten erfassen und messen. Dadurch unterscheiden sich diese Werkzeuge in zweifacher
Hinsicht von traditionellen Methoden der quantitativen Inhaltsanalyse. Zum einen fokussieren
traditionelle quantitative Inhaltsanalysen die Häufigkeit des Auftretens ex-ante definierter
Worte oder Kategorien. Sie sind jedoch nicht in der Lage kommunikative und latente Strukturen
in Texten zu berücksichtigen. Zum anderen verzerren traditionelle quantitative Inhaltsanalysen
durch die ex-ante-Definition von Worten und Kategorien den interpretativen Charakter von
Textanalysen (vgl. Biernacki 2012).
Diese Aspekte machen deutlich, dass der Einsatz der dargestellten NLP-Werkzeuge keineswegs
auf die Untersuchung der oben aufgeführten Beispiele beschränkt ist. Auch mit Blick auf andere
Konzepte des Neo-Institutionalismus ermöglichen diese Werkzeuge neue und – vermutlich –
tiefergehende theoretische Erkenntnisse. Zum Beispiel ist die Untersuchung von Kommunika-
tionsstrukturen in neueren Arbeiten zu institutionellen Logiken durch die Hervorhebung der
Relevanz von Vokabular-Strukturen bereits explizit angelegt (vgl. Loewenstein/Ocasio/Jones
2012; Ocasio/Loewenstein/Nigam 2015). Dies trifft auch auf die Untersuchung von institutio-
neller Arbeit zu, in der nicht nur Kommunikationsstrukturen (vgl. Hasse/Schmidt 2010), son-
dern auch der Berücksichtigung von Emotionen eine gesteigerte Relevanz zugeschrieben wird
(vgl. Lok et al. 2017). Schließlich ermöglicht es die Untersuchung latenter Bedeutungsstruktu-
27
ren in großen Textsammlungen. Auch die Diffusion, Adoption und Adaption institutionalisier-
ter Deutungsmuster in einer sich global ausbreitenden Weltkultur können nicht nur auf Ebene
von Strukturen, sondern auch auf Ebene von Bedeutungen „großzahlig“ untersucht werden (vgl.
Goldenstein et al. 2019; Goldenstein/Poschmann 2019; Höllerer/Walgenbach/Drori 2017).
In diesem Kapitel konnte nur ein grober Überblick über die Potenziale von NLP-Werkzeugen
gegeben werden. Die Entwicklung und Optimierung dieser Werkzeuge schreiten zügig voran.
Dies bedeutet erstens, dass auf Basis maschinellen Lernens stetig neue Modelle für die Analyse
verschiedener Sprachen zur Verfügung stehen. Aktuell sind vor allem westliche Sprachen wie
Englisch, Deutsch oder Spanisch gut analysierbar. Allerdings werden in jüngeren Entwicklun-
gen auch zunehmend andere wichtige Weltsprachen wie Arabisch und Chinesisch erschlossen.
Zweitens bedeutet dies, dass neue Textgenres zunehmend mit einer hohen Genauigkeit analy-
siert werden können. Lag in den Anfängen der natürlichen Sprachverarbeitung der Fokus ein-
deutig auf eher formalisierten Textgenres, wie beispielsweise Zeitungsartikeln, ist es zuneh-
mend auch möglich, Textgenres von höherer sprachlicher Ambiguität zu analysieren (z.B. Posts
auf Twitter). Schließlich besteht zunehmend die Möglichkeit, dass die Ergebnisse von den dar-
gestellten NLP-Werkzeugen auch mit weiteren Sekundärdaten verknüpft werden. Unterschied-
liche Anbieter stellen freie Schnittstellen bereit, über die strukturierte Daten in großen Mengen
nacherhoben werden können (beispielsweise die Weltbank oder Wikipedia). Ein potenzieller
Anwendungsfall könnte sein, die aus Texten automatisch extrahierten Akteurstypen mit Daten
in Wikipedia zu verknüpfen. Beispielsweise lassen sich in Texten auftretende Organisationen
mit denen in Wikipedia abgelegten Informationen zu Industrie oder Größe verknüpfen.
Zudem ist davon auszugehen, dass die Nutzung von Techniken maschinellen Lernens nicht auf
die Untersuchung von natürlicher Sprache in Texten begrenzt bleiben wird. Es existieren in
diesem Bereich bereits Entwicklungen, welche die automatische Analyse von Bilddateien er-
möglichen sollen. Wenn diese Werkzeuge hinreichend exakt funktionieren, wird über kurz oder
28
lang auch die visuelle Dimension von Institutionen (vgl. Höllerer/Daudigeos/Jancsary 2017)
„großzahlig“ untersucht werden können.
Literatur
Ansari, Shahzad/Phillips, Nelson (2011): «Text Me! New Consumer Practices and Change in
Organizational Fields», in: Organization Science 22(6), S.1579–99.
Ansari, Shahzad/Wijen, Frank/Gray, Barbara (2013): «Constructing a Climate Change Logic:
An Institutional Perspective on the ‘Tragedy of the Commons’», in: Organization Science
24(4), S.1014–40.
Beckert, Jens (2010): «How Do Fields Change? The Interrelations of Institutions, Networks,
and Cognition in the Dynamics of Markets», in: Organization Studies 31(5), S.605–27.
Benford, Robert D./Snow, David A. (2000): «Framing Processes and Social Movements: An
Overview and Assessment», in: Annual Review of Sociology 26(1), S.611–39.
Berger, Peter L./Luckmann, Thomas (1967): The Social Construction of Reality: A Treatise in
the Sociology of Knowledge, London: Penguin Press.
Biber, Douglas (1993): «Representativeness in Corpus Design», in: Literary and Linguistic
Computing 8(4), S. 243–257.
Biernacki, Richard (2012): Reinventing Evidence in Social Inquiry, New York: Palgrave Mac-
millan.
Blei, David M./Ng, Andrew Y./Jordan, Michael I. (2003): «Latent Dirichlet Allocation», in:
Journal of Machine Learning Research 3(Jan), S.993–1022.
Bromley, Patricia/Meyer, John W./Ramirez, Francisco O. (2011). «The Worldwide Spread of
Environmental Discourse in Social Studies, History, and Civics Textbooks, 1970–2008»,
in. Comparative Education Review 55(4), S. 517–545.
Campbell, John L. (2004): Institutional Change and Globalization, Princeton: Pinceton Univer-
sity Press.
29
Carroll, John A. (2004) «Parsing», in: Ruslan Mitkov (Hg.), The Oxford Handbook of Compu-
tational Linguistics, Oxford: Oxford University Press, S.233–48.
Chen, Danqi/Manning, Christopher D. (2014): «A Fast and Accurate Dependency Parser Using
Neural Networks», in: Proceedings of the 2014 Conference on Empirical Methods in Nat-
ural Language Processing (EMNLP), S. 740–50.
Chung, Cindy/Pennebaker, James (2007). «The Psychological Functions of Function Words»,
in: Klaus Fielder (Hg.), Social Communication, New York: Psychology Press, S. 343–59.
Colyvas, Jeannette A./Powell, Walter W. (2006). «Roads to Institutionalization: The Remaking
of Boundaries between Public and Private Science», in: Research in Organizational Behav-
ior 27(1), S.305–353.
Cornelissen, Joep P./Werner, Mirjam D. (2014): «Putting Framing in Perspective: A Review of
Framing and Frame Analysis across the Management and Organizational Literature», in:
Academy of Management Annals 8(1), S.181–235.
Creed, W. E. Douglas/Hudson, Bryant A./Okhuysen, Gerardo A./Smith-Crowe, Kristin (2014):
«Swimming in a Sea of Shame: Incorporating Emotion into Explanations of Institutional
Reproduction and Change», in: Academy of Management Review 39(3), S.275–301.
DiMaggio, Paul J. (2015): «Adapting Computational Text Analysis to Social Science (and Vice
Versa) », in: Big Data & Society 2(2), S.1–5.
DiMaggio, Paul J./Nag, Manish/Blei, David (2013): «Exploiting Affinities between Topic
Modeling and the Sociological Perspective on Culture: Application to Newspaper Cover-
age of U.S. Government Arts Funding», in: Poetics 41(6), S.570–606.
DiMaggio, Paul J./Powell, Walter W. (1983): «The Iron Cage Revisited: Institutional Isomor-
phism and Collective Rationality in Organizational Fields», in: American Sociological Re-
view 48(2), S.147–60.
30
DiMaggio, Paul J./Powell, Walter W. (1991): «Introduction», in: Walter W. Powell/Paul J. Di-
Maggio (Hg.), The New Institutionalism in Organizational Analysis, Chicago: Chicago
University Press, S. 1–38.
Duriau, Vincent J./Reger, Rhonda K./Pfarrer, Michael D. (2007): «A Content Analysis of the
Content Analysis Literature in Organization Studies: Research Themes, Data Sources, and
Methodological Refinements», in: Organizational Research Methods 10(1), S.5–34.
Edelmann, A./Mohr, John W. (2018): «Formal Studies of Culture: Issues, Challenges, and Cur-
rent Trends», in: Poetics 68(1), S.1–9.
Evans, James A./Aceves, Pedro (2016): «Machine Translation: Mining Text for Social The-
ory», in: Annual Review of Sociology 42(1), S.21–50.
Finkel, Jenny R./Grenager, Trond/Manning, Christopher (2005): «Incorporating Non-Local In-
formation into Information Extraction Systems by Gibbs Sampling», in: Proceedings of the
43nd Annual Meeting of the Association for Computational Linguistics-ACL 2005, S.
363–70.
Fligstein, Neil. (1985): «The Spread of the Multidivisional Form among Large Firms, 1919-
1979», in: American Sociological Review 50(3), S.377–91.
Fligstein, Neil /Brundage, Jonah S./Schultz, Michael (2017): «Seeing like the Fed: Culture,
Cognition, and Framing in the Failure to Anticipate the Financial Crisis of 2008», in: Amer-
ican Sociological Review 82(5), S. 879-909.
Florian, Radu/Ittycheriah, Abe/Jing, Hongyan/Zhang, Tong (2003): «Named Entity Recogni-
tion through Classifier Combination», in: Proceedings of the 7th Conference on Natural
Language Learning (HLT-NAACL) 4, S.168–71.
Franzosi, Roberto (1989): «From Words to Numbers: A Generalized and Linguistics-Based
Coding Procedure for Collecting Textual Data», in: Sociological Methodology 19, S.263–
98.
31
George, Gerard/Haas, Martine R./Pentland, Alex (2014): «Big Data and Management», in:
Academy of Management Journal 57(2), S.321–26.
Goffman, Erving (1974): Frame Analysis: An Essay on the Organization of Experience, Boston,
MA: North Eastern University Press.
Goldenstein, Jan; Poschmann, Philipp (2019): «Analyzing Meaning in Big Aata: Performing a
Map Analysis Using Grammatical Parsing and Topic Modeling», in: Sociological Method-
ology 49(1), im Druck.
Goldenstein, Jan/Poschmann, Philipp/Händschke, Sebastian G. M./Walgenbach, Peter (2019):
«Global and Local Orientation in Organizational Actorhood: A Comparative Study of
Large Corporations from Germany, the United Kingdom, and the United States», in: Euro-
pean Journal of Cultural and Political Sociology 6(2), S. 201–236.
Greenwood, Royston/Meyer, Renate E (2008): «Influencing ideas: A celebration of DiMaggio
and Powell (1983)», in: Journal of Management Inquiry 17(4), S. 258-264.
Greenwood, Royston/Oliver, Christine/Lawrence, Thomas B./Meyer, Renate E., (Hg.) (2017),
The Sage Handbook of Organizational Institutionalism. Los Angeles: Sage Publications,
2. Edition.
Hardy, Cynthia/Maguire, Steve (2010): «Discourse, field-configuring events, and change in or-
ganizations and institutional fields: Narratives of DDT and the Stockholm Conven-tion»,
in: Academy of Management Journal 53(6), S. 1365-1392.
Hasse, Raimund/Schmidt, Lucia (2010): «Unternehmertum, Arbeit, Sprache: Zur Mikrofundie-
rung Des Neo-Institutionalismus», in: Sociologia Internationalis 48(1), S.81–108.
Hirsch, Paul M./Lounsbury, Michael (1997): «Putting the Organization Back into Organization
Theory: Action, Change, and the ‘New’ Institutionalism», in: Journal of Management In-
quiry 6(1), S.79–88.
Hoffman, Andrew J. (1999): «Institutional Evolution and Change: Envrionmentalism and the
U.S. Chemical Industry», in: Academy of Management Journal 42(4), S.351–71.
32
Höllerer, Markus A., Thibault Daudigeos, and Dennis Jancsary. (2017): «Multimodality, Mean-
ing, and Institutions», in: Markus A. Höllerer/Thibault Daudigeos/Dennis Jancsary (Hg.),
Research in the Sociology of Organizations: Multimodality, Meaning, and Institutions,
Bingley: Emerald, S. 1–24.
Höllerer, Markus A./Walgenbach, Peter/Drori, Gili S. (2017) «The Consequences of Globali-
zation for Institutions and Organizations», in: Royston Greenwood/Christine Oli-
ver/Thomas B. Lawrence/Renate E. Meyer (Hg.), The Sage Handbook of Organizational
Institutionalism, Los Angeles: Sage Publications, S. 224–54.
Kilgarriff, Adam (1997): «I Don’t Believe in Word Senses», in: Computers and the Humanities
31(2), S.91–113.
Kirchner, Corinne/Mohr, John W. (2010): «Meanings and Relations: An Introduction to the
Study of Language, Discourse and Networks», in: Poetics 38(6), S.555–66.
Krippendorff, Klaus (2004): Content Analysis: An Introduction to Its Methodology, Thousand
Oaks: Sage Publications, 2. Edition.
Langley, Pat (1996): Elements of Machine Learning, San Francisco: Morgan Kaufmann.
Lawrence, Thomas B./Phillips, Nelson (2004): «From Moby Dick to Free Willy: Macro-Cul-
tural Discourse and Institutional Entrepreneurship in Emerging Institutional Fields», in:
Organization 11(5), S.689–711.
Lim, Alwyn (2016): «Global Corporate Responsibility Disclosure: A Comparative Analysis of
Field, National, and Global Influences», in: International Sociology 32(1), S.61–85.
Lim, Alwyn/Tsutsui, Kiyoteru (2012): «Globalization and Commitment in Corporate Social
Responsibility: Cross-National Analyses of Institutional and Political-Economy Effects»,
in: American Sociological Review 77(1), S.69–98.
Litrico, Jean-Baptiste/David, Robert J. (2017): «The Evolution of Issue Interpretation within
Organizational Fields: Actor Positions, Framing Trajectories, and Field Settlement», in:
The Academy of Management Journal 60(3), S.986–1015.
33
Liu, Bing (2015): Sentiment Analysis: Mining Opinions, Sentiments, and Emotions, New York:
Cambridge University Press.
Liu, Peng/Si, Yaqing (2014): «Cluster Analysis of RNA-Sequencing Data», in: Somnath
Datta/Dan Nettleton (Hg.), Statistical Analysis of Next Generation Sequencing Data, Hei-
delberg: Springer Verlag, S. 191–218.
Loewenstein, Jeffrey/Ocasio, William/Jones, Candace (2012): «Vocabularies and Vocabulary
Structure: A New Approach Linking Categories, Practices, and Institutions», in: Academy
of Management Annals 6(1), S. 41–86.
Lok, Jaco/Creed, W. E. Douglas/DeJordy, Rich/Voronov, Maxim (2017) «Living Institutions:
Bringing Emotions into Organizational Institutionalism», in: Royston Greenwood/Chris-
tine Oliver/Thomas B. Lawrence/Renate E. Meyer (Hg.), The Sage Handbook of Organi-
zational Institutionalism, Los Angeles: Sage Publications, S. 591–620.
Lounsbury, Michael/Ventresca, Marc J./Hirsch, Paul M. (2003): «Social Movements, Field
Frames and Industry Emergence: A Cultural-Political Perspective on US Recycling», in:
Socio-Economic Review 1, S.71–104.
Maguire, Steve/Hardy, Cynthia/Lawrence, Thomas B. (2004): «Institutional entrepreneurship
in emerging fields: HIV/AIDS treatment advocacy», in: Academy of Management Execu-
tive 47(5), S. 657-679.
Manning, Christopher D. et al. (2014): «The Stanford CoreNLP Natural Language Processing
Toolkit», in: Proceedings of 52nd Annual Meeting of the Association for Computational
Linguistics: System Demonstrations, S. 55-60.
Manning, Christopher D./Schütze, Hinrich (2000): Foundations of Natural Language Pro-
cessing, Cambridge: MIT Press.
Marcus, Mitchell P./Marcinkiewicz, Mary Ann/Santorini, Beatrice (1993): «Building a large
annotated corpus of English: The Penn Treebank», in: Computational linguistics 19(2), S.
313-330.
34
de Marneffe, Marie-Catherine/MacCartney, Bill/Manning, Christopher D. (2006): «Generating
Typed Dependency Parses from Phrase Structure Parses», in: Proceedings of the 5th Inter-
national Conference on Language Resources and Evaluation, S.449–54.
Matthews, Peter H. (1981): Syntax, Cambridge: Cambridge University Press.
McCulloh, Ian/Armstrong, Helen/Johnson, Anthony (2013): Social Network Analysis with Ap-
plications, New Jersey: John Wiley & Sons.
Mel’čuk, Igor A. (1988) Dependency Syntax: Theory and Practice, Albany: SUNY Press.
Meyer, John W. (2010): «World Society, Institutional Theories, and the Actor», in: Annual
Review of Sociology 36(1), S.1–20.
Meyer, John W./Jepperson, Ronald L.(2000): «The ‘actors’ of Modern Society: The Cultural
Construction of Social Agency», in: Sociological Theory 18(1) S.100–120.
Meyer, Renate E./Höllerer, Markus A. (2010): «Meaning Structures in a Contested Issue Field:
A Topographic Map of Shareholder Value in Austria», in: Academy of Management Jour-
nal 53(6) S.1241–62.
Mitchell, Tom (1997): Machine Learning, New York: McGraw-Hill Book.
Mohr, John W./Bogdanov, Petko (2013): «Introduction Topic Models: What They Are and
Why They Matter», in: Poetics 41(6), S.545–69.
Mohr, John W./Wagner-Pacifici, Robin/Breiger, Ronald L. (2015): «Toward a Computational
Hermeneutics», in: Big Data & Society 2(2), S.1–8.
Mohr, John W./Wagner-Pacifici, Robin/Breiger, Ronald L./Bogdanov, Petko (2013): «Gra-
phing the Grammar of Motives in National Security Strategies: Cultural Interpretation, Au-
tomated Text Analysis and the Drama of Global Politics», in: Poetics 41(6), S.670–700.
Nardulli, Peter F./Althaus, Scott L./Hayes, Matthew (2015): «A Progressive Supervised-Learn-
ing Approach to Generating Rich Civil Strife Data», in: Sociological Methodology 45(1),
S.148–83.
35
Nederhof, Mark-Jan/Satta, Giorgia (2013): «Theory of Parsing», in: Alexander Clark/Chris
Fox/Shalom Lappin (Hg.), The Handbook of Computational Linguistics and Natural Lan-
guage Processing, New York: John Wiley & Sons, S. 105-130.
Newman, Matthew L./Pennebaker, James W./Berry, Diane S./Richards, Jane M. (2003), «Ly-
ing Words: Predicting Deception from Linguistic Styles», in: Personality and Social Psy-
chology Bulletin 29(5), S. 665–675.
Ocasio, William/Loewenstein, Jeffrey/Nigam, Amit (2015): «How Streams of Communication
Reproduce and Change Institutional Logics: The Role of Categories», in: Academy of
Management Review 40(1), S.28–48.
Padó, Sebastian/Lapata, Mirella (2007): «Dependency-Based Construction of Semantic Space
Models», in: Computational Linguistics 33(2), S.161–99.
Pang, Bo/Lee, Lillian (2005): «Seeing Stars: Exploiting Class Relationships for Sentiment Cat-
egorization with Respect to Rating Scales», in Proceedings of the 43rd Annual Meeting on
Association for Computational Linguistics 43, S. 115-124.
Park, Jongmin/Lee, Hyunmin/Hong, Hyehyun (2016): «The Analysis of Self-Presentation of
Fortune 500 Corporations in Corporate Web Sites», in: Business & Society 55(5), S.706–
37.
Phillips, Nelson/Lawrence, Thomas B./Hardy, Cynthia (2004): «Discourse and Institutions»,
in: Academy of Management Review 29(4), S.636–52.
Pollach, Irene (2012): «Taming Textual Data: The Contribution of Corpus Linguistics to Com-
puter-Aided Text Analysis», in: Organizational Research Methods 15(2), S.263–87.
Popping, Roel (2012): «Qualitative Decisions in Quantitative Text Analysis Research”, in: So-
ciological Methodology 42(1), S.88–90.
Popping, Roel/Roberts, Carl W. (2015): «Semantic Text Analysis and the Measurement of Ide-
ological Developments within Fledgling Democracies», in: Social Science Information
54(1), S.23–37.
36
Powell, Walter W./Horvath, Aaron/Brandtner, Christof (2016): «Click and Mortar: Organiza-
tions on the Web», in: Research in Organizational Behavior 36, S.101–20.
Reay, Trish/Hinings, C. R. (2005): «The recomposition of an organizational field: Health care
in Alberta», in: Organization Studies 26(3), S. 351-384.
Roberts, Carl W. (1989): «Other than Counting Words: A Linguistic Approach to Content Anal-
ysis», in: Social Forces 68(1), S.147–77.
Schofer, Evan/Meyer, John W. (2005): «The Worldwide Expansion of Higher Education in the
Twentieth Century», in: American Sociological Review 70(6), S. 898-920.
Schütz, Alfred (1932): Der sinnhafte Aufbau der Sozialen Welt: Eine Einleitung in die Verste-
hende Soziologie, Wien: Springer Verlag.
Schütze, Hinrich (1998): «Automatic Word Sense Discrimination», in: Computational Linguis-
tics 24(1), S.97–123.
Scott, W. Richard (1994): «Conceptualizing Organizational Fields: Linking Organizations and
Societal Systems», in: Hans-Ulrich Derlien/Uta Gerhardt/Fritz W. Scharpf (Hg.), Sys-
temrationalität und Partialinteresse, Baden-Baden: Nomos-Verlagsgesellschaft, S. 203-221
Socher, Richard et al. (2013): «Recursive Deep Models for Semantic Compositionality over a
Sentiment Treebank», in: Proceedings of the 2013 Conference on Empirical Methods in
Natural Language Processing, S. 1631-1642.
Suddaby, Roy (2010): «Challenges for Institutional Theory», in: Journal of Management In-
quiry 19(1), S.14–20.
Suddaby, Roy/Elsbach, Kimberly D./Greenwood, Royston/Meyer, John W./Zilber, Tammar B.
(2010): «Organizations and Their Institutional Environments: Bringing Meaning, Values,
and Culture Back in: Introduction to the Special Research Forum», in: Academy of Man-
agement Journal 53(6), S.1234–40.
37
Toutanova, Kristina/Klein, Dan/Manning, Christopher D. (2003): «Feature-Rich Part-of-
Speech Tagging with a Cyclic Dependency Network», in: Proceedings of the 2003 Con-
ference of the North American Chapter of the Association for Computational Linguistics
on Human Language Technology (NAACL), S. 252-259.
Turney, Peter D./Pantel, Patrick (2010): «From Frequency to Meaning: Vector Space Models
of Semantics», in: Journal of Artificial Intelligence Research 37(1), S.141–88.
Voronov, Maxim/Yorks, Lyle (2015): «‘Did You Notice That?’ Theorizing Differences in the
Capacity to Apprehend Institutional Contradictions», in: Academy of Management Review
40(4), S.563–86.
Vossen, Piek. 2004. «Ontologies», in: Ruslan Mitkov (Hg.): The Oxford Handbook of Compu-
tational Linguistics, Oxford: Oxford University Press, S. 464–82.
Wagner-Pacifici, Robin/Mohr, John W./Breiger, Ronald L. (2015): «Ontologies, Methodolo-
gies, and New Uses of Big Data in the Social and Cultural Sciences», in: Big Data & So-
ciety 2(2), S.1–11.
Wasserman, Stanley/Katherine Faust (1999): Social Network Analysis: Methods and Applica-
tions. Cambridge: Cambridge University Press.
Wooten, Melissa/Hoffman, Andrew J. (2008). «Organizational Fields: Past, Present and Fu-
ture», in: Royston Greenwood/Christine Oliver/Thomas B. Lawrence/Renate E. Meyer
(Hg.), The Sage Handbook of Organizational Institutionalism, Los Angeles: Sage Publica-
tions, S. 130–47.
Wooten, Melissa/Hoffman, Andrew J. (2017): «Organizational Fields: Past, Present and Fu-
ture», in: Royston Greenwood/Christine Oliver/Thomas B. Lawrence/Renate E. Meyer
(Hg.), The Sage Handbook of Organizational Institutionalism, Los Angeles: Sage Publica-
tions, S. 55–74.
38
Zietsma, Charlene/Groenewegen, Peter/Logue, Danielle M./Hinings, C. Robert (2017): «Field
or Fields? Building the Scaffolding for Cumulation of Research on Institutional Fields»,
in: Academy of Management Annals 11(1), S.391–450.