Conference PaperPDF Available

Statistische Räumliche Analyse in der Digitalen Transformation: das Beispiel Geosozialer Medien

Conference Paper

Statistische Räumliche Analyse in der Digitalen Transformation: das Beispiel Geosozialer Medien

1
Cite as:
Westerholt, R. (2019). Statistische Räumliche Analyse in der Digitalen Transformation: das Beispiel Geosozialer Medien. In: Kolbe, T.-H., Bill, R., &
A. Donaubauer (eds.) Geoinformationssysteme 2019Beiträge zur 6. Münchner GI-Runde, Munich, Germany, 2935.
Statistische Räumliche Analyse in der Digitalen Transformation: das
Beispiel Geosozialer Medien
René WESTERHOLT1,2
1Centre for Interdisciplinary Methodologies · University of Warwick · Gibbet Hill Road · CV4 7AL Coventry · UK
E-Mail: Rene.Westerholt@warwick.ac.uk
2Geographisches Institut · Universität Heidelberg · Im Neuenheimer Feld 368 · 69120 Heidelberg · Deutschland
E-Mail: westerholt@uni-heidelberg.de
1 Einführung
Unsere moderne Informationsgesellschaft produziert fortlaufend raumzeitliche Datensätze in einer nie dagewesenen Ge-
schwindigkeit und Menge. Menschen hinterlassen ihre digitalen Spuren bei der Nutzung des öffentlichen Personennah-
verkehrs mit E-Tickets oder bei der Preisgabe ihrer Markenpräferenzen über den Einsatz von Kundenkarten. Diese Bei-
spiele demonstrieren die flächendeckende und tiefe Verankerung digitaler Technologien im Alltag, welche zu einer Ver-
mischung der Rollen des Datenproduzierenden und des Nutzers geführt hat (Haklay et al. 2008, Coleman 2009, Ritzer et
al. 2012). Geosoziale Medien, also soziale Medien wie Twitter oder Facebook deren Nachrichten georeferenziert werden
können, haben dabei jüngst eine besondere Aufmerksamkeit in der akademischen Forschung erfahren. Nutzer hinterlassen
hierbei zumeist proaktiv, jedoch oft unbewusst, subjektive Eindrücke und Meinungen über Orte und soziale Ereignisse.
Die so gesammelten Informationen werden, in Kontrast zum Begriff der Volunteered Geographic Information, oft als
Ambient Geospatial Information bezeichnet (Stefanidis et al. 2013). In der Geographie und der Geoinformatik erscheinen
in jüngerer Zeit zahlreiche Arbeiten, die diese Daten für die Untersuchung menschlicher Mobilität (z.B. Hasan et al. 2013,
Steiger et al. 2016), urbaner Räume (z.B. Cranshaw et al. 2012, Shelton et al. 2015) und für weitere Zwecke nutzen. Auf
diese Weise unterstützen diese neuartigen Datenquellen die Erlangung neuer Erkenntnisse über die räumliche Organisa-
tion des Alltagslebens unserer Gesellschaften.
Ein wichtiger Schritt in der Untersuchung der Inhalte geosozialer Medien besteht in deren statistischer räumlicher Ana-
lyse. Diese erlaubt etwa die Untersuchung räumlicher Verflechtungen und eine geographische Kontextualisierung der
Daten. Dabei treten jedoch veritable methodische Herausforderungen auf: die Beziehung zwischen einer Nachricht und
dem zugehörigen Ort ist oft nicht eindeutig bestimmbar. Ferner verkomplizieren Probleme wie Selbstselektivität oder die
Ambiguität der semantischen Beiträge räumliche Analysen (Sengstock und Gertz 2012, Tufekci 2014). Ein besonders
gravierendes Problem besteht jedoch in der räumlich und zeitlich koinzidenten Repräsentation verschiedenster Phäno-
mene, sowie in deren erschwerter Trennbarkeit. Nutzer tragen Nachrichten in unterschiedlichen linguistischen, kulturellen
und intentionalen Arten und Weisen über verschiedene Phänomene bei, in der Regel in Form sehr kurzer Beiträge. Selbst
nach ausgeprägter Vorverarbeitung sind vorhandene räumliche Analysemethoden oft nicht hinreichend in der Lage, die
Eigenschaften solcher Zufallsvariablen zu berücksichtigen. Statistisch ausgedrückt können Daten aus geosozialen Medien
demnach als umlich (und zeitlich) überlagerte Zufallsvariablen bezeichnet werden, bei denen der räumlichen Struktur
der Heterogenität als Indikator für die inhaltliche Durchmischung an Orten eine besondere Bedeutung zukommt. Erkennt-
nisse über die Auswirkungen der resultierenden Wechselwirkungen mit bekannten Methoden, sowie neue methodische
Ansätze sind deshalb notwendig, um effektiv detaillierte Erkenntnisse über die räumliche Organisation von Orten mittels
Daten sozialer Medien zu erzielen.
Die nachfolgend und im zugehörigen Vortrag präsentierte Forschung befasst sich mit der Schnittstelle zwischen räumli-
cher Analysemethodik und den Eigenschaften von Daten aus geosozialen Medien. Die Ergebnisse wurden im Rahmen
einer an der Universität Heidelberg kumulativ erstellten Dissertation erlangt. Drei Arten wissenschaftlicher Beiträge wer-
den dabei vorgestellt: präsentiert werden (i) empirische Erkenntnisse hinsichtlich der Interaktion zwischen Methodik und
Dateneigenschaften; (ii) methodische Beiträge zur Berücksichtigung und weitergehenden Charakterisierung dieser Ei-
genschaften; und (iii) eine Einbettung dieser Erkenntnisse in einen breiteren Kontext, der über die Geographie und die
Geoinformatik hinausgeht.
2 Räumliche Dateneigenschaften und Analysemethodik
Die Anwendung von Methoden wird maßgeblich von Dateneigenschaften beeinflusst. Angewandte Methoden sollten
deshalb stets in Einklang mit den Eigenschaften der zu untersuchenden Daten sein. Die räumliche Analyse stellt hierbei
keine Ausnahme dar. Viele der üblicherweise angewandten räumlichen Methoden stammen aus einer Zeit vor dem Auf-
kommen geosozialer Medien. Vor diesem Hintergrund beleuchten die nachfolgenden Unterkapitel die Auswirkungen
verschiedener Dateneigenschaften geosozialer Mediendaten auf zwei exemplarische räumlich-statistische Methoden: den
Schätzer räumlicher Autokorrelation Moran’s I, sowie die Hot-Spot-Methode Getis-Ord Gi*.
2 R. Westerholt
2.1 Überlagerte Maßstäbe
Räumliche Analysen mit geosozialen Mediendaten werden dadurch erschwert, dass Menschen selbstständig Beobachtun-
gen ohne jegliche thematischen Einschränkungen einbringen. In der Folge werden mehrere Phänomene auf unterschied-
lichen und räumlich durchmischten Skalen simultan und an gleichen Orten erhoben. Darüber hinaus verwenden Menschen
unterschiedliche idiosynkratische Skalenkonzepte, wenn sie subjektive Eindrücke über den gleichen Aufenthaltsort bei-
tragen, was zu vielfältigen räumlichen Konzeptualisierungen führt (Wender et al. 2002, Dangschat 2007). Dies steht im
Gegensatz zu eigens für die geografische Forschung erhobenen Primärdaten, bei denen die Erfassungsskala an ein einzi-
ges kohärentes Phänomen angepasst wird und bei denen keine subjektiv wahrgenommenen räumlichen Skalen einbezogen
werden. Ähnliches gilt, wenn auch in eingeschränkter Form, für professionell erhobene Sekundärdaten wie etwa jene aus
dem Zensus.
Geosoziale Mediendaten enthalten unterschiedliche Maßstäbe in räumlich vermischter Form. Die Ergebnisse in
Westerholt et al. (2015) zeigen, dass für räumliche Analysen gebildete Nachbarschaften bei geosozialen Mediendaten
heterogen sind. Fünf verschiedene Maßstäbe wurden herangezogen und auf jedem dieser Maßstäbe interagieren 70 90%
der eingeschlossenen Beobachtungen auf Maßstäben jenseits des jeweiligen Spektrums von Interesse. Zusätzlich domi-
nieren kleine räumliche Maßstäbe die konstruierten räumlichen Nachbarschaften so, dass die kleinsten beiden der unter-
suchten Maßstäbe mehr als 40% aller enthaltenen Social-Media-Nachrichten repräsentieren. Unter Berücksichtigung der
Attributwerte (hier: semantische Ähnlichkeiten) zeigt sich weiterhin, dass der Anteil der Attributwerte, die durch die
kleinsten Beobachtungen beigetragen werden, ihren quantitativen Anteil um bis zu 80% übersteigt, was darauf hindeutet,
dass kleine Maßstäbe stark überbewertet sind. Daher ist es schwierig, aus den untersuchten geosozialen Mediendaten
signifikante Hot-Spot-Muster auf gröberen Maßstäben zu erkennen, ohne von den kleinsten enthaltenen Maßstäben be-
einflusst zu werden.
Die erzielten Ergebnisse zeigen ferner, dass Hot-Spots häufig falsch interpretiert werden oder unentdeckt bleiben, wenn
Maßstäbe in räumlich überlagerter Form auftreten. Untersucht wurde der Hot-Spot-Schätzer Gi* (Getis und Ord 1992,
Ord und Getis 1995) und dessen Anwendung auf Twitter-Daten aus San Francisco. Die Ergebnisse zeigen, dass dieser
Schätzer im Mittel einen positiven Trend über die untersuchten Maßstäbe aufweist. Die Erkennung von Hot-Spots aus
geosozialen Medien ist demnach eine Funktion des Maßstabs, infolgedessen die Nullhypothese (d. h. kein Hot-Spot) auf
groben Maßstäben zu oft abgelehnt wird. Dies geschieht, da durch die räumliche Durchmischung signifikante Hot-Spots
aus kleineren Maßstäben auf größere übertragen werden. Auf kleinen Analysemaßstäben zeigt sich hingegen häufig ein
gegenteiliges Verhalten, wenn sich niedrige und hohe Attributwerte maßstabsübergreifend vermischen. Hierdurch werden
potenzielle Hot-Spot-Muster und somit interessante Effekte übersehen. Ferner bedeutet dies, dass Hot-Spots auf unter-
schiedlichen Maßstäben statistisch voneinander abhängig sind, auch wenn dies ggfs. nicht der Realität entspricht. Ähnlich
den bekannten Problematiken bei multiplem Hypothesentesten müssen, bei der Verwendung von Daten aus geosozialen
Medien, die beschriebenen Effekte kontrolliert werden, um realistische und interpretierbare Ergebnisse zu erzielen.
2.2 Topologisch-bedingte Effekte
Die Topologie konstruierter räumlicher Analysenachbarschaften hat großen Einfluss auf die Ergebnisse räumlicher Ana-
lysen. Der Schätzer Morans I (Cliff und Ord 1969, Getis 2010) etwa ist empfindlich gegenüber topologischen Ungleich-
gewichten im geographischen Layout einer Region (Tiefelsdorf und Boots 1997, Tiefelsdorf et al. 1999, Shortridge 2007).
So ergeben sich Problematiken bei vielen Randeinheiten mit geringfügiger Konnektivität bei gleichzeitigem Vorhanden-
sein von hochgradig verbundenen geographischen Einheiten. Die Durchmischung verschiedenster Phänomene in geoso-
zialen Medien führt zu einer komplexen Anordnung mit teilweise artifizieller geographischer Nähe. Der Einfluss dieser
Problematik auf die Analyse räumlicher Autokorrelation ist Gegenstand der Studie in Westerholt et al. (2016).
Stark interagierende räumliche Einheiten im Überlagerungsbereich verschiedener Prozesse beeinflussen die Verteilung
der räumlichen Autokorrelationsstatistik Moran’s I. Die Eigenwerte von räumlichen Gewichtungsmatrizen, welche das
Interaktionspotenzial zwischen den Einheiten bestimmen, liefern ein detailliertes Verständnis dafür, wie die Verbunden-
heit in einem räumlichen Arrangement die räumliche Autokorrelation beeinflusst. Die erzielten Ergebnisse zeigen, dass
überlagerte Eigenwertmuster sehr heterogen mit gleichzeitigen hohen und niedrigen Werten sind, wobei für diejenigen
Einheiten, die über verschiedene überlagerte Muster hinweg interagieren, die stärksten Eigenwerte auftreten. Diese Ein-
heiten erhöhen die Variabilität im Eigenwertspektrum, was wiederum den Bereich der theoretisch möglichen Moran’s-I-
Werte streckt und auch die Form ihrer Verteilung verändert. Die Interaktion zwischen überlagerten Mustern hat somit
einen starken Einfluss auf die Aufdeckung räumlicher Muster, da diese durch eine rein technisch bedingte Interaktion in
besonderem Maße in die Analyse einfließen. Inferenzen, die über Morans I gezogen werden, sind dann verzerrt und haben
eine geringere statistische Aussagekraft, insbesondere bei Annahme einer Normalverteilung der statistischen Werte.
Mehrere möglicherweise gegensätzliche räumliche Prozesse werden in überlagerten Daten falsch identifiziert. Moran
Scatterplots erlauben die Zerlegung von Morans I in seine lokalen Bestandteile. Obwohl in den untersuchten überlagerten
Mustern defacto nur ein räumliches Muster existiert, zeigt das Streudiagramm des Moran Scatterplot drei verschiedene
räumliche Prozesse. Eines davon spiegelt die tatsächliche räumliche Interaktion in den Daten wider und zeigt eine positive
Steigung in der Regressionslinie (d. h. räumliches Clustering). Darüber hinaus erscheinen eine weitere falsche Gerade
Räumliche Analyse in der Digitalen Transformation 3
mit positiver, sowie eine weitere mit negativer Steigung. Diese bilden die Wechselwirkungen zwischen den beteiligten
Prozessen ab. Jede dieser Geraden ist einem der Maßstäbe der beteiligten Prozesse zugeordnet. Wenn diese Problematik
nun nicht explizit berücksichtigt wird, werden diese fälschlich identifizierten räumlichen Prozesse in die Charakterisie-
rung des gesamten räumlichen Interaktionsverhaltens der analysierten Daten einbezogen. Wenn man diese Komponenten
in Beziehung zu den oben skizzierten Eigenwerten setzt, zeigt sich weiter, dass sich die beiden Komponenten bei stei-
genden Eigenwerten gegenläufig verhalten. Ihre Einflüsse werden jedoch stärker, was die starke Wirkung der räumlichen
Überlagerung auf die Interpretation räumlicher Muster verdeutlicht.
2.3 Effekte statistischer Heterogenität
Eine Vielzahl verschiedener Prozesse sind in geosozialen Mediendaten abgebildet. Statistische Datenmerkmale beein-
flussen jedoch die Schätzung räumlicher Autokorrelationen stark. Es ist bekannt, dass Morans I schneller auf die Nor-
malverteilung konvergiert, wenn die eingehenden Zufallsvariablen selbst nahezu normal sind, oder zumindest einer sym-
metrischen Verteilung folgen (Griffith 2010). Ebenso setzt Moran’s I eine gewisse Variabilität innerhalb der untersuchten
Zufallsvariablen voraus, um eine ausreichende statistische Aussagekraft zu gewährleisten (Walter 1992a, 1992b). Gleich-
zeitig sollten die Varianzen der zugrundeliegenden datengenerierenden Prozesse gleichförmig sein, um zuverlässige
Rückschlüsse auf Morans I ziehen zu können (Oden 1995, Waldhör 1996, Shen et al. 2016). Die Heterogenität statisti-
scher Merkmale in geosozialen Medien hat somit einen großen Einfluss auf die Erkennung räumlicher Strukturen. Diese
wurden in Westerholt (2018) näher beleuchtet.
Überlagerte Mittelwerte verschiedener Intensitäten verändern die Interpretation von Morans-I-Schätzungen. Im Hinblick
auf statistische Unterschiede wird die Stärke der räumlichen Autokorrelation mit stark unterschiedlichen Mittelwerten
unterschätzt, wenn die sich überlappenden Muster räumlich willkürlich sind, d. h., wenn diese für sich genommen nicht
räumlich autokorreliert sind. Im Gegensatz dazu hängt der Grad der Unterschätzung von räumlich strukturierten überla-
gerten Mustern zusätzlich vom geometrischen Maßstab, der mit dem stärkeren der beteiligten Mittelwerte verbunden ist,
ab. Daher führen dominante großmaßstäbige Muster zu einer stärkeren Unterschätzung. Die Geschwindigkeit, mit der
diese Effekte wirksam werden, ist überdies schneller als bei dominanten kleinmaßstäbigen Mustern. Die Wirkung unter-
schiedlicher Mittelwerte führt daher zu einer Fehlinterpretation der Stärke der räumlichen Strukturierung in den Daten.
Unterschiedliche Attributvarianzen in überlagerten Zufallsvariablen erhöhen die Unsicherheit von räumlichen Autokor-
relationsschätzungen. Die Unsicherheit bei der Schätzung von Moran‘s I steigt, wenn die Varianzen der überlagerten
Attribute unterschiedlich sind. Dieser Effekt ist sowohl für räumlich zufällige als auch für räumlich strukturierte Über-
lappungsmuster ähnlich. Auch in Bezug auf die Maßstäbe der beteiligten Muster ist der Einfluss unterschiedlicher Vari-
anzen symmetrisch. Dabei spielt es keine Rolle, ob das großmaßstäbigere oder das kleinmaßstäbigere Muster in Bezug
auf die Streuung dominiert. Der Varianz-Effekt wird schnell wirksam, so dass bereits kleine Unterschiede zu einer recht
starken Vergrößerung des theoretisch möglichen Bereichs der Moran’s-I-Werte führen. Bemerkenswert ist auch, dass
Varianzabweichungen im Allgemeinen zu einer Prävalenz gegenüber größeren Moran's-I-Schätzungen führen. Während
also Mittelwertabweichungen zu Unterschätzungen führen, können Unterschiede in den beteiligten Varianzen die Aus-
wirkungen der Mittel ausgleichen. Dieser Befund ergänzt die für die verschiedenen gemeinsam auftretenden räumlichen
Prozesse im Moran Scatterplot ermittelten Ausgleichseffekte (gegenteilige Regressionslinien).
3 Erarbeitung neuer methodischer Ansätze
Die aufgezeigten Problematiken verlangen neuartige methodische Vorgehensweisen, um den räumlichen Spezifika von
geosozialen Mediendaten zu begegnen. Nachfolgend werden zwei Ansätze vorgestellt, welche einige der oben ausgeführ-
ten Eigenschaften berücksichtigen.
3.1 Hot-Spot-Schätzung mit überlagerten Maßstäben
Die Übereinstimmung von Analyse- und Phänomen-Maßstab ist entscheidend für die Identifizierung sinnvoller Struktu-
ren (Goodchild 2001). Hot-Spot-Schätzer sind besonders anfällig für Maßstabsfehler, da diese Attributwerte lokale Da-
tenpunkte additiv zusammenfassen. Besonders wenn der Analysemaßstab grob ist, werden die Ergebnisse durch die Ein-
beziehung von nicht relevanten Datenpunkten beeinflusst. Da geosoziale Medienfeeds über diskrete geographische Ein-
heiten indiziert werden, ist es erforderlich, eine Matrix von paarweisen Beziehungen zwischen den gesampelten Standor-
ten zu adjustieren. Diese regelt auch den Maßstab einer Analyse. Es steht eine Vielzahl von verschiedenen Matrixdesigns
zur Verfügung (vgl. Aldstadt und Getis 2006, Mawarni und Machdi 2016, Ermagun und Levinson 2017). Es existiert
jedoch kein Ansatz, der die spezifischen räumlichen Eigenschaften von überlagerten Zufallsvariablen berücksichtigt.
Westerholt et al. (2015) behandeln die Hot-Spot-Schätzung aus überlagerten Zufallsvariablen, indem zwei Beiträge vor-
geschlagen werden: (i) Es wird ein neuartiger Ansatz zur räumlichen Gewichtung vorgestellt, der sich von den verfügba-
ren in stratifizierten Nachbarschaften in Bezug auf die lokal enthaltenen Interaktionsmaßstäbe unterscheidet. Darüber
hinaus wird (ii) ein neuartiger Hot-Spot-Schätzer abgeleitet, der es ermöglicht, Hot-Spots auf verschiedenen Skalen ge-
trennt voneinander offenzulegen.
4 R. Westerholt
Zur Ableitung von räumlichen Gewichten für überlagerte Zufallsvariablen wird ein zweistufiges Verfahren vorgeschla-
gen: Um jede Raumeinheit herum wird zunächst eine kreisförmige Grenze gezogen, deren Abstandsgrenze der geomet-
rischen Reichweite des analysierten Prozesses entspricht. Alle paarweisen Beziehungen zwischen den darin enthaltenen
Zufallsvariablen werden dann untersucht, um festzustellen, ob sie sich auf dem Maßstab befinden, auf dem der analysierte
Prozess voraussichtlich abläuft. Das abgeleitete Gewichtungsschema bildet somit einen hybriden Ansatz, der geometri-
sche (die kreisförmige Grenze) und topologische Prinzipien (die relative Platzierung von räumlichen Einheiten) beinhal-
tet, die es ermöglichen, lokale Nachbarschaften in verschiedene unterschiedliche, sich aber geometrisch überlappende
Teile zu stratifizieren. Bestimmte Maßstäbe können ein- und ausgeschaltet werden, um sie anschließend separat auszu-
werten. Während konventionelle verfügbare räumliche Gewichtungssysteme davon ausgehen, dass die Nachbarschaft in
sich stimmig ist, ohne dass sie weiter untergliedert werden muss, stellt der vorgestellte Ansatz ein System für den Fall
von räumlich überlagerten geographischen Zufallsvariablen dar.
Ferner wird eine modifizierte Version von Gi* abgeleitet. In diesem neuen Maß berücksichtigt der normalisierende Nenner
die Existenz verschiedener räumlicher Maßstäbe durch Auswertung eines binären Vektors, der die Maßstäblichkeit an-
gibt. Die ursprüngliche Methode berücksichtigt keine unterschiedlichen Maßstäbe und verwendet einen konstanten Nen-
ner, der auf allen verfügbaren Daten basiert. Darüber hinaus ist der Zähler des neuen Schätzers mit dem oben vorgeschla-
genen Gewichtungsschema integriert. Dies ermöglicht es, irrelevante Informationen auszusortieren, erfordert jedoch eine
Korrektur der Freiheitsgrade des Schätzers. Schließlich werden Ausdrücke für den Mittelwert und die Varianz des Maßes
hergeleitet, die ebenfalls auf relevante Maßstäbe beschränkt sind. Das letztlich vorgeschlagene Maß wird als asymptotisch
normaler z-Score präsentiert, der eine einfache Inferenz und Interpretation ermöglicht. Mit dem vorgestellten Verfahren
ist es möglich, Hot-Spots auf verschiedenen Maßstäben isoliert zu bewerten und damit ansonsten nicht erkennbare Phä-
nomene aufzudecken.
Die Anwendung von Gi* und dem neuen, abgeleiteten Maß auf einen Twitter-Datensatz zeigt den Nutzen des letzteren
für diese Art von Daten. Während der Mittelwert von Gi* einen stark positiven Trend zu größeren Maßstäben zeigt (siehe
Abschnitt 2.1), ist die Trendlinie für das neue Maß flach und bleibt nahe Null, was das erwartete Verhalten für z-Scores
ist. Der neue Schätzer erlaubt ferner eine bessere Identifizierung und Trennung von räumlichen Hot- und Cold-Spots auf
verschiedenen Maßstäben. Der heterogene Central Business District (CBD) von San Francisco erscheint als starker Cold-
Spot, während das asiatische Viertel im nördlichen Teil einen markanten Hot-Spot aufweist, der chinesische Neujahrsfei-
ern darstellt. Darüber hinaus treten in zentralen Stadtteilen auf der größten analysierten Skala kleine Hot Spots auf (z. B.
ein College-Campus), während andere nur auf kleineren Maßstäben vorhanden sind (z. B. eine High-School im Norden).
Diese Phänomene sind entweder mit Gi* nicht nachweisbar (Typ-II-Fehler) oder bleiben auf den meisten Analysemaßstä-
ben fälschlicherweise präsent (Typ-I-Fehler). Gi* zeigt somit eine hohe Anzahl von False Positives auf großen Analyse-
maßstäben, wobei 33,56% aller Zufallsvariablen als signifikant gekennzeichnet sind. Dies ist bei dem abgeleiteten Maß
nicht der Fall, da hier lediglich 3,77% aller Beobachtungen als signifikant bewertet werden, was der angegebenen Fehler-
wahrscheinlichkeit von 5% nahe kommt.
3.2 Schätzer räumlich strukturierter Varianz
Die Untersuchung der räumlichen Heterogenität von überlagerten Zufallsvariablen ist für ein besseres Verständnis dieser
Art von Daten nützlich. Räumliche Heterogenität ist ein Indikator für die räumliche Instabilität in Zufallsvariablen
(Dutilleul und Legendre 1993). In traditionellen Datensätzen bezieht sich dies auf Instabilität in statistischen Momenten
über einen Beobachtungsbereich. Bei überlagerten Zufallsvariablen sollte zusätzlich die räumliche Heterogenität lokal
innerhalb der Standorte untersucht werden, was detaillierte Charakterisierungen erlaubt, wie die lokale räumliche Anord-
nung von Zufallsvariablen deren Vielschichtigkeit beeinflusst. Dies wiederum hilft, die räumliche Organisation von Orten
besser zu verstehen. Um räumliche Mischungen von Prozessen besser zu verstehen, wurde ein statistischer Test über den
Zusammenhang zwischen räumlicher Anordnung und Varianz entwickelt (Westerholt et al. 2018). Diese Teststatistik
basiert auf zwei Prinzipien: (i) sie nutzt nur lokale Informationen, um räumliche Heterogenität zuzulassen; und (ii) es
beinhaltet einen streng lokalen inferentiellen Bezugsrahmen. Diese Prinzipien ermöglichen es zu beurteilen, ob die Art
und Weise, wie Zufallsvariablen räumlich angeordnet sind, die Varianz an einem bestimmten Ort reduziert oder erhöht,
oder ob diese beiden Merkmale nicht miteinander in Beziehung stehen.
Das vorgeschlagene Maß namens Local Spatial Dispersion (LSD) ermöglicht es, den Einfluss eines räumlichen Musters
auf die lokale Variabilität vor Ort zu testen, ohne von der globalen geographischen Varianzverteilung beeinflusst zu
werden. Im Gegensatz dazu zeigt Local Spatial Heteroscedasticity (LOSH), eine kürzlich vorgeschlagene Methode (Ord
und Getis 2012), von der LSD abgeleitet ist, lediglich Varianz-Hot-Spots, die sich im globalen Vergleich abheben. Aus-
schließlich lokale Varianzstrukturen, die global nicht herausragen, werden hingegen nicht detektiert. Der wesentliche
technische Unterschied zu LOSH besteht darin, dass LSD geschätzte Residuen über lokale, räumlich gewichtete Mittel-
werte mit ihren eigenen lokalen Durchschnittswerten vergleicht, während LOSH den globalen Durchschnitt dieser Resi-
duen in lokale Vergleiche einbezieht. Auf diese Weise bewertet LSD den gänzlich lokalen Einfluss der räumlichen An-
ordnung auf die Varianz, ohne auf das Streuverhalten an anderen Orten Bezug zu nehmen. Es ist somit möglich, zu
erkennen und zu charakterisieren, wie sich das lokale räumliche Layout auf die Varianz auswirkt, auch an Orten, die von
LOSH als global nicht signifikant identifiziert werden.
Räumliche Analyse in der Digitalen Transformation 5
Das für LSD entwickelte Inferenz-Framework ermöglicht räumliche Heterogenität zweiter Ordnung durch lokale Rand-
omisierung. Das Ziehen lokaler Schlüsse geht jedoch auf Kosten der zur Verfügung stehenden Informationen. Potentiell
kleine lokale Nachbarschaften bieten oft nur spärliche Informationen, was zu unzuverlässigen Referenzverteilungen füh-
ren kann. Um diesem Problem zu begegnen, beinhaltet der vorgeschlagene Ansatz ein Bayes'sches Rahmenwerk zur
Vorhersage zusätzlicher synthetischer lokaler Mittelwerte. Zusätzliche lokale Residuen können dann über diese Mittel
geschätzt werden, so dass es möglich ist, einen lokalen Bootstrap aus einer beliebigen Anzahl von Monte-Carlo-Replika-
tionen zu berechnen. In einem ersten Schritt werden die globalen statistischen Informationen aus allen verfügbaren loka-
len, räumlich gewichteten Mittelwerten ausgewertet, um ihre gemittelte Priorverteilung abzuleiten. In diesem Schritt wer-
den die lokalen Informationen aus der jeweiligen Nachbarschaft ausgeklammert, um eine doppelte Verwendung der Daten
zu vermeiden. Der Prior wird dann mit lokalen Informationen kombiniert, um die anfänglich konstruierte Verteilung an
die örtlichen Gegebenheiten anzupassen. Dieser Ansatz hat zwei Vorteile: Der globale Prior reduziert das Risiko einer
lokalen Überanpassung an eventuell extreme Gegebenheiten, während die Verwendung lokaler Informationen eine starke
globale Mittelung vermeidet und zu einer realistischeren Darstellung des lokalen Streuverhaltens führt.
4 Schlussfolgerungen und Ausblick
Geosoziale Medien und verwandte Daten sind im Hinblick auf räumliche Analysen herausfordernd. Sie entstammen ei-
nem größtenteils unkontrollierten Erhebungsprozess, was im wissenschaftlichen Kontext zu neuartigen Problemstellun-
gen führt. Räumlich betrachtet finden sich zahlreiche unterschiedliche Phänomene simultan in den Daten. Deren Tren-
nung ist komplex und oft unmöglich, da es sich oftmals um Nuancen handelt. Aus diesem Grund können georeferenzierte
Social-Media-Daten als räumlich strukturierte, heterogene Mischung betrachtet werden.
Die hier dargelegten Arbeiten zeigen eine Reihe von Problemstellungen auf. Diese reichen von Maßstabsproblematiken
über topologische Problemstellungen bis hin zu räumlich komplex durchmischter statistischer Variation. Ferner wurden
erste Ansätze zur räumlich-statistischen, methodischen Behandlung dieser Problematiken aufgezeigt. Insgesamt deuten
die Ergebnisse darauf hin, dass räumlich überlagerte und heterogene Zufallsvariablen räumlich-statistische Darstellungen
von örtlichen (im Gegensatz zu räumlichen) Informationen sind. Die vorgelegten Ergebnisse unterstützen daher die jüngs-
ten Diskussionen über geosoziale Mediendaten als weitgehend örtlich charakterisiert (Gao et al. 2014, Quesnot und Roche
2015, Jenkins et al. 2016, Roche 2016). In diesem Sinne ist die räumliche Überlagerung ein Artefakt der Komplexität
subjektiv wahrgenommener und erlebter Orte. Viele Menschen halten sich zwar an einem Standort auf, weisen diesem
jedoch gänzlich unterschiedliche Bedeutungen zu. Die zukünftige Forschung sollte demnach zwei Richtungen einschla-
gen: Zum einen sollte die räumlich-statistische Forschung auf ein geeignetes Instrumentarium für räumlich überlagerte
Zufallsvariablen hinarbeiten. Dies erscheint sinnvoll, da auch die räumliche Komponente als Teilausschnitt eines Ortes
von wissenschaftlichem Interesse ist. Ferner sollte ein neues Feld zur statistisch-quantitativen Betrachtung subjektiver
Ortswahrnehmungen eingeführt werden. Letzteres dürfte als langfristige Zielsetzung gelten, ist jedoch indirekt Gegen-
stand der aktuellen Debatte in der Geoinformatik (Scheider und Janowicz 2014, Goodchild 2015). Ferner ist anzumerken,
dass, in begrenztem Umfang, die dargelegten Problematiken auch auf andere, moderne Daten zutreffen. Ein Beispiel
hierfür sind etwa georeferenzierte Umfragedaten, die über geographische Mechanismen ortsgesteuert aktiviert werden
(z.B., wenn ein Proband einen bestimmten Bereich betritt). Auch hier wird die räumliche Kontrolle seitens des Datener-
hebenden teilweise aufgegeben, was zu ähnlichen Problemstellungen führen kann (Bluemke et al. 2017).
Literatur
Aldstadt, J. und Getis, A., 2006. Using AMOEBA to Create a Spatial Weights Matrix und Identify Spatial Clusters.
Geographical Analysis, 38 (4), 327343.
Bluemke, M., Lechner, C., Resch, B., Westerholt, R., und Kolb, J., 2017. Integrating Geographic Information into Survey
Research: Current Applications, Challenges, und Future Avenues. Survey Research Methods, 11 (3), 307327.
Cliff, A. und Ord, J., 1969. The Problem of Spatial Autocorrelation. In: A. Scott, ed. London Papers in Regional Science
(1), Studies in Regional Science. London: Pion, 2555.
Coleman, D., 2009. Volunteered Geographic Information in Spatial Data Infrastructure: An Early Look at Opportunities
und Constraints. In: A. Rajabifard, J. Crompvoets, M. Kanantari, und B. Kok, eds. Spatially Enabling Society:
Research, Emerging Trends und Critical Assessment. Leuven: Leuven University Press, 131148.
Cranshaw, J., Schwartz, R., Hong, J., und Sadeh, N., 2012. The Livehoods Project: Utilizing Social Media to Understand
the Dynamics of a City. In: Proceedings of the 6th International AAAI Conference on Weblogs und Social Media.
Dublin.
Dangschat, J., 2007. Raumkonzept zwischen struktureller Produktion und individueller Konstruktion. Ethnologie und
Raum, 9 (1), 2444.
Dutilleul, P. und Legendre, P., 1993. Spatial Heterogeneity Against Heteroscedasticity: An Ecological Paradigm Versus
a Statistical Concept. Oikos, 66 (1), 152171.
Ermagun, A. und Levinson, D., 2017. An Introduction to the Network Weight Matrix. Geographical Analysis, forthcomin.
6 R. Westerholt
Gao, S., Yang, J., Yan, B., und McKenzie, G., 2014. Detecting Origin-Destination Mobility Flows From Geotagged
Tweets in Greater Los Angeles Area. In: Proceedings of the Eighth International Conference on Geographic
Information Science. Vienna.
Getis, A., 2010. Spatial Autocorrelation. In: M. Fischer und A. Getis, eds. Handbook of Applied Spatial Analysis.
Heidelberg: Springer, 255278.
Getis, A. und Ord, J., 1992. The Analysis of Spatial Association by Use of Distance Statistics. Geographical Analysis, 24
(3), 189206.
Goodchild, M., 2001. Models of Scale und Scales of Modeling. In: N. Tate und P. Atkinson, eds. Modelling Scale in
Geographical Information Science. Chichester, UK: John Wiley & Sons, 310.
Goodchild, M., 2015. Space , Place und Health. Annals of GIS, 21 (2), 97100.
Griffith, D., 2010. The Moran Coefficient for Non-Normal Data. Journal of Statistical Planning und Inference, 140 (11),
29802990.
Haklay, M., Singleton, A., und Parker, C., 2008. Web Mapping 2.0: The Neogeography of the GeoWeb. Geography
Compass, 2 (6), 20112039.
Hasan, S., Zhan, X., und Ukkusuri, S., 2013. Understanding Urban Human Activity und Mobility Patterns Using Large-
Scale Location-Based Data from Online Social Media. In: Y. Zheng, ed. Proceedings of the 2nd ACM SIGKDD
International Workshop on Urban Computing. New York, NY: ACM Press.
Jenkins, A., Croitoru, A., Crooks, A., und Stefanidis, A., 2016. Crowdsourcing a Collective Sense of Place. PLOS ONE,
11 (4), e0152932.
Mawarni, M. und Machdi, I., 2016. Dynamic Nearest Neighbours for Generating Spatial Weight Matrix. In: 2016
International Conference on Advanced Computer Science und Information Systems. Malang, Indonesia: IEEE, 257
262.
Oden, N., 1995. Adjusting Moran’s I for Population Density. Statistics in Medicine, 14 (1), 1726.
Ord, J. und Getis, A., 1995. Local Spatial Autocorrelation Statistics: Distributional Issues und an Application.
Geographical Analysis, 27 (4), 286306.
Ord, J. und Getis, A., 2012. Local Spatial Heteroscedasticity (LOSH). The Annals of Regional Science, 48 (2), 529539.
Quesnot, T. und Roche, S., 2015. Platial or Locational Data? Toward the Characterization of Social Location Sharing.
Proceedings of the Annual Hawaii International Conference on System Sciences, 19731982.
Ritzer, G., Dean, P., und Jurgenson, N., 2012. The Coming of Age of the Prosumer. American Behavioral Scientist, 56
(4), 379398.
Roche, S., 2016. Geographic Information Science II. Progress in Human Geography, 40 (4), 565573.
Scheider, S. und Janowicz, K., 2014. Place Reference Systems. Applied Ontology, 9 (2), 97127.
Sengstock, C. und Gertz, M., 2012. Latent Geographic Feature Extraction from Social Media. In: Proceedings of the 20th
International Conference on Advances in Geographic Information Systems. New York, NY: ACM Press, 149158.
Shelton, T., Poorthuis, A., und Zook, M., 2015. Social media und the city: Rethinking urban socio-spatial inequality using
user-generated geographic information. Landscape und Urban Planning, 142, 198211.
Shen, C., Li, C., und Si, Y., 2016. Spatio-Temporal Autocorrelation Measures for Nonstationary Series: A New
Temporally Detrended Spatio-Temporal Moran’s Index. Physics Letters, Section A: General, Atomic und Solid
State Physics, 380 (12), 106116.
Shortridge, A., 2007. Practical Limits of Moran’s Autocorrelation Index for Raster Class Maps. Computers, Environment
und Urban Systems, 31 (3), 362371.
Stefanidis, A., Crooks, A., und Radzikowski, J., 2013. Harvesting Ambient Geospatial Information from Social Media
Feeds. GeoJournal, 78 (2), 319338.
Steiger, E., Resch, B., de Albuquerque, J., und Zipf, A., 2016. Mining und Correlating Traffic Events from Human Sensor
Observations with Official Transport Data Using Self-Organizing-Maps. Transportation Research Part C:
Emerging Technologies, 73, 91104.
Tiefelsdorf, M. und Boots, B., 1997. A Note on the Extremities of Local Moran’s Iis und Their Impact on Global Moran’s
I. Geographical Analysis, 29 (3), 248257.
Tiefelsdorf, M., Griffith, D., und Boots, B., 1999. A Variance-Stabilizing Coding Scheme for Spatial Link Matrices.
Environment und Planning A, 31 (1), 165180.
Tufekci, Z., 2014. Big Questions for Social Media Big Data: Representativeness, Validity und Other Methodological
Pitfalls. In: E. Adar und P. Resnick, eds. Proceedings of the Eighth International AAAI Conference on Weblogs und
Social Media. Ann Arbor, MI: The AAAI Press, 505514.
Waldhör, T., 1996. The Spatial Autocorrelation Coefficient Moran’s I Under Heteroscedasticity. Statistics in Medicine,
15 (79), 887892.
Walter, S., 1992a. The Analysis of Regional Patterns in Health Data. I. Distributional Considerations. American Journal
of Epidemiology, 136 (6), 730741.
Walter, S., 1992b. The Analysis of Regional Patterns in Health Data. II. II. The Power to Detect Environmental Effects.
American Journal of Epidemiology, 136 (6), 742759.
Wender, K., Haun, D., Rasch, B., und Blümke, M., 2002. Context Effects in Memory for Routes. In: C. Freksa, W. Brauer,
C. Habel, und K. Wender, eds. Spatial Cognition III. Tutzing: Springer, 209231.
Westerholt, R., 2018. The Impact of Different Statistical Parameter Values between Point Based Datasets when Assessing
Räumliche Analyse in der Digitalen Transformation 7
Spatial Relationships. In: Proceedings of the AGILE’2018 International Conference on Geographic Information
Science. Lund, Sweden: AGILE.
Westerholt, R., Resch, B., Mocnik, F.-B., und Hoffmeister, D., 2018. A statistical test on the local effects of spatially
structured variance. International Journal of Geographical Information Science, 32 (3), 571600.
Westerholt, R., Resch, B., und Zipf, A., 2015. A Local Scale-Sensitive Indicator of Spatial Autocorrelation for Assessing
High- und Low-Value Clusters in Multiscale Datasets. International Journal of Geographical Information Science,
29 (5), 868887.
Westerholt, R., Steiger, E., Resch, B., und Zipf, A., 2016. Abundant Topological Outliers in Social Media Data und Their
Effect on Spatial Analysis. PLOS ONE, 11 (9), e0162360.
Chapter
Full-text available
Metropolitan research requires multidisciplinary perspectives in order to do justice to the complexities of metropolitan regions. This volume provides a scholarly and accessible overview of key methods and approaches in metropolitan research from a uniquely broad range of disciplines including architectural history, art history, heritage conservation, literary and cultural studies, spatial planning and planning theory, geoinformatics, urban sociology, economic geography, operations research, technology studies, transport planning, aquatic ecosystems research and urban epidemiology. It is this scope of disciplinary - and increasingly also interdisciplinary - approaches that allows metropolitan research to address recent societal challenges of urban life, such as mobility, health, diversity or sustainability.
Article
Full-text available
Spatial variance is an important characteristic of spatial random variables. It describes local deviations from average global conditions and is thus a proxy for spatial heterogeneity. Investigating instability in spatial variance is a useful way of detecting spatial boundaries, analysing the internal structure of spatial clusters and revealing simultaneously acting geographic phenomena. Recently, a corresponding test statistic called ‘Local Spatial Heteroscedasticity’ (LOSH) has been proposed. This test allows locally heterogeneous regions to be mapped and investigated by comparing them with the global average mean deviation in a data set. While this test is useful in stationary conditions, its value is limited in a global heterogeneous state. There is a risk that local structures might be overlooked and wrong inferences drawn. In this paper, we introduce a test that takes account of global spatial heterogeneity in assessing local spatial effects. The proposed measure, which we call ‘Local Spatial Dispersion’ (LSD), adapts LOSH to local conditions by omitting global information beyond the range of the local neighbourhood and by keeping the related inferential procedure at a local level. Thereby, the local neighbourhoods might be small and cause small-sample issues. In the view of this, we recommend an empirical Bayesian technique to increase the data that is available for resampling by employing empirical prior knowledge. The usefulness of this approach is demonstrated by applying it to a Light Detection and Ranging-derived data set with height differences and by making a comparison with LOSH. Our results show that LSD is uncorrelated with non-spatial variance as well as local spatial autocorrelation. It thus discloses patterns that would be missed by LOSH or indicators of spatial autocorrelation. Furthermore, the empirical outcomes suggest that interpreting LOSH and LSD together is of greater value than interpreting each of the measures individually. In the given example, local interactions can be statistically detected between variance and spatial patterns in the presence of global structuring, and thus reveal details that might otherwise be overlooked.
Article
Full-text available
Geographic information science (GIScience) offers survey researchers a plethora of rapidly evolving research strategies and tools for data acquisition and analysis. However, the potential for incorporating geographic information systems (GIS) tools into traditional survey research has not yet been fully appreciated by survey researchers. In this article, we provide a comprehensive overview of recent advances and challenges in leveraging this potential. First, we present state-of-the-art applications of GIS tools in traditional survey research, drawing mainly on examples from psychological survey research (e.g., socioecological psychology). We also discuss innovative GIS tools (e.g., wearables) and GIScience methods (e.g., citizen sensing) that expand the scope of traditional surveys. Second, we highlight a number of challenges and problems (e.g., choice of spatial scale, statistical issues, privacy concerns) and-where possible-suggest remedies. With increasing awareness of the potential that GIS tools hold for survey research, and intensified dialogue between researchers from both sides, more fruitful collaboration appears within reach.
Article
Full-text available
This study introduces the network weight matrix as a replacement for the spatial weight matrix to measure the spatial dependence between links of a network. This matrix stems from the concepts of betweenness centrality and vulnerability in network science. The elements of the matrix are a function not simply of proximity, but of network topology, network structure, and demand configuration. The network weight matrix has distinctive characteristics, which are capable of reflecting spatial dependence between traffic links: (1) elements are allowed to have negative and positive values capturing the competitive and complementary nature of links, (2) diagonal elements are not fixed to zero, which takes the self-dependence of a link upon itself into consideration, and (3) elements not only reflect the spatial dependence based on the network structure, but they acknowledge the demand configuration as well. We verify the network weight matrix by modeling traffic flows in a 3 × 3 grid test network with 9 nodes and 24 directed links connecting 72 origin-destination (OD) pairs. Models encompassing the network weight matrix outperform both models without spatial components and models with the spatial weight matrix. The network weight matrix represents a more accurate and defensible spatial dependency between traffic links, and offers the potential to augment traffic flow prediction.
Article
Full-text available
Cities are complex systems, where related Human activities are increasingly difficult to explore within. In order to understand urban processes and to gain deeper knowledge about cities, the potential of location-based social networks like Twitter could be used a promising example to explore latent relationships of underlying mobility patterns. In this paper, we therefore present an approach using a geographic self-organizing map (Geo-SOM) to uncover and compare previously unseen patterns from social media and authoritative data. The results, which we validated with Live Traffic Disruption (TIMS) feeds from Transport for London, show that the observed geospatial and temporal patterns between special events (r = 0.73), traffic incidents (r = 0.59) and hazard disruptions (r = 0.41) from TIMS, are strongly correlated with traffic-related, georeferenced tweets. Hence, we conclude that tweets can be used as a proxy indicator to detect collective mobility events and may help to provide stakeholders and decision makers with complementary information on complex mobility processes.
Article
Full-text available
Twitter and related social media feeds have become valuable data sources to many fields of research. Numerous researchers have thereby used social media posts for spatial analysis , since many of them contain explicit geographic locations. However, despite its widespread use within applied research, a thorough understanding of the underlying spatial characteristics of these data is still lacking. In this paper, we investigate how topological out-liers influence the outcomes of spatial analyses of social media data. These outliers appear when different users contribute heterogeneous information about different phenomena simultaneously from similar locations. As a consequence, various messages representing different spatial phenomena are captured closely to each other, and are at risk to be falsely related in a spatial analysis. Our results reveal indications for corresponding spurious effects when analyzing Twitter data. Further, we show how the outliers distort the range of outcomes of spatial analysis methods. This has significant influence on the power of spatial inferential techniques, and, more generally, on the validity and interpretability of spatial analysis results. We further investigate how the issues caused by topological outliers are composed in detail. We unveil that multiple disturbing effects are acting simultaneously and that these are related to the geographic scales of the involved overlapping patterns. Our results show that at some scale configurations, the disturbances added through overlap are more severe than at others. Further, their behavior turns into a volatile and almost chaotic fluctuation when the scales of the involved patterns become too different. Overall, our results highlight the critical importance of thoroughly considering the specific characteristics of social media data when analyzing them spatially.
Conference Paper
Spatial weight matrix is an important aspect in spatial analysis. Selecting different spatial weight matrix for the same analysis method will eventually generate different results. The commonly used scenarios to create spatial weight matrix are contiguity based and distance based. However, these scenarios have their own problems. Contiguity based scenario like Queen and Rook has disadvantages of forming unconnected neighbours especially for sparse region like islands. Meanwhile, distance based scenario needs specific input parameters, which often requires exhausted trials or expert judgement to specify the parameters. For distance based k-Nearest Neighbours, the result will be asymmetric weight matrix that cannot be used for two-way interaction analysis. To overcome these problems, we propose a Dynamic Nearest Neighbours (DNN) algorithm. It uses different types of distance, which are coordinate distance and attributed distance. In the evaluation, DNN algorithm outperforms other techniques of Rook, Queen, and k-Nearest Neighbours since it can be applied to both contiguous and sparse regions and produce two-way relations.
Article
Introduced in this paper is a family of statistics, G, that can be used as a measure of spatial association in a number of circumstances. The basic statistic is derived, its properties are identified, and its advantages explained. Several of the G statistics make it possible to evaluate the spatial association of a variable within a specified distance of a single point. A comparison is made between a general G statistic andMoran’s I for similar hypothetical and empirical conditions. The empiricalwork includes studies of sudden infant death syndrome by county in North Carolina and dwelling unit prices in metropolitan San Diego by zip-code districts. Results indicate that G statistics should be used in conjunction with I in order to identify characteristics of patterns not revealed by the I statistic alone and, specifically, the Gi and G∗ i statistics enable us to detect local “pockets” of dependence that may not show up when using global statistics.