Conference PaperPDF Available

Temporary Topic Models in Social Sciences: A Study on STM

Authors:

Abstract

Topic models are rapidly becoming popular in social sciences. However, researchers should pay attention to some critical steps while using these models. The format and content of the textual data, language, existence of covariates, and preprocessing steps are the most crucial elements of a topic model analysis. This study inspects the effect of various datasets and preprocessing steps on Structural Topic Models (STM). Results shows that preprocessing, which depends on the research question, profoundly affects the model performance. Besides, the existence of multilingual data weakens the topic quality. Also, the algorithm performance is different among long and short texts. Last, the potential usage of covariates in the model enhances its functionality in social science.
Sosyal Bilimlerde Dönemsel Konu Modelleri: STM
Üzerine Bir Çalı¸sma
Temporary Topic Models in Social Sciences: A
Study on STM
Ahmet Kurnaz
Siyaset Bilimi ve Kamu Yönetimi Bölümü
Çanakkale Onsekiz Mart Üniversitesi
Çanakkale, Türkiye
ahmetkurnaz@hotmail.com
H. Akın Ünver
Uluslararası ˙
Ili¸skiler Bölümü
Özye˘
gin Üniversitesi
˙
Istanbul, Türkiye
akin.unver@ozyegin.edu.tr
Özetçe —Konu modelleri son yıllarda sosyal bilimlerde hızla
popülerle¸smektedir. Ancak konu modellerini kullanırken ara¸stır-
macıların dikkat etmesi gereken çe¸sitli noktalar vardır. Bunlar
arasında kullanılacak metnin biçim ve içerik özellikleri, dili,
sde˘
gi¸skenlerin varlı˘
gı, ön sleme adımları sayılabilir. Bu ara¸stır-
mada farklı tipteki veri setleri ve ön sleme adımları kullanılarak
Structural Topic Modelling (STM) algoritmasıyla elde edilen
sonuçlar özetlenmi¸stir. Sonuç olarak STM kullanırken ara¸stırma
sorusuna ba˘
glı olarak ön sleme adımları dramatik farklılıklar
yaratabilmektedir. Ayrıca farklı dillerdeki metinlerin aynı veri
setinde kullanılması konu modelinin performansı üzerinde olum-
suz etkiye sahiptir. Kısa ve uzun metinler arasında performans
farkı ara¸stırmacılar tarafından tespit edilmi¸stir. Son olarak sde-
˘
gi¸skenlerin model içinde kullanımıyla sosyal bilimlerde slevselli ˘
gi
artmaktadır.
Anahtar Kelimelerkonu modelleri, STM, içerik analizi, metin
madencili˘gi, sosyal medya
Abstract—Topic models are rapidly becoming popular in
social sciences. However, researchers should pay attention to
some critical steps while using these models. The format and
content of the textual data, language, existence of covariates,
and preprocessing steps are the most crucial elements of a topic
model analysis. This study inspects the effect of various datasets
and preprocessing steps on Structural Topic Models (STM).
Results shows that preprocessing, which depends on the research
question, profoundly affects the model performance. Besides, the
existence of multilingual data weakens the topic quality. Also, the
algorithm performance is different among long and short texts.
Last, the potential usage of covariates in the model enhances its
functionality in social science.
Keywordstopic models, STM, content analysis, text mining,
social media
I. GIR I ¸S
Yazılı ve sözlü ileti¸simden dev¸sirilen metinler sosyal bilim-
ler ara¸stırmaları için en merkezi ve önemli veri kaynaklarının
ba¸sında gelmektedir. Ancak dijital veriye eri¸sim imkanları art-
tıkça analiz edilmesi gereken veri devasa boyutlara ula¸smı¸s ve
bunlarin nitel tekniklerle incelenmesi imkansız hale gelmi¸stir.
Metinleri sınıflandırma görevleri basit olsalar bile problem
öznel oldu˘
gunda çoklu kodlayıcıları (crowdsource) kullanmak
mümkün de˘
gildir [1]. Bu yüzden, nitel incelemelerin yerini
alması amacıyla de˘
gil ancak onları desteklemek için otomatik
içerik analizi yöntemleri geli¸stirilmekte ve her geçen gün daha
da sofistike hale getirilmektedir [2]–[4].
En popüler otomatik içerik analiz yakla¸sımlarının ba¸sında
konu modelleme gelmektedir. Konu modelleme algoritmaları,
belirli sayıda dokümanı girdi olarak alan ve çıktı olarak da
bu doküman setinin hangi konulardan meydana geldi˘
gini dö-
nen yönlendirilmemi¸s makine ö˘
grenmesi algoritmaları olarak
tanımlanabilir. Geçmi¸si Latent Semantic Analysis’e kadar gö-
türülse de bilinen anlamda ilk konu modelleme algoritması La-
tent Dirichlet Allocation (LDA) olarak kabul edilir. Takip eden
yıllarda LDA’in varyasyonları ba¸sta olmak üzere farklı çalı¸sma
prensiplerine sahip algoritmalar geli¸stirilirken algoritmaların
hesaplama performansları da yıllar içinde iyile¸stirilmi¸stir [5].
Konu modelleme algoritmalarını kullanarak yeniden üreti-
lebilir ve genellenebilir çalı¸smalar yapmak, onları birbirleriyle
kıyaslamak oldukça zordur. Bunun için bazı nicel metrikler
geli¸stirilmi¸s olsa da son tahlilde hala algoritma ve konu sayısı
seçiminde ara¸stırmacının de˘
gerlemesine ihtiyaç vardır [3].
Sosyal bilimler çalı¸smalarında konu modelleme algorit-
malarını seçerken ve kullanırken dikkat edilmesi gereken
pek çok önemli husus vardır. Bunlardan birincisi incelenecek
metnin uzunlu˘
gu ve yapısıdır. Kitaplar, konu¸sma metinleri,
tutanaklar, gazeteler veya sosyal medya payla¸sımları gibi farklı
uzunluklara, amaçlara ve içeriklere sahip yazılı dokümanların
sınıflandırılması ve anla¸sılması için farklı algoritmalar seçmek
gereklidir. Buna ek olarak e˘
ger ara¸stırmacı zamana ba˘
glı bir
çalı¸sma yapıyorsa dönemsel (temporal) algoritmalar arasından
birini tercih etmesi gerekir. Ayrıca analiz edilecek metinle-
rin öni¸sleme adımları, konu sayısının seçimi gibi algoritma
parametrelerinin do˘
gru ayarlanması, analiz sonrası nicel ve
nitel do˘
grulama adımları konu modellerinin kalitesini, yeniden
üretilebilirli˘
gini ve genellenebilirli˘
gini do˘
grudan etkiler. Son
olarak, konu modelleme ve di˘
ger otomatik içerik analizinde
incelenen dilin özellikleri de göz önünde bulundurulmalıdır.
Örne˘
gin, ˙
Ingilizce ve Türkçe do˘
gal dil sleme adımları bir-
birinden farklılık gösterir [6]. Farklı dillerdeki metinleri bir
arada analiz etmek için, otomatik çeviri araçlarını kullanmak
gibi, çe¸sitli stratejiler kullanılabilir [7]–[9].
978-1-6654-5092-8/22/$31.00 ©2022 IEEE
2022 30th Signal Processing and Communications Applications Conference (SIU) | 978-1-6654-5092-8/22/$31.00 ©2022 IEEE | DOI: 10.1109/SIU55565.2022.9864923
Authorized licensed use limited to: Ozyegin Universitesi. Downloaded on September 02,2022 at 19:01:52 UTC from IEEE Xplore. Restrictions apply.
Bu ara¸stırmada farklı uzunluklarda, farklı içerik özellikle-
rine sahip, ve dönemsel veriyle olu¸sturulabilecek konu model-
leri ve ön sleme adımlarının modele etkisi incelenmektedir.
Konu modelleme için metverinin algoritmaya dahil edilebilir-
li˘
gi sayesinde zamana ba˘
glı çıkarımların yanı sıra kategorik
de˘
gi¸skelerin de kullanılabildi˘
gi ve performans yönünden LDA
gibi popüler algoritmaların önünde olan Structural Topic Mo-
dels (STM) seçilmi¸stir [10]. STM algoritmalasının temel özel-
likleri açıklandıktan sonra veri toplama ve temizleme adımları
açıklanmı¸stır. Daha sonra STM uygulamalarına ili¸skin sonuçlar
özetlenmi¸stir. Çalı¸sma ilgili algoritmanın artıları ve eksilerinin
tartı¸smasıyla son bulmaktadır.
STM kelime sayıları üzerinde sleyen üretken (generative)
bir karma aidiyet (mixed-membership) modelidir. STM algo-
ritmasını di˘
gerlerinden ayıran en önemli özelliklerinin ba¸sında
her döküman için sde˘
gi¸skenlerin (covariate) de modele dahil
edilebilmesi gelmektedir. Böylece model sonuçları hipotez
testi için kullanılabilir. Model için geli¸stirilmi¸s bir R paketi
bulunmaktadır [10].
STM 2013 yılında ortaya çıkı¸sından günümüze farklı uzun-
luklardaki ve farklı yapıya sahip metinleri analiz etmek için
kullanılmı¸stır. Kar¸sıla¸stırmalı siyaset çözümlemelerinde çok
dilli metinler [11], açık uçlu anket soruları [12], [13], yargı
mensuplarının sosyal medya verileri [14], toplumsal kimlik
analizleri ba˘
glamında TED konu¸smaları [15], terör saldırılarına
verilen sosyal medya tepkileri [16], kentle¸sme çalı¸smalarında
yatırımcılarla yapılan yarı yapılandırılmı¸s mülakatlar [17],
tarihi dönemlerin anla¸sılması için dönem metinleri [18], göç
krizinin ba˘
glamında parlamento tutanakları [19], yabancı fir-
malara yönelik yanlılık ba˘
glamında gazeteler [20] ve daha pek
çok farklı türde metnin farklı ba˘
glamlarda çözümlenmesi için
kullanılmı¸stır.
II. VE RI
Ara¸stırma için NATO’nun resmi web sitesi ve Twitter
hesapları üzerinden veri toplanmı¸stır. Daha önce benzer veri
setleri belge özetleme [21], duygu analizi [22], do˘
gal dil sleme
ve belge sınıflandırma [23], ve konu modellemeyle içerik
analizi [24] yapmak amacıyla kullanılmı¸stır.
Uzun metinler konu¸sma metinleri (speeches), basın açık-
lamaları (press releases), görü¸sler (reviews), resmi metinler
(official texts), ar¸sivler (archives) ve yayınlardan (publications)
olu¸san 3921 dokümandır. ˙
Ilgili metinler web sitesi üzerinden
web kazıma yöntemiyle toplandıktan içinde 300 karakterden
daha az içerik olan metinler silinmi¸stir. Sonuçta 1941-2021
yılları arasındaki 76 periyodu (yıl) kapsayan 3844 dokümana
ula¸sılmı¸stır.
Kısa metinler NATO’nun 42 resmi Twitter hesabından
2014-2021 yılları arasında atılmı¸s 264,071 ˙
Ingilizce tweeti
içermektedir. Metinler ay ve yıla göre birle¸stirilmi¸stir. Bu
¸sekilde veri, her ay-yıl ikilisi için o ayda atılmı¸s tweetlerin
oldu˘
gu bir metin dokümanı olacak ¸sekilde düzenlenmi¸stir.
Kısa ve uzun metin verilerinden rakam ve noktalama sa-
retleri silindikten sonra tamamı latinize edilmi¸stir. Ara¸stırmada
konu modelleme algoritmalarının ön slem yapılmasına göre
performansları da incelendi˘
gi için iki metin verisinin iki¸ser
farklı versiyonu kullanılmı¸stır. Birinci tipte yukarıdakilere ek
Kaynak Yöntem Ön ˙
sleme Belge Terim
NATO_uzun_ham web sitesi web kazıma Temel 3844 10270
NATO_uzun_ön web sitesi web kazıma Sınırlı 3844 6174
NATO_kısa_ham Twitter dijital dinleme Temel 147 10789
NATO_kısa_ön Twitter dijital dinleme Sınırlı 147 7940
TABLO I: Veri setlerini gösterir tablo
herhangi bir slem yapılmamı¸stır. Bu veriler ham olarak gös-
terilmektedir. ˙
Ikinci versiyonda ise kelimeler köklerine indir-
genmi¸s (stemming) ve slevsiz kelimeler (stop words) çıkarıl-
mı¸stır. ˙
slevsiz kelimeler için SMART sözlükçesinin ˙
Ingilizce
versiyonu kullanılmı¸stır. Bu veri setleri öni¸slemden geçti˘
gi için
ön olarak gösterilmi¸stir. Sonuçta dört metin verisi Tablo-1’de
gösterilmi¸stir.
Son olarak tüm veri setleri STM algoritmasına sokulma-
dan önce en az 10 dokümanda yer almayan veya belgelerin
%70’inden daha fazlasında yer alan kelimeler veriseti söz-
cükçelerinden (vocabulary) çıkarılmı¸stır. Sonuç olarak herbir
veriseti aynı parametre ayarları kullanılarak ayrı ayrı STM
algoritmasıyla modellenmi¸stir.
III. STM UYGUL AMASI
STM uygulamasında R için geli¸stirilmi¸s kütüphaneden
yararlanılmı¸stır. Ayrıca doküman-terim matrisinin hazırlanması
için de quanteda paketi kullanılmı¸stır. Konu sayısı seçiminde
anlamsal bütünlük (semantic coherence), artanlar (residuals)
ve dı¸sarıda tutulanların kestirimi (held-out likelihood) para-
metreleri incelenmi¸stir. Tüm veri setleri için modellerin 50
konu çevresinde en iyi sonuçlarına yakla¸stı˘
de˘
gerledirilmi¸stir.
Veriler tarihlerine göre So ˘
guk Sava¸s ve So˘
guk Sava¸s Sonrası
¸seklinde dönemsel ikili bir de˘
gi¸skenle etiketlenmi¸stir. Model
e˘
gitilirken bu ikili kategorik de˘
gi¸skenin yanı sıra yıl bazında
tarihler de sde˘
gi¸sken olarak kullanılmı¸stır.
STM algoritmasıyla sosyal bilimlerde elde edilebilecek
sonuçları örnekledirmek için NATO’nun resmi web sitesinden
toplanan verilerin slenmemi¸s halleri üzerinden olu¸sturulmu¸s
konu modeline ili¸skin grafikler ¸Sekil-1, ¸Sekil-2 ve ¸Sekil-3’te
gösterilmi¸stir.
¸Sekil 1’de Do˘
gu Avrupa ile ilgili konudaki kelimelerin
dönemsel da˘
gılımı gösterilmi¸stir. Dönemler algoritmaya ka-
tegorik de˘
gi¸sken olarak verilmi¸stir. Kırmızı renkli terimler
so˘
guk sava¸s dönemiyle ili¸skiliyken mavi renkli kelimeler so˘
guk
sava¸s sonrası dönemde öne çıkmı¸stır. Terimlerin büyüklükleri
görece önemlerini ifade etmektedir. Buna göre so˘
guk sava¸s
döneminde Batı-Do˘
gu terimleri öne çıkarken 1991 sonrası
dönemde Ukrayna-Rusya terimleri öne çıkmı¸stır.
¸Sekil-2 konu modelinin nitel olarak incelendikten sonra
etiketlenen 10 konunun 1991 öncesi ve sonrası dönemdeki
beklenen konumlarını %95 güven aralı˘
gında göstermektedir.
Stratejik savunma, sava¸s alanlarında kadınların durumu, terö-
rizm ve Ukrayna konularının So˘
guk Sava¸s Sonrası daha fazla
gözlendi˘
gi görülmektedir.
¸Sekil-3’te Terörizm ve UkraynaRusya konularının zamana
ba˘
glı da˘
gılımları gösterilmektedir. 2000’li yıllardan sonra terö-
rizm söylemi yükselirken, Rusyanın Kırım’ı ilhakından sonra
NATO’nun söylemi Rusya çevresinde geli¸smi¸stir.
Authorized licensed use limited to: Ozyegin Universitesi. Downloaded on September 02,2022 at 19:01:52 UTC from IEEE Xplore. Restrictions apply.
¸Sekil 1: Do˘
gu Avrupa konusu içindeki kelimelerin dönemsel
a˘
gılımı
¸Sekil 2: Konuların dönemsel da˘
gılımı
IV. SON UÇ VE TART I ¸S MA
Sonuç olarak uzun ve kısa, ön sleme tabi tutulmu¸s ve tu-
tulmamı¸s metinlerin konu modellemesi yapılmı¸s ve aralarında
çe¸sitli farklılıkla tespit edilmi¸stir. Bunun yanı sıra STM algo-
ritmasının sosyal bilimlerde farklı do˘
gal dil sleme adımlarıyla
birlikte nasıl kullanılabilece˘
gine dair öneriler getirilmi¸stir.
Öncelikle, STM uygulamasını kullanmak alternatif mo-
dellere göre daha kolaydır. R paketine ili¸skin detaylı bir
rehber makalenin varlı˘
sosyal bilimler ara¸stırmacısının s-
¸Sekil 3: Terörizm ve Ukrayna&Rusya konuların zamana göre
bekelenen da˘
gılımları
lerini kolayla¸stırmaktadır. Kategori ve sürekli de˘
gi¸skenleri bir
arada kullanarak bu de˘
gi¸skenlerle konular arasındaki ili¸skiyi
incelemek ve görselle¸stirmek mümkündür.
˙
Ikinci olarak, STM algoritması modeli olu¸stururken ilk 10
bin kelimeyi almaktadır. Bu yüzden ön sleme adımlarında
yapılacak dikkatsizlikler modelde dramatik de˘
gi¸sikliklere yol
açabilir. Bu yüzden STM ile birlikte iyi tanımlanmı¸s bir ön
sleme reçetesine ihtiyaç vardır.
Üçüncü olarak, kısa metin performansı nitel olarak ince-
lendi˘
ginde konu kalitesinin uzun metinlerin oldukça gerisinde
oldu˘
gu görülmü¸stür. Sadece NATO’nun resmi twitter hesapla-
rından veri toplanmasına ra˘
gmen konuların ba˘
glam hakkında
derinlemesine bilgi vermedi˘
gi gözlenmi¸stir. Buna kar¸sın ko-
nuların isimlendirilebilir olmaları STM algoritmasının kısa
metinlerle yeterli performansı gösterdi˘
gine saret etmektedir.
Dördüncü olarak, bu ara¸stırmada benimsenen ön slemenin
konu modellerine etkisinin çok fazla olmadı˘
görülmekte-
dir. Bunda do˘
gal dil sleme uygulamalarının sınırlı tutulması
önemli rol oynamı¸stır. Ancak farklı dillerdeki belgelerden ge-
len terimlerin yarattı˘
gürültü konu kalitesini etkilemi¸stir. Bu
yüzden ara¸stırmacıların analiz öncesi dil çe¸sitlili˘
gine yönelik
geli¸stirece˘
gi yakla¸sım önemlidir. Ek olarak sosyal bilimlerde
STM ile birlikte farklı do˘
gal dil sleme yakla¸sımları kullanı-
larak çok daha sofistike sonuçlar elde edilebilir. Örne˘
gin özel
ve yer adları etiketlenmesi gibi sözlüksel yakla¸sımların, sosyal
medya payla¸sımları üzerinden yapılacak alan adı, anahtar kav-
ram, kullanıcı a˘
g analizleri, konu modellerinin vektörizasyonla
birlikte kullanılarak anahtar kavram tespit edilmesi gibi farklı
senaryolarda konu modelleme slevselli¸stirilebilir.
Sonuç olarak bu ara¸stırmada sosyal bilimlerde zaman sde-
˘
gi¸skeni kullanarak yapılacak bir konu modelleme yakla¸sımında
dikkat edilmesi gereken adımlar ele alınmı¸stır. Ara¸stırmanın
eksik yönleri arasında tek bir agoritma seçilmesi ve sonuçların
sadece nitel olarak de˘
gerlendirilmesi gelmektedir. Bu yüzden
gelecekte aynı verilerle Dynamic Embedded Topic Models
(D-ETM) ve Topics over Time (TOT) gibi farklı modeller
kullanılarak modeller arasında kar¸sıla¸stırma yapılabilir. Ayrıca,
sonuçların yorumlanmasında nitel yakla¸sımda word intrusion
gibi yöntemler kullanılabilir. Nitel kar¸sıla¸stırmaya ek olarak
farklı modellerin aynı verilerle üretti˘
gi sonuçların benzerlik ve
farklılıkları literatürde ele alınan nicel yöntemlerle hesaplana-
bilir.
Authorized licensed use limited to: Ozyegin Universitesi. Downloaded on September 02,2022 at 19:01:52 UTC from IEEE Xplore. Restrictions apply.
KAYNAKLAR
[1] M. J. Salganik, Bit by Bit Social Research in the Digital Age, 1st ed.
New Jersey, USA: Princeton University Press, 2018.
[2] J. Grimmer and B. M. Stewart, “Text as Data: The Promise and Pitfalls
of Automatic Content Analysis Methods for Political Texts, Political
Analysis, vol. 21, no. 3, pp. 267–297, 2013, publisher: Cambridge
University Press.
[3] J. Chuang, J. D. Wilkerson, R. Weiss, D. Tingley, B. M. Stewart,
M. E. Roberts, F. Poursabzi-Sangdeh, J. Grimmer, L. Findlater, and
J. Boyd-Graber, “Computer-Assisted Content Analysis: Topic Models
for Exploring Multiple Subjective Interpretations, p. 9, 2014.
[4] J. Grimmer, M. E. Roberts, and B. M. Stewart, “Machine Lear-
ning for Social Science: An Agnostic Approach,” Annual Review
of Political Science, vol. 24, no. 1, pp. 395–419, 2021, _eprint:
https://doi.org/10.1146/annurev-polisci-053119-015921.
[5] R. Churchill and L. Singh, “The Evolution of Topic Modeling,” ACM
Computing Surveys, Dec. 2021, just Accepted.
[6] K. Oflazer and M. Saraçlar, Turkish Natural Language Processing
(Theory and Applications of Natural Language Processing), 1st ed.
Switzerland: Springer International Publishing, 2018.
[7] U. Reber, “Overcoming Language Barriers: Assessing the Potential of
Machine Translation and Topic Modeling for the Comparative Analysis
of Multilingual Text Corpora, Communication Methods and Measures,
vol. 13, no. 2, pp. 102–125, Apr. 2019, publisher: Routledge _eprint:
https://doi.org/10.1080/19312458.2018.1555798.
[8] D. Maier, C. Baden, D. Stoltenberg, M. De Vries-Kedem, and
A. Waldherr, “Machine Translation Vs. Multilingual Dictionaries
Assessing Two Strategies for the Topic Modeling of Multilin-
gual Text Collections, Communication Methods and Measures,
vol. 16, no. 1, pp. 19–38, Jan. 2022, publisher: Routledge _eprint:
https://doi.org/10.1080/19312458.2021.1955845.
[9] F. Lind, J.-M. Eberl, O. Eisele, T. Heidenreich, S. Galyga, and
H. G. Boomgaarden, “Building the Bridge: Topic Modeling for
Comparative Research, Communication Methods and Measures,
vol. 0, no. 0, pp. 1–19, Sep. 2021, publisher: Routledge _eprint:
https://doi.org/10.1080/19312458.2021.1965973.
[10] M. E. Roberts, B. M. Stewart, and D. Tingley, “stm: R Package for
Structural Topic Models, Journal of Statistical Software, vol. 91, no. 1,
pp. 1–40, 2019.
[11] C. Lucas, R. A. Nielsen, M. E. Roberts, B. M. Stewart, A. Storer,
and D. Tingley, “Computer-Assisted Text Analysis for Comparative
Politics,” Political Analysis, vol. 23, no. 2, pp. 254–277, 2015.
[12] M. E. Roberts, B. M. Stewart, D. Tingley, C. Lucas, J. Leder-Luis, S. K.
Gadarian, B. Albertson, and D. G. Rand, “Structural Topic Models for
Open-Ended Survey Responses, American Journal of Political Science,
vol. 58, no. 4, pp. 1064–1082, Oct. 2014.
[13] S. M. Mourtgos and I. T. Adams, “The rhetoric of de-policing: Evalu-
ating open-ended survey responses from police officers with machine
learning-based structural topic modeling,” Journal of Criminal Justice,
vol. 64, p. 101627, Sep. 2019.
[14] T. A. Curry and M. P. Fix, “May it please the twitterverse: The use of
Twitter by state high court judges, Journal of Information Technology
& Politics, vol. 16, no. 4, pp. 379–393, Oct. 2019, publisher: Routledge
_eprint: https://doi.org/10.1080/19331681.2019.1657048.
[15] C. Schwemmer and S. Jungkunz, “Whose ideas are worth spreading?
The representation of women and ethnic groups in TED talks,” Political
Research Exchange, vol. 1, no. 1, pp. 1–23, Jan. 2019, publisher:
Routledge _eprint: https://doi.org/10.1080/2474736X.2019.1646102.
[16] D. Fischer-Preßler, C. Schwemmer, and K. Fischbach, “Collective
sense-making in times of crisis: Connecting terror management theory
with Twitter user reactions to the Berlin terrorist attack, Computers in
Human Behavior, vol. 100, pp. 138–151, Nov. 2019.
[17] V. Anzoise, D. Slanzi, and I. Poli, “Local stakeholders’ narratives about
large-scale urban development: The Zhejiang Hangzhou Future Sci-
Tech City, Urban Studies, vol. 57, no. 3, pp. 655–671, Feb. 2020,
publisher: SAGE Publications Ltd.
[18] P. Grajzl and P. Murrell, “Toward understanding 17th century English
culture: A structural topic model of Francis Bacon’s ideas, Journal of
Comparative Economics, vol. 47, no. 1, pp. 111–135, Mar. 2019.
[19] L. Geese, “Immigration-related Speechmaking in a Party-constrained
Parliament: Evidence from the ‘Refugee Crisis’ of the 18th German
Bundestag (2013–2017),” German Politics, Jan. 2019, publisher: Rout-
ledge.
[20] S. E. Kim, “Media Bias against Foreign Firms as a Veiled Trade Bar-
rier: Evidence from Chinese Newspapers,” American Political Science
Review, vol. 112, no. 4, pp. 954–970, Nov. 2018, publisher: Cambridge
University Press.
[21] P. T. Eles, B. Pennell, and M. Richter, “Assessing NATO policy
alignment through text analysis: An initial study, in 2016 Internati-
onal Conference on Military Communications and Information Systems
(ICMCIS), May 2016, pp. 1–7.
[22] E. M. Fay, “Measuring Indirect External Threat: A Time Series Senti-
ment Analysis of NATO Resolutions,” in 2020 IEEE 7th International
Conference on Data Science and Advanced Analytics (DSAA), Oct.
2020, pp. 767–768.
[23] I. I. Mestric, A. Kok, G. Valiyev, M. Street, P. Lenk, M. Racovita, and
F. Vieira, “Extracting Value from NATO Data Sets through Machine
Learning and Advanced Data Analytics, in IST-178 Specialists meeting
on Big data challenges: situational awareness and decision support.,
2019.
[24] A. Unver and A. Kurnaz, “Securitization of Disinformation in NATO
Lexicon: A Computational Text Analysis,” Social Science Research
Network, Rochester, NY, SSRN Scholarly Paper 4040148, Feb. 2022.
Authorized licensed use limited to: Ozyegin Universitesi. Downloaded on September 02,2022 at 19:01:52 UTC from IEEE Xplore. Restrictions apply.
ResearchGate has not been able to resolve any citations for this publication.
Article
Full-text available
In communication research, topic modeling is primarily used for discovering systematic patterns in monolingual text corpora. To advance the usage, we provide an overview of recently presented strategies to extract topics from multilingual text collections for the purpose of comparative research. Moreover, we discuss, demonstrate, and facilitate the usability of the “Polylingual Topic Model” (PLTM) for such analyses. The appeal of this model is that it derives lists of related clustered words in different languages with little reliance on translation or multilingual dictionaries and without the need for manual post-hoc matching of topics. PLTM bridges the gap between languages by making use of document connections in training documents. As these training documents are the crucial resource for the model, we compare model evaluation metrics for different strategies to build training documents. By discussing the advantages and limitations of the different strategies in respect to different scenarios, our study contributes to the methodological discussion on automated content analysis of multilingual text corpora.
Article
Full-text available
The goal of this paper is to evaluate two methods for the topic modeling of multilingual document collections: (1) machine translation (MT), and (2) the coding of semantic concepts using a multilingual dictionary (MD) prior to topic modeling. We empirically assess the consequences of these approaches based on both a quantitative comparison of models and a qualitative validation of each method’s potentials and weaknesses. Our case study uses two text collections (of tweets and news articles) in three languages (English, Hebrew, Arabic), covering the ongoing local conflicts between Israeli authorities, settlers, and Palestinian Bedouins in the West Bank. We find that both methods produce a large share of equivalent topics, especially in the context of fairly homogenous news discourse, yet show limited but systematic differences when applied to highly heterogenous social media discourse. While the MD model delivers a more nuanced picture of conflict-related topics, it misses several more peripheral topics, especially those unrelated to the dictionary’s focus, which are picked up by the MT model. Our study is a first step toward instrument validation, indicating that both methods yield valid, comparable results, while method-specific differences remain.
Article
Full-text available
Social scientists are now in an era of data abundance, and machine learning tools are increasingly used to extract meaning from data sets both massive and small. We explain how the inclusion of machine learning in the social sciences requires us to rethink not only applications of machine learning methods but also best practices in the social sciences. In contrast to the traditional tasks for machine learning in computer science and statistics, when machine learning is applied to social scientific data, it is used to discover new concepts, measure the prevalence of those concepts, assess causal effects, and make predictions. The abundance of data and resources facilitates the move away from a deductive social science to a more sequential, interactive, and ultimately inductive approach to inference. We explain how an agnostic approach to machine learning methods focused on the social science tasks facilitates progress across a wide range of questions. Expected final online publication date for the Annual Review of Political Science, Volume 24 is May 2021. Please see http://www.annualreviews.org/page/journal/pubdates for revised estimates.
Article
Full-text available
This paper demonstrates how to use the R package stm for structural topic modeling. The structural topic model allows researchers to flexibly estimate a topic model that includes document-level metadata. Estimation is accomplished through a fast variational approximation. The stm package provides many useful features, including rich ways to explore topics, estimate uncertainty, and visualize quantities of interest.
Article
Full-text available
We investigate the representation of women and ethnic groups in TED talks, which reach a large online audience on YouTube with science-related content and topics on societal change. We argue that gaps in representation can create a misleading perception of science and the respective topics discussed in these talks. We validate annotations from an image recognition algorithm for identifying speaker ethnicity and gender to compile a data set of 2333 TED talks and 1.2 million YouTube comments. Findings show that more than half of all talks were given by white male speakers. While the share of women increased over time, it is constantly low for non-white speakers. Topic modelling further shows that the share of talks addressing inequalities which affect both groups is low, but increasing over time. However, talks about inequalities and those given by female speakers receive substantially more negative sentiment on YouTube than others. Our findings highlight the importance of speaker and topic diversity on digital platforms to reduce stereotypes about scientists and science-related content.
Article
Full-text available
Highlights Machine learning-based textual analysis is a viable tool for police survey research Analyzing large numbers of police free-text responses provides more nuanced understanding of police perceptions of the public Officers' attention to professionalism guards against de-policing, while attention to perceived unfair criticism increases it The public's integrity has a stronger effect on propensity to de-police than the public's knowledge about police work
Article
Topic models have been applied to everything from books to newspapers to social media posts in an effort to identify the most prevalent themes of a text corpus. We provide an in-depth analysis of unsupervised topic models from their inception to today. We trace the origins of different types of contemporary topic models, beginning in the 1990s, and we compare their proposed algorithms, as well as their different evaluation approaches. Throughout, we also describe settings in which topic models have worked well and areas where new research is needed, setting the stage for the next generation of topic models.
Conference Paper
Exercises and operations generate large quantities of data, but until recently this data was not exploited to enhance decision support and situational awareness, or for analysis and assessment. This paper describes the steps taken to collect, prepare and extract knowledge from such data collected at exercise Trident Juncture in 2018, using advanced analytics and machine learning to extract high level perspectives. Results show initial macro level assessments of exercise performance including response times; visualisation of information flows across locations and systems; and identification of other items of interest in this “big data” collection. The paper also presents results using natural language processing to identify situations and incidents of interest to the lessons learned community from exercises and operations. The data sources for this assessment are both the raw data from exercises as well as from lessons learned reports about exercises and operations. The paper also describes the technical challenges of using advanced data analytics and machine learning on large, classified data sets, together with solutions for the hardware and software challenges encountered.