Figure 1 - uploaded by Hamid Akın Ünver
Content may be subject to copyright.
Plate Diagram for Structural Topic Model: "The model combines and extends three existing models: the correlated topic model (CTM), the Dirichlet-Multinomial Regression (DMR) topic model and the Sparse Additive Generative (SAGE) topic model. The logistic normal prior on topical prevalence in the standard CTM is replaced by a logistic-normal linear model. The design matrix for the covariates X allows for arbitrarily flexible functional forms of the original covariates using radial basis functions (our R package also provides B-splines). The distribution over words is replaced with a multinomial logit such that a token's distribution is the combination of three effects (topic, covariates, topic-covariate interaction) operationalized as sparse deviations from a baseline word frequency (m).

Plate Diagram for Structural Topic Model: "The model combines and extends three existing models: the correlated topic model (CTM), the Dirichlet-Multinomial Regression (DMR) topic model and the Sparse Additive Generative (SAGE) topic model. The logistic normal prior on topical prevalence in the standard CTM is replaced by a logistic-normal linear model. The design matrix for the covariates X allows for arbitrarily flexible functional forms of the original covariates using radial basis functions (our R package also provides B-splines). The distribution over words is replaced with a multinomial logit such that a token's distribution is the combination of three effects (topic, covariates, topic-covariate interaction) operationalized as sparse deviations from a baseline word frequency (m).

Source publication
Article
Full-text available
Following the Russian meddling in the 2016 US elections, disinformation and fake news became popular terms to help generate domestic awareness against foreign information operations globally. Today, a large number of politicians, diplomats, and civil society leaders identify disinformation and fake news as primary problems in both domestic and fore...

Citations

... Anxiety about missing out on experiences or achievements seen online. Nine examples were found, where the authors had reported the output of their SearchK results (Chung et al., 2022;Kim et al., 2020;Lindstedt, 2019;Mickelsson et al., 2022;Mostafa, 2023;Pandur et al., 2020;Towler et al., 2022;Ünver & Kurnaz, 2022;Xiang, 2022). Whilst we acknowledge that in some contexts the choice of topic number is context dependent (e.g., the author may wish to prioritise some model fit indices over others; Meaney et al., 2023), we sought to show that our algorithm can consistently choose a logical and useful number of topics. ...
... In six of the nine examples, our algorithm chose the exact same value for K as the authors (Lindstedt, 2019;Mickelsson et al., 2022;Mostafa, 2023;Pandur et al., 2020;Towler et al., 2022;Ünver & Kurnaz, 2022). In the remaining three examples, the algorithm chose a similar value for Kwith the author's choice being the algorithm's next choice (Chung et al., 2022;Kim et al., 2020;Xiang, 2022). ...
Preprint
Machine-assisted approaches for free-text analysis are rising in popularity, owing to a growing need to rapidly analyse large volumes of qualitative data. In both research and policy settings, these approaches have promise in providing timely insights into public perceptions and enabling policymakers to understand their community’s needs. However, current approaches still require expert human interpretation – posing a financial and practical barrier for those outside of academia. For the first time, we propose and validate the Deep Computational Text Analyser (DECOTA) - a novel Machine Learning methodology that automatically analyses large free-text datasets and outputs concise themes. Building on Structural Topic Modelling (STM) approaches, we used two fine-tuned Large Language Models (LLMs) and sentence transformers to automatically derive ‘codes’ and their corresponding ‘themes’, as in Inductive Thematic Analysis. To automate the process, we designed and validated a novel algorithm to choose the optimal number of ‘topics’ following STM. This approach automatically derives key codes and themes from free-text data, the prevalence of each code, and how prevalence varies with covariates such as age and gender. Each code is accompanied by three representative quotes. Four datasets previously analysed using Thematic Analysis were triangulated with DECOTA’s codes and themes. We found that DECOTA is approximately 378 times faster and 1920 times cheaper than human coding, and consistently yields codes in agreement with or complementary to human coding (averaging 91.6% for codes, and 90% for themes). The implications for evidence-based policy development, public engagement with policymaking, and the development of psychometric measures are discussed.
Article
Full-text available
Bu makale büyük veri devrimi ile sosyal bilimlerde meydana gelen paradigma değişimlerini ve bilişimsel/hesaplamalı sosyal bilimler yöntemlerini konu edinmektedir. İnternet kullanımının yaygınlaşması ve dijitalleşmenin etkileri ile hızlı veri artışı ortaya çıkmıştır. Bu durum ise bilginin üretimini ve tüketimini daha kolay hale getirmektedir. Veri üretimindeki ve tüketimindeki hız, teknolojik değişimin ve gelişimin etkisiyle veri evreninin sürekli olarak genişlemesine neden olmaktadır. Büyük veri olarak tanımlanan bu evrenin özelliklerini anlamak ise sosyal bilimler araştırmacıları için oldukça önemlidir. Çünkü dijital alandaki eylemleri anlamak toplumsal dünyayı anlamanın bir yolu haline gelmiştir. Dolayısıyla verileri kullanmak ve değerini kavrayabilmek için onu iyi tanımak gerekir. Gerçekleşen bu veri devrimi ise, sosyal bilimler araştırma yöntemleri için bir paradigma değişimi yaratmıştır. Bu bağlamda büyük veri ile çalışmak, sosyal bilimlerde geleneksel sayılabilecek yöntemlerle mümkün görünmemektedir. Sosyal bilim araştırmacılarına büyük veri ile çalışma imkanı sunan yöntem için bilişimsel/hesaplamalı sosyal bilimler yöntemleri denilmektedir. Bilişimsel/Hesaplamalı sosyal bilimler, analitik yaklaşımları güçlendirmek isteyen disiplinler arasında önemli bir noktada yer almaktadır. Bu makalede bilişimsel/hesaplamalı sosyal bilimler yöntemlerinin temel alanları ele alınmaktadır. Bu alanlar, (i) veri madenciliği, (ii) sosyal ağ analizi, (iii) coğrafi bilgi sistemleri ve (iv) sosyal simülasyon modelidir. Bunun yanı sıra sosyal bilimlerde bilişimsel yöntemlerle çalışmanın çeşitli zorlukları da bulunmaktadır. Bu zorluklar veri güvenliği, yalan/sahte veri sorunu, dijital imkanlara erişim gibi önemli başlıklarda sıralanabilir. Sonuç olarak büyük veri devrimi sosyal bilimler alanları için önemli fırsatlar sunarken, aynı zamanda yöntem tartışmalarını da gündeme getirmiştir.