Figure 5 - uploaded by Hamid Akın Ünver
Content may be subject to copyright.
Topic count graph demonstrating the optimization rationale for our stm algorithm's choice of 50 topic models. The 'K-value' shows the optimum number of 'structural topic models' the algorithm has to go through the text to find the optimum semantic coherence. In other words, the K number designates the optimum number of structural topic models in texts that have the highest statistical coherence coefficients. Often, K values are assigned by the programmer and an optimum number gets eyeballed after several trial and error runs. K-value optimization uses machine learning to iterate through the text multiple times to find the optimum K-value by statistical clustering of frequently collocated word combinations.
Source publication
Following the Russian meddling in the 2016 US elections, disinformation and fake news became popular terms to help generate domestic awareness against foreign information operations globally. Today, a large number of politicians, diplomats, and civil society leaders identify disinformation and fake news as primary problems in both domestic and fore...
Citations
... Anxiety about missing out on experiences or achievements seen online. Nine examples were found, where the authors had reported the output of their SearchK results (Chung et al., 2022;Kim et al., 2020;Lindstedt, 2019;Mickelsson et al., 2022;Mostafa, 2023;Pandur et al., 2020;Towler et al., 2022;Ünver & Kurnaz, 2022;Xiang, 2022). Whilst we acknowledge that in some contexts the choice of topic number is context dependent (e.g., the author may wish to prioritise some model fit indices over others; Meaney et al., 2023), we sought to show that our algorithm can consistently choose a logical and useful number of topics. ...
... In six of the nine examples, our algorithm chose the exact same value for K as the authors (Lindstedt, 2019;Mickelsson et al., 2022;Mostafa, 2023;Pandur et al., 2020;Towler et al., 2022;Ünver & Kurnaz, 2022). In the remaining three examples, the algorithm chose a similar value for Kwith the author's choice being the algorithm's next choice (Chung et al., 2022;Kim et al., 2020;Xiang, 2022). ...
Machine-assisted approaches for free-text analysis are rising in popularity, owing to a growing need to rapidly analyse large volumes of qualitative data. In both research and policy settings, these approaches have promise in providing timely insights into public perceptions and enabling policymakers to understand their community’s needs. However, current approaches still require expert human interpretation – posing a financial and practical barrier for those outside of academia. For the first time, we propose and validate the Deep Computational Text Analyser (DECOTA) - a novel Machine Learning methodology that automatically analyses large free-text datasets and outputs concise themes. Building on Structural Topic Modelling (STM) approaches, we used two fine-tuned Large Language Models (LLMs) and sentence transformers to automatically derive ‘codes’ and their corresponding ‘themes’, as in Inductive Thematic Analysis. To automate the process, we designed and validated a novel algorithm to choose the optimal number of ‘topics’ following STM. This approach automatically derives key codes and themes from free-text data, the prevalence of each code, and how prevalence varies with covariates such as age and gender. Each code is accompanied by three representative quotes. Four datasets previously analysed using Thematic Analysis were triangulated with DECOTA’s codes and themes. We found that DECOTA is approximately 378 times faster and 1920 times cheaper than human coding, and consistently yields codes in agreement with or complementary to human coding (averaging 91.6% for codes, and 90% for themes). The implications for evidence-based policy development, public engagement with policymaking, and the development of psychometric measures are discussed.
Bu makale büyük veri devrimi ile sosyal bilimlerde meydana gelen paradigma değişimlerini ve bilişimsel/hesaplamalı sosyal bilimler yöntemlerini konu edinmektedir. İnternet kullanımının yaygınlaşması ve dijitalleşmenin etkileri ile hızlı veri artışı ortaya çıkmıştır. Bu durum ise bilginin üretimini ve tüketimini daha kolay hale getirmektedir. Veri üretimindeki ve tüketimindeki hız, teknolojik değişimin ve gelişimin etkisiyle veri evreninin sürekli olarak genişlemesine neden olmaktadır. Büyük veri olarak tanımlanan bu evrenin özelliklerini anlamak ise sosyal bilimler
araştırmacıları için oldukça önemlidir. Çünkü dijital alandaki eylemleri anlamak toplumsal dünyayı anlamanın bir yolu haline gelmiştir. Dolayısıyla verileri kullanmak ve değerini kavrayabilmek için onu iyi tanımak gerekir. Gerçekleşen bu veri devrimi ise, sosyal bilimler araştırma yöntemleri için bir paradigma değişimi yaratmıştır. Bu bağlamda büyük veri ile çalışmak, sosyal bilimlerde
geleneksel sayılabilecek yöntemlerle mümkün görünmemektedir. Sosyal bilim araştırmacılarına büyük veri ile çalışma imkanı sunan yöntem için bilişimsel/hesaplamalı sosyal bilimler yöntemleri
denilmektedir. Bilişimsel/Hesaplamalı sosyal bilimler, analitik yaklaşımları güçlendirmek isteyen disiplinler arasında önemli bir noktada yer almaktadır. Bu makalede bilişimsel/hesaplamalı sosyal
bilimler yöntemlerinin temel alanları ele alınmaktadır. Bu alanlar, (i) veri madenciliği, (ii) sosyal ağ analizi, (iii) coğrafi bilgi sistemleri ve (iv) sosyal simülasyon modelidir. Bunun yanı sıra sosyal bilimlerde bilişimsel yöntemlerle çalışmanın çeşitli zorlukları da bulunmaktadır. Bu zorluklar veri güvenliği, yalan/sahte veri sorunu, dijital imkanlara erişim gibi önemli başlıklarda sıralanabilir. Sonuç olarak büyük veri devrimi sosyal bilimler alanları için önemli fırsatlar sunarken, aynı zamanda yöntem tartışmalarını da gündeme getirmiştir.