ArticlePDF Available

Automatizált szöveganalitika a korrupció kutatásában

Authors:
  • Eötvös Loránd University Faculty of Social Sciences

Abstract

Tanulmányunk a természetesnyelv-feldolgozás (Natural Language Processing – NLP) korrupciókutatásban való felhasználását és felhasználhatóságát vizsgálja. Átfogó irodalmi áttekintésünk során a 2000 után született, automatizált szövegelemzésre épülő korrupciókutatások teljeskörű összegyűjtésére és összegzésére törekedtünk az NLP alkalmazás elterjedtségére, illetve lehetőségeire fókuszálva. Lényeges eltéréseket találtunk a felhasznált szöveges adatforrást, a korrupció mérésének módját és az elemzési megközelítést tekintve, ugyanakkor sajnálatosan kevés volt az (adatforrását, módszerét vagy mérési módját tekintve) kevert típusú tanulmány. A klasszikus, a korrupció volumenét vagy a vele kapcsolatos attitűdöt vagy percepciót leíró, illetve észlelésének következményeit vizsgáló munkákon kívül találtunk a korrupció megelőzésére felhasználható eredményeket, sőt intervencióra közvetlenül alkalmasakat is. Az NLP-t csupán néhány tanulmány használta, és ezek egy része sem annyira tartalmi, mint csupán technikai feladatra. Eredményeink szerint az NLP nem nagyon elterjedt még ezen a területen, ugyanakkor az is látható, hogy gyümölcsöző lehet a használata: alternatív eszközként jól támogathatná a tradicionális kvantitatív kutatásokat. Cikkünk célja inspirációt adni az NLP társadalomtudományi felhasználására és felhívni a figyelmet annak beágyazhatóságára a meglevő tudományos diskurzusokba.
108




(Natural Language Processing, NLP)

  
   


      
   

















     







109








    
      
(Natural Language Processing, NLP)(„big
data”)
   
   
  

     
(computaonal linguiscs),  (automated text analycs),
(text mining).     
            





         
  
          
   








● socio.hu 2021/1 ● Katona Eszter – Németh Renáta: Automazált szöveganalika a korrupció kutatásában ●
110



    
          
  







 






1. ábra. A korrupció-indikátorok három generációja
Forrás: saját ábra Hlathswayo et al. 2018 és Gerő–Mikola 2020 alapján
   



     
● socio.hu 2021/1 ● Katona Eszter – Németh Renáta: Automazált szöveganalika a korrupció kutatásában ●
111
   


„social desirability bias”
          
           
         
     
           
  


 big data    
K           










big data



       




● socio.hu 2021/1 ● Katona Eszter – Németh Renáta: Automazált szöveganalika a korrupció kutatásában ●
112

scoping review
scoping reviewsystemac
review  

scoping review


    
 

2. ábra. A scoping review módszere
Forrás: saját ábra




Publish or Perish
    
          


  




 




  


● socio.hu 2021/1 ● Katona Eszter – Németh Renáta: Automazált szöveganalika a korrupció kutatásában ●
113
scoping review



Publish or Perish



scoping review
    
corrupon 


corrupon
text mining  automated text analysistext analysis
„text analysis” 







      


      

            




    
data corruponinformaon corrupontext analysis






● socio.hu 2021/1 ● Katona Eszter – Németh Renáta: Automazált szöveganalika a korrupció kutatásában ●
114
 


 




4. ábra. Az absztraktokból generált szófelhő
Forrás: saját ábra
  
(„an-corrupon”), case   news  media
(„party”, „companies”, „government, „instuons”, „organizaons”).internaonal
countries
Indonesia

3. ábra. Az adatbázis bemutatása
Forrás: saját ábra
● socio.hu 2021/1 ● Katona Eszter – Németh Renáta: Automazált szöveganalika a korrupció kutatásában ●
115



    



1. tábla. A tanulmányok adaorrásai
Adaorrás Tanulmányok száma
média 27
közösségi média 5
jogi szöveg / törvény / elnöki beszéd / parlamen felszólalás / könyvvizsgálói jelentés 11
közbeszerzés pályázat 14
egyéb (például ismereerjesztő brossúra, interjú, szépirodalom) 8

              
          
     








Hivatalos szint: elnöki beszéd


 

A (hagyományos) média szintje: napilapok



Laikus szint: közösségi média, Twier
An Corrupon Internaonal



● socio.hu 2021/1 ● Katona Eszter – Németh Renáta: Automazált szöveganalika a korrupció kutatásában ●
116

          
found data












     




           


    


       


         



         
             
              
       A   
  IMF Working Paper   
     
● socio.hu 2021/1 ● Katona Eszter – Németh Renáta: Automazált szöveganalika a korrupció kutatásában ●
117
      big data cross-country news ow indices of
corrupon           
   
   

    
           
  
„corrupt*”, „kleptoc*”, „neposm”, „favorism”, „rent-seeking”, „bribe*”, „gra
 „government”, „regime”, „authories”, „public sector,
„bureaucra*”, „agenc*”


    


  big data

 

(Corrupon Risk Index
 

   
         






felügyelt klasszikációs modellek





      

„global news
ow”

● socio.hu 2021/1 ● Katona Eszter – Németh Renáta: Automazált szöveganalika a korrupció kutatásában ●
118

Random Forest, Naive Bayes, Support Vector Machine


       

 Naive Bayes












  



           
Naiv BayesSupport Vector Machines



  
single bidder



felügye-
let nélküli modell  

 singe bidder    

topikmodellek


● socio.hu 2021/1 ● Katona Eszter – Németh Renáta: Automazált szöveganalika a korrupció kutatásában ●
119
a priori

    
         
           
           












            
  
(„fraud”, „collusion”, „procurement simulaon”)




    
surveillance





(support
vector machine, SVM)
    


  



● socio.hu 2021/1 ● Katona Eszter – Németh Renáta: Automazált szöveganalika a korrupció kutatásában ●
120



     




   






 




(word embedding model





An Corrupon In-
ternaonal


      







 
       
● socio.hu 2021/1 ● Katona Eszter – Németh Renáta: Automazált szöveganalika a korrupció kutatásában ●
121
    





 news-ow index

   




    survey
big data
big data

     


        










● socio.hu 2021/1 ● Katona Eszter – Németh Renáta: Automazált szöveganalika a korrupció kutatásában ●
122


        
scoping review





  
 



         


 
surveillance





● socio.hu 2021/1 ● Katona Eszter – Németh Renáta: Automazált szöveganalika a korrupció kutatásában ●
123

Social Sciences on Sustainable
Development for World Challenge: The First Economics, Law, Educaon and Humanies Internaonal Conference.

Mining Text Data





Journal of Social Research
Methodology: Theory and Pracce,
Corrupon Talk: Mapping the Word Corrupon in Online Text Data Across the World. 




Proceedings of
the 24th Internaonal Conference on Arcial Intelligence (IJCAI’15),

Introducon to meta-analysis

European Journal of
Communicaon,
Producing a systemac review.The Sage handbook of
organizaonal research methods.
Handbook of discourse analysis
Discourse & Society,

A hatékony kormányzás alapvető feltétele, hogy adatokkal rendelkezzünk a kormányzásról.



Polical Research Quarterly,
European Journal on
Criminal Policy and Research, 
A korrupcióérzékelés két arca: a hétköznapi és az állami szintű korrupció észlelésének legfontosabb megha-
tározói.


Human Assisted Content Analysis of the print press coverage of corrupon in Hun-
gary. 
The Measurement and Macro-Relevance of
Corrupon: A Big Data Approach.
Science,

Text Mining. A Guidebook for the Social Sciences
Mainstream Party Strategizing on Corrupon Issues – The Case of Italy. 


Médiakutató
● socio.hu 2021/1 ● Katona Eszter – Németh Renáta: Automazált szöveganalika a korrupció kutatásában ●
124
Encyclopedia of Survey Research Methods.

IEEE Global Humanitarian Technology Conference (GHTC),



An Internaonal NGO Startup’s Use of Social Media Technology. The Case of An Corrupon Internaonal: A Discursive
Analysis on the Organizaonal Use of the Term ‘Corrupon’ on Twier. 


Internaonal Journal of
Interacve Mulmedia and Arcial Intelligence,
Learn from thy Neighbor: Do Voters Associate Corrupon with Polical Pares? 

Szociológiai
Szemle, 
Replika

Internaonal Journal of Qualitave Methods,

HCI Internaonal 2016 – Posters’
Extended Abstracts. Communicaons in Computer and Informaon Science.


 Journal of Physics: Conference Series 801.


Seloka: Jurnal Pendidikan Bahasa dan Sastra Indonesia

Internaonal Journal for Innovaon
Educaon and Research,



American
Polical Science Review,

Proceedings of the 11th Internaonal Joint Conference on Knowledge Discovery, Knowledge Engineering and Knowledge Ma-
nagement 3:

Internaonal Journal of Sciences: Basic and Applied Research, 

Internaonal Journal of
Computer Science and Communicaon Networks,


Article
Cél: A kibertér felhasználói tömérdek elemezhető szöveges adatot hoznak létre, ahogy a látható (surface) weben, úgy a láthatatlan (deep) weben, és azon belül az anonimitásra épülő dark net platformjain is. A szövegbányászat különböző elemzési eljárásai lehetőséget kínálnak e nagy adatmennyiség (big data) automatizált elemzésére, amit számos kutató kiaknáz. Tanulmányom célja a rendészettudomány szempontjából releváns jó gyakorlatok, alkalmazási példák áttekintése, bemutatása.Módszertan: A szövegbányászat társadalomtudományban való elterjedésének újszerűsége miatt kutatásom során a kurrens szakirodalom feldolgozására specializálódott, úgynevezett state-of-the-art szakirodalomelemzést alkalmaztam, melynek célja az adott kutatási terület új perspektíváinak bemutatása.Megállapítások: A nemzetközi szakirodalomban megjelennek például a legálisillegális tartalmak klasszifikációját célzó nyelvmodellek, melyek megerősítik a dark net kettős felhasználhatóságáról szóló elméletet. Az illegális kereskedelmi tevékenységet (is) végző dark netes kriptomarketek élete jellemzően a rendvédelmi szervek beavatkozásával, bezárással végződik, ahogy történt az a Silk Road nevű kriptomarkettel is 2013-ban. A bezárásokat követő felhasználói aktivitás trendjeit elemző topikmodellezési eljárások segítséget nyújthatnak e rendészeti beavatkozások értékelésében.Érték: A tanulmány e példák bemutatásával a szövegbányászat mint kutatási módszer rendészettudományi kiaknázásában rejlő lehetőségeket világítja meg.
Article
Full-text available
Cikkünkben a „Big Data” paradigma térnyerésével párhuzamosan rohamosan terjedő természetesnyelv-feldolgozási (NLP) módszereket tekintjük át. Bemutatjuk a társadalomkutatási szempontból leginkább perspektivikus eszközöket, a hozzájuk illeszthető társadalomkutatási kérdéseket és azokat a technikai-módszertani jellegzetességeket, amelyek a klasszikus kvantitatív kutatáshoz képest az NLP specifikumát jellemzik. Ezek a módszerek lényegesen túllépnek a szógyakoriság-elemzésen alapuló klasszikus kvantitatív szövegelemzésen, és a gépi tanulási paradigmán alapuló modellezési logikájuk gyökeresen eltér a magyarázatot / oksági hatás kimutatását elérni kívánó klasszikus társadalomkutatási logikától. Célunk, hogy ebbe az itthon még kevéssé intézményesült területbe betekintést engedve inspirációt nyújtsunk a hazai társadalomkutatók számára, mert meggyőződésünk szerint a szövegbányászat néhány éven belül standard eszköze lesz a nemzetközi alkalmazott társadalomkutatásnak.
Article
Full-text available
A korrupció hazai online médiareprezentációjának vizsgálata természetes nyelvfeldolgozással Cikkünk a korrupció hazai online médiareprezentációjának tematikus elemzését mutatja be szövegbányászati megközelítést, azon belül is dinamikus topikmodellezést alkalmazva. Szövegkorpuszunkat a K-Monitor cikkgyűjteménye adta, amely korrupciógyanús, valamint szabálytalan közpénz-felhasználással kapcsolatos ügyeket feldolgozó, online sajtóban megjelenő cikkeket tartalmaz. Esettanulmányunk egyfelől exploratív jellegű: célunk a 2007-2018 közötti időszakra vonatkozóan azonosítani a cikkek főbb témáit és a tematikus változás dinamikáját, az egyes korrupciós témacsoportok előtérbe kerülését és háttérbe szorulását, illetve az egyes témák tartalmi változását. Kutatásunk másfelől magyarázatokra is kísérletet tesz, annak vizsgálatával, hogy van-e kapcsolat a tematika és a médium ellenzéki / kormánypárti pozíciója között, illetve hogy a kampányidőszak befolyásolja-e a korrupció reprezentációjának tematikáját. Annak köszönhetően, hogy az elemzett időszakban megváltozott az Origo hírportál tulajdonjoga, természetes kísérletként adódik annak vizsgálata, hogy a tulajdonosváltás milyen hatást gyakorolt a portálon megjelenő korrupciós diskurzus tematizáltságára. Kulcsszavak: automatizált szövegelemzés, dinamikus topikmodell, korrupció, NLP, szövegbányászat 1. Bevezetés A korrupció kutatása több oldalról kapcsolható szöveges adatokhoz, elsősorban szerkesztett vagy közösségi médián mint forráson alapulva (például Mear 2016, Niklander et al. 2016, Li et al. 2019). Ezeknek a szöveges adatoknak a felhasználásával új szemléletű megközelítésre nyílik lehetőség, ugyanakkor a folyamatosan termelődő digitális szöveges adatforrás kiaknázása részben megoldást is nyújthat meglevő empirikus problémákra, gondoljunk csak a klasszikus surveyhez kapcsolódó egyre jelentősebb válaszmegtagadásra. Számos kvalitatív jellegű korrupciókutatás készült a szerkesztett médiából kiindulva, jellemzően a kritikai diskurzuselemzést követve (például Touwe & Sultan 2015). De a kvantitatív korrupciókutatások is egyre nagyobb számban elemeznek szerkesztett médiát-olyan komoly szereplők is, mint a Nemzetközi Valutaalap (IMF) (Hlathswayo et al. 2018), amelynek a legújabb, harmadik generációs big data alapú korrupciómutatója, a news-flow index kizárólag a korrupció média-reprezentációjára épít. Tanulmányunkban azt vizsgáljuk, hogy az elmúlt 15 évben a hazai online média milyen tematikai fókuszok mentén mutatta be a korrupciós ügyeket. Ehhez az elemzéshez a K-Monitor (a korrupció visszaszorításáért küzdő civil szervezet) által gyűjtött, korrupcióval kapcsolatos újságcikkeket használjuk fel. Az elemzés során olyan új, kvantitatív szövegbányászati megoldásokra támaszkodunk, amelyek a hazai társadalomkutatásokban eddig kevéssé voltak használatosak. Szövegek gyűjteményének (azaz egy szövegkorpusznak) az elemzése a survey-kutatásokhoz képest egészen más típusú tudást nyújthat számunkra a vizsgált témában. Egyrészről nagyon árnyalt képet lehet arról kapni, hogy a korrupcióval kapcsolatos diskurzus milyen dimenziók mentén alakul; ez a tudás korábban csak kvalitatív, kis mintás kutatásokból tudott kirajzolódni, hátrányként hordozva azok általánosíthatósági korlátját. Másrészről hosszabb időszakokat elemezve képet kaphatunk arról is, hogy a digitális médiában miként alakult a korrupció reprezentációjának dinamikája.
Article
Full-text available
Corruption is not only a well-known lexical expression (e.g. Orpin, 2005), it is also a social phenomenon (e.g. Khondker, 2006; Collier, 2002) researched by scholars from different fields and from different standpoints. However, the study of corruption from the perspective of language has not enjoyed adequate research. This is especially true of the speeches of Nigerian presidents that are particularly revealing of how a president/government construes corruption. This research paper explores and analyzes the discursive positioning of corruption by two successive Nigerian presidents - Umaru Musa Yar’Adua and Goodluck Jonathan - using their two official speeches as data. Following Halliday’s system of Transitivity (Halliday, 1978, 1985, 1993) and Fairclough’s three-tier analytical framework grounded in Critical Discourse Analysis (1989, 1992, 1995), this paper argues that official speeches of presidents (particularly in Nigeria) can discursively reveal their commitment to fighting corruption. Also, the instruments of language can be used tactically absolve themselves from corruption.
Article
Full-text available
Social scientists of mixed-methods research have traditionally used human annotators to classify texts according to some predefined knowledge. The “big data” revolution, the fast growth of digitized texts in recent years brings new opportunities but also new challenges. In our research project, we aim to examine the potential for natural language processing (NLP) techniques to understand the individual framing of depression in online forums. In this paper, we introduce a part of this project experimenting with NLP classification (supervised machine learning) method, which is capable of classifying large digital corpora according to various discourses on depression. Our question was whether an automated method can be applied to sociological problems outside the scope of hermeneutically more trivial business applications. The present article introduces our learning path from the difficulties of human annotation to the hermeneutic limitations of algorithmic NLP methods. We faced our first failure when we experienced significant inter-annotator disagreement. In response to the failure, we moved to the strategy of intersubjective hermeneutics (interpretation through consensus). The second failure arose because we expected the machine to effectively learn from the human-annotated sample despite its hermeneutic limitations. The machine learning seemed to work appropriately in predicting bio-medical and psychological framing, but it failed in case of sociological framing. These results show that the sociological discourse about depression is not as well founded as the biomedical and the psychological discourses—a conclusion which requires further empirical study in the future. An increasing part of machine learning solution is based on human annotation of semantic interpretation tasks, and such human-machine interactions will probably define many more applications in the future. Our paper shows the hermeneutic limitations of “big data” text analytics in the social sciences, and highlights the need for a better understanding of the use of annotated textual data and the annotation process itself.
Article
Full-text available
Data mining is used for finding the useful information from the large amount of data. Data mining techniques are used to implement and solve different types of research problems. The research related. It is also called knowledge discovery in text (KDT) or knowledge of intelligent text analysis. Text mining is a technique which extracts information from both structured and unstructured data and also finding patterns. Text mining techniques are used in various types of research domains like natural language processing, information retrieval, text classification and text clustering.
Article
Full-text available
The widespread of corrupt practices is a common phenomenon at present time. The possible causes encouraging the growth of corruption among public officials differ from place to place. It is probably right to believe that one reason might be the abuse of power. The chance of using one’s power for personal gain had driven people to financial misconduct giving significant impact on society. Social issues as mentioned, become a particular interest for some writers. The critical awareness and the ability of a writer to express thoughts are two strong forces that may produce eloquent pieces of work. This is vividly seen in the works of three Minangkabau writers. Their exposure of social issues, such as corruption and abuse of power, shows great concern on the matter. As a reflection of life, their works can be used as a precise means of conveying criticism towards social issues occurring globally. By exploring three chosen short stories, it is expected as a way to deeply understand and propagate social issues as well as to raise social consciousness, hence a small attempt to deter the phenomenon has been done. Keywords: social issues, corruption, abuse of power, social consciousness
Conference Paper
Corruption is a serious impediment to global goals of ensuring sustainable development and is now a threat specifically recognized in the UN Sustainable Development Goals under Target 16.5. Though corruption remains challenging to identify, measure, and combat, technology advances provide new opportunities to advance humanitarian goals, including the detection of corruption reported by the public. In this study, we address this challenge by developing a method using an unsupervised machine learning model to detect reports of corruption-related activity on the micro-blogging platform Twitter. In total, we collected over 6 million tweets containing keywords related to corruption between January and February 2019. We use the Biterm Topic Model to then isolate tweets from users who report corruption and found that most topics focus on police bribery and corruption in health-care. Though preliminary, these results shave the potential of identifying the scope and prevalence of corruption in society and also advance shared goals of combating corruption and advancing sustainable development in the 21st century. Index TermsCorruption, Machine Learning, Natural Language Processing, Topic modeling