ArticlePDF Available

Az automatizált szövegelemzés perspektívája a társadalomtudományokban

Authors:

Abstract

Cikkünkben a „Big Data” paradigma térnyerésével párhuzamosan rohamosan terjedő természetesnyelv-feldolgozási (NLP) módszereket tekintjük át. Bemutatjuk a társadalomkutatási szempontból leginkább perspektivikus eszközöket, a hozzájuk illeszthető társadalomkutatási kérdéseket és azokat a technikai-módszertani jellegzetességeket, amelyek a klasszikus kvantitatív kutatáshoz képest az NLP specifikumát jellemzik. Ezek a módszerek lényegesen túllépnek a szógyakoriság-elemzésen alapuló klasszikus kvantitatív szövegelemzésen, és a gépi tanulási paradigmán alapuló modellezési logikájuk gyökeresen eltér a magyarázatot / oksági hatás kimutatását elérni kívánó klasszikus társadalomkutatási logikától. Célunk, hogy ebbe az itthon még kevéssé intézményesült területbe betekintést engedve inspirációt nyújtsunk a hazai társadalomkutatók számára, mert meggyőződésünk szerint a szövegbányászat néhány éven belül standard eszköze lesz a nemzetközi alkalmazott társadalomkutatásnak.
Szociológiai Szemle 30(1): 44–62 .
Az automatizált szövegelemzés perspektí-
vája a társadalomtudományokban
Németh Renáta1 – Katona Eszter Rita2 – Kmetty Zoltán
nemeth.renata@tatk.elte.hu, katona.eszter@tatk.elte.hu , kmetty.zoltan@tatk.elte.hu
Beérkezés: 2 019.02.19.
Átdolgozott változat beérkezése: 2020.02.18.
Elfogadás: 2020.03.23.
Összefoglaló: Cikkünkben a „Big Data” paradigma térnyerésével párhuzamosan rohamosan terjedő
termés zetesnyelv-f eldolgozási ( NLP) módszere ket tekintjü k át. Bemutatj uk a társad alomkutat ási szem-
pontból leginkább perspektivikus eszközöket, a hozzájuk illeszthető társadalomkutatási kérdéseket és
azokat a technikai-módszertani jel legzetességeket, amelyek a kl asszikus k vantitatív kutatáshoz képest
az NLP specifikumát jellemzik. Ezek a módszerek lényegesen túllépnek a szóg yakoriság-elemzésen a la-
puló klassz ikus kvant itatív szövegelemzésen, és a gépi t anulási paradig mán alapuló modellezési log iká-
juk gyökeresen eltér a magyarázatot / oksági hatás kimutatását elér ni kívánó klasszikus társadalomku-
tatási logik ától. Célunk, hogy ebbe a z itthon még kevéssé intézményesült területbe betekintést engedve
inspirációt nyújtsunk a hazai társadalomkutatók számára, mert megg yőződésünk szerint a szövegbá-
nyászat néhány éven belül standard eszköze lesz a nemzetközi alkalmazott társadalomkutatásnak.
Kulcsszavak: kvantitatív szövegelemzés, természetes nyelvfeldolgozás, szövegbányászat, számítógé-
pes szövegelemzés
Bevezetés
A kvantitatív társadalomkutatás Durkheim óta adathalmazokba rendezett empiri-
kus adatokkal foglalkozik. Ezek az adatok jellemzően jól strukturáltak és numeri-
kusak. Igaz ez még az olyan speciális kutatási területen is, mint a kapcsolatháló-
zat-elemzés, ahol a „hagyományostól” nagyon eltérő adatmodellekben kell gondol-
kodnunk. Azonban a számokon túl is van élet (sőt mindig is volt). Egyre nagyobb
mennyiségben érhetők el (kutatási célokra is) olyan tartalmak, amelyek szövegekből
épülnek fel. A korábban inkább csak professzionális szereplők (például újságírók,
tudományos/szépirodalmi szerzők) által előállított nyilvános szövegek mellett az
internet terjedésével párhuzamosan megjelent a laikus felhasználók által előállított
tartalom is. Honlapszövegek, blogok, kommentek, a közösségi médiában megjelenő
posztok jelentik ma a digitálisan előállított tartalom jelentős részét. Ezek a szövegek
1 Aszerzőatanulmá nyelkészítésekoraF elsőoktatásiIntézményiKiválós ágiProg ramtámo gatásábanré szesül t.
2 Aszerzőatanul mányelkészítése korazEmberiErőforrásokMinisz tériumaÚjNemzetiKi válóságProgramjánaktá mogat ásában
részesült.
Németh Renáta – Katona Eszter Rita – Kmetty Zoltán: Az automatizált szövegelemzés...
45
bár strukturálatlanok (vagyis nem illeszkednek előre definiált adatbázisba), de az
internet előtti időkhöz képest elképzelhetetlen mennyiségben tartalmaznak ada-
tokat az emberek véleményéről, preferenciáiról, attitűdjeiről, sőt cselekvéseiről is
(Evans–Acaves 2016).
A szövegek társadalomtudományi vizsgálata természetesen nem új kutatási pa-
radigma, bár használata korábban inkább a kvalitatív kutatásokra korlátozódott. A
szisztematikus (kvantitatív) szövegelemzés a tömegmédia elemzésének céljával in-
dult el a két világháború között, és folytatódott a világháború után is (pl. Berelson–
Lazarsfeld 1948). A kvantitatív elemzés egy tipikus használata volt, amikor kvalita-
tív módon azonosított „kódok” megjelenését kvantifikálták a szövegekben (lásd pl.
Bales 1950). Ezekben a korai elemzésekben a kódokon kívül nyers szövegelemek (pl.
releváns szavak) gyakoriságát és metaadatokat (pl. szerző) is felhasználtak a stilisz-
tikai/szemantikai mintázatok feltárására. Az 1960-as évektől kezdve számítógépek
is támogatták ezt a munkát (Hayes 1960).
Miner és szerzőtársai (2012) alapján a kvantitatív szövegelemzés utóbbi tizenöt
évben tapasztalható drámai felfutásához két tényezőnek kellett együttesen megjelen-
ni. Egyrészről szükség volt digitális/digitalizált szövegekre, másrészről olyan számí-
tógépes kapacitásra, ami képes volt ezeket a szövegeket feldolgozni. Kiindulópontnak
a 80-as évek végét, a 90-es évek elejét tekinthetjük, ekkor jelennek meg az első olyan
statisztikai eljárások (például a látens szemantikai indexelés), amelyek nagyobb szö-
vegkorpuszokat voltak képesek komplex módon elemezni (Miner et al. 2012). Az igazi
elterjedés azonban inkább a 2000 utáni évekhez köthető, amikor az egyre nagyobb
mennyiségű digitális tartalom feldolgozására újabb és újabb módszerek jelentek meg
(Liu 2015). A jelenleg is szemünk előtt zajló Big Data3 forradalom természetesen ezt
a területet is magával ragadta. E forradalom nagyságrendjének érzékeltetésére elég
egyetlen számot idézni: 2020-ban már 3,8 milliárd ember használ legalább egy közös-
ségimédia-platformot a földön (Digital 2020 reports). Természetesen ezt a kutatási
területet is magával ragadta, sőt megfordíthatjuk a dolgot, a szövegbányászat egyfajta
katalizátora a Big Data-elemzés jelentős felfutásának. Az automatizált szövegelemzés
üzleti/ipari alkalmazásai gyorsan elérték az alkalmazó tudományokat, így pl. az iro-
dalomtudományt és a kultúratudományt is, lásd a „távolról olvasás” fogalmát Moretti
(2013) distant reading close reading dichotómiáján alapulva.
Az újabb kutatási paradigmák esetében mindig felmerülhet, hogy mi újat tud adni a
korábbi megközelítésekhez képest. Ez különösen igaz abban az esetben, ha olyan mód-
szerekről, irányokról van szó, amelyek nem standard társadalomkutatói eszköztárat
használnak. A Big Data társadalomtudományi használatáról már számos hazai tanul-
mány született (Csepeli 2015, Dessewffy–Láng 2015, Kmetty 2018). Tanulmányunkban
3 A„BigData” kifejezéstazutób bitizenötéve ttekintveelőbbegyhatalmasfelhajtás kísér te(egy szemlé letes példa erre:An-
derson2008),majdeg yfajtacsal ódásvolttapa sztalható,é ppenala ikusoktúlfűtöttvárakozásaimiatt(lásd„ bigda taisdead”
124.000GoogleSearchtalálat,„bigdataprojectsfail”16.000találat).Digitálisadatelemzőikörökbenennekmegfelelőenma
már kevésbé használják; mimégis ahasználata mellet td öntöttünk ebben a cikkben,hogy azolvasók szá mára könnyeb ben
azonosíthatóvátegyüktárgyunkat.
Szociológiai Szemle 2020/1
46
amellett érvelünk, hogy a Big Data egy speciális ágának, az automatizált szöveganaliti-
kának is egyre nagyobb szerepe lehet az empirikus társadalomkutatáson belül4.
Érvelésünk egyik ága a klasszikus survey-kutatások egyre nehezedő környezeté-
ből indul ki. A survey típusú kvantitatív adatgyűjtés válaszmegtagadásra visszave-
zethető problémái állandó részét képezik a téma szakértői diskurzusának. A survey
beszűkülésével szemben a digitális adatok egyre nagyobb mennyiségben állnak ren-
delkezésre5. Ha a mostani tendenciák folytatódását várjuk, akkor vélhetően egyre
olcsóbb lesz digitális adathoz hozzájutni, és egyre drágább lesz jó minőségű survey-
adatot generálni. De legalább ugyanennyire fontos az is, hogy digitális adatokból
olyan vélemények és attitűdök is kinyerhetők, amelyekhez nagyon nehéz hozzáférni
survey-ekben vagy a téma kényessége, vagy nehéz operacionalizálhatósága miatt.
Az online adatforrás és a survey természetesen nem tökéletes alternatívája egymás-
nak episztemológiai szempontból sem (Németh 2015). Nem ugyanaz, ha előítéle-
tes attitűd feltárása céljával kérdezünk önbevallásra alapulva egyéneket, vagy ha az
egyének online térben megvalósult glöletbeszéde alapján vonunk le róluk követ-
keztetéseket (Barna–Knap 2019). A digitális adatforrások előnyeit azonban árnyal-
ja, hogy ezek a szövegek – mivel elsősorban nem elemzési célokra születtek – zajosak
és strukturálatlanok, és a survey-hez hasonlóan megbízhatósági és érvényességi
kérdésekkel terheltek. Továbbá – mint ahogy azt cikkünk példáiból látni fogjuk –
bár a szövegek tartalmi elemzésének vannak egyes részkérdéseket megválaszoló és
a társadalomtudomány számára is inspiratív technikái, ezek a technikák korántsem
reprodukálják a szövegek ember általi tartalmi megértését.
Tanulmányunk célja az új szöveganalitikai paradigma társadalomtudományi le-
hetőségeinek bemutatása, az e szempontból releváns főbb eszközeinek, ezek logiká-
jának és a hozzájuk illeszthető társadalomkutatási kérdéseknek az ismertetése. Az
automatizált szöveganalitika kurrens eszközeit azért tartjuk fontosnak legalább he-
urisztikájukat tekintve bemutatni, mert (1) azok lényegesen túllépnek a szógyako-
riság-elemzésen alapuló klasszikus kvantitatív szövegelemzésen, továbbá (2) a gépi
tanulási paradigmán alapuló modellezési logikájuk gyökeresen eltér a magyaráza-
tot / oksági hatás kimutatását elérni kívánó klasszikus társadalomkutatási logikán.
Célközönségünket azok a kvantitatív társadalomkutatók adják, akiknek nincsen
mély előismeretük ezen a téren, de érdeklődnek a kvantitatív szövegelemzés iránt. A
bemutatott módszerek megértésének megkönnyítésére igyekszünk az új módszere-
ket a klasszikus kvantitatív módszerekhez kapcsolni. Áttekintésünk vállaltan nem
technikai, és az egyes módszerek alkalmazásának támogatása is túlmutat tanulmá-
nyunkon, ugyanakkor a továbblépéshez ajánlunk jó kiindulópontokat. Az a célunk,
hogy ebbe az itthon még kevéssé intézményesült területbe betekintést engedve ins-
pirációt nyújtsunk a hazai társadalomkutatók számára.
4 Természetesen nem minden kvan titatívs zövegel emzés Big Data-alapú, de az új mód szerek megjelen ését elsősorbanaBig
Data-felhasz nálás okimplikálják.A szöve geknekn emcsa ka mennyisé ge okoz problémát, han em as trukturálatlanság aé sa
stand ardizá latlan ságai s.Ilyens zempontbólaszövegnagyságacs aknemm ellékes .
5 Bárkétsé gtelen,hogyazadathozzáférésezenaterül etensemmind igegyszerű,lásdatechnológ iaiésadat védelm ikérdéseket.
Németh Renáta – Katona Eszter Rita – Kmetty Zoltán: Az automatizált szövegelemzés...
47
A természetesnyelv-feldolgozás
Az automatizált szövegelemzés abban különbözik a hagyományos adatelemzéstől,
hogy strukturálatlan adatokon dolgozik. Így mielőtt a szövegek elemzése kapcsán
használt fogalmakat tisztázzuk, fontos különbséget tenni a strukturált és a struk-
turálatlan adatok között.
A strukturált adatoknak azokat az adatokat nevezzük, amelyek hagyományosan
sorokban és oszlopokban rögzítettek, könnyen kereshetők.
A félig strukturált adatok olyan tulajdonságokkal bírnak, amelyek megkönnyítik az
elemzést, amelyek segítségével hierarchiába rendezhetők az információk. Ilyen például
egy webáruház, amely minden termékről ismétlődő struktúrában tárol adatot. Ennek
segítségével az adatokat gyorsan és könnyen egy strukturált adatbázisba rendezhetjük.
A strukturálatlan adatoknak egyáltalán nincsen adatbázis jellege, esetünkben
lehetnek újságcikkek, blogbejegyzések, hosszabb szöveges dokumentumok. A tanul-
mányunk következő szakasza a strukturálatlan adatok feldolgozásával foglalkozik.
A természetesnyelv-feldolgozás (a magyar fordításra ez az írásmód terjedt el6,
angolul Natural Language Processing, a továbbiakban NLP) az informatika, a mes-
terségesintelligencia-kutatás és a nyelvészet határterülete. Természetes nyelvnek
azokat a nyelveket nevezzük, amelyek spontán alakultak ki, amelyek nyelvtana az
emberek közötti nyelvi kommunikáció természetes fejlődésének eredményeként
alakult ki, ilyenek például a különböző nemzetek nyelvei. Ezzel szemben a mestersé-
ges nyelvet az ember hozza létre, szabályai tudatosan tervezettek, ilyenek lehetnek a
programozási nyelvek, de akár a morze is ide tartozhat. Az NLP lényege olyan mód-
szerek kidolgozása, amelyek alkalmasak nagy mennyiségű, természetes nyelven
előállt szöveg elemzésére, célzott információ kinyerésére és nyelvi tartalom generá-
lására (Hirschberg–Manning 2015). Ide tartozik a beszédfelismerés vagy a szövegek
szintaktikai feldolgozása is, de a társadalomtudományokat a fentiek szellemében
elsősorban az írott nyelvi források szemantikai/tartalmi megközelítése érinti.
E részterületet több más, nem feltétlen szinonim elnevezéssel is illetik, nevezik
például számítógépes nyelvészetnek (computational linguistics), automatizált szö-
vegelemzésnek (automated text analytics), szövegbányászatnak (text mining). Ha
az elnevezések közötti relációkat részletesebben megvizsgáljuk, akkor azt mondhat-
juk, hogy az NLP gyakorlatorientált, eszközöket készít, a számítógépes nyelvészet
pedig a módszer elméleti hátterét adja. Az NLP-t sokszor a mesterséges intelligencia
(AI, Artificial Intelligence) aldiszciplínájának tekintik. Mivel sokszor kognitív fo-
lyamatok megértésére törekszik, egyes szerzők szerint a kognitív számítástechni-
ka (Cognitive Science) diszciplínájaként is értelmezhető (Moreno–Redondo 2016).
Moreno–Sandoval és Redondo (2016) szerint a különböző írott tartalmak elemzését
szövegelemzésnek (text analytics) nevezzük, amely náluk a szövegbányászat (text
mining) szinonimája. Szemléletükben maga a szövegelemzés vagy szövegbányászat
6 Lásd:https: //ww w.inf.u-szeged .hu/al gmi/kutatas/nlp.TöbbekközöttaSze gediEgyetemtanszékeiseztazírá smódotalkalmazza.
Szociológiai Szemle 2020/1
48
az NLP alkategóriája. Cikkük alapján az NLP eszköztárába tartozik a Text Analytics,
ami a Natural Language Understanding, és a Text Mining egy másik elnevezése.
Ha különbséget szeretnénk tenni az automatizált szövegelemzés és a szövegbá-
nyászat között, azt mondhatnánk, hogy a szövegelemzés a számítógépes nyelvé-
szethez tartozik, míg a szövegbányászat egy újabb tudományág, amely a statisztika,
az adatbányászat és a gépi tanulás területéhez kapcsolódik szorosan. A szövegbá-
nyászat és az adatbányászat rokon területek, a fő különbség abban áll, hogy utóbbi
strukturált adatokkal dolgozik, míg előbbi strukturálatlan vagy félig strukturált
adatokkal. A szövegbányászat feladata új, korábban azonosítatlan információk fel-
tárása különböző írásbeli forrásokból
A téma iránt érdeklődőknek ajánlható Aggarwal és Zhai sokat hivatkozott általá-
nos összefoglalója (2012), amely korrekt statisztikai alapokat is átad. A társadalom-
tudományokhoz szól Ignatow és Mihalcea kézikönyve (2016), amely a kvalitatív és
a kvantitatív módszereket egyaránt tárgyalja, tankönyvszerű, alkalmazásorientált
megközelítésben, áttekintést adva az aktuálisan elérhető adatforrásokról, program-
nyelvekről, szoftvercsomagokról, elemzési módszerekről7. Evans és Aceves (2016)
kiváló tanulmánya a társadalomtudományok felől közelít, és a társadalomtudomá-
nyi tudás létrehozásának kontextusában, a kvalitatív eszközökkel való együttmű-
ködés lehetőségében vizsgálja az NLP új módszereit. Cikkünkben mi is felhasznál-
tuk ezeket a munkákat. Magyar nyelven a Tikk Domonkos (2007) által szerkesztett
alapos, ám több mint tízéves összefoglaló technikai oldalról ajánlható, míg alkalma-
zói oldalról a Sebők Miklós által szerkesztett kötet (2016), amely politikatudományi
alkalmazásokra koncentrál, de általában a társadalomtudomány számára is közvet-
lenül használható.
Meg kell jegyezni, hogy a tudományterület rendkívül gyorsan változó/fejlődő
képet mutat. Ennek oka egyrészt a nyelvészet, a nyelvtechnológia, másrészt a gépi
tanulás rohamos fejlődése. Ennek következménye például, hogy a .hu domain 2003-
as állapotát tükröző, 18 millió letöltött oldalt tartalmazó, bárki által hozzáférhető
Webkorpusz (http://mokk.bme.hu/resources/webcorpus/) minősége mára elmaradt
a jelenlegi eszközeink által elérhető minőségtől, mert a letöltött nyers html-oldalak
feldolgozásához egykor használt eszközök sokat fejlődtek8. A gépi tanulás gyors
fejlődését mutatja, hogy a fent hivatkozott szöveganalitikai munkák egyike sem
tartalmazza még a Mikolov és társai (2013) által fejlesztett és az utóbbi 3-4 évben
elterjedt szóbeágyazási modelleket (lásd a következő fejezetekben), miközben ezek
a modellek ma a legnépszerűbbek között vannak9.
7 IgnatowazÉsza k-TexasiEgyetemszociológusa ,azNLPszo ciológ iaialkalmazásainakegyikismertalakja.
8 Mivel aWebkorpuszkészítői nem őriz tékmeg azeredeti html-old alakat ,c sak afel dolgozott változa tot, így utóla gez már
neheze njavítható(Indig2018).
9 AGoogleSch olaron25. 000cikkhi vatkozzaa„wordemb eddin g”kifejezést,mígamúltévezredbenismárlétező,klasszikus abb
„topicmo del”-tcsak36.000–igaz ,felhasználá siterületeiknemfeltétlenülegyeznek.
Németh Renáta – Katona Eszter Rita – Kmetty Zoltán: Az automatizált szövegelemzés...
49
Az automatizált szövegelemzés sajátosságai
Előfeldolgozás
Ahogy a bevezetőben már utaltunk rá, a szöveges adatok automatizált feldolgozá-
sának inputja nagyban különbözik a társadalomkutatás klasszikus, jól strukturált
adatforrásaitól, mint a standard survey-ek vagy adminisztratív közigazgatási ada-
tok statisztikai elemzésre közvetlenül használható adatbázisai. Röviden, a feladat
specifikusságának és komplexitásának bemutatása, illetve a potenciá lis társadalom-
tudományi alkalmazások támogatása céljából a következőkben részletezzük ebből
a strukturálatlanságból fakadó problémákat/feladatokat. Bár technikainak tűnhet,
mi mégis fontosnak tartjuk ezt az ismertetést, mert éppen ebből ítélhető meg ez az
új adatforrás mint empirikus bázis kutatási érvényessége – hasonlóan a survey-hez,
itt is kutatói döntések sora szükséges, egy konceptualizációs és operacionalizációs
folyamat eredménye az output.
A szöveges adatbázisok elérésére/összegyűjtésére itt nem térnénk ki, annyit em-
lítünk csak, hogy szöveges adatokat gyűjthetünk közvetlenül saját programmal, el-
érhetjük azokat tartalomgyűjtő szolgáltatókon keresztül, illetve léteznek szabadon
elérhető, mások által gyűjtött és valamilyen szinten előfeldolgozott korpuszok is. Itt
kell utalnunk az adatgyűjtés és -felhasználás adatvédelmi és adatbiztonsági oldalá-
ra is. A nyers szövegkorpusz összeállítása után az elemzés első lépése egy elemzésre
alkalmas numerikus(!) adatbázis előállítása, ezt a lépést előfeldolgozásnak (pre-
processing) nevezzük. Részben technikai, részben nyelvészeti megalapozású lépé-
sek ezek, köztük olyan feladatok vannak, mint a mondatok és a szavak azonosítása
a szövegben (tokenization), a tartalmatlan szavak, például a névelők eltávolítása a
szövegből (stop word removal), a szótövesítés (stemming, lemmatization), a szófajok
és más nyelvészeti kategóriák azonosítása (part of speech tagging) és a tulajdonne-
vek vagy más névelemek felismerése (named entity recognition) stb.
Mindezekről a lépésekről lásd részletesen Ignatow és Mihalcea (2016) 5. fejeze-
tét. Ennek az előfeldolgozási szakasznak a specifikálása kulcsfontosságú: a hibák
javítása később gyakran nagyon költséges lehet, így megéri az elemzés előtt kezelni
őket (Rehurek 2011). Az egyes lépések pontos tartalma és sorrendje erősen függ az
adott alkalmazástól is, tehát egyedi kutatói döntés függvénye. Ritkán hangsúlyo-
zott szempont, hogy ezek a döntések (mivel az egyes lépések kölcsönösen hatnak
egymásra) befolyásolják a teljes elemzés eredményét (Denny–Spirling 2018).
A fenti lépésekhez használt megoldások nyilván nyelvfüggők, hiszen például egy
magyar nyelvű szöveg szótöveinek azonosításához magyar lexikonra és magyar nyel-
vi szabályokra van szükség. Ezért az NLP-technológiák nem univerzálisak, az NLP
adott területen történő alka lmazhatósága attól is függ, hogy az adott nyelvben milyen
megoldásokat implementáltak már. Mivel a magyar nyelv agglutináló, elemzése meg-
lehetősen nehéz, és a nyelvtechnológiai fejlesztő közösség is nagyságrendekkel kisebb,
mint az angol nyelv esetében, ezért a programok még nem dolgoznak az angoléhoz
Szociológiai Szemle 2020/1
50
hasonló pontossággal. Több párhuzamos fejlesztés folyik többféle programnyelven (R,
Python, Java) párhuzamosan. A magyar számítógépes nyelvészet egyik meghatáro-
zó műhelye az MTA–SZTE Mesterséges Intelligencia Kutatócsoport és annak Nyelv-
technológiai Csoportja. Több fejlesztés mellett a fenti feladatok elvégzésére alkalmas
Magyarláncződik hozzájuk, amely több nyelvtechnológiai megoldás kiindulópontja.
Az egységes és up-to-date megoldást keresőknek egy másik jó kiindulópont az „e-ma-
gyar” rendszer, a Magyar Tudományos Akadémia támogatásával és a Nyelvtudományi
Intézet koordinálásával létrejött nyelvfeldolgozó rendszer (http://e-magyar.hu/hu/).
De nem csak a tudományos műhelyekben készítenek nyelvfeldolgozó eljárásokat, erre
jó példa az Orosz György által magyarra ültetett Python csomag, a Spacy (https://
github.com/oroszgy/spacy-hungarian-models).
Az előfeldolgozás logikája szinte teljes mértékben megegyezik a survey-es adat-
tisztítással. Ez egy szükséges (bár nem feltétlenül elégséges) lépés az elemzések
elkezdése előtt. Korábban utaltunk rá, hogy az NLP módszerei még elmaradnak a
szövegek teljes tartalmi megértésétől. Ezt jól alátámasztja, hogy a legnépszerűbb
módszerek nyelvészeti szempontból a leegyszerűsített, ún. szózsákmodellt (bag of
words) használják, vagyis nem veszik figyelembe a szavak szövegbeli sorrendjét,
szintaktikai hierarchiáját, csupán szavak halmazaként kezelik a szövegeket (a több-
ször előforduló szavakat többször véve). E szózsákmodellt használva azután például
szóelőfordulási gyakoriságok segítségével állapítják meg egy-egy szöveg érzelmi töl-
tetét, vagy tesznek spam-címkét az e-mailekre. Az e cikkben tárgyalt modellek kö-
zül egyedül a szóbeágyazási model lek lépnek túl ezen, az egyes kifejezések közvetlen
mondatbeli környezetét is számon tartva.
Felügyelt vs. nem felügyelt módszerek
Az alábbiakban az NLP társadalomtudományi szempontból releváns módszereit ku-
tatási kérdésük logikája szerint kategorizálva mutatjuk be.
Az NLP felhasználási területe eredendően az informatika határterületeire, a
gépi fordításra /nyelvfeldolgozásra és az üzleti alkalmazásokra terjedt ki, ebből ere-
dően a célfeladat leggyakrabban valamilyen predikció létrehozása ( lásd például azt a
kérdést, hogy spam kategóriába sorolható-e egy e-mail). A gépi tanulás legfontosabb
célkitűzése ennek megfelelően olyan hatékony és robusztus algoritmusok előállí-
tása, amelyekkel pontos előrejelzéseket tehetünk. Fontos hangsúlyozni, hogy ez a
predikciós cél alapvetően különbözik a klasszikus társadalomtudományi elemzések
céljától, hiszen utóbbi célja elsősorban a leírás, magyarázat vagy egyfajta oksági ha-
tás kimutatása. Ez a különbség nem csupán interpretációs eltérés: a használt mo-
dellekre is kihat. A predikciós modellek egy része ugyanis nem is használható ma-
gyarázati séma alapjaként, mert egyfajta fekete dobozként működik: tudjuk, hogy
jól prediktál, de nem tudjuk, hogy miért prediktál így vagy úgy – szemben például
a társadalomtudományi magyarázati modellekben klasszikusan használt regresz-
szióval, amely a regressziós együtthatók révén fogódzót kínál a predikció mellett
Németh Renáta – Katona Eszter Rita – Kmetty Zoltán: Az automatizált szövegelemzés...
51
annak magyarázatára is. A predikció/magyarázat különbség a modellek alkalmazási
logikájára is kihat, az előbbieknél a predikciós teljesítmény, az utóbbiaknál a modell
statisztikai illeszkedése értékelendő. Az alábbiakban ezt részletezzük.
A predikciós modellt tekintve a rendelkezésre álló háttérinformáció szempont-
jából megkülönböztetünk felügyelt (supervised) és nem felügyelt (unsupervised)
módszereket. Felügyelt esetben rendelkezünk bizonyos kategóriákkal, amelyeket
előzetesen már ismerünk, és elemeink egy részéről tudjuk, hogy melyik kategóri-
ába tartoznak (felcímkézett adathalmaz). A cél az, hogy új (felcímkézetlen) eleme-
ket is be tudjunk illeszteni a kategóriarendszerbe, minél nagyobb pontossággal. Ha
például szakértők egy újság valamennyi cikkét bekategorizálták témacsoportok
szerint, akkor ezt az információt felhasználva megjósolhatjuk azt, hogy a be nem
kategorizált cikkek melyik csoportba tartoznak. Ehhez valamely statisztikai eszköz
segítségével létrehozunk egy előrejelző modellt, amely megpróbál a szakértők által
hozott döntések mögötti nyelvi mintázatot találni, majd e mintázatokra alapozva
automatizált módon hozzárendeli a témát a be nem kategorizált cikkekhez. Erre a
modellezésre használhatjuk például a klasszikus módszertanból ismert logisztikus
regressziót vagy döntési fákat, de akár valamilyen neurálisháló-alapú megközelítést
is. Elsődleges fontosságú szempont, hogy tudnunk kell értékelni a modell előrejelző
képességét azért, hogy (1) információnk legyen a jövőben várható predikciós képes-
ségéről, valamint (2) kiválaszthassuk a legjobb modellt.
A modell előrejelző képességének értékelése nehézségekbe ütközik, mivel az nem
végezhető el egyszerűen az adott adatbázisunkra illesztett modell értékelésével, hi-
szen annak működése nem tükrözi hűen egy másik, külső adatbázison várható mű-
ködését (nyilván azért, mert éppen az adott adatbázishoz leginkább illeszkedő mo-
dellként definiáltuk). Mivel általában nincs lehetőségünk egy külső adathalmazon
tesztelni a modell sikerességét, ugyanezt a saját adatbázist kell használnunk érté-
kelésre is, leggyakrabban az ún. keresztvalidálási logikával (ezt gyakran használják
a klasszikus statisztikában máshol, például az orvostudományban, a diagnosztikus
tesztek értékelésében). Ahogy azt az 1. ábra mutatja, a felcímkézett adathalmazt
kettéosztjuk tanuló- és validációs adathalmazra (training/validation data set). A
különböző modelleket a tanulómintán illesztjük (itt kapjuk meg például a logisz-
tikus regresszió együtthatóit), majd a validációs mintán értékeljük a teljesítményt
aszerint, hogy a korábban kapott együtthatókkal definiált logisztikus regressziós
modell milyen pontossággal sorolja be helyesen az újságcikkeket. Ez a helyes besoro-
lási arány a legegyszerűbb, pontosság (precision) elnevezésű teljesítményértékelési
mutató. Ez a fázis az úgynevezett tanulófázis.
Ezután a következtetési (inference) fázisban a legjobbnak bizonyult modellt új
újságcikkek besorolására használjuk anélkül, hogy ehhez humán szakértőt kellene
igénybe vennünk – azaz fel nem címkézett újságcikkeket látunk el automatikusan
kategóriacímkével.
Szociológiai Szemle 2020/1
52
1. ábra. A felügyelt osztályozás logikája: a modellezés fázisai és adathalmazai (saját
szerkesztés)
A felügyelt módszerek közé tartozik a klasszikus társadalomkutatásban ismert
minden regressziótípus (hiszen ismert a függő változó értéke), a döntési fa, a
diszkriminanciaelemzés és az NLP-ben gyakran használt, de a klasszikus módszer-
tanban nem szereplő Random Forest, Naive Bayes, Support Vector Machine (SVM)
vagy a különböző neurális hálók is (e modellekről bővebben lásd Ignatow–Mihalcea
2016). Ezek különböző előnyökkel rendelkeznek, amelyek mindegyike a Big Data-
feladatnak való megfelelőségre vezethető vissza: vannak köztük például nem pa-
raméteresek, olyanok, amelyek nem igényelnek eloszlásfeltételeket, nem szorítják
meg a függő és a független változók közötti függvénykapcsolatot, alkalmazhatók
nagyon sok magyarázó változó esetén is.
A nem felügyelt módszerek esetén nincsen előzetes ismeretünk, nincsenek ko-
rábban felcímkézett eseteink. Klasszikus, a társadalomkutatók számára is ismert
nem felügyelt módszer a klaszterelemzés: nincs előzetes információnk a klaszterek
számáról, és egyetlen esetnek sem ismerjük a klaszter-hovatartozását. A nem fel-
ügyelt módszereket az NLP-ben hagyományosan többek között technikai célokra
– például szinonimák felderítésére – használják, ám számos tartalmi modell is tá-
maszkodik a módszerre, így például a később tárgyalt topikmodell is.
Evans és Aceves (2016) a felügyelt és nem felügyelt módszerek különbségét ab-
ban ragadja meg, hogy míg az előbbiek meglévő elméleteket vizsgálnak új adatokon,
addig az utóbbiak ismeretlen mintázatok felderítését célozzák új elméletek létreho-
zása érdekében. Ez a nézőpont sok esetben helytálló, de nem általánosítható, hiszen
például egy nem felügyelt klaszterelemzés már a releváns háttérváltozók kiváloga-
tásánál igényel elméletet. Például a struktúrakutatásban a háttérváltozók kiválasz-
tását az határozza meg, hogy elméletünk szerint milyen dimenziók mentén tagoló-
dik a magyar társadalom, miközben a feltárt klaszterek nyilván újat adnak hozzá az
elmélethez.
Németh Renáta – Katona Eszter Rita – Kmetty Zoltán: Az automatizált szövegelemzés...
53
Potenciális kutatási kérdések
A továbbiakban az NLP társadalomtudományi szempontból releváns módszereit ku-
tatási kérdésük szerint csoportosítva mutatjuk be. Ez a tárgyalásmód tehát a tarta-
lomra fókuszál, míg az előző fejezet a kutatási logikára alapozott, így a két csoporto-
sítás átfedi egymást: létezik például felügyelt és nem felügyelt szentimentelemzés.
Szentimentelemzés, emócióelemzés
Ezek a módszerek a szöveg szerzőjének egy tárggyal kapcsolatos álláspont-
ját vizsgálják. Tipikusan a szerző attitűdjének, véleményének, értékelésének
(szentimentelemzés) vagy a tárggyal kapcsolatos érzelmi megnyilvánulásának
(emócióelemzés) megtalálását célozzák. A szentimentelemzés (másik, ritkábban
használt magyar nyelvű kifejezéssel értékeléselemzés) a véleményeknek általában
csak a polaritását (például negatív, pozitív, semleges) határozza meg, míg az emó-
cióelemzés (lásd még érzelemelemzés) olyan alapérzelmeket különböztet meg, mint
például a félelem, az undor, az öröm vagy a harag. Meghatározott számú kategóriába
való besorolás a feladat, tehát egy osztályozási problémáról van szó.
A szentiment- és az emócióelemzés az üzleti szféra talán legnépszerűbb NLP-
módszere, használják például a közösségi média hozzászólásaiban adott, a céggel vagy a
cég bizonyos termékeivel, mozifilmekkel stb. kapcsolatos vélemények detektálására. Az
utóbbi időben megjelentek társadalomtudományi alkalmazások is. Martins és szerző-
társai (2018) célja a gyű löletbeszéd detektá lása volt a közösségi méd ia adataiban. Ez tipi-
kusan felügyelt k lasszifikációs felad at, vagyis a szakértők által korábban két kategóriába
(gyűlöletbeszéd/nem gyűlöletbeszéd) sorolt szövegek alapján alkotnak osztályozó algo-
ritmust. Martinsék újítása az volt, hogy a szövegek érzelmi töltetére vonatkozó infor-
mációt is bevonták a modell magyarázó változói közé, ami így sokkal jobban teljesített.
Ezeken az elemzéseken belül is létezik felügyelt és nem felügyelt megoldás. Fel-
ügyelt esetre egyszerű példa, amikor a korábbi, újságcikk-besoroló példánk analógiá-
jára megint felcímkézett adathalmazt hozunk létre úg y, hogy tesztalanyokat kérünk
fel mozikritikáknak a három szentimentpolaritási típus egyikébe való besorolására,
majd predikciós modellt hozunk létre a segítségükkel, amely a jövőben automatizál-
tan tudja monitorozni egy-egy új film fogadtatását.
A nem felügyelt elemzés legegyszerűbb megoldása a szótáralapú módszer. Ilyen-
kor az adott nyelvre érvényes szentiment-, illetve emóciószótárt használunk. A
szótárak egy részében az egyes szavak polaritása van meghatározva, mint a 7 600
kifejezést tartalmazó Magyar Szentiment Lexikonban (Szabó 2014), ahol például a
„megkukul” negatív, az „összefog” pozitív töltetű kifejezésként van besorolva. Más
szótárakban a szavak szentimentje egy 0–100 pozitivitási skálán értékelt, ilyen le-
xikont használ pl. a hedonometer.org az USA Twitter-szentimentjének követésekor.
A teljes szöveg szentimentjének/emóciójának meghatározása az azt alkotó szavak
szótárból vett besorolásán alapul (bizonyos módszereknél a szavak környezetét,
szófaját stb. is figyelembe véve), valamilyen aggregáló módszert alkalmazva.
Szociológiai Szemle 2020/1
54
A legújabb nem felügyelt megoldások mélytanulás-alapúak (deep learning), ilyen
például dos Santos és Gatti szentimentelemzése (2014). Ennek előnye, hogy a fel-
adat szempontjából releváns komplex mintázatok felismerését támogatja. Ezek a
modellek már nemcsak a szavak szintjén vizsgálódnak, hanem a mondat szintjét is
figyelembe veszik az elemzés során, ami például a tagadó szerkezetek felismerését
támogatja. A kutatási gyakorlatban egyre elterjedtebbé válnak azok a megoldások is,
amelyek terület- és időspecifikus szótárak építését támogatják. Jó példát nyújt erre
Rice és Zorn (2019) tanulmánya. A szerzők munkájukban bemutatják, hog yan válto-
zott egyes szavak időbeli érzelmi töltete, vagy mennyiben különbözik ugyanannak a
szónak az érzelmi töltete különböző területeken.
A látens tartalom elemzése
A tanulmány korábbi részeiben elsősorban klasszifikációs problémákat tárgyaltunk
egyrészt népszerűségük miatt, másrészt azért, mert könnyen érthetőek, hiszen a
kapcsolódó kutatási kérdés (besorolás) és módszer (például regresszió) a klasszikus
kvantitatív társadalomkutatási módszerek használói számára is ismerős. A klasz-
szifikáción túl egy másik általános, a társadalomkutatás számára fontos potenci-
ált jelentő kutatási kérdés a szövegek látens tartalmának kinyerése. Ennek három
legismertebb módszere a klaszterelemzés, a topikmodell és a szóbeágyazási modell.
Klaszterelemzés
A klaszterelemzés nem egyetlen modell, hanem osztályozási algoritmusok összessé-
ge, amelyeket a kutatási kérdés köt össze: bizonyos jellemzők szerinti hasonlóságuk-
különbözőségük alapján sorolják be csoportokba a vizsgált egyedeket (itt: szövege-
ket). Jól ismert módszer a társadalomtudományokban is, így például a struktúraku-
tatásban hagyományosan klaszterelemzés segítségével detektálunk státuszcsoport-
jellegű rétegeket, leggyakrabban gazdasági-kulturális jellemzőik alapján. Nincsenek
a priori ismert kategóriák, csoportok, sőt általában a csoportok száma sem ismert
előzetesen. A csoportképzés magából az adatbázis sajátosságaiból indul ki, és a jel-
lemzőik szerint hasonló szövegek kerülnek ugyanazon csoportba. A szövegek közöt-
ti hasonlóságot legegyszerűbb esetben az általuk tartalmazott szavak alapján (ismét
szózsákmodellt alkalmazva) definiálhatjuk. Ennek megfelelően a klaszterelemzés
nem felügyelt logikát követ (megjegyezzük, hogy a priori ismert csoportok esetén
léteznek felügyelt klaszterezési eljárások is). Mivel társadalomtudós olvasóink kö-
zött vélhetően sokan ismerik a klaszterelemzés vektortér-reprezentációját, röviden
utalunk rá, hogy a szövegek klaszterezése is hasonlóan történik, egy olyan sokdi-
menziós vektortérben, ahol a tengelyek az egyes szavaknak felelnek meg, míg a vek-
tortérbeli pontok a szövegeknek, amelyek elhelyezését az határozza meg, hogy az
adott szó hányszor szerepel a szövegben. A szövegek/dokumentumok klaszterezése
e vektortérben a távolságuk/közelségük által meghatározott csoportokon alapul
Németh Renáta – Katona Eszter Rita – Kmetty Zoltán: Az automatizált szövegelemzés...
55
(lásd a 2. ábrát), a lehető leghomogénebb csoportok létrehozására törekszünk, ame-
lyek egymástól a lehető legnagyobb távolságra vannak.
2. ábra. Dokumentumok klaszterelemzése vektortérbeli elhelyezkedésük alapján
A szövegbányászati alkalmazásokban a klaszterelemzés célja a szöveghalmazunk-
ban rejlő struktúra felismerése, a dokumentumok csoportokba rendezése. Üzleti
felhasználásai közül például az ajánlórendszerek említhetők, amikor az adott fel-
használónak kiajánlott terméket a vele egy klaszterben levő felhasználók fogyasz-
tási preferenciáira építjük.
Topikmodellek
A topikmodellek (Blei–Lafferty 2009) olyan automatizált eljárá sok, amelyek célja do-
kumentumgyűjtemények (például valamely online média cikkei) témáinak azonosí-
tása. A modell mögött intuitíve az a megfontolás áll, hogy létezik a témáknak egy
véges halmaza, amelyben a témák statisztikailag az adott nyelv kifejezésein értel-
mezett valószínűségeloszlásként definiálhatók. Például a sportról szóló cikkekben a
„győztes” szó előfordulásának nagyobb a valószínűsége, mint az „infláció" szóénak,
míg a gazdasági témájú cikkekben ez éppen fordítva van. A dokumentumok néhány
topik keverékeként azonosíthatók, például egy stadionépítésről szóló cikk 80%-ban
gazdasági, míg 20%-ban sporttémát dolgozhat fel. Ezek a mögöttes topikok aztán a
hozzájuk tartozó szó-valószínűségeloszláshoz igazodva generálják a dokumentumo-
kat (lásd a 3. ábrát). Itt is szózsákmodellt alkalmazunk, a dokumentumoknak csak a
szógyakoriság-eloszlását vizsgáljuk. Ez a megközelítés a survey-logikán belül legin-
kább a modellalapú klaszterezésekhez van közel, elsősorban a véges kevert modell
illesztésekhez (más néven látens profilelemzés).
A topikok száma és tartalma a priori nem ismert, tehát ez is egy nem felügyelt
módszer. Akárcsak a k-közép klaszterezés esetén, itt is a modell bemenő paramétere
a topikok száma (K), és az optimális topikszám megválasztása többféle K mellett
illesztett modell közül a „legjobb” modell10 kiválasztásán alapul. A modell interp-
retációjában a K értéke mellett a topikok valószínűségét (népszerűségét), az egyes
10 A„legjobb”modellkivá lasztásamindenNLP-módszer,deleginká bbanemfelügyeltmódszerekesetén(amilyenatopikmodell
is)nagyk ihívás,éstöbbfajtamegoldásijavaslatlétezik.
Szociológiai Szemle 2020/1
56
topikokhoz tartozó szóeloszlást (például a legvalószínűbb tíz szó listáját), illetve a
topikok „keveredési” hajlandóságát értelmezzük.
3. ábra. Dokumentumok létrejötte a topikmodell feltevései szerint
A topikmodellek az utóbbi években gyorsan fejlődtek. Blei, Ng és Jordan (2003) írt
először a látens Dirichlet-allokációról (Latent Dirichlet Allocation, LDA), amely az
egyik legismertebb topikmodellezési eljárás. Az elnevezése a modell azon matemati-
kai feltevéséből ered, hogy a dokumentumonkénti topikeloszlás Dirichlet-eloszlást
követ. Az eloszlást úgy hangolják, hogy a topikok keveredését minimalizálják. A
topikok szöveggeneráló mechanizmusára vonatkozó előfeltevések mint megszorí-
tások mellett a modellünkre bízzuk, hogy a szövegekben jellemző tartalmi struktú-
rákat találjanak. Jó példa erre Barna és Knap (2019) tanulmánya. A szerzők topik-
modellel elemezték, hogy a kuruc.info „zsidó” szót tartalmazó cikkei tartalmilag
tipikusan milyen témákra/topikokra bonthatók, így azonosították pl. a faji alapú, a
vallási alapú vagy az összeesküvésre épülő topikokat.
A fenti modellnek több kiterjesztése létezik, ezek közé tartoznak például a korre-
lált topikmodellek (correlated topic models), amelyek a topikok szövegbeli együttes
előfordulását modellezik (Blei–Lafferty 2007), a dinamikus topik modellek (dynamic
topic models), amelyek a topikok időbeli változását vizsgálják (Blei–Lafferty 2006),
illetve a szerző-topikmodellek (author topic model), amelyek a szövegre vonatkozó
metaadattal (például szerzőségi információval) egészítik ki az alapmodellt (Rosen-
Zvi et al. 2008). A topikmodellezés a társadalomtudományban széles felhasználási
spektrummal rendelkezhet. Elemezhetjük bármely, a digitális társadalmi térben
megjelenő csoport (adott politikai platformhoz tartozók, adott betegségben szen-
vedők, adott tudományos folyóirat szerzői) megnyilvánulásainak tematizációját, a
témák népszerűségváltozását, a témák tartalmának változását stb. A hagyományos
kérdőíves módszert alkalmazó kutatóknak is segítségére lehet a kérdőív nyílt kérdé-
seire adott válaszok elemzésében.
Németh Renáta – Katona Eszter Rita – Kmetty Zoltán: Az automatizált szövegelemzés...
57
Szóbeágyazási modellek
A szóbeágyazási modellek (word embedding models) a vizsgált korpusz látens sze-
mantikai struktúrájának reprezentálására szolgáló, a gépi tanulásban elterjedt ne-
urális hálókat használó módszerek. Néhány éves múltra tekintenek vissza, népsze-
rűségük nagy ütemben nő. Többféle technikai megvalósításuk létezik (Mikolov és
munkatársai [2013] word2vec modellje az első ezek közül), az alábbiakban intuitív
lényegüket igyekszünk bemutatni.
A modell, leegyszerűsítve, a korpuszunk szavainak vektortér-reprezentációját
adja, ahol a vektortérben egy vektor egy szónak felel meg (lásd a 4. ábra leegyszerű-
sített háromdimenziós terét), a szavak elhelyezkedését pedig a jelentésük határozza
meg. Az egymáshoz közel eső szavaknak a jelentése is közel esik egymáshoz. Itt a
szójelentés a szó használatával azonosított fogalom, konkrétabban a szavak mon-
datbeli előfordulásának szűk környezetét (általában a szót megelőző, illetve követő
3-10 szót) veszi figyelembe a modell. Aszerint kerül közel vagy távol egymástól két
szó a vektortérben, hogy mennyire egyezik meg ez a környezet a korpuszunkban.
A környezeten belül nem vizsgál sorrendiséget, egyszerű szózsákként kezeli azt. A
vektortér dimenzióját, amely általában néhány száz körül van, az határozza meg,
hogy a mögöttes neurálisháló-modell hány dimenzióban képes elég jól reprodukálni
az eredeti használati környezeteket – vagyis tulajdonképpen egy dimenziócsökken-
tő eljárásról van szó, amely az eredeti komplex teret, ahol minden szó önálló dimen-
ziót jelenít meg, egy kisebb, néhány száz dimenziós térbe ágyazza bele. A dimenzi-
óknak, tengelyeknek nincs közvetlen interpretálhatósága.
A vektortérben két szó jelentési közelségét a nekik megfelelő vektorok által be-
zárt szög nagysága (pontosabban általában annak koszinusza) segítségével határoz-
zák meg. Lásd a 3. ábrát: a „matek” és a „matematika” szó egészen kis szöget zár be,
hiszen a használati szövegkörnyezetük csaknem megegyezik, és a „fizika” is közel
van hozzájuk (közelebb a „matematika” szóhoz), hiszen sokszor szerepelnek hason
környezetben. Fontos hangsúlyozni, hogy e használatalapú definícióból következő-
en a vektortér nem a szavak jelentésének hasonlóságán, hanem a szavak jelentésé-
nek kapcsolatán alapszik. A „férfi” és a „nő” szó például nincs nagyon nagy távolság-
ra egymástól, hiszen gyakran szerepelnek hasonló környezetben a mondatainkban.
Ennek a „disztribúciós szemantikának” a lényege, hogy a szójelentést nem a szavak
és a „valóság” elemeinek kapcsolatára alapozza, hanem azt a szavak használatával
azonosítja; a megközelítés legkorábbi nyelvfilozófiai reprezentánsai Wittgenstein
1930-as évekbeli munkái.
A modell által létrehozott vektortér (Garg és munkatársai [2018] példáival) ké-
pes tehát szemantikai kapcsolatok megragadására (a foglalkozások neve például kö-
zel van egymáshoz), jól elkülöníthetők benne jellegzetes szócsoportok (a női jellegű
foglalkozások, mint a „táncos” és a „háziasszony” elkülönülnek a férfiasaktól, mint
az „ács” és a „mérnök”). Ennek a vektortérnek önmagában is van szociológiai rele-
vanciája: Magu és Luo (2018) Twitter-szövegeken végzett gyűlöletbeszéd-kutatásá-
Szociológiai Szemle 2020/1
58
ban például előítélettel sújtott csoportokat (feketéket, zsidókat, mexikóiakat) jelölő
eufemisztikus kódszavakat azonosított más, ismert kódszavakhoz való vektortér-
beli közelségük alapján.
De a közelség-távolság értelmezésénél is továbbmehetünk. A vektortér jól teljesít
analógiás teszteken is, például a főváros relációt egy ország és fővárosa különbségé-
vel megadva választ kaphatunk a „Mi Oroszország fővárosa?” kérdésre:
Ilyenkor a megfelelő vektortérelemeket tekintve Moszkva úgy adódik, hogy megke-
ressük az egyenlet fenti megoldásához legközelebbi vektort. Elég nagy (több százmillió
szót tartalmazó) korpuszokon tanítva a modell jól működő vektorteret ad ilyen analó-
giás teszteken (vagyis az egyenlet jobb oldalához legközelebbi vektor valóban Moszkva
lesz). A vektortér teljesítményét általában is i lyen analógiás teszteken értékel ik, léteznek
több száz kérdésből álló tesztbázisok, lásd például Kozlowski et al. 2018.
A fenti analógiák nem csak technikai példákon működtethetők: feltehető például a
kérdés, hogy van-e az általunk vizsgált korpuszban a foglalkozásneveknek a nemi kü-
lönbségeket reprezentáló nyelvhasználati különbsége. Ehhez például fel kell tennünk
a kérdést, hogy mi az a foglalkozás, amit úgy kapunk a „programozóból”, hogy ugyan-
olyan irányba és távolságra toljuk el, mint amilyen eltolással a „férfiből” a „nőt” kap-
juk (lásd a 3. ábrát). Vajon például az „adminisztrátort” kapjuk-e? Vagyis vajon van-e
a vizsgált korpuszban olyan nyelvhasználati jelleg, amely a programozókat inkább a
férfiakhoz, az adminisztrátort inkább a nőkhöz kapcsolja? A társadalomtudós olvasó
számára itt már vélhetően nyilvánvaló, hogy ezek a szóbeágyazási modellek figyelem-
re méltó kulturális-társadalmi tudást tartalmaznak. Garg és munkatársai (2018), va-
lamint Kozlowski és munkatársai (2018) például amerikai korpuszokat vizsgálva több
mint 100 éves intervallumon státuszalapú, társadalmi nemi szerepekkel kapcsolatos
és kulturális trendeket volt képes detektálni a módszer használatával.
4. ábra. A szavak jelentésbeli hasonlósága, illetve jelentésanalógiák megjelenése a
szóbeágyazási modell vektor tér-reprezentációjában
Németh Renáta – Katona Eszter Rita – Kmetty Zoltán: Az automatizált szövegelemzés...
59
Összefoglalás
A társadalomtudomány folyamatosan változik és fejlődik. Ez egyrészről új témák
vizsgálatát és klasszikus témák újrafeldolgozását jelenti, de ugyanúgy új módszerek
felfedezését és integrálását is a társadalomkutatási kánonba. Az elmúlt pár évtized
gyökeresen megváltoztatta a társadalomkutatók által felhasználható módszertani
és statisztikai apparátust. A 30-40 éve még csak a „kiválasztottak” által a lkalmazott
nagy számításigényű statisztikai számolások a 90-es években egyre inkább minden-
ki számára elérhetővé váltak az asztali számítógépek elterjedésével és a statisztikai
szoftverek kommercializálódásával. A digitalizáció továbbgyűrűzése pedig tovább
erősítette ezt a folyamatot, a társadalomtudományon belül (is) egyre inkább teret
nyer(t) a Big Data paradigma. A szövegelemzés, a szövegbányászat elsősorban a nö-
vekvő digitalizáció miatt válik egyre fontosabb vizsgálati tereppé.
A tanulmányban arra koncentráltunk, hogy a megközelítés milyen lehetősége-
ket teremt a társadalomtudomány számára. Az írott szövegek fontos lenyomatai
az emberek gondolkodásának. Ezért azokban a kutatási témákban, amelyekben
elsősorban a (köz)gondolkodásnak, az emberi viselkedésnek a megértése a cél,
nagy hasznot hozhat a kvantitatív szövegelemzés. Diszkrimináció, glöletbeszéd,
egyenlőtlenségek – mind-mind olyan témák, amelyek sokszor akár rejtetten, de
megjelennek az írott kommunikációban is. De a kultúra-, a szabadidő-, a zeneszo-
ciológia is sokat profitálhat a szövegelemzésen alapuló kutatásokból. Nem véletlen,
hogy a kultúraszociológia egyik vezető lapja, a Poetics már 2013-ban különszámot
szentelt a topikmodellezésnek (lásd többek között McFarland et al. 2013). De az idő-
dimenzió is megjeleníthető: a korábban már hivatkozott tanulmányok (Garg et al.
2018; Kozlowski et al. 2018) 100 év távlatában elemeznek társadalomtudományi
tendenciákat igen nagy sikerrel. Az ehhez hasonló történeti vizsgálatok tere is ki-
szélesedőben van, hiszen nemcsak a „born-digital”, hanem a digitalizált szövegtárak
spektruma is folyamatosan nő. Hazai példa erre a Kádár-korszak vizsgálata a rt-
élet című újságon keresztül (Szabó et al. 2019). Ezeket a munkákat támogatják az
olyan projektek, mint a Google Books Library óriási volumenű vállalkozása, amely
az 1500-as évektől digitalizálja az (elsősorban angol nyelvű) könyveket. Magyaror-
szágról az Arcanum folyóirattára említhető meg ennek kapcsán.
A szövegelemzési módszerek nem helyettesítői, hanem kiegészítői a klasszikus
kvantitatív társadalomkutatási eszközöknek. A kérdőíves vizsgálatok precízen ki-
dolgozott módszertana alapvetően megbízható és érvényes tudást nyújt. A kvanti-
tatív szövegelemzés viszont képes lehet olyan kérdések megválaszolására is, ame-
lyek a survey-ekből nem vagy csak nagyon nehezen és közvetve megválaszolhatók.
Ezért mi a módszer jelentős társadalomtudományi felfutását várjuk a közeljövőben.
Ugyanakkor – ahogy írásunk is mutatta – a módszer belépési küszöbe viszonylag
magas, új módszertani/programozói tudást igényel. Erre vagy az empirikus tudás
önképzés útján való megszerzése (és az új társadalomtudós-generációk számára a
társadalomtudományi képzésekbe való integrálása), vagy interdiszciplináris kuta-
Szociológiai Szemle 2020/1
60
tócsoportok alakítása lehet a válasz. Tanulmányunkkal ezekhez a komoly tudomá-
nyos befektetést igénylő döntésekhez próbáltunk érveket szolgáltatni.
Abstract: In our paper, we present an overview of Natural Language Processing (NLP) methods, which
developed parallel with the spread of ‘Big Data’ paradigm. We present the most promising methods
for social sciences, the specific research questions they can answer and the methodological features
that distinguish them from classic quantitative methods. ese methods go far beyond classic
quantitative text analysis based on simple word frequencies. eir modelling logic arises from machine
learning methods; hence, it is substantially differing from the classic social science logic that seeks for
expl anation and casua l effects. Our goal is to in spire Hungar ian socia l scientists b y providing an insight
into a less-institutionalized area, since we believe that at an international level, text mining will be a
standard method for empirical social science research w ithin a few years.
Keywords: quantitative text analysis, natural language processing, textmining, computational text
analysis
Irodalom
Aggarwal, C. C. – Zhai, C. X. (eds.) (2012): Mining Text Data. New York: Springer.
Anderson, C. (2008): e End of eory: e Data Deluge Makes the Scientific
Method Obsolete.Wired.https://www.wired.com/2008/06/pb-theory/. (letöltés:
2019. március 27.)
Bales, R. F. (1950): A set of categories for the analysis of small group interaction.
American Sociological Review, 15(2): 257–263.
Barna, I. – Knap, Á. (2019): Antisemitism in Contemporary Hungary: Exploring
Topics of Antisemitism in the Far-Right Media Using Natural Language
Processing. eo Web – Academic Journal of Religious Education, 18(1): 75–92.
Berelson, B. – Lazarsfeld, P. F. (1948): e Analysis of Communication Content. Oslo:
Univ. Stud.
Blei, D. M. – Lafferty, J. D. (2006): Dyna mic topic models. In Proceedings of the 23rd In-
ternational Conference on Machine Learning. New York: Association for Computing
Machinery, 113–120.
Blei, D. M. – Lafferty, J. D. (2007): A correlated topic model of science. e Annals of
Applied Statistics, 1(1): 17–35.
Blei, D. M. – Lafferty, J. D. (2009): Topic models. In Srivastava, A. N. – Sahami, M.
(eds.) Text mining: Classication, Clustering, and Applications. London: Chapman &
Hall/CRC Data Mining and Knowledge Discovery Series.
Blei, D. M. – Ng, A.Y. – Jordan, M. I. (2003). Latent dirichlet allocation. e Journal
of Machine Learning Research, 3(4–5): 993–1022.
Csepeli Gy. (2015): A szociológia és a Big Data. Replika, 92–93(2015/3–4): 169–174.
Németh Renáta – Katona Eszter Rita – Kmetty Zoltán: Az automatizált szövegelemzés...
61
Denny, M. J. – Spirling, A. (2018): Text Preprocessing For Unsupervised Learning:
Why It Matters, When It Misleads, And What To Do About It. Political Analysis,
26(2). doi:10.1017/pan.2017.44
Dessewffy T. – Láng L. (2015): Big Data és a társadalomtudományok véletlen talál-
kozása a műtőasztalon. Replika, 92–93 (2015/3–4): 155–168.
Digital 2020 reports, Hootsuite, wearesocial.com/digital-2020
Evans, J. A. – Aceves, P. (2016): Machine translation: mining text for social theory.
Annual Review of Sociology, 42(1): 21–50.
Dos Santos, C. – Gatti M. (2014): Deep convolutional neural networks for sentiment
analysis of short texts. In Proceedings of the 25th International Conference
on Computational Linguistics (COLING). Dublin: Dublin City University and
Association for Computational Linguistics. https://www.aclweb.org/anthology/
C14 -10 08 (letöltés: 2019. január 18.)
Garg, N. – Schiebinger, L. – Jurafsky, D. – Zou, J. (2018): Word embeddings quantify
100 years of gender and ethnic stereotypes. Proceedings of the National Academy of
Sciences of the United States of America, 115(16): 3635–3644.
Hays, D. C. (1960): Automatic Content Analysis. Santa Monica: Rand Corp.
Hirschberg, J. – Manning, C. D. (2015): Advances in natural language processing.
Science, 349(6245): 261–266. doi: 10.1126/science.aaa8685.
Ignatow, G. – Mihalcea, R. (2016): Text Mining. A Guidebook for the Social Sciences.
ousand Oaks, CA: Sage Publications.
Indig B. (2018): Közös cr awlnak is eg y korpusz a vége – K orpuszépítés a Com monCrawl
.hu domainjából. In Vincze V. (szerk.) XIV. Magyar Számítógépes Nyelvészeti Konfe-
rencia (MSZNY 2018). Szeged: Szegedi Tudományegyetem Informatikai Tanszék-
csoport, 125–134.
Kmetty Z. (2018): A szociológia helye a Big Data-paradigmában és a Big Data helye a
szociológiában. Magyar Tudomány, 179(5): 683–692.
Kozlowsk i, A. C. – Taddy, M. – Evans, J. A. (2018): e Geometr y of Culture: Ana lyzing
Meaning through Word Embeddings. American Sociological Review, 84(5): 905–
949. arXiv preprint arXiv:1803.09288 https://arxiv.org/abs/1803.09288 (letöl-
tés: 2019. január 18.)
Liu, B. (2015): Sentiment analysis: Mining opinions, sentiments, and emotions. Cambrid-
ge: Cambridge University Press.
Magu, R. – Luo, J. (2018): Determining Code Words in Euphemistic Hate Speech
Using Word Embedding Networks. In Proceedings of the Second Workshop on
Abusive Language Online, Brussels: Association for Computational Linguistics,
93–100.
Martins, R. – Gomes, M. – Almeida, J. – Novais, P. – Henriques, P. (2018): Hate
Speech Classification in Social Media Using Emotional Analysis. In 7th Brazilian
Conference on Intelligent Systems (BRACIS). Sao Paulo: IEEE, 61–66. doi: 10.1109/
BRACIS.2018.00019.
Szociológiai Szemle 2020/1
62
McFarland, D. A. – Ramage, D. – Chuang, J. – Heer, J. – Manning, C. D. – Jurafsky,
D. (2013): Differentiating language usage through topic models. Poetics, 41(6):
607–625.
Mikolov, T. – Sutskever, I. – Chen, K. – Corrado, G. S. – Dean, J. (2013): Distributed
Representat ions of Words and Phras es and their Compositiona lity. Burges, C. J. C.
– Bottou, L. – Welling, M. – Ghahramani, Z. – Weinberger, K. Q. (eds.) Proceedings
of the Conference on Advances in Neural Information Processing Systems 26 (NIPS). La
Jolla: Neural Information Processing Systems Foundation, 3136–3144.
Miner, G. – Elder, J. – Hill, T. – Nisbet, R. – Delen, D. – Fast, A. (2012): Practical text
mining and statistical analysis for non-structured text data applications. Waltham:
Academic Press of Elsevier.
Moreno, S. A. – Redondo, T. (2016): Text Analytics: the convergence of Big Data and
Artificial Intelligence. International Journal of Interactive Multimedia and Articial
Inteligence, 3(6): 57–64. doi: 10.9781/ijimai.2016.369
Moretti, F. (2013): Distant Reading. London: Verso.
Németh R. (2015): A számok tényleg magukért beszélnek? Replika, 92–93(2015/3–
4): 203–209.
Rehurek, R. (2011): Scalability of Semanic Analysis in Natural Language Processing.
Dissertation. Brno: Faculty of Informatics, Masaryk University. https://
radimrehurek.com/phd_rehurek.pdf (letöltés: 2019. január 18.)
Rice, D. R. – Zorn, C. (2019): Corpus-based dictionaries for sentiment analysis of
specialized vocabularies. Political Science Research and Methods, 1–16.
Rosen-Zvi, M. – Chemudugunta, C. – Griffith, T. – Smyth, P. – Steyvers, M. (2008):
Learning Author-Topic Models from Text Corpora. In ACM Transactions on
Information Systems, 28(1): 1–38. http://psiexp.ss.uci.edu/research/papers/AT_
tois.pdf (letöltés: 2019. január 18.)
Sebők M. (szerk.) (2016): Kvantitatív szövegelemzés és szövegbányászat a politikatudo-
mányban. Budapest: L’Harmattan Kiadó.
Szabó M. K. (2014): Egy mag yar nyelvű szentimentlexikon létrehozásának tapaszta-
latai. In „Nyelv, kultúra, társadalom” konferencia, Budapest.
Szabó, M. K. – Berend, G. – Kiss, L. – Ring, O. – Vidács, L. – Kmetty, Z. (2019):
Mapping the dynamic change of the concept “industry” and “agriculture” in the
Hungarian socialist era using a word embedding model. In 2nd Annual POLTEXT
Conference, Tokyo.
Tikk, D. (szerk.) (2007): Szövegbányászat. Budapest: Typotex Kiadó.
Vijayarani, S. – Ilamathi, M. J. – Nithya, M. (2016): Preprocessing Techniques
for Text Mining - An Overview. International Journal of Computer Science and
Communication Networks, 5(1), 7-16.
... Másrészt viszont ezek a tartalmak nem minden esetben elemezhetőek a klasszikus kvalitatív és kvantitatív kutatási módszerekkel, ezért szükségesek olyan új, a digitális tér vagy egyes platformjainak vizsgálatára optimalizált módszertani megközelítések, amelyek a társadalomtudományi eszköztárat bővítik és alkalmazzák az új környezetre. Nem elhanyagolható szempont továbbá az sem, hogy sok esetben a klasszikus módszerek működésbeli hiányosságaira is megoldást adhatnak az új módszertani eszközök: a survey-k során például a válaszmegtagadás egyre nagyobb probléma, ami szintén egyre nagyobb korlátját jelenti a kvantitatív adatgyűjtésnek -a survey ilyen beszűkülésével szemben digitális adatok egyre nagyobb mennyiségben állnak rendelkezésre (Németh-Katona-Kmetty 2020), így adott esetben ezen adatok vizsgálata akár még pontosabb mérést is lehetővé tesz. ...
... A szentimentelemzés vagy véleménykivonatolás olyan módszer, amelynek célja egyrészt az, hogy a szerzői attitűdöt tükröző nyelvi elemeket detektálja, másrészt megállapítsa ezek értékét és tárgyát, különféle automatikus megoldások használatával (Szabó-Vincze 2015). Azaz a szentimentelemzés célja az, hogy kimutassa: egy adott szöveg pozitív, negatív vagy semleges jelentéssel bír, tehát mi volt a szöveg szerzőjének a tárggyal kapcsolatos álláspontja (Németh-Katona-Kmetty 2020), mint ahogyan ez ebben az alábbi példában is jól látszik (1. ábra). ...
... A szentimentelemzés, illetve az ilyen és ehhez hasonló szövegelemzési technikák a termé szetesnyelv-feldolgozás (Natural Language Processing -NLP) módszereire építenek. Ezek már egyértelműen többet jelentenek a szógyakoriság-elemzésen alapuló klasszikus kvantitatív szövegelemzésnél, továbbá a gépi tanulási paradigmán alapuló modellezési logikájuk alapvetően eltér a magyarázatot és/vagy oksági hatás kimutatását célzó klasszikus társadalomtudományi megközelítéstől (Németh-Katona-Kmetty 2020). ...
Chapter
Full-text available
tanulmány célja felvetni a háztartás működésével kapcsolatban néhány hasznosnak tűnő elméleti és empirikus kutatási szempontot. Az első részben a háztartásnak egy olyan lehetséges megközelítését vázolom fel, amely alkalmasnak látszik a háztartáson belüli folyamatok, s ezen belül a kapcsolati tőke szerepének megismerésére, illetve a szakirodalomból válogatok néhány példát, amelyek a háztartáson belüli döntési folyamatok sajátosságait szemléltetik. Ezután két példával illusztrálom, hogy milyen modellépítési megoldások kínálkoznak a háztartástagok közötti egyenlő(tlen)ség empirikus vizsgálatára.
... belső, gyakran látens tartalmának feltárása. A topikanalízis arra a hipotézisre épül, hogy minden dokumentum véges számú topikból épül fel, mely topikok az őket felépítő szavak gyakoriságeloszlásának függvényei (Németh-Katona-Kmetty 2020, Katona-Sík-Németh 2021. Három topikmodellt néztünk meg (Függelék F1. táblázat), a meghatározható topikok esetében több lehetséges topikszámra is lefuttattuk a modellt. ...
... Három topikmodellt néztünk meg (Függelék F1. táblázat), a meghatározható topikok esetében több lehetséges topikszámra is lefuttattuk a modellt. 18 Az értelmezés során figyelembe vettük a koherenciahányadost és a saliency értékeket -informativitási értéket is, amely a kifejezés gyakoriságának és a topik megkülönböztetési képességének szorzataként definiálhatunk, és azt mutatja meg, hogy egy-egy szó mennyire jellemzi az adott topikot egy másik szóhoz képest 19 (Katona-Kmetty-Németh 2020:75, Chuang-Manning-Heer 2012. ...
Article
A 2020 szeptemberében, a Labrisz Leszbikus Egyesület gondozásában kiadott Meseország mindenkié című kötet, pontosabban annak ledarálása jelentős médiavisszhangot keltett. A mesekönyvről több közéleti személyiség, politikus és pszichológus mondott véleményt, mely tagadhatatlanul formálta a nyilvánosság hozzáállását a könyvhöz. A könyv és a körülötte zajló médiavisszhang közvetve kapcsolódik ahhoz az elmúlt években egyre hangsúlyosabbá váló politikai és társadalmi diskurzushoz, ami a fiatalok, főként a gyerekek „LMBT+ propagandával” szembeni védelmét állítja középpontba. Ugyanakkor a laikus véleményekről kevesebbet tudunk, ezért elemzésünkben arra voltunk kíváncsiak, hogy mik az átlagos internetfelhasználók gondolatai és véleményei a mesekönyvvel és annak vélt vagy valós hatásával kapcsolatban. Hogyan látták ők a könyvet és a botrányt, valóban veszélyesnek tartják-e a mesekönyvet? Ahhoz, hogy ezt megtudjuk, topikelemzést végeztünk a mesekönyvvel kapcsolatos hírekre érkezett hozzászólásokon, hogy megismerjük a legjelentősebb véleménymintázatokat.
... Ez a rész több, a kutatócsoporttól független szerző tanulmánya mellett részben a témavezetőmmel, Németh Renátával és Kmetty Zoltánnal közösen írt cikkre épít, ami a Szociológiai Szemlében jelent meg(Németh-Katona-Kmetty 2020). ...
... Topic models are ideal for analyzing large unstructured collections of text (Blei, 2012;Mohr & Bogdanov, 2013;Colleoni, Rozza & Arvidsson, 2014;Németh, Katona & Kmetty, 2020). Topic models are often used in combination with other statistical tools to estimate differences between documents (Dimaggio, Nag & Blei, 2013) and identify patterns of language usage as they can highlight what people talk about (McFarland et. ...
Article
Full-text available
Gossip – talking about relevant others in their absence – is believed to constitute a large part of informal communication. The perception of the prevalence of gossip implies that it can be unambiguously identified and distinguished from other topics in spontaneous conversation. Its distinctiveness may be justified by multiple theoretical perspectives, including one that describes in-group gossip as an informal device for enforcing norms and punishing norm violators, and another that claims that gossip is used to release frustration and communicate envy. If the ultimate reason for gossip is to facilitate social bonding between the sender and the receiver, however, this would not differentiate gossip from other conversational topics that provide social enjoyment, such as entertainment and food. In a novel contribution, we explore the topics included in a corpus containing 550 hours of unfiltered spontaneous conversation and identify using LDA topic modeling whether some topics are unambiguously prominent in in-group gossip. The explorative approach is integrated with the manual annotation of instances of gossip across the entire corpus. We identified coherent topics of in-group gossip that are clearly different from those of small talk and storytelling. Our analysis finds that feelings, intentions, and opinions are frequently expressed in in-group gossip, more than habits, manners, and behavior. In-group gossip topics are characterized by more words associated with anger, in line with theoretical perspectives that attribute the motives of norm enhancement and punishment or frustration and envy to gossip.
... Így az általunk alkalmazott csoportosítási feladatok kapcsán is találhatunk példát szövegbányászati eljárásokra (Katona et al., 2021;Holecz-Szűcs, 2016;Balogh et al., 2017). Ezenkívül több magyar tudományos munka foglalkozik a szövegbányászati módszerek társadalomtudományi alkalmazásának lehetőségeivel (Boda- Sebők, 2018;Bolonyai-Sebők, 2020;Németh et al., 2020;Nyitrai, 2021;Sebők, 2016;Sebők et al., 2018;Sebők et al., 2021;Tikk, 2017). Ehhez az egyre gyarapodó irodalomhoz kívánunk mi is hozzájárulni egy specifikus szövegbányászati módszer, a topikmodellezés áttekintésével és gyakorlati alkalmazásának bemutatásával. ...
Article
Full-text available
A topikmodellezés a felügyelet nélküli tanulás egy fajtája, amelynek segítségével egy korpusz dokumentumait kategorizálhatjuk szemantikailag értelmezhető témakörök alapján kialakított csoportokba. A módszernek számos potenciális felhasználási lehetősége van a társadalomtudományok területén. Jelen tanulmány a topikmodellezés előnyeit és buktatóit tekinti át, illetve mutatja be egy kutatás példáján keresztül, amelynek során az 1990 és 2018 között elfogadott magyar törvényekből álló korpuszokból alakítottunk ki topikmodelleket. Célunk az LDA felhasználási lehetőségeinek felmérése volt. A kutatás során ciklusonként kialakított alkorpuszokon futtattunk topikmodelleket, majd az ugyanezen a korpuszon végzett kézi kódolás eredményeivel összehasonlítva értékeltük ki azokat. Eredményeink alapján az LDA más módszerekhez képest jelentősen kisebb mértékű erőforrás-befektetés mellett is alkalmas szemantikailag értelmezhető és koherens kategóriák kialakítására, amelyek a további vizsgálatok szempontjából relevánsak lehetnek. Ugyanakkor nem tanácsoljuk az algoritmus validáció nélküli használatát. A topikmodellezés elsődleges alkalmazási lehetőségét a vizsgált dokumentumok előzetes feldolgozásában, strukturálásában látjuk.
... A szövegbányászat mint társadalomkutatási módszer Bevezető előadásában Németh Renáta elkülönítette a szociológiában több évtizede használt tartalomelemzést a társadalomkutatás által nemrégiben felfedezett szö-vegbányászattól, mely az adattudomány, a mesterségesintelligencia-kutatás és a számítógépes nyelvészet területéről származik. A szövegbányászat, a természetes nyelvfeldolgozás (angolul natural language processing, NLP) és a szöveganalitika kifejezéseket bár sokszor szinonimaként használják, jelentésük mégis eltérő: a szövegbányászat során a strukturálatlan szöveges adatokat a természetesnyelv-feldolgozási algoritmusok teszik alkalmassá a különböző automatizált szöveganalitikai módszerek általi elemzésre (Németh et al. 2020). Az előadó a szövegbányászat mint társadalomtudományban alkalmazott módszer három jellemzőjét emelte ki: (1) az adattudományi jelleg miatti sajátos logikáját, melyre példa a meglévő elméletek új adatokon való vizsgálatát lehetővé tevő, a dokumentumok előzetes, kézi felcímkézésén alapuló felügyelt tanulás; (2) sajátos kutatási kérdéseit, így azt, hogy az üzleti szférából átvett, a véleményeket és érzelmeket detektáló szentiment-és emócióelemzés képes lehet például a gyűlöletbeszéd felismerésére; (3) sajátos módszereit, amelyek közül kiemelte a topikmodellezést, mely egy dokumentumgyűjtemény tipikus témáinak azonosítását tűzi ki célul, illetve a szóbeágyazást, mely a szavak jelentésének eltérését vagy hasonlóságát képes kimutatni a szavak vektortérbeli reprezentációjának segítségével. ...
... In the first step, to make the data usable, I perform a data cleansing process, removing variables that I will not use later but that 'go with' the tweets while scraping, and the text that is otherwise inappropriate, such as only spaces. On the other hand, I convert the appropriate texts to the appropriate form so that the algorithm can interpret them (Németh, Katona, & Kmetty, 2020;Denny & Spirling, 2018). Then, in the second part of the analysis, I use the Gensim package to find the best fitting and meaningful topics for each section, using both qualitative text processing and algorithmic methods. ...
Article
Full-text available
This publication aims to map the environmental sustainability discourse on Twitter. This will be achieved through two commonly used methods of natural language processing; topic modelling, which is used to uncover hidden themes in the document collection, and sentiment analysis, which is used to detect the attitudes of the authors of the text towards a particular attitude. The exploration of communication can provide an opportunity to find a solution to a multifaceted problem in order to protect our common future.
... We used topic modelling to identify the latent thematic structure of articles on Trianon and the Holocaust in the online Hungarian press. Although the use of NLP in general, and topic models in particular, is relatively new in social science and humanities research (Ignatow 2016;DiMaggio 2015;Mützel 2015;Jänicke et al. 2015;Németh, Katona, and Kmetty 2020;Németh and Koltai 2021), there are already good examples of the use of this new methodology to analyze topics connected to ours, such as memorialization (Makhortykh, Lyebyedyev, and Kravtsov 2021), political agenda (Grimmer 2010), rhetoric Quinn et al. 2010), and discourse (Gülzau 2020;Curran et al. 2018). Using topic models allows us to explore the latent structure of huge textual datasets that would not be possible manually. ...
Article
Full-text available
In our research, we examined the discursive framing of Trianon and the Holocaust in today’s Hungarian online media. Our corpus contained 26,519 articles connected to these two historical events published between September 2017 and September 2020. We used a mixed-method approach by combining computational text analysis, namely, LDA (Latent Dirichlet Allocation) topic models and qualitative methods. Our aim was not only to map the latent thematic structure and the discourses about Trianon and the Holocaust but also to identify the main differences in the rhetoric of the different sides of the political spectrum. Using Bull and Hansen’s categories, we found that the far-right and government media use the antagonistic, while the left-liberal media use the cosmopolitan mode of remembering. We identified many discursive differences between the rhetoric of the different political sides. Yet, the different relationship to emotions has the most far-reaching consequences. On the one hand, in antagonistic remembering, thus in the far-right and progovernment media, emotions play an essential role. On the other hand, cosmopolitan remembering, thus the rhetoric featured in the nongovernment media, detaches itself from emotions. This difference contributes significantly to the success of antagonistic remembering in Hungary. At the same time, the left-liberal side loses the opportunity to shape memory and identity politics.
Book
Full-text available
Bár a nyelv a társadalmi interakciók egy fontos eszköze, a kvantitatív társadalomkutatás – elsősorban adatgyűjtési és feldolgozási eszközök hiányában - mégsem használta igazán évtizedeken át. A helyzet az utóbbi évtizedben - a digitalis forradalomnak köszönhetően - gyökeresen megváltozott, a “text as data” mozgalom keretében a szöveges adat, mint empirikus társadalomkutatási bázis használata exponenciális ütemben terjed. A szöveges adatok mennyiségének és hozzáférhetőségének ez a forradalma jelentősen kiszélesítette az empirikusan vizsgálható társadalomkutatási kérdések körét: az egyének, csoportok és intézmények viselkedését, azok kölcsönhatását és időbeli dinamikáját naponta többmillió terrabyte-nyi digitális szöveg képezi le, s ez az adatvagyon a digitalizáció előrehaladtával egyre sokszorozódik. A társadalmat leíró szöveges adatok forradalmával párhuzamosan az utóbbi tíz évben a számítási kapacitások és azzal párhuzamosan az adatok elemzésére szolgáló szöveganalitikai technológiák robbanásszerű fejlődése is bekövetkezett, s az új technológiák a szöveg feldolgozásának már releváns mélységét nyújtják. Ez a robbanás a számítástudomány és számítógépes nyelvészet után a bölcsészet- és a társadalomtudományokat, így a szociológiát is elérte. A kötet ezeket az inspiráló lehetőségeket mutatja be, a természetes nyelvfeldolgozás (natural language processing, NLP) szociológiai alkalmazásaiba engedve bepillantást, az ELTE Társadalomtudományi Karán a Research Center for Computational Social Science kutatócsoportban 2018 óta folyó kutatásokon, mint esettanulmányokon keresztül. Az NLP technikai oldalának ismertetésére kiváló források állnak rendelkezésre, de a társadalomkutatási tapasztalatokat és kihívásokat kevesebb szerző tárgyalja. A társadalomkutatás alkalmazási specifikumát az adja, hogy az itt tárgyalt problémák egy évszázados kutatási paradigmába vannak ágyazva, kérdésfeltevései így lényegesen különböznek a számítástudomány vagy az ipari felhasználás kérdéseitől. Ennek a különbségnek pedig tudatában kell lennünk, amikor adaptáljuk az informatika oldaláról érkező innovációt. A könyv ideális olvasója az a társadalomkutató, aki érdeklődik a számítógépes szövegelemzés lehetőségei iránt. Ugyanakkor a társadalom empirikus megismerésének tudományos módszerei iránt érdeklődő laikusoknak is ajánlható a könyv ismeretterjesztő munkaként, hiszen a szerző konkrét példákkal szemléltet és közérthetően magyaráz.
Article
Cél: A kibertér felhasználói tömérdek elemezhető szöveges adatot hoznak létre, ahogy a látható (surface) weben, úgy a láthatatlan (deep) weben, és azon belül az anonimitásra épülő dark net platformjain is. A szövegbányászat különböző elemzési eljárásai lehetőséget kínálnak e nagy adatmennyiség (big data) automatizált elemzésére, amit számos kutató kiaknáz. Tanulmányom célja a rendészettudomány szempontjából releváns jó gyakorlatok, alkalmazási példák áttekintése, bemutatása.Módszertan: A szövegbányászat társadalomtudományban való elterjedésének újszerűsége miatt kutatásom során a kurrens szakirodalom feldolgozására specializálódott, úgynevezett state-of-the-art szakirodalomelemzést alkalmaztam, melynek célja az adott kutatási terület új perspektíváinak bemutatása.Megállapítások: A nemzetközi szakirodalomban megjelennek például a legálisillegális tartalmak klasszifikációját célzó nyelvmodellek, melyek megerősítik a dark net kettős felhasználhatóságáról szóló elméletet. Az illegális kereskedelmi tevékenységet (is) végző dark netes kriptomarketek élete jellemzően a rendvédelmi szervek beavatkozásával, bezárással végződik, ahogy történt az a Silk Road nevű kriptomarkettel is 2013-ban. A bezárásokat követő felhasználói aktivitás trendjeit elemző topikmodellezési eljárások segítséget nyújthatnak e rendészeti beavatkozások értékelésében.Érték: A tanulmány e példák bemutatásával a szövegbányászat mint kutatási módszer rendészettudományi kiaknázásában rejlő lehetőségeket világítja meg.
Article
Full-text available
Data mining is used for finding the useful information from the large amount of data. Data mining techniques are used to implement and solve different types of research problems. The research related. It is also called knowledge discovery in text (KDT) or knowledge of intelligent text analysis. Text mining is a technique which extracts information from both structured and unstructured data and also finding patterns. Text mining techniques are used in various types of research domains like natural language processing, information retrieval, text classification and text clustering.
Article
Full-text available
A digitális adatrögzítés, a közösségi média, a dolgok internete (Internet of Things, IoT) és összességében a digitalizáció olyan mennyiségű adatot generált, ami korábban elképzelhetetlen lett volna. Az adattudomány teljesen új perspektívája nyílt meg, amelynek a lehetőségei és a határai sem láthatóak még. Mivel a nagy adatbázisok (Big Data) feldolgozásának képessége nem része általában a szociológusok standard eszköztárának, más tudományterületek képviselői (például a fizikusok), aktív résztvevőivé váltak a társadalomtudományi Big Data-kutatásoknak, továbbá olyan új szakmák is kialakultak, mint az adattudósé. De az adatok keletkezésének megértése és a jó kutatási kérdések feltevése a Big Data-paradigmán belül is elengedhetetlen ahhoz, hogy új tudományos eredményekhez jussunk. A társadalomtudósok rengeteg tudást felhalmoztak a világról, tudják mik a társadalom strukturálódásának mozgatórugói, sokat tudnak az emberi viselkedésről is. Ezt a tudást fel kell használni a kutatási kérdéseink megfogalmazásához, annak érdekében, hogy a társadalom Big Data-alapú vizsgálatában előre tudjunk lépni.
Conference Paper
The analysis of social discourses from the perspective of historical changes deserves special attention. Such a study could play a key role in revealing social changes and understanding the underlying social dynamic in a given period. Mostly qualitative approaches were used previously to perform such an analysis. In our paper we present a new way of mapping social changes using an advanced NLP method called word embedding. As sociolinguists have established, the language a group uses mirrors the group’s cultural frame of mind (Kozlowski et al. 2018). These texts can inform us about the thinking and feelings of people (Evans, Aceves 2016). Based on word similarities we can understand the main structural frames of a given system and using a dynamic approach (Bamler, Mandt 2017) we can extract the changes of status of people in the network and reveal the social changes in a historical period (Hamilton et al. 2016; Garg et al. 2018). In our study we create a large corpus from the Hungarian ‘Pártélet’ journal (1956-1989). This was the official journal of the governing party, hence it represents not just the media discourse of the era, but the official discourse of the government, too. One of the main focal points of our research is to study the evolution of the semantic content of some of the concepts related to the topics of agriculture and industry, which are two central notions of the examined era.
Article
Contemporary dictionary-based approaches to sentiment analysis exhibit serious validity problems when applied to specialized vocabularies, but human-coded dictionaries for such applications are often labor-intensive and inefficient to develop. We demonstrate the validity of “minimally-supervised” approaches for the creation of a sentiment dictionary from a corpus of text drawn from a specialized vocabulary. We demonstrate the validity of this approach in estimating sentiment from texts in a large-scale benchmarking dataset recently introduced in computational linguistics, and demonstrate the improvements in accuracy of our approach over well-known standard (nonspecialized) sentiment dictionaries. Finally, we show the usefulness of our approach in an application to the specialized language used in US federal appellate court decisions.
Article
Despite the popularity of unsupervised techniques for political science text-as-data research, the importance and implications of preprocessing decisions in this domain have received scant systematic attention. Yet, as we show, such decisions have profound effects on the results of real models for real data. We argue that substantive theory is typically too vague to be of use for feature selection, and that the supervised literature is not necessarily a helpful source of advice. To aid researchers working in unsupervised settings, we introduce a statistical procedure and software that examines the sensitivity of findings under alternate preprocessing regimes. This approach complements a researcher’s substantive understanding of a problem by providing a characterization of the variability changes in preprocessing choices may induce when analyzing a particular dataset. In making scholars aware of the degree to which their results are likely to be sensitive to their preprocessing decisions, it aids replication efforts.
Conference Paper
The recently introduced continuous Skip-gram model is an efficient method for learning high-quality distributed vector representations that capture a large num- ber of precise syntactic and semantic word relationships. In this paper we present several extensions that improve both the quality of the vectors and the training speed. By subsampling of the frequent words we obtain significant speedup and also learn more regular word representations. We also describe a simple alterna- tive to the hierarchical softmax called negative sampling. An inherent limitation of word representations is their indifference to word order and their inability to represent idiomatic phrases. For example, the meanings of “Canada” and “Air” cannot be easily combined to obtain “Air Canada”. Motivated by this example,we present a simplemethod for finding phrases in text, and show that learning good vector representations for millions of phrases is possible.
Article
More of the social world lives within electronic text than ever before, from collective activity on the web, social media, and instant messaging to online transactions, government intelligence, and digitized libraries. This supply of text has elicited demand for natural language processing and machine learning tools to filter, search, and translate text into valuable data. We survey some of the most exciting computational approaches to text analysis, highlighting both supervised methods that extend old theories to new data and unsupervised techniques that discover hidden regularities worth theorizing. We then review recent research that uses these tools to develop social insight by exploring (a) collective attention and reasoning through the content of communication; (b) social relationships through the process of communication; and (c) social states, roles, and moves identified through heterogeneous signals within communication. We highlight social questions for which these advances could offer powerful new insight.