Content uploaded by Stefano Cresci
Author content
All content in this area was uploaded by Stefano Cresci on Aug 26, 2017
Content may be subject to copyright.
113
I BIG DATA NELLA RICERCA
POLITICA E SOCIALE
STEFANO CRESCI, FABIO DEL VIGNA, MAURIZIO TESCONI
1. La rivoluzione del web sociale
e l’avvento dei Social Media
Nell’ultimo decennio il web ha subito una vera e propria rivo-
luzione, causata principalmente dall’avvento di numerose piat-
taforme sociali, come social network site e social media, che
hanno consentito agli utenti stessi delle piattaforme di creare
e condividere contenuti online. Questo connubio di piattaforme
di condivisione e di contenuti generati ‘dal basso’ ha stimolato
gli utenti del web a interfacciarsi con frequenza sempre maggio-
re gli uni con gli altri, col fine di scambiare contenuti di natura
testuale (post, blog, messaggi) e multimediale (foto, video). Og-
gigiorno, piattaforme sociali come Facebook, Twitter, Instagram
e YouTube contano un elevatissimo numero di utenti attivi e di
contenuti prodotti. Gli utenti di queste piattaforme discutono di
una moltitudine di temi, dallo sport alla musica, toccando tut-
to ciò che desta il loro interesse, politica compresa (Trottier e
Fuchs2014b). La caratteristica dei social media di veicolare i
pensieri e gli interessi di una moltitudine di utenti, su una mol-
titudine di temi diversi, ha stimolato nel corso degli anni ricer-
catori ed imprenditori, che si sono sbizzarriti nel tentativo di
sfruttare questa enorme mole di dati per una miriade di scopi,
tra cui: il monitoraggio di epidemie (Lampos e Cristianini2012)
e, più in generale, della salute pubblica (Del Vignaetal. 2016),
la gestione di situazioni di emergenza (Avvenuti et al. 2014,
2015, 2016), la lotta alla criminalità (Yar 2012), il giornalismo
Questo e-book appartiene astefano.cresciiit.cnr.it 17073116-0758-0049-8409-g8k7o2x4lao6
114
STEFANO CRESCI, FABIO DEL VIGNA, MAURIZIO TESCONI
partecipativo (Poell e Borra 2012), il marketing (Tuten e Solo-
mon 2014), e tanti altri. I dati social hanno suscitato notevole
interesse anche per analisi di natura politica e sociologica. Sono
infatti stati analizzati nel tentativo di effettuare previsioni sugli
esiti elettorali (Ceron et al. 2014; Schoen et al. 2013), come
anche per comprendere le opinioni delle folle riguardo i temi poli-
tici più rilevanti (Tumasjanet al. 2010; Berminghame Smeaton
2011). I risultati di questi esperimenti sono però stati spesso
interlocutori, inconcludenti, o in contrasto con risultati prece-
denti (O’Connor et al. 2010; Gayo-Avello2012). Le problemati-
che emerse in numerosi studi afferenti a vari ambiti applicativi,
ed in modo particolare all’ambito politico, sono un indice delle
difficoltà che si incontrano nell’eseguire analisi accurate sui dati
social che sono, per loro natura, in costante evoluzione e molto
‘rumorosi’. In altre parole, le informazioni utili per un’analisi sono
spesso sommerse da una moltitudine di altri dati non interes-
santi, o nella peggiore delle ipotesi, addirittura fuorvianti.
In questo capitolo introdurremo quindi le caratteristiche e le
peculiarità dei dati social. Ci soffermeremo sulle criticità relative
alla raccolta e all’analisi di tali dati, approfondendo alcune meto-
dologie che permettono di utilizzare i dati social per effettuare
analisi predittive o comprendere fenomeni di ampio impatto so-
ciale. La discussione sviluppata nel prosieguo di questo capitolo
si propone di illustrare la metodologia utilizzata per le analisi
contenute in questo volume e farà quindi particolare riferimento
allo scenario delle elezioni regionali della Toscana 2015.
2. Facebook, Twitter ed il mondo dei Big Data
Le piattaforme che permettono l’interazione tra gli utenti online,
la pubblicazione di contenuti, e quindi lo scambio di informazioni,
sono dette social media e, tra queste, di particolare rilevanza
sono i social network (Kaplan e Haenlein 2010). I social network
permettono infatti agli utenti di creare dei propri profili virtuali,
contenenti informazioni personali come nome, età, sesso, impie-
go, interessi, e di interfacciarsi con gli altri utenti del servizio
Questo e-book appartiene astefano.cresciiit.cnr.it 17073116-0758-0049-8409-g8k7o2x4lao6
115
I BIG DATA NELLA RICERCA POLITICA E SOCIALE
secondo le dinamiche previste dalla piattaforma. Tipicamente,
queste dinamiche prevedono l’instaurarsi di relazioni di amicizia
‘virtuali’, unidirezionali o bidirezionali, che consentono una mag-
giore visibilità dei contenuti pubblicati e più facilità d’interazione
tra gli utenti connessi.
Facebook è il social network più diffuso in Italia e nel mondo
con una comunità di oltre 1,8 miliardi di utenti1. Vista la sua am-
pia penetrazione, è molto considerato per le campagne di mar-
keting e di opinion mining (Liu e Zhang 2012) e la maggior parte
dei brand e personaggi pubblici come politici, cantanti, sportivi,
attori, hanno una pagina dedicata o un profilo personale sul so-
cial network per mantenere il contatto con la propria fan base.
Twitter, fondato da Jack Dorsey nel 2006, è una piattaforma di
microblogging (in altre parole, una piattaforma progettata per
la condivisione di brevi messaggi) con più di 313 milioni di utenti
attivi al mese ed oltre 500 milioni di nuovi messaggi condivisi
ogni giorno (dati di giugno 2016)2. Peculiarità di Twitter è la
possibilità lasciata agli utenti di poter pubblicare messaggi di
testo lunghi al massimo 140 caratteri (quindi piuttosto brevi),
detti ‘tweet’ (cinguettii). Al contrario di Facebook, molto restrit-
tivo in fatto di privacy utenti, Twitter ospita per lo più profili con
visibilità pubblica. Vale a dire che su Twitter le informazioni per-
sonali di un utente, come anche i contenuti da lui generati, sono
di base pubblicamente visibili a tutti. Paragonato a Facebook,
Twitter ospita un numero di utenti e messaggi significativamente
inferiore. I messaggi condivisi su Twitter sono però contraddi-
stinti dal fatto di essere spesso generati in tempo reale con gli
avvenimenti che descrivono (Becker etal.2011; Sakaki et al.
2013), anche in situazioni di campagna elettorale ed elezioni po-
litiche (Wang et al. 2012). Su Twitter, infatti, gli utenti tendono
a parlare di cosa stia accadendo loro e di quello che li circonda.
L’enorme mole di utenti presente globalmente su Facebook, as-
1 https://www.facebook.com/zuck/videos/10103225611545401/.
2 https://about.twitter.com/it/company.
Questo e-book appartiene astefano.cresciiit.cnr.it 17073116-0758-0049-8409-g8k7o2x4lao6
116
STEFANO CRESCI, FABIO DEL VIGNA, MAURIZIO TESCONI
sieme alla natura real-time dei dati Twitter, peraltro pubblica-
mente accessibili, rende ad oggi questi due social network i più
analizzati al mondo, ed i dati in essi contenuti, quelli di maggior
valore economico3.
I numeri di utenti e di contenuti condivisi nei social media
come Facebook e Twitter aiutano a comprendere l’enorme mole
di dati che viene quotidianamente generata su queste e altre
piattaforme. Di fatto, oggi, molte delle nostre interazioni inter-
personali e con l’ambiente che ci circonda lasciano delle tracce
digitali e contribuiscono ad accrescere la mole di dati prodotta4.
Negli ultimi anni questi dati sono cresciuti talmente tanto da
dare luogo ad una serie di problematiche tecniche e scientifi-
che, relative alla raccolta, all’immagazzinamento e all’analisi dei
dati (Tan et al. 2013) completamente nuove, tanto da aprire
nuove direttrici di ricerca e a sancire la nascita del fenomeno
dei ‘Big Data’ (Chen et al. 2014a). Queste problematiche sono
talmente critiche da richiedere costanti investimenti in ricerca
e sviluppo da parte delle piattaforme di social networking per il
mantenimento delle proprie infrastrutture e per assicurarsi di
poter continuare ad erogare efficientemente i propri servizi agli
utenti. Il concetto chiave che guida la rivoluzione dei Big Data, e
che ne rappresenta un vero e proprio mantra, è quello della sca-
labilità. In questo contesto, con scalabilità si intende la capacità
di un sistema informatico (comprensivo di componenti hardware
e software) di crescere ed adattarsi in funzione delle necessità
operative, riuscendo sempre a garantire le funzionalità ed i ser-
vizi richiesti. Per comprendere meglio il problema, basti pensare
che anche le operazioni più semplici sui dati possono richiedere
tempi di esecuzione lunghissimi, se la mole di dati da trattare
cresce a dismisura. Per poter sopravvivere e funzionare effi-
cientemente, i social network richiedono quindi un approccio ai
3 https://www.forbes.com/sites/georgeanders/2013/11/07/a-twit-
ter-user-is-worth-110-facebooks-98-linkedins-93/.
4 http://areaperta.pi.cnr.it/big-data-siamo-tutti-pollicini-digitali/.
Questo e-book appartiene astefano.cresciiit.cnr.it 17073116-0758-0049-8409-g8k7o2x4lao6
117
I BIG DATA NELLA RICERCA POLITICA E SOCIALE
dati significativamente diverso rispetto a quanto fatto finora,
che richiede un ripensamento di tutte le tecniche più comune-
mente impiegate sino ad oggi (Millham e Thakur2016). Le pro-
blematiche dei Big Data non sono però confinate esclusivamente
all’élite di gestori di social network. Dal momento che la grande
mole di dati generata su piattaforme come Facebook e Twitter
viene continuamente analizzata da una moltitudine di soggetti e
strumenti, anche chi è interessato ai risultati di queste analisi
e alla conoscenza che è possibile ricavare dall’analisi dei social
deve necessariamente affrontare la sfida dei Big Data, seppur
con le dovute proporzioni.
3. I Big Data: un nuovo modo di guardare ai dati
Per comprendere le criticità relative alla raccolta, all’immagaz-
zinamento e all’analisi dei Big Data, è utile soffermarsi sulle
caratteristiche che rendono questo fenomeno così ‘disruptive’
rispetto ai precedenti metodi di gestione ed elaborazione dei
dati. I Big Data infatti esibiscono alcune caratteristiche pecu-
liari, individuabili attraverso le cosiddette ‘3 V’5, introdotte dal
report Gartner per i dati (Laney 2001) e poi adottate dalle prin-
cipali aziende informatiche (Zikopoulos e Eaton 2011; Benna-
to2015):
• Velocità: data l’alta dinamicità delle sorgenti dati (i social
network site sono appunto una di queste), i Big Data
vengono prodotti con ritmi elevatissimi. Questo comporta
delle complicazioni sia per quanto riguarda l’elaborazione
dei dati, che per quello che concerne il loro immagaz-
zinamento che deve essere sufficientemente rapido da
permettere il salvataggio di tutte le informazioni e il loro
recupero in tempi ragionevoli. Alcune soluzioni a costi mo-
derati sfruttano la parallelizzazione delle scritture e lettu-
5 http://www.forbes.com/sites/oreillymedia/2012/01/19/volume-ve-
locity-variety-what-you-need-to-know-about-big-data/2/#7f0443d87c1d.
Questo e-book appartiene astefano.cresciiit.cnr.it 17073116-0758-0049-8409-g8k7o2x4lao6
118
STEFANO CRESCI, FABIO DEL VIGNA, MAURIZIO TESCONI
re da più dischi, possibilmente configurati in RAID6, o ba-
sati su tecnologie più rapide dei dischi magnetici, come ad
esempio i dischi a stato solido (SSD). Va da sé che, data
l’alta velocità con cui i dati vengono prodotti dalle sorgenti
di Big Data, anche la raccolta dati necessita di un’alta ve-
locità, almeno quanto quella delle sorgenti da cui vengono
prodotti (Zikopoulos e Eaton 2011). In fase di raccolta
dati, tipicamente questa velocità è raggiungibile campio-
nando i dati o selezionandone soltanto un sottoinsieme,
per esempio profilando soltanto un gruppo di utenti di un
social network, come un soggetto politico o una testata
giornalistica. Inoltre l’alta velocità dei dati deve essere
gestita da tutti quei componenti che agiscono in sincronia
con i dati in arrivo, come ad esempio le analisi dei flussi in
tempo reale (Katal et al. 2013).
• Volume: questa caratteristica è insita nel nome stesso
di Big Data. I Big Data sono tali appunto perché supera-
no per volume la capacità di stoccaggio di qualsiasi disco
o computer e le capacità di calcolo dei normali sistemi di
database, richiedendo opportuni accorgimenti per esse-
re immagazzinati efficientemente (Chen et al. 2014b).
Tipicamente i dati richiedono di essere frammentati in
blocchi e distribuiti su più unità di elaborazione, e ne-
cessitano di particolari tecniche per poter essere elabo-
rati senza provocare il collasso delle reti e delle server
farm. Non è formalmente definita la soglia che separa il
concetto di Big Data dalla gestione dati più tradizionale
nell’informatica, anche se in genere la quantità di dati
che tipicamente si associa a questo problema è dell’ordi-
ne dello zettabyte7.
6 https://it.wikipedia.org/wiki/RAID.
7 Nel sistema internazionale di unità di misura, lo zettabyte (ZB)
è un’unità di misura della quantità di dati ed è pari a 1021 (un triliardo)
di bytes.
Questo e-book appartiene astefano.cresciiit.cnr.it 17073116-0758-0049-8409-g8k7o2x4lao6
119
I BIG DATA NELLA RICERCA POLITICA E SOCIALE
• Varietà: le sorgenti di Big Data come i social network
site, le compagnie di telecomunicazioni, il web, ecc., pro-
ducono dati tra loro eterogenei. Tipicamente il processo
di analisi dei dati include fonti diverse, sia per confronto
che per completezza. L’analisi dei dati deve quindi tenere
in considerazione le diversità e prevedere meccanismi che
rendano i dati fruibili nonostante le difformità dei formati,
delle codifiche, degli standard utilizzati, della lingua ecc.
Questa unione, comunemente indicata in gergo tecnico
con il termine di ‘data fusion’, richiede degli sforzi per uni-
formare i dati in modo da facilitare la loro elaborazione.
Questa operazione è effettuata di solito in modo traspa-
rente alle sorgenti dati, ma richiede un notevole sforzo
in termini di computazione per ottenere una buona pre-
parazione dei dati (Zheng 2015). È in genere un’opera-
zione costosa, che può essere effettuata sia durante la
raccolta dei dati che a posteriori prima dell’utilizzo delle
informazioni. La preparazione dei dati incide in modo signi-
ficativo sulla qualità (e in molti casi anche sulla velocità)
delle analisi e pertanto deve essere particolarmente cu-
rata. I Big Data rendono però questa fase difficoltosa a
causa dell’immensa potenza di calcolo richiesta. Approcci
comuni prevedono di uniformare per quanto possibile i dati
già in fase di raccolta e procedere con delle aggregazio-
ni (ad esempio passare da una granularità oraria ad una
granularità giornaliera o settimanale) di informazioni per
ridurre la complessità dei dati prima delle analisi (Geor-
geet al.2014).
Chiaramente i dati generati all’interno dei social network site,
con i loro milioni (per quanto riguarda Facebook, addirittura mi-
liardi) di utenti, rispettano tutte queste proprietà. Lingue diver-
se con codifiche dei caratteri diverse convivono all’interno della
stessa piattaforma, gli utenti postano costantemente materiale
multimediale, con formati che cambiano da file a file. Gli stessi
formati dei file, oggetto di costante evoluzione, cambiano cau-
sando problemi di compatibilità tra le versioni. Inoltre, anche
Questo e-book appartiene astefano.cresciiit.cnr.it 17073116-0758-0049-8409-g8k7o2x4lao6
120
STEFANO CRESCI, FABIO DEL VIGNA, MAURIZIO TESCONI
per motivi prestazionali, i dati dei social network site vengono
immagazzinati in gruppi di server (server farm) dislocate in luo-
ghi geografici strategici, per ridurre la latenza e diminuire i costi
di raffreddamento delle apparecchiature. Tipicamente per motivi
di sicurezza i dati vengono anche replicati, ma accade sovente
che le copie di un dato sparse per il mondo non siano perfetta-
mente aggiornate tra loro, specie per i dati più recenti, per i
quali la propagazione dell’aggiornamento non è ancora avvenuta.
Questo conduce a situazioni in cui un dato può avere forme e
contenuti diversi a seconda del luogo da cui lo si raccoglie per
cui, ad esempio, una campagna elettorale sui social network site
osservata dall’Europa può inizialmente apparire diversa da come
è vista in USA, almeno finché tutte le copie dei dati non sono tra
loro sincronizzate.
Come si evince a questo punto, qualsiasi analisi da effet-
tuarsi su dati provenienti da social media deve necessariamen-
te prendere in considerazione queste problematiche legate ai
Big Data, onde evitare che i propri sistemi di raccolta o analisi
collassino sotto l’ingente mole di dati, e siano invece robusti a
sufficienza da garantire un risultato sufficientemente accurato
anche in caso di errori o guasti a parte dei sistemi. La proget-
tazione dei sistemi di raccolta dati da social network site si
basa molto su aspetti legati alla ridondanza, per evitare che
fallimenti di parti del sistema provochino la perdita di informa-
zioni. Da questo punto di vista, considerato che il dato è il bene
più prezioso che il social network site possa offrire, le perdite
devono essere quanto più possibile minimizzate. Dati completi
permettono infatti analisi più dettagliate e hanno quindi mag-
gior valore da un punto di vista decisionale. Per una più rapida
gestione delle analisi, invece, le odierne tecniche e algoritmi si
sono orientati per la maggior parte al calcolo parallelo e distri-
buito, che permette una ripartizione del carico computazionale
su più nodi di elaborazione ed evita di trasferire i dati da un
nodo all’altro.
Questo e-book appartiene astefano.cresciiit.cnr.it 17073116-0758-0049-8409-g8k7o2x4lao6
121
I BIG DATA NELLA RICERCA POLITICA E SOCIALE
4. La raccolta dei dati da social media
Le analisi delle elezioni regionali della Toscana 2015 discusse
in questo volume sono largamente basate su dati raccolti da
social media. Per reperire i dati necessari a condurre le analisi,
si è dovuto quindi affrontare e superare tutte le criticità tipiche
dei Big Data, introdotte nella precedente sezione. In questa se-
zione verranno descritte le metodologie e gli strumenti utilizzati
per la raccolta dati, con particolare riferimento alle tecniche
che hanno consentito il superamento delle criticità riscontrate.
La raccolta dei dati generati ed ospitati sui social media viene
effettuata mediante una procedura che prende il nome di ‘social
media crawling’ (Chau et al. 2007). La raccolta dati vera e pro-
pria è eseguita da uno o più agenti software chiamati crawler.
Un crawler è quindi un piccolo programma specializzato nella
raccolta di un particolare tipo di dato (ad esempio le informazioni
del profilo di un determinato account) da un particolare social
media. A causa di questa elevata specializzazione del softwa-
re, emerge una prima criticità legata alla necessità di racco-
gliere molti dati da diverse piattaforme social. Di fatto, questo
scenario rappresenta un ottimo esempio dei problemi legati alla
varietà dei Big Data. Nell’ambito di #Toscana 15 è stato infat-
ti necessario raccogliere dati su utenti, relazioni di amicizia e
contenuti prodotti, sia da Facebook che da Twitter. Per reperire
tutti i dati richiesti per le analisi è stato quindi necessario predi-
sporre una serie di crawler diversi, specializzati nella raccolta di
informazioni di diversa natura.
Dal punto di vista applicativo, i crawler vanno tipicamente in
esecuzione su un computer o un server locale, o comunque su
una macchina gestita da chi sta raccogliendo i dati. Da questa
macchina, i crawler effettuano una serie di richieste8 alla piatta-
forma che detiene i dati da raccogliere, salvando poi i dati otte-
nuti sulla macchina stessa, solitamente in un database o su file.
8 Più precisamente, si tratta di richieste HTTP: https://it.wikipe-
dia.org/wiki/Hypertext_Transfer_Protocol.
Questo e-book appartiene astefano.cresciiit.cnr.it 17073116-0758-0049-8409-g8k7o2x4lao6
122
STEFANO CRESCI, FABIO DEL VIGNA, MAURIZIO TESCONI
Per ottenere un dato è quindi necessario effettuare una richiesta
(gratuita), con opportuni parametri, a una piattaforma social. L’in-
sieme di richieste, con i relativi parametri, che è possibile effet-
tuare ad una piattaforma social è definito dalle cosiddette ‘API’ di
quella piattaforma. Le API (Application Programming Interface)
sono le interfacce applicative che i crawler possono utilizzare per
interagire con la piattaforma. Ogni piattaforma fornisce un pro-
prio insieme di API, specifiche per i dati e le operazioni che è pos-
sibile compiere sulla piattaforma stessa. Le API di una piattafor-
ma social rappresentano l’unico punto di accesso alla piattaforma
(e ai suoi dati) e l’unico modo con cui è possibile interagirvi in
maniera automatica. L’insieme di dati che è possibile raccogliere
da uno specifico social media è quindi determinato dalle API che
quel social media mette a disposizione degli sviluppatori. Questo
rappresenta un’ulteriore possibile limitazione alla fase di raccolta
dati. Infatti, se un social media non rende disponibile un’API per
la raccolta di un particolare tipo di dato (ad esempio, la lista degli
amici di un account Facebook), non è teoricamente possibile rac-
cogliere in modo automatico, e quindi utilizzare in fase di analisi,
quel dato. Consultando la documentazione delle API di un social
media, esposta in appositi siti web gestiti dagli amministratori del
social media stesso, è possibile determinare quali dati vengano
liberamente rilasciati dal social e quali invece risultino di fatto
inaccessibili. Dalla documentazione è altresì possibile capire come
comporre ed effettuare una richiesta al social media per avere
accesso al dato richiesto.
Ogni social media che espone un’API si fa quindi carico di ri-
spondere e gestire le eventuali richieste che riceve tramite le
sue API. Dal momento che la gestione delle molte richieste che
arrivano a social media popolari quali Facebook e Twitter com-
portano un costo computazionale per elaborare e soddisfare la
richiesta, tutti i social media impongono delle limitazioni al nu-
mero di richieste che è possibile effettuare. Queste restrizioni
prendono il nome di ‘rate limit’ e si esplicano tipicamente in un
numero massimo di richieste che è possibile effettuare per uni-
tà di tempo. Per consentire un tracciamento delle richieste ef-
Questo e-book appartiene astefano.cresciiit.cnr.it 17073116-0758-0049-8409-g8k7o2x4lao6
123
I BIG DATA NELLA RICERCA POLITICA E SOCIALE
fettuate è solitamente anche necessario autenticarsi per poter
utilizzare le API. I rate limit di una determinata API si applicano
quindi all’account autenticato. In altre parole, ogni account ha la
possibilità di effettuare un certo numero di richieste in un certo
intervallo temporale. Esaurito questo numero, quell’account non
potrà più effettuare richieste di quel tipo fintanto che non sarà
passato un certo lasso temporale. Lo stesso account potrà co-
munque effettuare richieste di diversa tipologia. I rate limit (inte-
si come numero massimo di richieste, lasso di tempo all’interno
del quale viene conteggiato questo numero, tempo di attesa dopo
il raggiungimento del massimo numero di richieste ecc.) variano
da social media a social media e, anche all’interno delle API di un
determinato social media, possono variare a seconda delle diffe-
renti tipologie di richieste. Tutte queste informazioni sono espo-
ste nella documentazione delle API. I rate limit di un determinato
social media rappresentano un’altra potenziale limitazione alla
fase di raccolta dati. I volumi di dati da raccogliere, tipici dei Big
Data, impongono infatti di dover effettuare numerose richieste
per poter raccogliere tutti i dati necessari. Nel processo di social
media crawling è quindi di primaria importanza saper gestire cor-
rettamente i rate limit, superando il trade-off legato al rispetto
delle limitazioni imposte dalle piattaforme social, massimizzando
però al contempo la quantità di dati raccolti.
Terminata questa introduzione sulla metodologia di raccolta
dati da social media e sulle principali criticità da affrontare, pas-
siamo ora a descrivere più in dettaglio le API offerte da Face-
book e Twitter. Facebook offre agli sviluppatori una API denomi-
nata Graph API9 con la quale è possibile reperire le informazioni
dal social network site. Come molte delle API social, anche la
Graph API richiede l’autenticazione dell’utilizzatore mediante il
protocollo OAuth 210 e restituisce risultati limitati alla portata
della chiave utilizzata. In altre parole, le interrogazioni all’API
9 https://developers.facebook.com/docs/graph-api.
10 https://oauth.net/2/.
Questo e-book appartiene astefano.cresciiit.cnr.it 17073116-0758-0049-8409-g8k7o2x4lao6
124
STEFANO CRESCI, FABIO DEL VIGNA, MAURIZIO TESCONI
restituiscono gli stessi dati che l’utente autenticato potrebbe
vedere utilizzando l’interfaccia web di Facebook. Questo implica
che l’utilizzatore non possa reperire le informazioni di utenti che
non rientrano nella sua cerchia di amici o che non hanno un pro-
filo ‘aperto’, cioè pubblicamente visibile. Da questo punto di vi-
sta, le pagine dei personaggi politici Italiani, oggetto delle nostre
analisi, sono pubbliche, per cui risulta possibile raccogliere le
informazioni inerenti la loro pagina, i post prodotti, ed i commen-
ti degli utenti ai post (da notare come la visibilità dei commenti
dipenda da quella della pagina, e non dalle impostazioni dei singoli
utenti che hanno commentato).
Twitter supporta invece la raccolta dati con due importanti
famiglie di API che permettono di ottenere dati con due approc-
ci opposti: le API cosiddette REST (Fielding 2000), e le API
Streaming. La principale differenza tra le due famiglie è relativa
alla connotazione temporale dei dati che è possibile recuperare.
Tramite le API REST è infatti possibile recuperare dati condivi-
si dal momento dell’invocazione dell’API fino ad un determinato
momento passato. Vale a dire che le API REST consentono di
recuperare dati ‘storici’, cioè dati già presenti nel momento in
cui si inizia la raccolta. Le API Streaming invece consentono la
raccolta di dati ‘futuri’, cioè dei dati che verranno prodotti dal
momento dell’invocazione dell’API in poi. Nel prosieguo, ci con-
centreremo in modo particolare sui tipi di richieste che consen-
tono la raccolta di tweet:
• Search API11: API di tipo REST che consente la raccolta di
tweet condivisi recentemente, selezionati in base ad alcuni
parametri di ricerca (ad esempio, una parola chiave o un
hashtag). Si comporta in modo molto simile alla casella di
ricerca nell’applicazione web di Twitter. Una prima limita-
zione di questa API è relativa alla possibilità di raccogliere
tweet non più vecchi di una settimana. Inoltre, questa API
non garantisce la completezza dei risultati della ricerca.
11 https://dev.twitter.com/rest/public/search.
Questo e-book appartiene astefano.cresciiit.cnr.it 17073116-0758-0049-8409-g8k7o2x4lao6
125
I BIG DATA NELLA RICERCA POLITICA E SOCIALE
Infatti, l’insieme di tweet restituiti comprende solo un sot-
toinsieme, indicizzato da Twitter, di tutti i tweet prodotti
globalmente. Con una singola richiesta è possibile recupe-
rare fino ad un massimo di 100 tweet. Di conseguenza, se
il numero di tweet da recuperare è molto grande, saranno
necessarie numerose richieste consecutive prima di termi-
nare la raccolta dei dati. Come tutte le API REST, la Se-
arch API ha dei limiti di utilizzo relativi al numero massimo
di richieste che si possono effettuare per unità di tempo.
Tutt e queste caratteri s t i che rendono la Search API piu t -
tosto limitante in quei casi in cui si renda necessario un
monitoraggio ad ampio spettro di Twitter. La limitazione sul
numero massimo di 100 tweet per richiesta, unitamente
ai rate limit (numero di richieste per unità di tempo), può
risultare particolarmente restrittiva qualora si vogliano re-
cuperare tweet relativi ad argomenti di discussione popo-
lari. In questi casi infatti, è probabile che vengano prodotti
centinaia di tweet al minuto, una ‘velocità’ dei dati a cui non
è possibile far fronte con questa API. La Search API può
comunque rivelarsi utile per recuperare tweet relativi ad
eventi non prevedibili, dal momento che è possibile iniziare
la raccolta dati anche ad evento già verificatosi, purché si
inizi con non più di una settimana di ritardo.
• Streaming API12: consente la raccolta di tweet, secon-
do opportuni parametri di ricerca, che verranno condivisi
dal momento della richiesta in poi. In particolare, una vol-
ta effettuata la richiesta, viene creata una connessione
persistente con i server Twitter. Questa connessione ver-
rà utilizzata da Twitter per inviare al crawler tutti i nuovi
tweet che risponderanno ai parametri di ricerca. A meno
di problemi tecnici (ad esempio, perdita di connettività) o di
rate limit, la connessione rimane aperta a tempo indefinito.
Tipicamente è il crawler stesso a chiudere la connessione
12 https://dev.twitter.com/streaming/overview.
Questo e-book appartiene astefano.cresciiit.cnr.it 17073116-0758-0049-8409-g8k7o2x4lao6
126
STEFANO CRESCI, FABIO DEL VIGNA, MAURIZIO TESCONI
una volta che si ritenga di aver raccolto una quantità di
dati sufficientemente grande. A differenza della API REST,
tutti i tweet che rispondono ai criteri di ricerca, e non sol-
tanto un sottoinsieme, vengono raccolti dal crawler. Emer-
ge quindi una prima, macroscopica, differenza rispetto alle
API di tipo REST: in questo caso è sufficiente effettuare
una sola richiesta per avere potenzialmente accesso ad
una quantità di tweet grande a piacere, purché si lasci
aperta la connessione per un tempo sufficientemente lun-
go. È ovvio che i rate limit introdotti per le API REST, ovve-
ro limitazioni al numero di richieste per unità di tempo, non
abbiano senso in questo contesto dal momento che soli-
tamente è sufficiente eseguire una sola richiesta alla API
Streaming. Per regolare il funzionamento della Streaming
API, Twitter ha però introdotto due nuove limitazioni. Una
prima limitazione è relativa al volume massimo di traffico
che è possibile generare con una connessione. Fino a poco
tempo fa, la documentazione ufficiale di Twitter riporta-
va questo limite come pari all’1% del suo traffico globale.
Vale a dire che, se in un determinato momento, un crawler
in ascolto su una connessione alla Streaming API avesse
generato un volume di tweet superiore all’1% del traffi-
co mondiale (ad esempio perché in ascolto su moltissime
keyword popolari), Twitter avrebbe consegnato quell’1%
di tweet, escludendo l’eccesso e notificando il crawler del
superamento del limite. Nella pratica, questa limitazione
non è comunque stringente, dal momento che per supera-
re l’1% del traffico medio di Twitter13, sarebbe necessario
generare un volume di traffico pari circa a 570 tweet rac-
colti ogni secondo! La seconda nuova limitazione risulta
essere di maggior interesse pratico. Twitter infatti impone
dei vincoli sulla velocità di salvataggio dei dati da parte
13 https://blog.twitter.com/2013/new-tweets-per-second-record-
and-how.
Questo e-book appartiene astefano.cresciiit.cnr.it 17073116-0758-0049-8409-g8k7o2x4lao6
127
I BIG DATA NELLA RICERCA POLITICA E SOCIALE
dei crawler connessi alla Streaming API. In particolare, i
tweet da consegnare ad un crawler sono organizzati in una
coda, che si allunga per ogni nuovo tweet da consegnare,
e che si accorcia per ogni tweet salvato dal crawler. Se
la velocità con cui vengono prodotti nuovi tweet è signifi-
cativamente maggiore della velocità con la quale il crawler
li salva, la coda tende ad allungarsi. Twitter impone una
lunghezza massima possibile (non documentata) per que-
ste code. Al superamento della lunghezza massima, Twit-
ter chiude la connessione con il crawler perché giudicato
troppo lento nel salvare i dati. In fase di implementazione di
un crawler streaming, è quindi importante assicurarsi che
il dato in arrivo da Twitter venga immagazzinato nel minor
tempo possibile, ad esempio demandando eventuali opera-
zioni di arricchimento o pre-processamento ad altre com-
ponenti software. Questa API è inoltre molto ‘responsiva’,
dal momento che i tweet vengono inviati al crawler appena
pochi secondi dopo essere stati creati. La possibilità di
effettuare una sola richiesta, di avere un insieme comple-
to di tweet, e di averli appena pochi secondi dopo la loro
creazione, rende questa API particolarmente vantaggiosa
rispetto alla Search API, in particolare per il monitoraggio
di eventi in tempo reale (Avvenuti et al. 2014).
Le tipologie di API esposte da Facebook e Twitter condizio-
nano in modo importante le tempistiche e le modalità di rac-
colta delle informazioni. In particolare, la Facebook Graph API
e la Twitter Search API, a causa dei loro rate limit restrittivi,
inducono spesso rallentamenti e attese nella raccolta dati. La
Streaming API di Twitter, al contrario, consente nella maggior
parte degli scenari operativi di effettuare la raccolta dati sen-
za incorrere in alcuna limitazione. In particolare, nell’ambito di
#Toscana 15, sono stati posti sotto osservazione un insieme
di profili relativi a partiti politici, candidati alla carica di gover-
natore, candidati ad altre cariche, hashtag #Toscana15 e altre
parole chiave inerenti le tematiche della campagna elettorale su
Twitter, monitorati con un crawler che utilizza la Streaming API,
Questo e-book appartiene astefano.cresciiit.cnr.it 17073116-0758-0049-8409-g8k7o2x4lao6
128
STEFANO CRESCI, FABIO DEL VIGNA, MAURIZIO TESCONI
mentre su Facebook sono state raccolte le informazioni con-
tenute nelle pagine dei candidati, partiti e stampa con relativi
commenti degli utenti, like e condivisioni.
I crawler per social media devono necessariamente essere
progettati con un occhio di riguardo verso la scalabilità e la ge-
stione dei rate limit. Considerata la mole di dati da scaricare, è
piuttosto comune saturare i limiti che vengono imposti all’utiliz-
zo delle API, e pertanto è auspicabile prevedere meccanismi di
regolazione delle richieste in modo da non incorrere in possibili
sospensioni da parte degli amministratori delle piattaforme so-
cial. A tal proposito si invita inoltre a consultare le policy dei
social network da crawlare, che possono offrire (tipicamente
a pagamento), dei servizi accessori con minori limitazioni, per
esempio attraverso i data reseller, cioè i rivenditori di dati, come
ad esempio Gnip14.
Dal momento che le analisi più accurate possono richiede-
re molti dati, è necessario raccogliere e strutturare al meglio
quanto è ottenuto tramite le API. La quantità dei dati da racco-
gliere influenza la scelta delle tecnologie di immagazzinamento
più appropriate. Per i dati di natura testuale sono ottimi gli indici
full-text come Apache Lucene15, e i prodotti che lo integrano con
maggiori funzionalità come Apache Solr16 ed Elasticsearch17.
In aggiunta a questi sistemi che trattano i dati in maniera se-
mi-strutturata, strutturando in modo più rigoroso i dati è pos-
sibile fare uso dei database relazionali, più rigidi da un punto
di vista dell’organizzazione dei dati, ma particolarmente indicati
per eseguire interrogazioni, specialmente nel caso si vogliano
effettuare delle analisi esplorative dei dati raccolti. Il sistema di
immagazzinamento deve essere previsto e dimensionato già in
fase di implementazione del crawler, sulla base del volume dei
14 https://gnip.com.
15 http://lucene.apache.org/core/.
16 http://lucene.apache.org/solr/.
17 https://www.elastic.co/.
Questo e-book appartiene astefano.cresciiit.cnr.it 17073116-0758-0049-8409-g8k7o2x4lao6
129
I BIG DATA NELLA RICERCA POLITICA E SOCIALE
dati che ci si aspetta di raccogliere, per evitare un pericoloso
sottodimensionamento che rischia di trasformare l’archiviazione
dei dati nel collo di bottiglia del sistema. Tale situazione si ve-
rifica quando la velocità di raccolta è superiore alla capacità di
scrittura del sistema per il salvataggio, ed è quindi da evitare
in quanto porta rapidamente alla saturazione delle memorie e
conseguentemente alla perdita dei dati. Per dati particolarmen-
te voluminosi, si applica la tecnica dello sharding: i dati vengono
frazionati su un insieme di macchine appartenenti ad un cluster
per ridurre il carico di lavoro delle singole macchine e abilitare
carichi di lavoro complessivi che tipicamente una sola macchina
non può sopportare.
5. Il progetto #Toscana15
Il progetto #Toscana15 è nato dalla collaborazione tra la testata
giornalistica de Il Tirreno, i ricercatori dell’Istituto di Informatica
e Telematica (IIT) del CNR di Pisa e il dipartimento di Scienze
Politiche dell’Università di Pisa, con lo scopo di osservare e ana-
lizzare l’andamento della campagna elettorale dei candidati e le
elezioni politiche per la carica di governatore della Regione To-
scana. Il progetto ha ampiamente impiegato le metodologie e gli
strumenti finora descritti, raccogliendo dati da Facebook e Twit-
ter per tutto il periodo della campagna elettorale e fornendo agli
analisti un’interfaccia web interattiva. Il progetto ha posto sotto
osservazione i profili Facebook e Twitter delle persone politica-
mente più rilevanti per la campagna elettorale, inclusi i candidati
alla presidenza, e ha raccolto il traffico prodotto, immagazzinan-
do i dati in una serie di database relazionali ospitati sui server
del CNR. Inoltre sono stati monitorati gli hashtag più rilevanti
connessi alla campagna. Logicamente, il sistema che supporta
il progetto #Toscana15 è organizzato in due distinte parti: un
frontend interattivo che mostra alcuni indici descritti in seguito
Questo e-book appartiene astefano.cresciiit.cnr.it 17073116-0758-0049-8409-g8k7o2x4lao6
130
STEFANO CRESCI, FABIO DEL VIGNA, MAURIZIO TESCONI
ed un backend basato su REST API e su una istanza di MySQL18
per la gestione dei dati.
L’interfaccia web permette un alto grado di interattività gra-
zie all’utilizzo della libreria Highstock19, usata per realizzare tut-
te le visualizzazioni.
Il sistema #Toscana15 si pone come obiettivi la facilitazione
delle analisi riguardo le elezioni politiche, mediante:
• Esplorazione delle serie storiche delle metriche costrui-
te a partire dai contenuti social e metadati aggregati dei
soggetti monitorati. Questo permette di valutare quanti-
tativamente quanto un candidato o un partito siano attivi
in un arco di tempo e quanto questo aspetto influisca sul
loro gradimento e sulla risposta con il pubblico di elettori.
È interessante osservare come, partendo da metriche di
base, quali la rilevazione dell’engagement dei post dei poli-
tici, calcolati sulla base del numero di like ai post Facebook
o retweet di tweet, sia possibile riscontrare sia il livello
di gradimento dei contenuti, sia effettuare alcune inferen-
ze riguardo l’orientamento politico degli utenti sui social
network site.
• Esplorazione delle serie storiche delle metriche per de-
rivare nuove informazioni non immediatamente evidenti.
Partendo dalle metriche più semplici, ricavabili attraverso
conteggi e statistiche, è infatti possibile ricavare informa-
zioni arricchite, concatenando tra loro i risultati di varie
analisi, oppure ponendo in relazione con un profilo i dati
prodotti da altri utenti. Ne è un esempio, l’individuazio-
ne degli elettori che interagiscono maggiormente con un
profilo monitorato per verificare se sostengono o meno
la sua campagna elettorale. A tal proposito, si può os-
servare verso chi sono diretti i messaggi del profilo sotto
osservazione, e individuare gli utenti menzionati soven-
18 https://www.mysql.com.
19 http://www.highcharts.com/products/highstock.
Questo e-book appartiene astefano.cresciiit.cnr.it 17073116-0758-0049-8409-g8k7o2x4lao6
131
I BIG DATA NELLA RICERCA POLITICA E SOCIALE
te nei messaggi; oppure si può misurare chi sono quegli
utenti che maggiormente menzionano i candidati politici, e
studiare chi è maggiormente ricambiato nelle discussioni.
• Osservare i contenuti e temi maggiormente trattati da
candidati diversi, ovvero argomenti e contenuti affrontati
dalla base elettorale, e come questi possano differire o
somigliare a quelli dei candidati. Attraverso l’uso di uno
strumento di analisi del linguaggio naturale è possibile
identificare le entità nominate nei messaggi e conteggiarle
per riscontrare quali hanno maggior frequenza, e quindi,
maggior importanza.
Il backend di #Toscana15 fornisce un insieme di REST API
per il monitoraggio nel tempo di metriche di social network e per
supportare le visualizzazioni mostrate nel frontend. Le grandez-
ze in esame sono legate alla popolarità dei candidati e al tasso
di interazione con l’elettorato; per misurarle sono stati definiti
degli indici che rispecchiano la popolarità dei soggetti monitora-
ti. Questi soggetti sono stati reputati punti di riferimento della
campagna elettorale e capaci di influenzare l’opinione pubblica, e
pertanto detti ‘influencer’ (Freberg et al. 2011).
Gli indici sono per lo più calcolati al momento della richiesta,
vale a dire nel momento in cui un utente accede al frontend, ec-
cetto alcuni particolarmente complessi che vengono aggiornati
a intervalli regolari per fornire i dati aggregati. Per questioni
di semplicità, i dati degli utenti che il sistema ha raccolto sono
stati suddivisi in due distinte categorie:
• soggetti monitorati: candidati, partiti, stampa.
• utenti generici: coloro che interagiscono con i soggetti
monitorati attraverso le azioni previste da Facebook e
Twitter.
Successivamente, in considerazione alle azioni possibili of-
ferte dai due social network site, sono stati costruiti degli indici
con lo scopo di monitorare l’andamento della campagna elettora-
le. Di seguito l’elenco delle azioni possibili per Facebook:
• Divenire fan di una pagina: significa seguire una pagina
Facebook.
Questo e-book appartiene astefano.cresciiit.cnr.it 17073116-0758-0049-8409-g8k7o2x4lao6
132
STEFANO CRESCI, FABIO DEL VIGNA, MAURIZIO TESCONI
• Creare un post: pubblicare un contenuto sulla propria ba-
checa.
• Commentare un post o un commento: aggiunge una rispo-
sta ad un contenuto già presente.
• Apporre un like ad un post o commento: significa marcare
un contenuto come gradito20.
• Condividere un contenuto (share): riproporre sulla propria
bacheca contenuti pubblicati da altri.
• Menzionare un utente (mention): aggiunge un riferimento
esplicito ad un profilo utente in un post, commento o com-
mento a commento.
Le azioni possibili per Twitter sono invece:
• Creare un tweet (twittare o cinguettare): aggiunge un
contenuto al profilo Twitter.
• Seguire un profilo (follow): permette di restare aggiornati
sulle azioni di un profilo utente.
• Rispondere ad un tweet (reply): permette di rispondere
direttamente a quanto scritto da un utente.
• Retweet di un contenuto: permette di riproporre contenu-
ti altrui sul proprio profilo.
• Apporre la propria preferenza ad un tweet (favorite): ag-
giunge un tweet alla lista di tweet preferiti dell’utente.
• Menzionare un utente: citare esplicitamente un profilo di
un altro utente Twitter.
Proponiamo dunque una serie di metriche che è possibile ado-
perare per misurare l’attività dei candidati e della stampa sui
social network e il livello di interazione:
• Attività dei soggetti monitorati. L’indice di attività coglie
la produzione di contenuti da parte di un soggetto moni-
torato, e permette di attivare analisi più puntuali circa i
20 Al momento della campagna elettorale del 2015, il ‘like’ era l’u-
nica azione di preferenza permessa dalla piattaforma Facebook. Suc-
cessivamente, Facebook ha aggiunto altri tipi di emozioni, chiamate
‘reactions’: http://newsroom.fb.com/news/2016/02/reactions-now-a-
vailable-globally/.
Questo e-book appartiene astefano.cresciiit.cnr.it 17073116-0758-0049-8409-g8k7o2x4lao6
133
I BIG DATA NELLA RICERCA POLITICA E SOCIALE
contenuti rilasciati ad un certo istante, per isolarne le
tematiche specifiche. Lo si identifica con il numero di post
su Facebook o tweet su Twitter, su base giornaliera.
• Popolarità dei soggetti monitorati. L’indice di popolarità
misura, per ogni soggetto, il livello di apprezzamento del
suo profilo sul social network site. La popolarità di una
pagina o profilo è identificabile con il numero di fan della
pagina Facebook o follower del profilo Twitter. Tracciare
il numero di fan o follower nel tempo fornisce il grado di
apprezzamento della campagna elettorale da parte degli
utenti. Solitamente tale numero è non decrescente, dal
momento che solo in rari casi gli utenti rimuovono i like a
pagine Facebook e smettono di seguire utenti Twitter.
• Interattività dei soggetti monitorati. L’indice di interat-
tività rappresenta una misura dello sforzo compiuto dai
soggetti monitorati per interagire con altri candidati o con
la base elettorale per rispondere ai commenti o richieste
che gli vengono rivolte. Ciò porta anche a osservare verso
quali tematiche un candidato, se stimolato, è più propenso
a rispondere e i tempi impiegati per reagire. Lo si defini-
sce con il numero di risposte di un soggetto monitorato ai
commenti degli utenti.
• Condivisione dei contenuti dei soggetti monitorati. Mo-
nitorare quali contenuti riscuotono maggior successo è
importante per comprendere l’andamento e l’esito della
campagna elettorale. Di particolare significato sono quei
contenuti che non sono prodotti dai soggetti monitora-
ti, ma che sono da questi riproposti. Questo suggerisce
che i soggetti abbiano una qualche affinità con i contenuti
prodotti da altri o che vi siano contenuti dalla natura vira-
le che tendono a propagarsi rapidamente all’interno della
piattaforma. Risalire alla fonte dei contenuti può essere
importante per individuare eventuali influencer non noti
all’inizio dell’esperimento o smascherare false informazioni
che circolano sul social network site, argomento partico-
larmente sentito negli ultimi anni (Bessi e Ferrara 2016;
Questo e-book appartiene astefano.cresciiit.cnr.it 17073116-0758-0049-8409-g8k7o2x4lao6
134
STEFANO CRESCI, FABIO DEL VIGNA, MAURIZIO TESCONI
Cresci et al. 2016, 2017). Questo indice è costruito con-
siderando il numero di condivisioni che i post o tweet di un
soggetto ricevono. Si sottolinea come certi temi possano
penetrare maggiormente all’interno di un social network,
e propagarsi poi attraverso media differenti.
• Media dei commenti ai post dei soggetti monitorati.
L’indice della media dei commenti giornaliera indica quanto
un profilo di un soggetto accenda il dibattito e può sugge-
rire alcuni approfondimenti circa i contenuti affrontati nei
suoi post. È calcolabile come la somma di tutti i commenti
ai post di un soggetto o il numero di reply ricevute, su
base giornaliera. Affinché questa metrica sia calcolabile
è necessario che la pagina o il profilo abbiamo abilitata la
possibilità di rilasciare commenti. Questa metrica, oltre
a dipendere dalla popolarità del soggetto, è molto legata
anche alla frequenza con cui questo produce contenuti.
• Media di liking degli utenti generici ai commenti degli
account dei soggetti monitorati. Questo indice calcola la
media di like giornalieri ai post e permette di capire quanto
il profilo di un candidato è apprezzato nel tempo. In questo
modo si possono costruire serie storiche che permetto-
no di evidenziare flessioni o incrementi nell’apprezzamento
dei contenuti. Questo indice si applica solo a Facebook
in quanto risulta difficile tracciare i tweet preferiti degli
utenti. Ciò infatti richiede di raccogliere le informazioni
per un periodo sufficientemente lungo da permettere alle
informazioni sui like o favorite di stabilizzarsi. Purtroppo,
a causa dei bassi rate limit di Twitter, non è opportuno
raccogliere più volte le stesse informazioni per aggiornare
le statistiche, a meno di non trattare bassi volumi di dati.
In ogni caso, data la struttura di Twitter, si può ripiegare
sull’analisi dei retweet, semanticamente più forti dei fa-
vourite (e più simili agli share di Facebook), ma anche più
semplici da catturare con i crawler che fanno uso della
Streaming API.
Questo e-book appartiene astefano.cresciiit.cnr.it 17073116-0758-0049-8409-g8k7o2x4lao6
135
I BIG DATA NELLA RICERCA POLITICA E SOCIALE
• Utenti (generici) più attivi. Osservare la produzione dei
contenuti di un soggetto che possiede un profilo ‘social’ po-
trebbe non essere sufficiente per cogliere appieno il modo
in cui si articolano le discussioni. Ecco perché è stata in-
trodotta la metrica degli utenti generici più attivi, cioè la
misura degli utenti con la più alta produzione di contenuti
verso una pagina o profilo di un soggetto. Lo si rappresen-
ta come la lista degli utenti con il più alto numero di com-
menti sulla pagina di un soggetto monitorato o il più alto
numero di reply verso tweet di un soggetto monitorato.
Azioni di questo tipo possono essere indici di un forte so-
stegno o un’intensa avversione verso il candidato, per cui
tale analisi dovrebbe essere coadiuvata da un’esplorazione
dei contenuti testuali o da una sentiment analysis per rile-
vare la polarità dei commenti che il soggetto riceve.
• Utenti generici più popolari. Così come gli utenti espri-
mono le loro preferenze verso i soggetti monitorati, appo-
nendo like alle loro pagine Facebook e post, o diventando
follower di un loro profilo e ‘retweettando’ i loro contenuti,
anche i soggetti politici possono replicare esprimendo il
loro apprezzamento verso utenti generici. Questo tipo di
azioni sono in genere più rare e forse anche per questo
il loro valore non è da sottovalutare. Pertanto, compren-
dere chi riscuote la stima o la fiducia di un certo politico
può rivelarsi utile ai fini delle indagini. Tale indice è ricavato
come lista ordinata degli utenti che hanno ricevuto il mag-
gior numero di like o retweet ai propri interventi.
• Utenti generici più considerati. Tra gli aspetti più signi-
ficativi delle interazioni tra soggetti monitorati e utenti
generici del social network site vi è la possibilità di questi
ultimi di rilasciare commenti alle pagine o profili dei poli-
tici. Molto interessante è anche osservare come questi
rispondono agli stimoli e valutare la tendenza dei candida-
ti a interagire con la propria platea, intervenendo diretta-
mente nelle discussioni in prima persona. Questo indice
tiene in considerazione gli utenti che ricevono il maggior
Questo e-book appartiene astefano.cresciiit.cnr.it 17073116-0758-0049-8409-g8k7o2x4lao6
136
STEFANO CRESCI, FABIO DEL VIGNA, MAURIZIO TESCONI
numero di interventi di risposta da parte del soggetto mo-
nitorato, tramite la sua pagina Facebook o Twitter. Pone
particolarmente in risalto se vi sono degli utenti verso
cui convergono maggiormente le attenzioni del soggetto
monitorato.
• Utenti generici più retwittati. L’indice degli utenti gene-
rici più ‘retwittati’ (solo per Twitter) individua i profili degli
utenti generici che ricevono il maggior numero di retweet
dal profilo di un soggetto monitorato.
Questi indici, collegati a serie storiche e istogrammi, sono
stati resi accessibili via web durante la campagna elettorale ai
giornalisti de Il Tirreno e agli scienziati politici per supportarli
nelle analisi e nell’interpretazione delle informazioni. A tale scopo
il frontend implementa un sistema di autenticazione per proteg-
gere i dati e risulta consultabile da qualsiasi tipo di dispositivo
grazie al suo layout responsivo e adatto a visualizzazioni da di-
spositivi mobili. Le librerie Highstock hanno permesso un rapido
sviluppo del sistema, anche considerando i tempi stringenti del
progetto e gli eventi occorsi durante la campagna elettorale.
6. Metodologie di analisi in #Toscana15
Esistono numerose tecniche di analisi dei dati, molte delle quali
si basano su strumenti di analisi matematica e statistica. In
questa sezione ne descriveremo alcune, molto comuni per le
analisi dei social network, che sono state in parte applicate al
progetto #Toscana15.
La maggior parte dei dati raccolti ha la natura di serie stori-
ca, vale a dire una successione di misurazioni (come ad esempio
il numero di follower di un account Twitter), ognuna associata ad
un preciso istante temporale. Ogni contenuto raccolto è marca-
to con l’istante di pubblicazione sul social network site e quello
di raccolta da parte del crawler. Tali informazioni permettono
un fine tracciamento nel tempo dei contenuti e permettono di
identificare l’evoluzione dei contenuti delle discussioni. Questo
aspetto è di estrema utilità nell’analisi politica perché permette
Questo e-book appartiene astefano.cresciiit.cnr.it 17073116-0758-0049-8409-g8k7o2x4lao6
137
I BIG DATA NELLA RICERCA POLITICA E SOCIALE
da un lato di osservare i periodi di più intensa attività politi-
ca sui social network site che, d’altro canto, osservare come
cambiano i temi affrontati nel corso del tempo. Lo studio delle
serie storiche, ad esempio attraverso la loro decomposizione
(Hamilton1994), permette di individuare anomalie o trend di
interesse per gli analisti. Qualora le analisi si rendessero ne-
cessarie in tempo reale, è possibile sfruttare framework come
Apache Spark21 per processare stream di dati in tempo reale
in modo massivo e parallelo. Molte delle metriche utilizzate in
#Toscana15 sono di fatto serie storiche, come la media di like o
di condivisione nel tempo, e osservare la loro progressione per-
mette di individuare anomalie sull’andamento o confrontare tra
loro profili diversi per misurare le rispettive popolarità.
Di alto interesse per le scienze sociali e gli studiosi dei si-
stemi complessi vi è senza ombra di dubbio la social network
analysis. Essa parte dalla costruzione di un grafo che descrive
le relazioni all’interno di un sistema costituito da oggetti e profili.
Tale studio risulta di particolare rilevanza nei social network site
per studiare come le platee dei politici sono strutturate e per-
mette di evincere alcune informazioni non evidenti tra gli utenti,
che possono suggerire collegamenti non immediati tra i follower/
fan di utenti diversi. Per ottenere i follower di un profilo è possi-
bile utilizzare una apposita REST API offerta da Twitter, oppure
la Graph API di Facebook. In #Toscana15 è stata tenuta traccia
delle ego-network (Arnaboldi et al. 2012) dei singoli soggetti
monitorati per misurare l’ampiezza della platea, ma non è stato
realizzato il grafo complessivo della rete poiché un monitoraggio
nel tempo di tutte le relazioni tra utenti avrebbe richiesto un
grande quantitativo di tempo e risorse.
Di indubbia utilità vi sono poi tutte le analisi applicabili ai con-
tenuti di natura testuale. Negli anni sono state sviluppate nume-
rose tecniche di indagine basate sul testo e, in particolare per la
lingua inglese, esistono molti strumenti disponibili in commercio
21 http://spark.apache.org.
Questo e-book appartiene astefano.cresciiit.cnr.it 17073116-0758-0049-8409-g8k7o2x4lao6
138
STEFANO CRESCI, FABIO DEL VIGNA, MAURIZIO TESCONI
e di tipo open source. Diverso è invece il discorso per la lingua
italiana, per la quale gli strumenti linguistici sono poco noti e svi-
luppati da piccole nicchie di ricerca. Tra le tecniche più note per
le analisi dei testi vi sono senza dubbio gli approcci di Natural
Language Processing (NLP), che si basano su una catena di ela-
borazione in cui, in ogni step, il testo viene annotato e arricchito
con meta-informazioni via via più approfondite (Cambria e Whi-
te2014). Le analisi NLP possono essere utilizzate per produrre
word cloud di qualità, in modo da avere una resa visiva d’impatto
dei contenuti raccolti, ad esempio per singolo candidato politico,
o di una base elettorale selezionata. Nel caso di #Toscana15, le
word cloud hanno permesso di arricchire ulteriormente le infor-
mazioni estrapolate da Twitter e Facebook, unendo tra loro i testi
dei singoli soggetti coinvolti nelle elezioni, siano essi i candidati
o la stampa stessa. Ciò ha permesso a colpo d’occhio di identifi-
care i temi centrali delle singole campagne o i punti di vista delle
varie testate giornalistiche. Oltre alle word cloud, è possibile
utilizzare le caratteristiche dei testi per addestrare algoritmi di
machine learning, per effettuare classificazione o clustering. La
classificazione dei testi è un task molto diffuso e che aggiunge
molto valore alle analisi perché permette di assegnare ad un
testo una categoria, tra un insieme scelto, senza che un essere
umano ne effettui la lettura. Questa tecnica aggiunge quindi una
caratteristica in più al dataset. La classificazione automatica
dei testi è particolarmente diffusa ed efficace sui social network
site e numerose sono le sue applicazioni quali, a titolo di esem-
pio, l’identificazione dei sostenitori di una certa corrente. Un
altro esempio di classificazione di testi è relativo allo studio delle
opinioni degli utenti rispetto ad uno o più argomenti di interesse.
Questo tipo di analisi, che prende il nome di ‘sentiment analy-
sis’ o ‘opinion mining’, è stato applicato frequentemente anche
in ambito politico per la quantificazione del livello di gradimento
di vari candidati o partiti (Ceronetal.2014, 2015). Inoltre è
possibile raccogliere, mediante clustering, gli utenti o i candidati
più affini tra loro sulla base delle tematiche discusse nei testi.
Il clustering fornisce un modo non supervisionato per esplorare
Questo e-book appartiene astefano.cresciiit.cnr.it 17073116-0758-0049-8409-g8k7o2x4lao6
139
I BIG DATA NELLA RICERCA POLITICA E SOCIALE
i dati raccolti e conoscere gli utenti più simili tra loro. Per il
progetto #Toscana15, invece di applicare algoritmi di clustering
agli utenti, si è scelto di raggruppare le informazioni concernenti
tematiche simili, realizzando, per ogni post Facebook dei sogget-
ti monitorati, le word cloud dei commenti degli utenti. In questo
modo si è ottenuto un riassunto semplificato, ma interpretabile,
della reazione da parte della platea ai contenuti pubblicati.
Alternativa all’analisi NLP vi è la tecnica dei ‘word embeddin-
gs’ (Mikolov et al. 2013), più innovativa, che riporta i contenuti
dei post e tweet in uno spazio vettoriale n-dimensionale, tra-
scendendo il mero contenuto linguistico e focalizzandosi invece
sulla distribuzione statistica dei termini e il loro significato. Esi-
stono poi tecniche più avanzate che permettono di effettuare
topic discovery in modo automatico (Blei et al. 2003), scopren-
do nei testi gli argomenti di discussione più importanti, oppure
le tecniche di text summarization, utili per ridurre testi molto
lunghi. Per lo scenario delle elezioni politiche della Toscana, vista
la relativamente modesta dimensione del fenomeno, si è reputa-
to l’uso delle word cloud, coadiuvato da una buona applicazione
delle tecniche NLP, sufficiente allo scopo.
I testi non sono gli unici contenuti esplorati dei social network
site, anche i contenuti multimediali offrono infatti numerosi spun-
ti di analisi. I politici, per il loro mestiere, sono spesso esposti
mediaticamente e possono comparire in numerose immagini e
video, o parlare in nastri o filmati. Questi dati spesso circolano
sul web e sui canali social e offrono interessanti spunti e si
possono correlare ai testi dei post che li contengono. Nella cam-
pagna elettorale di #Toscana15, molte sono le foto che hanno
fatto parlare la gente sui social media. Tuttavia, a causa della
complessità delle analisi e forse dei modesti risultati ottenibili, si
è preferito non esplorare a fondo anche l’aspetto multimediale,
e restare invece focalizzati sulle analisi dei testi e delle metriche
descritte in precedenza.
Questo e-book appartiene astefano.cresciiit.cnr.it 17073116-0758-0049-8409-g8k7o2x4lao6
140
STEFANO CRESCI, FABIO DEL VIGNA, MAURIZIO TESCONI
7. Conclusioni e direzioni future
Molto di quanto discusso in questo capitolo ha rappresentato
lo stato dell’arte dal punto di vista scientifico, ed un alto livello
di integrazione tecnologica, al momento delle elezioni politiche
nel 2015. La ricerca sia informatica che politica fino ad oggi ha
largamente impiegato tutti i dati pubblicamente accessibili, e ha
prodotto significativi risultati sia in campo sociologico che infor-
matico. La contaminazione reciproca dei due ambiti ha in genere
apportato benefici congiunti e ha prodotto una sinergia nella
ricerca grazie alle competenze specifiche del dominio sociale e
le capacità tecnico-scientifiche per la messa in pratica di espe-
rimenti utilizzando i social network site (Ceron etal.2014). Il
progetto #Toscana15 è stato un esperimento che ha incenti-
vato la collaborazione interdisciplinare per potenziare la ricerca
con strumenti efficaci e su larga scala, cosa fino ad oggi resa
difficile dall’impossibilità di accedere ai dati in tempo reale da
parte della ricerca, peraltro a costi contenuti. I social network
site sono quindi stati e forse rimarranno un fattore abilitante
per ambedue gli ambiti disciplinari e potranno fornire numerosi
spunti anche a scopo predittivo. Inoltre, grazie alla rapida produ-
zione e distribuzione dei contenuti in modo pervasivo sul territo-
rio, permettono finalmente a livello politico di ottenere un buon
‘nowcasting’ (Ceron et al. 2015) e migliorare significativamente
le predizioni sulle elezioni, allargando anche il campione di utenti
considerati.
Questo e-book appartiene astefano.cresciiit.cnr.it 17073116-0758-0049-8409-g8k7o2x4lao6
Arnaboldi V., Conti M., Passarella A., Pezzoni F. (2012).
Analysis of ego
network structure in online social networks
. In 2012 IEEE International
Conference on Social Computing (SocialCom), 31-40.
Avvenuti M., Cimino M. G. C. A., Cresci S., Marchetti A., Tesconi M. (2016).
A framework for detecting unfolding emergencies using humans as
sensors
. SpringerPlus, 5, 1, 43.
Avvenuti M., Cresci S., Marchetti A., Meletti C., Tesconi M. (2014).
EARS
(Earthquake Alert and Report System): A real time decision support
system for earthquake crisis management
. In 2014 ACM 20th
International Conference on Knowledge Discovery and Data Mining
(SIGKDD), 1749-1758.
Avvenuti M., Del Vigna F., Cresci S., Marchetti A., Tesconi M. (2015).
Pulling
information from social media in the aftermath of unpredictable
disasters
. In 2015 IEEE 2nd International Conference on Information
and Communication Technologies for Disaster Management (ICT-DM),
258-264.
Becker H., Naaman M., Gravano L. (2011).
Beyond Trending Topics: Real-
World Event Identification on Twitter
. In 2011 AAAI 5th International
Conference on Web and Social Media (ICWSM), 438-441.
Bennato D. (2015).
Il computer come macroscopio
. Milano: FrancoAngeli.
Bermingham A., Smeaton A. F. (2011).
On using Twitter to monitor political
sentiment and predict election results
. In 2011 Workshop on Sentiment
Analysis where AI meets Psychology (SAAIP)
Bessi A., Ferrara E. (2016).
Social bots distort the 2016 US Presidential
election online discussion
. First Monday, 21,11.
Blei D. M., Ng A. Y., Jordan M. I. (2003).
Latent dirichlet allocation
. Journal
of machine Learning research, 3, 993-1022.
Cambria, E., & White, B. (2014).
Jumping NLP curves: a review of natural
language processing research
[review article]. IEEE Computational
Intelligence Magazine, 9, 2, 48-57.
Ceron A., Curini L., Iacus S. M., Porro G. (2014).
Every tweet counts? How
sentiment analysis of social media can improve our knowledge of
citizens’ political preferences with an application to Italy and France
.
New Media & Society, 16, 2, 340-358.
Ceron A., Curini L., Iacus S. M. (2015).
Using sentiment analysis to monitor
electoral campaigns: Method matters—evidence from the United States
and Italy
. Social Science Computer Review, 33 1, 3-20.
Chau D. H., Pandit S., Wang S., Faloutsos C. (2007).
Parallel crawling for
online social networks
. In 2007 ACM 16th International Conference on
World Wide Web (WWW), 1283-1284.
Chen M., Mao S., Liu Y. (2014a).
Big data: A survey
. Mobile Networks and
Applications, 19, 2, 171-209.
Chen M., Mao S., Zhang Y., Leung V. C. (2014b).
Big data storage
. In Big
Data, 33-49, Springer International Publishing.
Cresci S., Di Pietro R., Petrocchi M., Spognardi A., Tesconi M. (2016).
DNA-
inspired online behavioral modeling and its application to spambot
detection
. IEEE Intelligent Systems, 31, 5, 58-64.
Cresci S., Di Pietro R., Petrocchi M., Spognardi A., Tesconi M. (2017).
The
Paradigm-Shift of Social Spambots: Evidence, Theories and Tools for the
Arms Race
. In 2017 ACM 26th International World Wide Web
Conference Companion (WWW Companion), 963-972.
Del Vigna F., Petrocchi M., Tommasi A., Zavattari C., Tesconi M. (2016).
Semi-supervised knowledge extraction for detection of drugs and their
effects
. In 2016 8th International Conference on Social Informatics
(SocInfo), 494-509.
Fielding R. T. (2000).
Architectural Styles and the Design of Network-based
Software Architectures.
Capitolo 5:
Representational State Transfer
(REST)
. Doctoral dissertation, University of California, Irvine, 76-106.
Freberg K., Graham K., McGaughey K., Freberg L. A. (2011).
Who are the
social media influencers? A study of public perceptions of personality
.
Public Relations Review, 37, 1, 90-92.
Gayo-Avello D. (2012).
No, you cannot predict elections with Twitter
. IEEE
Internet Computing, 16, 6, 91-94.
George G., Haas M. R., Pentland A. (2014).
Big data and management
.
Academy of Management Journal, 57, 2, 321-326.Kaplan A. M.,
Haenlein M. (2010).
Users of the world, unite! The challenges and
opportunities of Social Media
. Business horizons, 53, 1, 59-68.
Hamilton J. D. (1994).
Time series analysis (Vol. 2)
. Princeton: Princeton
university press.
Katal A., Wazid M., Goudar R. H. (2013).
Big data: issues, challenges, tools
and good practices
. In 2013 IEEE 6th International Conference
on Contemporary Computing (IC3), 404-409.
Lampos V., Cristianini N. (2012).
Nowcasting events from the social web
with statistical learning
. ACM Transactions on Intelligent Systems and
Technology (TIST), 3, 4, 72.
Laney D. (2001).
3-D Data Management: Controlling Data Volume, Variety
and Velocity
. META Group Inc., 949, 1-4.
Liu B., & Zhang L. (2012).
A survey of opinion mining and sentiment
analysis
. Mining text data, 415-463.
Mikolov, T., Sutskever, I., Chen, K., Corrado, G. S., & Dean, J. (2013).
Distributed representations of words and phrases and their
compositionality
. In Advances in Neural Information Processing
Systems (pp. 3111-3119).
Millham R., Thakur S. (2016).
Social Media and Big Data. The Human
Element of Big Data: Issues, Analytics, and Performance
, Taylor &
Francis.
O'Connor B., Balasubramanyan R., Routledge B. R., Smith N. A. (2010).
From tweets to polls: Linking text sentiment to public opinion time
series
. In 2010 AAAI 4th International Conference on Web and Social
Media (ICWSM), 122-129.
Poell T., Borra E. (2012).
Twitter, YouTube, and Flickr as platforms of
alternative journalism: The social media account of the 2010 Toronto
G20 protests
. Journalism, 13, 6, 695-713.
Sakaki T., Okazaki M., Matsuo Y. (2013).
Tweet analysis for real-time event
detection and earthquake reporting system development
. IEEE
Transactions on Knowledge and Data Engineering, 25, 4, 919-931.
Schoen H., Gayo-Avello D., Takis Metaxas P., Mustafaraj E., Strohmaier M.,
Gloor P. (2013).
The power of prediction with social media
. Internet
Research, 23, 5, 528-543.
Tan W., Blake M. B., Saleh I., Dustdar S. (2013).
Social-network-sourced big
data analytics
. IEEE Internet Computing, 17, 5, 62-69.
Trottier D., Fuchs C. (2014).
Social media, politics and the state: protests,
revolutions, riots, crime and policing in the age of Facebook, Twitter and
YouTube
(Vol. 16). Routledge.
Tumasjan, A., Sprenger, T. O., Sandner, P. G., & Welpe, I. M. (2010).
Predicting elections with twitter: What 140 characters reveal about
political sentiment
. In 2010 AAAI 4th International Conference on Web
and Social Media (ICWSM) 178-185.
Tuten T. L., Solomon M. R. (2014).
Social media marketing
. Sage.
Wang H., Can D., Kazemzadeh A., Bar F., Narayanan S. (2012).
A system
for real-time twitter sentiment analysis of 2012 us presidential election
cycle
. In ACL 2012 System Demonstrations, 115-120.
Yar M. (2012).
E-Crime 2.0: the criminological landscape of new social
media
. Information & Communications Technology Law, 21, 3, 207-219.
Zheng Y. (2015).
Methodologies for cross-domain data fusion: An
overview
. IEEE Transactions on Big Data, 1, 1, 16-34.
Zikopoulos P., Eaton C. (2011).
Understanding big data: Analytics for
enterprise class hadoop and streaming data
. McGraw-Hill Osborne
Media.