Conference PaperPDF Available

As Formas Perspectivas no Twitter: uma técnica quanti-qualitativa para estudos de Redes Sociais

Authors:

Abstract and Figures

Como podemos identificar perspectivas em grandes redes, através da aplicação de algoritmos de modularidade? Em humanidades digitais (MORETTI, 2013; JOCKERS, 2013), há um bom número de trabalhos acadêmicos explorando rotinas computacionais para agrupar e analisar enormes quantidades de dados. Recentemente, dados sociais tornaram-se uma fonte valiosa para estudar fenômenos coletivos, eles fornecem os meios para compreender a coletividade humana por meio de análise de grafos. Neste trabalho, descrevemos a nossa abordagem sobre a forma da antropologia pós-social (VIVEIROS DE CASTRO, GOLDMAN, 2012) as ciências sociais humanas, e digitais, utilizando de técnicas de análise quanti-qualitativa e semântica. A virada computacional faz parte do processo contínuo de conceituar a "forma perspectiva", enquanto o outro, seria a análise semântica dos dados qualitativos. Esta técnica utiliza um script python para extrair a rede de co-ocorrência de hashtags de um conjunto de dados do Twitter, a fim de aplicar no contexto do software open-source Gephi, gerando grafos. Nossos experimentos apresentam com sucesso como as redes sociais podem ser desdobradas ao enviar um conjunto de dados de amostra de hashtags, utilizando de uma dimensão crítica de modelos computacionais. Assim, podemos descobrir o fluxo de perspectivas que envolvem uma controvérsia, categorias que revelam os pontos de vista em um debate disposto na rede. Nesse trabalho, utilizamos como estudo de caso o evento da Copa do Mundo 2014 no Brasil, precisamente, os dados relacionados a rede FIFA. Concluindo, este estudo apresenta um quadro teórico e metodológico baseado nos pós-estruturalistas, uma composição que tem como objetivo apoiar estudos no campo das ciências sociais e humanas, e provoca novas possibilidades para os estudos comunicacionais.
Content may be subject to copyright.
Intercom)–)Sociedade)Brasileira)de)Estudos)Interdisciplinares)da)Comunicação)
XXXVII)Congresso)Brasileiro)de)Ciências)da)Comunicação)–)Foz)do)Iguaçu)–)2)a)5/9/2014
1
As Formas Perspectivas no Twitter: uma técnica quanti-qualitativa para estudos de
Redes Sociais1
Lorena Lucas Regattieri2
Fábio MALINI Luiz de Lima 3
Nelson Aloysio REIS de Almeida Passos 4
Jean Maicon MEDEIROS5
Universidade Federal do Espírito Santo, Espírito Santo, ES
RESUMO: Como podemos identificar perspectivas em grandes redes, através da aplicação
de algoritmos de modularidade? Em humanidades digitais (MORETTI, 2013; JOCKERS,
2013), há um bom número de trabalhos acadêmicos explorando rotinas computacionais para
agrupar e analisar enormes quantidades de dados. Recentemente, dados sociais tornaram-se
uma fonte valiosa para estudar fenômenos coletivos, eles fornecem os meios para
compreender a coletividade humana por meio de análise de grafos. Neste trabalho,
descrevemos a nossa abordagem sobre a forma da antropologia pós-social (VIVEIROS DE
CASTRO, GOLDMAN, 2012) as ciências sociais humanas, e digitais, utilizando de
técnicas de análise quanti-qualitativa e semântica. A virada computacional faz parte do
processo contínuo de conceituar a "forma perspectiva", enquanto o outro, seria a análise
semântica dos dados qualitativos. Esta técnica utiliza um script python para extrair a rede de
co-ocorrência de hashtags de um conjunto de dados do Twitter, a fim de aplicar no contexto
do software open-source Gephi, gerando grafos. Nossos experimentos apresentam com
sucesso como as redes sociais podem ser desdobradas ao enviar um conjunto de dados de
amostra de hashtags, utilizando de uma dimensão crítica de modelos computacionais.
Assim, podemos descobrir o fluxo de perspectivas que envolvem uma controvérsia,
categorias que revelam os pontos de vista em um debate disposto na rede. Nesse trabalho,
utilizamos como estudo de caso o evento da Copa do Mundo 2014 no Brasil, precisamente,
os dados relacionados a rede FIFA. Concluindo, este estudo apresenta um quadro teórico e
metodológico baseado nos pós-estruturalistas, uma composição que tem como objetivo
apoiar estudos no campo das ciências sociais e humanas, e provoca novas possibilidades
para os estudos comunicacionais.
PALAVRAS-CHAVE: Perspectivismo Ameríndio; Teoria dos Grafos; Análise de Redes
Sociais; Antropologia Pós-Social.
I – INTRODUÇÃO
1 Trabalho apresentado na Divisão Temática de Estudos Interdisplinares de Comunicação, da Intercom Júnior X Jornada
de Iniciação Científica em Comunicação, evento componente do XXXVII Congresso Brasileiro de Ciências da
Comunicação.
2 . Mestranda em Humanidades Computacionais, Universidade de Alberta, Canadá e pesquisadora associada do Labic-
Ufes, (Laboratório de estudos em Imagem e Cibercultura), e-mail: regattie@ualberta.ca
3 Orientador do trabalho, professor e Doutor em Comunicação pela UFRJ e coordenador do Labic-Ufes (Laboratório de
estudos em Imagem e Cibercultura), e-mail: fabiomalini@gmail.com, site: www.labic.net
4 Estudante de Graduação 6º. semestre do Curso de Jornalismo da Ufes e pesquisador associado ao Labic, e-mail:
nelsonaloysio@gmail.com
5 Mestrando do Programa de Pós-Graduação em Comunicação e Territorialidades UFES, e-mail: jeanmaggot@gmail.com.
Intercom)–)Sociedade)Brasileira)de)Estudos)Interdisciplinares)da)Comunicação)
XXXVII)Congresso)Brasileiro)de)Ciências)da)Comunicação)–)Foz)do)Iguaçu)–)2)a)5/9/2014
2
Este trabalho entende que as redes sociais são um fenômeno antropológico. Um
gráfico das redes sociais é uma representação material das relações humanas. Assim, tanto o
algoritmo que busca analisá-los e a linguagem natural vocalizado sobre eles, estão em
contínuo processo de inter-relação para interpretar o mundo social. O algoritmo sozinho não
explica essas relações. Mas a ação coletiva, hoje geradora desses vestígios digitais
(LATOUR, 2007) não pode ser explicado por si só, apenas com teorias sociais históricos
das ciências humanas.
A detecção de comunidades (LEE & CUNNINGHAM, 2013; ELHADI & AGAM,
2013; De MEO et al, 2011; FORTUNATO & BARTHÉLEMY, 2006) em redes complexas
têm uma longa história de pesquisas na computação e na teoria dos grafos (MILKOV et al,
2006). Os estudos na área têm ganhado a atenção de diversas áreas, os estudos mais comuns
são encontrados na biologia, física e, recentemente, na comunicação social. Nesse meio
tempo, a literatura em Processamento de Linguagem Natural (CHANG et al, 2009 ; BLEI,
2014) e Redes Neurais Probabilísticas (CIARELLI et al, 2014) nos mostraram as
possibilidades de modelagem de documentos, classificação de texto, e filtragem
colaborativa para grandes corpora.
Neste artigo, descrevemos um método desenvolvido por pesquisadores do
Laboratório de Estudos em imagens e Cibercultura (LABIC), localizado na Universidade
Federal do Espírito Santo (UFES), Brasil. Ele consiste em ser um método simples, mas
eficiente e peculiar desenvolvido para apoiar os estudos em comunicação social. Nosso
quadro perspectivo usa um conjunto de dados disponíveis publicamente Twitter. Esse
método usa o Gephi (BASTIAN, 2009) e seus algoritmos, resultando em efeitos visuais e
estatísticas. O método tem como objetivo encontrar comunidades em uma rede formada por
co-ocorrência de hashtags em um tweet, ou seja, montamos uma rede de hashtags, a fim de
compor uma multiplicidade.
A relevância no contexto contemporâneo de sites de rede on-line serve como meio
para interpretar as ações políticas e coletivas, é por isso que o Twitter é o nosso "campo" de
trabalho. Consideramos que essaa rede social um rico terreno de disputa, observando as
muitas revoltas em todo o mundo: #OccupyWallStreet, #15M, #OccupyGezy, #VemPraRua
e #NãoVaiTerCopa. Outros fenômenos sociais pode ser considerados uma perspectiva em
andamento, como #ClimateChange. Nos métodos recentemente propostos para detectar
tópicos em corpus do tipo histórico e da literatura, se utilizam de um método conhecido
como Probabilistic Topic Modeling (MIMNO & McCALLUM, 2007), o nosso método
Intercom)–)Sociedade)Brasileira)de)Estudos)Interdisciplinares)da)Comunicação)
XXXVII)Congresso)Brasileiro)de)Ciências)da)Comunicação)–)Foz)do)Iguaçu)–)2)a)5/9/2014
3
tem como objetivo apresentar uma nova metodologia para sublinhar não apenas um
procedimento modelo para identificação de tópicos para uma grande quantidade de dados
digitais, mas também para revelar os pontos de vista em fluxo constante na rede, o que de
fato, nos revela perfis sociais em um campo de batalha.
A fim de compreender as camadas de textos nos traços digitais deixadas por seres
humanos, nós confiamos na teoria ator-rede (ANT)6 (LATOUR, 2007). A idéia principal
aqui, de acordo com Latour, é trabalhar no mesmo nível de ambos – os atores e seus
atributos. "A rede está totalmente definida por seus atores" (LATOUR et al, 2012, p. 3)
ANT na análise de redes fornece o argumento para estudar dados digitais sem se preocupar
com o ponto de vista do indivíduo ou coletivo. É possível negociar a um nível para outro, a
partir das partes ao seu todo, apenas reorganizando continuamente os atores, ou os nós, no
caso da representação em grafo. Não há sobreposição, é uma questão apenas de reorganizar
o posicionamento daquele outro. A cartografia de controvérsias (VENTURINI, 2010) é a
aplicação didática da ANT, ela serve como um conjunto de técnicas para explorar debates
públicos. Observação e descrição é essencial para o trabalho acadêmico feito neste trabalho.
Nesta reunião entre os métodos de computação e a antropologia pós-social, a abordagem de
redes sócio-técnicas Lautourianas apoiará o processo de revelação de pontos em disputa.
O nosso quadro metodológico usa do perspectivismo ameríndio (VIVEIROS DE
CASTRO, 2002) para encontrar a base para nossas experiências em curso para compor
uma "forma de perspectiva", em grandes redes. Mais uma vez, eles são chamados grandes
redes, porque eles são feitos de milhares ou mesmo milhões de nós e arestas. Mais
importante ainda, compreender o nó como um perfil social na rede, assim, as bordas, como
a ligação entre Um e os Outros. Assim, notamos: uma rede é constituída apenas pela
existência do outro. O Outrem, presente em Deleuze, é antes de tudo, o principio que
constitui o campo perceptivo.
“A expressividade que define a estrutura Outrem é constituída pela categoria do
possível. Outrem a priori é a existência do possível em geral: na medida em que
o possível existe somente como expresso, isto é, em um exprimente que não se
parece a ele (torção do expresso no exprimente).” (DELEUZE, 2009, p. 327)
6 Preferímos manter aqui o acrônimo ANT, do ingles, Actor-Network Theory. Para o autor, as letras juntas
fornecem também um significado simbólico, a ideia de sua tradução, pois juntas traduz-se “formiga”.
Trazendo a tona assim, a noção de trabalho em rede entre entidades iguais.
Intercom)–)Sociedade)Brasileira)de)Estudos)Interdisciplinares)da)Comunicação)
XXXVII)Congresso)Brasileiro)de)Ciências)da)Comunicação)–)Foz)do)Iguaçu)–)2)a)5/9/2014
4
Eduardo Viveiros de Castro continua nos elucidando sobre Outrem, fora de um
ponto de vista particular, nada que nos remeta a um sujeito. Outrem é, sim, “a possibilidade
de que haja ponto de vista” (VIVEIROS DE CASTRO, 2002, p. 118) o próprio conceito
de ponto de vista. Outrem é o que organiza. Se Outrem existe, o Eu e o Outro expressam
um ponto de vista.
Há, ainda, uma subverção a idéia que temos de canibalismo, que é uma idéia que
orientou a concepção de que "canibalizar" o outro é comer o outro. Viveiros de Castro
inverte essa enunciação, dizendo que o canibalismo é uma maneira de sair de si mesmo para
ir para o outro, pelo outro. O nó como um perfil em uma rede social, cada vez mais sai de si
mesmo ao "retuitar" um outro perfil, portanto, assumindo o ponto de vista do outro (e eles
são de vários tipos). Assim, é o outro o elemento que nos captura. Dessa forma, dizemos
que vivemos uma virada antropológica. Com esses instrumentos, buscamos fazer uma
descrição científica da composição dessas redes complexas de interação digital.
O uso do Twitter, em particular, levou-nos a desafios no processo de clusterização
do texto. No processo de pesquisa qualitativa, o número de tweets aumentou para milhões, e
a categorização e a topologia da rede tornou-se um problema. A rede sobrepõe-se em
camadas, grupos sociais e pensamentos distintos, como se fosse uma única topologia de
rede. Em teoria, o social é atravessado por uma multiplicidade de naturezas, perspectivas,
visões de mundo, produzidos por diferentes grupos humanos. "O todo é sempre menor do
que suas partes". (LATOUR, 2012) Nossa hipótese é que a grande rede apresenta uma
representação ilusória. Assim, cada rede é, de fato, uma rede de perspectivas, que estão
geralmente em disputa.
A hashtag, com base em nossos testes, provou ser a melhor solução para os
cientistas sociais que trabalham com a ciência de dados. Ao usar o sinal de hashtag, o
usuário busca segmentar um tema de interesse, mais do que isso: ele se alia a um ponto de
vista sobre um assunto. É simples de analisar, uma vez alguém tenha gerado um tweet e já
usou uma hashtag, é como se o usuário já estivesse classificando o texto para o pesquisador.
Além disso, a hashtag representa a existência de um debate que interessa, ou mesmo
alguma causa que as pessoas visam chamar a atenção para ele.
II - O PENSAMENTO ANTROPOLÓGICO E AS REDES
Nas redes sociais online, defendemos a existência de movimentos e circulação em
uma superfície plana sem qualquer consideração a hierarquia. O está situado no terreno
Intercom)–)Sociedade)Brasileira)de)Estudos)Interdisciplinares)da)Comunicação)
XXXVII)Congresso)Brasileiro)de)Ciências)da)Comunicação)–)Foz)do)Iguaçu)–)2)a)5/9/2014
5
da disputa, que por si só é definida por sua rede. Neste caso, ao explorar os pontos no
gráfico, que no nosso conjunto de dados são os hashtags, o ator se move para a rede,
interagindo com outros no mesmo nível. Este é o lugar onde nós estamos com Latour, em
uma ontologia plana.
Propomos um estudo descritivo de um terreno que entendemos estar em constante
disputa. Isso nos permite confiar mais uma vez no mundo indígena, que em si usa da
violência para sobreviver, virando uma referência ao problematizar a tese de repulsão e
atração do algoritmo de modularidade. Em suma, fazemos uso do conceito de canibalismo,
que deriva da noção complexa de canibalismo. Aplicado na área de hashtags como pontos
de vista, esse canibalismo vive das formas perspectivas dentro da rede, em seguida,
revelando um modo de operacionalização. Este é um processo de redução máxima de um
único e outro, quase como um trabalho microscópico para ver os pequenos pontos de
vista. " A troca, ou a circulação infinita de perspectivas troca de troca, metamorfose de
metamorfose, ponto de vista sobre ponto de vista, isto é: devir " (VIVEIROS DE CASTRO,
2007, p. 126)
Consideramos perfis sociais como coisas vivas. Muitas vezes acontece que, nas
redes de informação, não é possível reconhecer a "forma", somente as informações. Porque
os perfis também podem usar a linguagem como um componente humano, mas note, eles
são apenas informações, ou os conhecidos robôs tomados para agir como homem. No
entanto, o significado surge a partir das medidas díspares (VIVEIROS DE CASTRO,
2012). Nossos fundamentos teóricos estão nas conexões que percebemos entre a
antropologia e o pós-estruturalismo. Resumidamente, está circunscrita na rede pós-social-
antropológica dos autores listados aqui, considerando-se, então, o conceito Deleuziano que
vem da matemática, onde encontramos os meios para compreender a multiplicidade como
um ponto de vista. Ele cria um novo tipo de entidade, rejeitando qualquer generalização, o
que conhecemos como "rizoma". Portanto, uma multiplicidade rizomática não se comporta
como um uno, porque não é possível fazê-lo quando se opera em conjuntos de devires.
Neste sentido, a teoria ator-rede (ANT) vem de mãos dadas com o inquérito que propomos.
Para rastrear a circulação e as interações de pontos de vista e os objetos, a ANT vai explorar
as conexões constitutivas entre atores (os actantes), animados e inanimados, e o potencial
gerador dessas interações. Latour encontra Deleuze numa proposta de uma antropologia
simétrica – e na noção de ator-rede, pois a rede não pode ser uma coisa , porque, de novo,
tudo pode ser considerado uma rede.
Intercom)–)Sociedade)Brasileira)de)Estudos)Interdisciplinares)da)Comunicação)
XXXVII)Congresso)Brasileiro)de)Ciências)da)Comunicação)–)Foz)do)Iguaçu)–)2)a)5/9/2014
6
E, finalmente, na próxima seção, construindo a partir desta diálogo interdisciplinar,
apresentamos como o perspectivismo ameríndio pode apoiar a nossa hipótese em explorar o
complexo mundo das grandes redes. Seguimos para encontrar uma forma perspectiva
dentro do algoritmo de modularidade.
III - A FORMA PERSPECTIVA NA MODULARIDADE
Fomos chamados para o mundo indígena para refletir os estudos de rede,
principalmente devido a uma noção natural de multiplicidade na sociedade indígena
(VIVEIROS DE CASTRO, 2013). Destacamos que temos por muito tempo estudado em
redes de informação, um aspecto político que encontramos nos modos de existência
peculiares da sociedade indígena, um modo de existência, ou seja, uma vida
substancialmente menor de existência, em caráter minoritário. Portanto, temos uma especial
atenção com os mecanismos que inibem ou bloqueiam a emergência de um discurso
totalizante, justamente por percebermos ali a diferença. Assim, fomos atrás do que faz com
que a sociedade indígena seja incapaz de totalizar, seguimos as pistas para entender como
não compor um discurso totalizante.
O perspectivismo ameríndio surge de uma convergência, das ideias do próprio
Eduardo Viveiros de Castro e de outros, ou mesmo os filosóficos, antropológicos e
etnográficos, considerando ainda a sua interpretação do canibalismo tupinambá e sua
própria etnografia da Araweté. A forma perspectiva da rede é parte de um processo que
ainda está em curso, é o nosso método de reinventar os estudos de redes informacionais, a
fim de dar uma dimensão perspectiva. Portanto, o "perspectivismo" não indica a existência
de uma multiplicidade de pontos de vista, mas a existência do "ponto de vista como uma
multiplicidade ". (VIVEIROS DE CASTRO, 2012)
A modularidade é uma das possíveis medidas para a detecção de comunidades em
redes complexas. Um conjunto de nós é categorizado como uma comunidade por sua
modularidade se a fração de ligações entre eles é maior do que o esperado (VINCENZO,
2008). Uma rede complexa com elevado grau de modularidade indica uma estrutura de
comunidade forte, em outras palavras, os nós dentro da comunidade tem uma conexão
densa e tem uma ligação esparsa entre outras comunidades.
O algoritmo aplicado neste trabalho para encontrar comunidades, uma vez que
usamos Gephi , é o método de Louvain (BLONDEL et al, 2008) . Esse método faz detecção
de comunidades em grafos ponderados e tem características com uma heurística “gulosa”,
Intercom)–)Sociedade)Brasileira)de)Estudos)Interdisciplinares)da)Comunicação)
XXXVII)Congresso)Brasileiro)de)Ciências)da)Comunicação)–)Foz)do)Iguaçu)–)2)a)5/9/2014
7
otimização local de modularidade, muito rápido (complexidade O (nlog (n), n: número de
nós), não-determinista, ao retornar partições hierárquicas. o Método de Louvain é um
algoritmo que encontra partições de alta modularidade em grandes redes em curto espaço de
tempo, faz passes que consistem em duas etapas: primeiro, otimização de modularidade
local, ordem aleatória de vértices varrendo toda a rede; segunda, agregação da comunidade,
onde os passes se repetem de forma iterativa até que a modularidade é maximizada e
nenhum aumento é possível.
Pense na rede como uma perspectiva. Bem, então, os nós que compõem essa rede
formam uma aliança, ou seja, eles vão formar uma relação de aliança entre pontos de vista.
A ligação entre dois nós é exatamente a distância entre eles, e também, a distância entre os
pontos de vista. Acontece, então, que no modo que nós aplicamos o algoritmo de
maximização da modularidade, a rede é dividida em módulos, testando todos os nós até que
nenhum nó pode pertencer a outro módulo. É uma dimensão da alteridade, a mesma
encontrada no perspectivismo ameríndio. "Perspectivas incentivam a acreditar FORA
delas." (WAGNER, 2012, p. 1) Rigorosamente, dentro do algoritmo de modularidade,
pensamos o (perfil) para fora de si mesmo, até o momento em que não é mais possível
ser um outro ponto de vista. O algoritmo repete este processo de troca e mudança,
sucessivas vezes para todos os nós. A autofagia é uma sobrevivência de hashtags na rede.
Um ajuntamento de alianças.
IV - METODOLOGIA
"O objeto como tal: porque uma perspectiva não é uma representação" (VIVEIROS
DE CASTRO, 2012)
O primeiro passo do método é ter o conjunto de dados a serem analisados, a
extração de tweets formatados num arquivo separado por vírgulas (CSV). A ferramenta
utilizada para obter esses tweets é chamado yourTwapperKeeper7. O procedimento começa
com a escolha de um termo ou hashtag, a ferramenta faz o trabalho de arquivamento de
dados. Este processo fornece uma historiografia do que têm sido vocalizado relacionada à
expressão de pesquisa. Com dados suficientes, podemos ir para o "campo", o que para s
significa explorar uma base de dados de entidades e atributos.
7 Responsável por crawlear (buscar e armazenar) tweets em tempo real a partir de termos e hashtags
específicos, utilizando-se de uma das APIs do Twitter, a streaming API. É o predecessor do serviço pago
Topsy, capaz também de armazenar os tweets publicados
Intercom)–)Sociedade)Brasileira)de)Estudos)Interdisciplinares)da)Comunicação)
XXXVII)Congresso)Brasileiro)de)Ciências)da)Comunicação)–)Foz)do)Iguaçu)–)2)a)5/9/2014
8
O segundo passo é o processamento de dados. Como se sabe, hashtags são uma das
formas mais comumente usadas de categorização e indexação entre os usuários em redes
sociais, como Twitter e Facebook. Pode-se dizer que a hashtag resumi o conteúdo do tweet,
positiva ou negativamente, confirmando-o ou para contradizê-lo. Então, o próximo passo
consiste na criação de uma "rede de Hashtags" de tweets coletados. A rede, então, é uma
rede de Hashtags. um ligação toda vez que houver co-ocorrência entre elas na mesma
sentença. Isso forma uma rede ponderada, como pode acontecer se duas vezes a mesma
hashtag aparece em um tweet. A criação deste complexa rede é fornecida por um script
programado no nosso laboratório e sua saída é um arquivo csv que vai ser usado no
software de análise e visualização de dados.
O terceiro passo se baseia no desenho da rede e na manipulação da sua estrutura.
Para visualizar a rede, basta importá-la para o Gephi. Por enquanto, a primeira visão da rede
é pode se dizer como uma “bola de pelo”, um gráfico completamente ininteligível. Neste
momento, a modularidade entra em cena. No passo seguinte, a modularidade é calculada
para cada nó, formando, assim, as comunidades. Uma maneira de aplicá-la na rede é definir
as cores para os nós, enfatizando, assim, as comunidades, no nosso caso, os temas de
discussão. O próximo passo importante é calcular o "Grau Ponderado", que ao usuário
uma maneira de aplicar diferentes tamanhos para os nós do seu grau ponderado, e esse foi o
passo seguinte.
Por fim, cada comunidade é uma rede de pontos de vista e eles são distribuídos
através de espaços de trabalho do Gephi. Agora, nós aplicamos a modularidade e
calculamos o grau médio ponderado novamente. O toque final consiste na definição do
projeto do gráfo com a opção "Circular Layout" ou “Concentric Layout”. Aconselhamos
por uma questão de experimentação encontrar o nó com maior grau, em que vamos
identificar o ponto de vista mais proeminente de cada rede. No estudo de caso, nós
mostraremos através da exploração e visualização de uma rede de hashtags como é possível
compor a forma de perspectiva da rede.
V - ESTUDO DE CASO: EXPLORANDO A REDE #FIFA
O software Gephi, utilizado para visualização e manipulação dos grafos utilizados
neste artigo, permite a utilização de métricas distintas para o estudo e a representação das
características únicas que cada rede apresenta. Os nós (nodes) representam diferentes perfis
Intercom)–)Sociedade)Brasileira)de)Estudos)Interdisciplinares)da)Comunicação)
XXXVII)Congresso)Brasileiro)de)Ciências)da)Comunicação)–)Foz)do)Iguaçu)–)2)a)5/9/2014
9
(fig. 1 a 4) ou hashtags (fig. 5 em diante) da rede; e as arestas (edges), as conexões
estabelecidas entre dois diferentes nós.
A fim de bem representarmos nossa metodologia, optamos por realizar uma análise
dos tweets publicados em conjunto com a hashtag #FIFA entre 11 e 13 de junho de 2014,
ou seja, no período de abertura da Copa do Mundo. Foram coletados ao total 195 hashtags
por 851 usuários em 1647 tweets, destes sendo 597 RTs, representados abaixo:
Fig. 1 e 2: à esquerda, grafo dos perfis presentes no dataset, utilizando o algoritmo ForceAtlas 2;
à direita, o mesmo grafo, mas especializado com o algoritmo Circular Layout.
No primeiro grafo (fig. 1), utilizamos o algoritmo de distribuição espacial Circular
Layout, enquanto, no segundo (fig. 2), utilizamos o algoritmo Force Atlas 2, desenvolvido
pela mesma equipe responsável pelo software Gephi. Em ambos, o tamanho dos nós indica
o valor de seu grau de entrada ponderado, medida responsável por, em nosso caso, avaliar a
quantidade de republicações que um perfil recebeu em todas as suas mensagens, calculando
a soma dos pesos das arestas que outros nós possuem conectando-os a um outro. A métrica
é a responsável por indicar os perfis que comportam-se como Autoridade na rede, ou seja, o
quão republicados eles foram por outros usuários, independentemente de seus números de
seguidores; já o tamanho das arestas define a força da conexão entre dois nós (o quão
retweetado foi o conteúdo da mensagem então republicada), e a sua cor, visando uma
melhor composição visual, um misto das duas métricas.
Em ambos, foram demarcados os perfis midiáticos com maior relevância na rede:
@jornaloglobo (grau 55); @fifaworldcup_pt (grau 52); @uol (grau 32); @estadao (grau
Intercom)–)Sociedade)Brasileira)de)Estudos)Interdisciplinares)da)Comunicação)
XXXVII)Congresso)Brasileiro)de)Ciências)da)Comunicação)–)Foz)do)Iguaçu)–)2)a)5/9/2014
10
24); e @veja (grau 10). Nos dois grafos e para todos estes nós, podemos perceber, em seu
entorno, a formação de clusters: grupos altamente conectados a um componente, graças à
atividade que exerceram na rede. Entretanto, é de se notar que estes grupos são mais
proeminentes à observação na primeira figura, justamente graças ao algoritmo ForceAtlas 2,
responsável por continuamente decompor a rede objetivando a sua interpretação qualitativa,
através de métricas espaciais de atração e repulsão, similares aos conceitos de gravidade e
massa, cujos valores são dependentes dos atributos dos nós que, por sua vez, variam de
acordo com as suas ligações (arestas) com outros nós. Entretanto, a análise até este ponto é
deficitária; isto porque os nós previamente citados como de maior Autoridade no grafo
compõem apenas 21,6% dos nós da rede total, ou 30% dos tweets nela publicados. Os
outros 89,4% dos nós, responsáveis por 70% do conteúdo gerado, estão todos localizados
nas redes chamadas periféricas, com baixo índice de conexão, mas não menos importantes
ou cruciais para a análise; por isso, é importante continuar a decomposição, por exemplo, a
partir da filtragem de nós em diferentes áreas de trabalho, como visto a seguir:
Fig. 3 e 4: à esquerda, grafo representativo dos perfis que comportam-se como
Autoridades no dataset; à direita, grafo dos demais perfis inclusos na rede.
A partir deste método, somos possibilitados à análise separada de diferentes
segmentos da rede, proporcionando-nos, assim, uma riqueza quanto ao detalhamento do
nosso objeto de estudo. É possível gerar estatísticas de cada um dos grupos acima,
individual ou conjuntamente, em relação, por exemplo, ao volume de links, tweets, usuários
ou mesmo palavras ao dia. Até mesmo a localização dos usuários que publicaram tweets
Intercom)–)Sociedade)Brasileira)de)Estudos)Interdisciplinares)da)Comunicação)
XXXVII)Congresso)Brasileiro)de)Ciências)da)Comunicação)–)Foz)do)Iguaçu)–)2)a)5/9/2014
11
pode ser averiguada, o que nos permite calcular a ascensão de determinada pauta
separadamente em diferentes países – e por diferentes camadas de usuários.
Ademais, mesmo após a observação da estrutura da rede, para uma análise mais
completa, resta-se avaliar um outro recurso que tornou-se elemento-chave nas interações
sociais do Twitter, chegando a ser, anos depois, importado pelo Facebook: as hashtags. A
partir do mesmo método anteriormente descrito, torna-se possível extrair as diferentes
hashtags que cada um dos grupos utilizou ao longo do tempo, assim como analisar as suas
co-ocorrências, prosperando assim ainda mais em nossa observação.
A seguir, pode-se conferir o grafo das co-ocorrências de hashtags no dataset:
Fig. 5 e 6: à esquerda, grafo das hashtags publicadas nos tweets do dataset, utilizando o algoritmo
ForceAtlas 2; à direita, o mesmo grafo, mas especializado com o algoritmo Circular Layout.
Graças à estatística de modularidade, o software foi capaz de decompor os nós da
rede em cinco grupos principais, então intitulados com o maior nó respectivo de cada rede,
de forma a facilmente obtermos uma categorização dos dados apresentados. O resultado
segue: rede #copa2014 (18,6%), responsável por agrupar as hashtags referentes
especificamente à Copa do Mundo; #brasil (17%), cujas conexões dizem respeito ao país-
sede da Copa; #fifa (17%), com hashtags relacionadas especificamente à organização
responsável pelo feitio do evento; #nãovaitercopa (13,9%), parte controversa da rede, cujos
componentes fazem oposição ao evento, ao país ou à organização FIFA; e #worldcup
(10,8%), correlatado especificamente à visão internacional do conteúdo gerado. Desta
forma, é possível fazer um breve cálculo da presença de cada debate, cada pauta no
Intercom)–)Sociedade)Brasileira)de)Estudos)Interdisciplinares)da)Comunicação)
XXXVII)Congresso)Brasileiro)de)Ciências)da)Comunicação)–)Foz)do)Iguaçu)–)2)a)5/9/2014
12
período de tempo que abrange o dataset. Nota-se também uma presença de componentes
com baixo número de conexões, que não foram muito reproduzidos, tanto entre si quanto
com outros clusters, na parte sul do grafo, em preto; entretanto, para a perspectivação,
resolvemos por dispensá-lo, justamente por não oferecer um índice claro de seu conteúdo,
apresentando-se demais multifacetado para a sua observação dentro dos limites deste artigo.
Agora, a respeito do layout: na análise de perfis que compunham a rede, concluímos
que o algoritmo ForceAtlas 2 provia uma melhor espacialização de seus nós. No caso das
co-ocorrências de hashtags, entretanto, a verdade mostra-se como o oposto: o algoritmo
Circular Layout demonstra oferecer uma representação muito mais clarificada do grafo,
pois almeja não uma clusterização dos seus dados, e sim a sua representação uniforme
que, aliada à ordenação por modularidade, oferece uma visualização simples e efetiva, tanto
dos nós quanto de suas arestas, aspecto este importantíssimo para a compreensão desta rede.
A única modificação feita após a organização do software foi arrastar o maior nó de cada
cluster para o meio, a fim de evitar sobreposições tanto de rótulos, quanto de arestas.
A análise, entretanto, não se interrompe nesta fase. É possível transferir os nós de
um cluster para outra área de trabalho, a exemplo do que foi feito anteriormente, mas agora
com o objetivo de repassar o algoritmo de modularidade, a fim de identificarmos suas
subperspectivas. Escolhemos, para fins de demonstração desta possibilidade, fazê-lo com o
cluster #nãovaitercopa, conforme abaixo:
Intercom)–)Sociedade)Brasileira)de)Estudos)Interdisciplinares)da)Comunicação)
XXXVII)Congresso)Brasileiro)de)Ciências)da)Comunicação)–)Foz)do)Iguaçu)–)2)a)5/9/2014
13
Fig. 7 e 8: à esquerda, cluster #nãovaitercopa, organizado por grau de entrada ponderado;
à direita, o mesmo cluster, porém organizado por modularidade após cálculo do algoritmo.
Numa comparação de ambos os grafos, verificamos uma representação da rede
muito melhor estruturada na segunda representação, tanto nos nós quanto nas arestas,
graças à conglomeração dos clusters. Na primeira imagem, é necessário esforçar-se para a
leitura, mesmo que os nós estejam organizados gradualmente pelos seus pesos (tamanhos);
é difícil acompanhar as múltiplas conexões de hashtag para hashtag, demonstrando um
reflexo da quantidade de temas que a rede conota. Entretanto, após reorganizarmos estes
temas por via de um segundo cálculo do algoritmo de modularidade e reordenação dos nós
segundo este atributo, torna-se fácil enxergar as subperspectivas, ou melhor, as disputas de
sentido do cluster da hashtag #nãovaitercopa. Vale previamente lembrar que a hashtag
#nãovaitercopa encontra-se, em primeira instância e pela natureza de sua conotação, num
sentido de oposição/disputa direta com todos os outros grupos consolidados pelo Gephi:
#brasil, #copa2014, #fifa e #worldcup.
Em vermelho, temos a argumentação principal da “corrupção” envolvendo o
governo petista, representado pela presidente Dilma Rousseff; em azul, uma preocupação
dos usuários em evitar demonstrações de racismo durante o evento; em verde, percebe-se
Intercom)–)Sociedade)Brasileira)de)Estudos)Interdisciplinares)da)Comunicação)
XXXVII)Congresso)Brasileiro)de)Ciências)da)Comunicação)–)Foz)do)Iguaçu)–)2)a)5/9/2014
14
uma reafirmação da Copa do Mundo, que resume-se numa tentativa de ressignificação da
rede; e, em roxo, as hashtags especificamente relacionadas à organização responsável pelo
evento, FIFA. Nota-se também que, com esta segunda representação, podemos facilmente
verificar as conexões entre diferentes controvérsias, ou mesmo entre nós de cada
controvérsia, a exemplo das hashtags #copadacorrupção e #vaitercopasim: termos tanto
competitivos quanto complementativos.
Desta forma, constatamos a possibilidade de, através de métricas e estatísticas
consolidadas por meio do software Gephi, decompor uma rede do todo à sua menor parte, a
fim de examinar perspectivas e disputas tanto dos usuários que a habitam quanto do
conteúdo que ela representa.
VI – CONCLUSÃO
Neste artigo apresentamos as referências teóricas em Antropologia Pós-Social e
Redes Complexas para apoiar o nosso quadro metodológico para estudos de redes sociais.
O Twitter é um rico campo de produções, ele pode criar discussões alarmantes sobre a
necessidade de debater algo ou chamar atenção para um tema específico. uma memória
social dentro da hashtag, é por isso que nesta pesquisa que abordou a exploração de pontos
de vista que usamos as hashtags para explorar a rede. No entanto, a hashtag também é um
personagem fictício que reúne uma memória coletiva e coloca-o para atuar no espaço
público, influenciando a compreensão do que entendemos ser a realidade. Este não é um
simulacro 2.0, é uma prática que ativa um modo de existência humana, a ficção, para
expandir a nossa capacidade crítica. Nós fizemos uma escolha de dados que envolve um
tema da Copa do Mundo 2014 a FIFA. No caso dessa palavra-chave, foi confirmada a
existência de uma variedade de redes na grande rede. Perspectivas diferentes, que são
distinguíveis por completo. Tais como, a distância entre #Brasil, #worldcup,
#naovaitercopa, e os temas relacionados a própria #FIFA. Esses experimentos nos
convidam a nos debruçar sob o ponto de vista, ressaltando que não é possível generalizar a
rede. Este procedimento, que analisa a co-ocorrência de hashtags em um conjunto de dados
de tweets, deixa para trás os tweets sem hashtags e apenas uma hashtag. Isto implica em
uma certa limitação para o método, mas também se concentra em seu objetivo principal:
estudar a conexão entre as hashtags de um tweet e perceber a forma de perspectiva
originada por suas conexões em uma rede complexa. A nossa metodologia de pesquisa
evidenciou a nossa hipótese, uma vez que indica que há grande variedade de pontos de
Intercom)–)Sociedade)Brasileira)de)Estudos)Interdisciplinares)da)Comunicação)
XXXVII)Congresso)Brasileiro)de)Ciências)da)Comunicação)–)Foz)do)Iguaçu)–)2)a)5/9/2014
15
vista, portanto, para um estudo mais detalhado de redes demanda-se levar em conta as
perspectivas da rede. Nosso método indica que as pesquisas envolvendo redes
informacionais, tais como estudos sobre grau, sentimento, hub e autoridade, que não levam
em conta as perspectivas em disputa nas redes, tenderá chegar a conclusões que privilegiam
os nós mais ricos, com mais conexões. Para trabalhos futuros, pretendemos refinar a nossa
estrutura metodológica com testes em outros conjuntos de dados.
VII - REFERÊNCIAS
BASTIAN, M., HEYMANN S., JACOMY, M. Gephi: an open source software for
exploring and manipulating networks. International AAAI Conference on Weblogs and
Social Media. 2009.
BLEI, D. Build, compute, critique, repeat: Data analysis with latent variable models.
Annual Review of Statistics and Its Application 1:203-232, 2014.
BLONDEL, V.; GUILLAUME, J.; LAMBIOTTE, R.; LEFEBVRE, E. Fast unfolding of
communities in large networks. In Journal of Statistical Mechanics: Theory and
Experiment 2008 (10), P10008 (12pp) doi: 10.1088/1742-5468/2008/10/P10008. ArXiv:
http://arxiv.org/abs/0803.0476
CHANG, J, BOYD-GRABER, J, and BLEI, D. Connections between the Lines:
Augmenting Social Networks with Text. Em: Refereed Conference on Knowledge
Discovery and Data Mining, 2009
CIARELLI, P, OLIVEIRA, E, SALLES, E. Multi-label incremental learning applied to web
page categorization. Neural Computing and Applications 24(6): 1403-1419 (2014)
De MEO, P, FERRARA, E, FIUMARA, G, and PROVETTI, A. Generalized louvain
method for community detection in large networks. In Intelligent Systems Design and
Applications (ISDA) 88-93. 2011.
DELLEUZE, G. Lógica do Sentido. São Paulo: Ed. Perspectiva, 2009.
ELHADI, H, and AGAM, G. Structure and Attributes Community Detection: Comparative
Analysis of Composite, Ensemble and Selection Methods. Em: SNA KDD 2013
International Workshop on Social Network Mining and Analysis held in conjunction with
ACM SIGKDD Conference on Knowledge Discovery and Data Mining, Agosto, 2013.
FORTUNATO, S, and BARTHÉLEMY, M. Resolution limit in community detection. In
Proceedings of the National Academy of Sciences of the United States of America. v 104, 1,
36-41. 2006.
GOMES, L. F. Cinema nacional: caminhos percorridos. São Paulo: Ed.USP, 2007.
JOCKERS, M. Macroanalysis: Digital Methods and Literary History. University of Illinois
Press. 208 pp. 2013.
LATOUR, B, JENSEN, P, VENTURINI, T, GRAUWIN, S, and BOULLIER, D. The
Whole is always smaller than its parts. In British Journal of Sociology. 2012.
LATOUR, B. 2007. Beware your imagination leaves digital traces. Em: Times Higher
Literary Supplement, 2007.
_____. Reassembling the Social: An Introduction to Actor-Network-Theory. Oxford: Oxford
University Press. 2007.
Intercom)–)Sociedade)Brasileira)de)Estudos)Interdisciplinares)da)Comunicação)
XXXVII)Congresso)Brasileiro)de)Ciências)da)Comunicação)–)Foz)do)Iguaçu)–)2)a)5/9/2014
16
LEE, C, and CUNNINGHAM, P. Community detection: effective on large social networks.
Em Journal of Complex Networks (2014) 2, 19-37. 2013.
MILKOV, E, COHEN, W, and NG, A. Contextual Search and Name Disambiguation in
Email using Graphs. In SIGIR. 2006.
MIMNO D, and McCALLUM, A. Mining a digital library for influential authors. Joint
Conference on Digital Libraries (JCDL) 2007, Vancouver, BC, Canada. 2007.
MORETTI, F. Distant Reading. London: Verso. 254 pp. 2013.
VENTURINI, T. Building on faults: how to represent controversies with digital methods.
SAGE Journals. December 5, 2010.
VINCENZO, N. Modularity for community detection: history,perspectives and open issues.
Found at: http://supernet.isenberg.umass.edu/fulbright-catania/workshop-talks/nicosia-
nagurney-daniele-workshop.pdf. Acesso em: 06/06/2014. 2008.
VIVEIROS DE CASTRO, E, GOLDMAN, M. Introduction to Post-Social Anthropology.
Em HAU: Journal of Ethnographic Theory 2 (1): 421-433. 2012.
VIVEIROS DE CASTRO, E. La Mirada Del Jaguar: Introducion al Perspectivismo
Amerindio. Tinta Limon. Buenos Aires. 2013.
_____. “Immanence and Fear: Stranger events and subjects in Amazonia”. In HAU: Journal
of Ethnographic Theory. Vol 2 (1): 27-43. 2012.
_____. Intensive Filiation and Demonic Alliance. In Deleuzian Intersections: Science,
Technology, Anthropology. Oxford: Berghahn. 2010.
_____. A Inconstância da Alma Selvagem e Outros Ensaios de Antropologia. São Paulo:
Cosac & Naify. 552 pp. 2002.
_____. O nativo relativo. Mana, Rio de Janeiro, v.8, n.1, Apr. 2002. Acessível em:
<http://www.scielo.br/scielo.php?script=sci_arttext&pid=S0104-
93132002000100005&lng=en&nrm=iso>. Acessado em: 20 Julho de 2014.
http://dx.doi.org/10.1590/S0104-93132002000100005..
WAGNER, R. Facts force you to believe in them; perspectives encourage you to believe
out of them. An introduction to Viveiros de Castro’s magisterial essay. Em HAU: Journal
of Ethnographic Theory. Vol (1): 11-44. 2012.
ResearchGate has not been able to resolve any citations for this publication.
Article
Full-text available
In a previous article in this journal, I introduced Bruno Latour's cartography of controversies and I discussed half of it, namely how to observe techno-scientific controversies. In this article I will concentrate on the remaining half: how to represent the complexity of social debates in a legible form. In my previous paper, we learnt how to explore the richness of collective existence through Actor-Network Theory. In this one, I will discuss how to render such complexity through an original visualization device: the controversy-website. Capitalizing on the potential of digital technologies, the controversy-website has been developed as a multilayered toolkit to trace and aggregate information on public debates.
Conference Paper
Full-text available
Similarity measures for text have historically been an impor- tant tool for solving information retrieval problems. In many interesting settings, however, documents are often closely connected to other documents, as well as other non-textual objects: for instance, email messages are connected to other messages via header information. In this paper we consider extended similarity metrics for documents and other objects embedded in graphs, facilitated via a lazy graph walk. We provide a detailed instantiation of this framework for email data, where content, social networks and a timeline are in- tegrated in a structural graph. The suggested framework is evaluated for two email-related problems: disambiguating names in email documents, and threading. We show that reranking schemes based on the graph-walk similarity mea- sures often outperform baseline methods, and that further improvements can be obtained by use of appropriate learn- ing methods.
Conference Paper
Full-text available
Gephi is an open source software for graph and network analysis. It uses a 3D render engine to display large networks in real-time and to speed up the exploration. A flexible and multi-task architecture brings new possibilities to work with complex data sets and produce valuable visual results. We present several key features of Gephi in the context of interactive exploration and interpretation of networks. It provides easy and broad access to network data and allows for spatializing, filtering, navigating, manipulating and clustering. Finally, by presenting dynamic features of Gephi, we highlight key aspects of dynamic network visualization.
Article
Full-text available
In this paper we present a novel strategy to discover the community structure of (possibly, large) networks. This approach is based on the well-know concept of network modularity optimization. To do so, our algorithm exploits a novel measure of edge centrality, based on the k-paths. This technique allows to efficiently compute a edge ranking in large networks in near linear time. Once the centrality ranking is calculated, the algorithm computes the pairwise proximity between nodes of the network. Finally, it discovers the community structure adopting a strategy inspired by the well-known state-of-the-art Louvain method (henceforth, LM), efficiently maximizing the network modularity. The experiments we carried out show that our algorithm outperforms other techniques and slightly improves results of the original LM, providing reliable results. Another advantage is that its adoption is naturally extended even to unweighted networks, differently with respect to the LM.
Article
Full-text available
Este artigo tenta extrair as implicações teóricas do fato de que a antropologia não apenas estuda relações, mas que o conhecimento assim produzido é ele próprio uma relação. Propõe-se, assim, uma imagem da atividade antropológica como fundada no pressuposto de que os procedimentos característicos da disciplina são conceitualmente de mesma ordem que os procedimentos investigados. Entre tais implicações, está a recusa da noção corrente de que cada cultura ou sociedade encarna uma solução específica de um problema genérico, preenchendo uma forma universal (o conceito antropológico) com um conteúdo particular (as concepções nativas). Ao contrário, a imagem aqui proposta sugere que os problemas eles mesmos são radicalmente diversos, e que o antropólogo não sabe de antemão quais são eles.
Article
While many recently proposed methods aim to detect network communities in large datasets, such as those generated by social media and telecommunications services, most evaluation (i.e. benchmarking) of this research is based on small, hand-curated datasets. We argue that these two types of networks differ so significantly that, by evaluating algorithms solely on the smaller networks, we know little about how well they perform on the larger datasets. Recent work addresses this problem by introducing social network datasets annotated with meta-data that is believed to approximately indicate a 'ground truth' set of network communities. While such efforts are a step in the right direction, we find this meta-data problematic for two reasons. First, in practice, the groups contained in such meta-data may only be a subset of a network's communities. Second, while it is often reasonable to assume that meta-data is related to network communities in some way, we must be cautious about assuming that these groups correspond closely to network communities. Here, we consider these difficulties and propose an evaluation scheme based on a classification task that is tailored to deal with them.
Article
Multi-label problems are challenging because each instance may be associated with an unknown number of categories, and the relationship among the categories is not always known. A large amount of data is necessary to infer the required information regarding the categories, but these data are normally available only in small batches and distributed over a period of time. In this work, multi-label problems are tackled using an incremental neural network known as the evolving Probabilistic Neural Network (ePNN). This neural network is capable of continuous learning while maintaining a reduced architecture, so that it can always receive training data when available with no drastic growth of its structure. We carried out a series of experiments on web page data sets and compared the performance of ePNN to that of other multi-label categorizers. On average, ePNN outperformed the other categorizers in four out of five metrics used for evaluation, and the structure of ePNN was less complex than that of the other algorithms evaluated.
Conference Paper
When browsing a digital library of research papers, it is nat- ural to ask which authors are most inuential in a particular topic. We present a probabilistic model that ranks authors based on their inuence in particular areas of scientic re- search. This model combines several sources of information: citation information between documents as represented by PageRank scores, authorship data gathered through auto- matic information extraction, and the words in paper ab- stracts. We compare the performance of a topic model ver- sus a smoothed language model by assessing the number of major award winners in the resulting ranked list of re- searchers. Categories and Subject Desriptors: H.3.7 Information Systems : Digital Libraries General Terms: Algorithms.