Conference PaperPDF Available

Usando Workflows Datacêntricos Para Analisar Tweets Sobre o Aedes aegypit

Authors:

Abstract and Figures

A análise de mensagens de redes sociais pode oferecer diferentes perspectivas sobre como as populações se relacionam, incluindo áreas da saúde pública. Este trabalho apresenta um estudo inicial baseado no uso de workflows do tipo datacêntricos executados em nuvens de computadores capazes de coletar e preparar e analisar tweets, avaliando o impacto das postagens acerca do mosquito Aedes aegypti no cenário de saúde pública brasileira. As análises ora apresentadas são de natureza estáticas e temporais e foram integralmente realizadas na plataforma IBM Bluemix.
Content may be subject to copyright.
Usando Workflows Datacêntricos Para Analisar Tweets
Sobre o Aedes aegypit
Fillipe Dornelas1,3, rgio Manuel Serra da Cruz1,2
1 Departamento de Matemática Universidade Federal Rural do Rio de Janeiro (UFRRJ)
2 Programa PET Sistemas de Informação (PET-SI/UFRRJ)
BR 465, KM7 UFRRJ Seropédica RJ Brasil
3 IBM Research do Brasil
Avenida Pasteur, 138 - Urca - Rio de Janeiro RJ - Brasil
fillipes@br.ibm.com, serra@pet-si.ufrrj.br
Abstract. Analyzing user messages in social media can offer different point of
view of a given society, including public health issues. This work presents a
strategy based on data-centric workflows able to collect, prepare and analyze
large amounts of tweets evaluating the impact of the messages about the
Aedes aegypti in the Brazilian public health scenario. Static and temporal
analysis were performed by workflows enacted in IBM Bluemix platform
which has been shown as stable and scalable platform.
Resumo. A análise de mensagens de redes sociais pode oferecer diferentes
perspectivas sobre como as populações se relacionam, incluindo áreas da
saúde pública. Este trabalho apresenta um estudo inicial baseado no uso de
workflows do tipo datacêntricos executados em nuvens de computadores
capazes de coletar e preparar e analisar tweets, avaliando o impacto das
postagens acerca do mosquito Aedes aegypti no cenário de saúde pública
brasileira. As análises ora apresentadas são de natureza estáticas e temporais
e foram integralmente realizadas na plataforma IBM Bluemix.
1. Introdução
Compreender com profundidade comportamentos e assuntos relacionados ao
espalhamento dos tweets sobre a saúde pública ainda é um grande desafio em aberto na
computação. Adicionalmente, se considerarmos as enormes quantidades de dados
manipulados na área da saúde pública, a gravidade e a abrangência e a gravidade das
doenças transmitidas pelo mosquito Aedes aegypti no Brasil, este problema se torna
ainda mais crítico.
Vários estudos têm como objetivo avaliar o espalhamento das mensagens em
redes sociais sobre eventos sociais, catástrofes e epidemias (Sprenger et al, 2013),
(Dalmonte et al, 2014) e (Santos et al, 2015). O microblog Twitter é uma das redes
sociais mais utilizadas no mundo e o Brasil ocupa a segunda posição entre os países
com maior número de usuários. A rede emergiu como um dos meios de propagação
mais profícuos de disseminação de informações (Chew e Eysenbach, 2010 e Kwak et al,
2010). Seu limite de postagem de poucos caracteres é um facilitador para que os
usuários, agências governamentais ou do terceiro setor realizem postagens de forma
rápida e sucinta e que se tornam uma fonte importante de alertas de situações de
emergências.
Nos últimos anos a disseminação do mosquito Aedes aegypti tem alcançados
proporções alarmantes no Brasil e no mundo, favorecendo a disseminação de doenças
virais até pouco tempo negligenciadas (por exemplo, Zika e Chikungunya). Neste
trabalho apresentaremos um estudo baseado em workflows datacêntricos executados
em nuvem de computadores que permitem analisar grandes volumes de mensagens
semi-estruturadas relacionadas com as postagens relacionadas ao tema Aedes aegypti,
utilizamos dados do Twitter coletados por um período de seis meses em todo o Brasil.
Diferentemente dos trabalhos relacionados, concebemos uma estratégia baseada
em workflows datacêntricos em ambiente de nuvem do tipo PaaS cuja composição
envolve atividades que variam desde a automação da coleta dos tweets, processamento
e posterior classificação/análise/visualização e verificação da disseminação das
mensagens. A estratégia proposta foi materializada plataforma Bluemix (Kim et al,
2016), ela permitiu analisar questões relacionadas com o espalhamento de tweets sobre
Aedes aegypti. Para avaliar a abordagem, propomos um conjunto de questões (Q1, Q2,
Q3 e Q4) para investigar o espalhamento e testar a viabilidade da abordagem.
Este trabalho está organizado da seguinte forma. Na Seção 2 apresentamos uma
visão geral da literatura relacionada sobre estudos de comportamento de usuários no
Twitter em relação as doenças transmitidas pelo Aedes aegypti. Na Seção 3
descrevemos os materiais e a metodologia utilizada nos workflows centrados em dados,
além da caracterização do dataset e as análises realizadas, Na Seção 4, discutimos os
principais resultados obtidos. Finalmente, na Seção 5 apresentamos as conclusões,
limitações e alguns direcionamentos para trabalhos futuros.
2. Trabalhos Relacionados
O Twitter tem sido usado em diversos contextos, possui canais de cidadania, saúde e
emergências sociais que têm despertado grande importância no cenário de análise de
dados sociais. Um dos usos que mais vem despertando atenção diz respeito às questões
ligadas à saúde pública, em especial aquelas relacionados com as doenças transmitidas
por vírus (H1N1, SARS, Dengue, Zika, Malária, entre outros) que podem atingir
grandes contingentes populacionais (Van Hilten et al, 2016).
Antunes et al. (2014) usaram os tweets com a ocorrência do termo “dengue”
para inferir quais os períodos onde mais se comentava sobre este assunto e onde mais se
encontravam registros de casos da doença em uma determinada região analisada.
Toriumi et al. (2013) usaram os tweets para elaborar mapas de projeção e abrangência
de um determinado assunto, os autores desenvolveram uma aplicação que exibe mapas
e informações sobre a provável infestação dos mosquitos Aedes aegypti no município
de Cuiabá, no Mato Grosso. A partir da seleção e análise desses dados, os autores foram
capazes de desenvolver uma ferramenta de fácil visualização e entendimento sobre
possíveis infestações e disseminações das doenças virais.
Além dos estudos sobre a disseminação de epidemias, o Twitter também é
largamente utilizado em desastres naturais. Por exemplo, existem trabalhos construídos
com a perspectiva de analisar como a informação se propagada durante a ocorrência de
desastres naturais (Toriumi et al, 2013 e Thapa et al, 2016). O primeiro autor utilizou
tweets para estudar como se comportava o compartilhamento das informações durante o
terremoto no Leste do Japão de 2013. O segundo analisou o espalhamento de dados das
redes sociais Twitter e Flicker relacionadas ao terremoto no Nepal de 2015. Apesar de
serem trabalhos independentes, os autores concluíram que os usuários compartilharam
tweets colaborativamente para disseminar as informações que consideram importantes
acerca do desastre e também diminuíram o compartilhamento de informações não
emergenciais para evitar interromper os fluxos das informações críticas.
Como relação a geolocalização dos tweets, verifica-se que grande parte destes
não são localizados por opção própria de usuários ou por questões de privacidade; a
maioria evita informar suas reais localizações. Segundo Leetaru et al., (2013) apenas
2% das mensagens são geolocalizadas. Com vistas a preencher essa lacuna, Davis Jr. et
al., (2011) usaram dados de tweets não geolocalizados e de informações de
relacionamentos entre os usuários do Twitter para enriquecer a tentativa de inferir a
localização desses tweets a partir da técnica de validação cruzada de informações.
Até o momento, existem alguns trabalhos na literatura que associem o problema
de extração e analise de tweets com uso de workflows científicos. Um workflow
científico pode ser definido como sendo especificação formal de um processo científico
que representa o encadeamento de fluxos de atividades e dados a serem conduzidas em
um determinado experimento (Deelman et al, 2009.). Eles são executados por sistemas
gerenciadores de workflows científicos (SGWfC) que fornecem o ferramental
necessário para definir, modificar, gerenciar, executar e monitorar os workflows
científicos. Os workflows do tipo datacêntricos seguem a mesma lógica dos workflows
científicos tradicionais, são centrados em grandes volumes de dados complexos e
podem ser executados por SGWfC ou não.
Um SGWfC é um sistema computacional que executa aplicações científicas
compostas por atividades cuja ordem de execução é definida por uma representação
digital da lógica do workflow científico (Goderis et al, 2006). Atualmente, existem
dezenas de SGWfC (Kepler, VisTrails, Pegasus, Taverna, Panda, Galaxy, Swift, Knime,
entre outros) (Deelman et al, 2009). Os SGWfC são produtos de diferentes motivações
de desenvolvimento, públicos-alvo específicos e decisões técnicas particulares a cada
projeto, o que faz com que suas funcionalidades se diferenciem consideravelmente um
do outro e que representem diferentes aspectos relacionados à execução e à modelagem
de workflows científicos.
Faz necessário ressaltar que ao momento da escrita deste trabalho não foram
localizados na literatura SGWfC especificamente concebidos para modelar problemas
comuns à área de análise de dados de redes sociais. Por esse motivo, investigamos uso
de novas ferramentas de data analytics tais como plataforma Bluemix da IBM para
modelar e executar os workflows datacêntricos.
O Bluemix da IBM é uma plataforma de serviços de nuvem (PaaS) elástica e
escalável baseada no projeto de código aberto Cloud Foundry (2016). Ela permite criar,
implementar e gerenciar aplicativos na nuvem com baixo esforço de programação. O
Bluemix é uma plataforma comercial que não foi concebida para atuar ou incorporar as
funcionalidades de um SGWfC, porém ele oferece um ecossistema aplicativos,
componentes e serviços em tempo de execução que permitem que um pesquisador
encadeie atividades computacionais de modo análogo a um workflow científico. O
encadeamento das atividades se dá por intermédio de editores de workflows (utilizamos
o editor Node-RED (2016)). O Node-RED é editor de workflows multiplataforma que
possui interfaces ricas baseadas em Javascript e Node.js e que permite ao pesquisador
modelar, e monitorar a execução dos workflows datacêntricos que analisam os dados
semiestruturados de oriundos de redes sociais.
Diferentemente dos trabalhos principais relacionados na literatura, neste
trabalho propomos a adoção do paradigma dos workflows datacêntricos em ambientes
elásticos de data analytics para analisar os tweets relacionados à disseminação do
Aedes Aegypti. As análises dos tweets sobre o tema serão realizadas por workflows
desenvolvidos e executados em uma plataforma de serviços de computação em nuvem.
3. Materiais e Métodos
Esta seção descreve os materiais, métodos e etapas propostas para a extração, análise,
processamento e visualização dos dados do Twitter.
3.1 Materiais
Nosso estudo se considerou apenas o termo “Aedes aegypti”, não foram consideradas
variações termo. A coleta dos dados considerou os todos tweets postados por usuários
de todo o mundo no período que variou entre junho de 2014 até junho de 2016. Durante
esse intervalo, coletamos automaticamente um total de 44.467 tweets.
Utilizamos a plataforma Bluemix e as ferramentas de Data&Analytics
disponíveis no catálogo de serviços da plataforma para o desenvolvimento e execução
dos workflows. Dentre as principais ferramentas utilizadas destacamos: API de
extração e recuperação de dados do Twitter. O repositório de dados utilizado foi o
dashDB. O dashDB oferece serviços de banco de dados SQL totalmente gerenciado
para cargas de trabalho transacionais, ele foi utilizado como área de armazenamento
temporário dos dados (consumidos e produzidos) pelo workflow. Além disso,
utilizamos o Bluemix para executar as análises estatísticas sobre os tweets, provendo
resultados textuais e visualizações gráficas dos resultados produzidos pelos workflows.
Para a análise de sentimentos invocamos os recursos de computação cognitiva do
Watson Analytics services (WATSON, 2016). O Bluemix e o dashDB foram
instanciados em máquinas virtuais com 64GB de memória RAM com 20GB de espaço
de armazenamento oferecidas pelo serviço de virtualização OpenStack.
3.2 Métodos
Neste trabalho propomos uma abordagem metodológica baseada em quatro fases para
analisar os tweets. A representação gráfica das fases está ilustrada na Figura 1, elas
foram fundamentais para a modelagem do workflow datacêntrico.
Aquisição Edição
Fase 1- Preparação
Formatação
e Limpeza Execução
Inspeção
Depuração
Fase 2 - Execução
Análise
Fase 3- Reflexão
Divulgação
Visualização
Fase 4 - Dispersão
Figura 1. Representação simplificada e conceitual das fases de um workflow
datacêntrico para análise de tweets.
A primeira fase (denominada preparação de dados) é executada antes de
qualquer tipo de processamento analítico, nela ocorrem a aquisição dos tweets e a
preparação ou formatação/limpeza dos dados para serem analisados.
A segunda fase (denominada execução) é o elemento central no workflow
datacêntrico. Nela, ocorrem a edição/codificação/encadeamento/execução dos scripts
dos workflows. Além disso, ocorrem as análises parciais dos resultados intermediários
do experimento, bem como a depuração dos scripts. Essa fase pode ser encarada com
um laço, onde o pesquisador interage com a plataforma, realiza múltiplas execuções do
workflow com parâmetros distintos para explorar as hipóteses do modelo
computacional.
A terceira fase (denominada reflexão) é a eminentemente analítica (ou pós-
execução) no processo de exploração dos dados. Comumente, o pesquisador oscila
entre as fases de reflexão e execução até a finalização do seu experimento. Nesta fase
ele analisa os resultados, inspeciona arquivos, faz anotações e comparações entre as
múltiplas execuções do workflow.
Por fim, a quarta fase (denominada dispersão) diz respeito a divulgação,
visualização ou compartilhamento dos resultados consolidados obtidos na pesquisa.
Nesta fase, ocorrem a publicações dos dados e resultados bem como dos workflows
subjacentes.
3.3 Questões de pesquisa
Neste estudo se buscou investigar um pequeno conjunto de questões (Q1, Q2, Q3 e Q4)
para testar a viabilidade da abordagem baseada em workflows datacêntricos e também
verificar o espalhamento de tweets.
As questões de pesquisa são experimentos baseados no workflow (Figura 2). Q1:
Qual foi a contribuição dos tweets em termos de quantos foram os usuários mais
influenciadores? Q2: Quais os períodos de maior postagem de tweets sobre o termo
“Aedes aegypti”? Q3: Quais as hashtags foram mais postadas no período avaliado? Q4:
Qual a predominância dos sentimentos dos tweets?
3.4 Representação conceitual do workflow
Para analisar os dados e verificar a abrangência dos tweets, desenvolvemos um
workflow datacêntrico baseados nas quatro fases apresentadas na subseção 3.1. A figura
2 ilustra uma representação conceitual simplificada do workflow baseado nas fases
considerando os recursos utilizados para a execução dos experimentos.
Figura 2. Representação conceitual de um workflow datacêntrico no Bluemix.
4. Provas de Conceito
Com o intuito de avaliar as funcionalidades do workflow foi realizada uma extração de
tweets entre os meses supracitados na subseção 3.2. Foram executados experimentos
como provas de conceito com o workflow parametrizável. Os experimentos buscavam
responder as questões Q1, Q2, Q3 e Q4.
Para responder a Q1, realizamos a execução do workflow que produziu uma
simples avaliação do tipo estatística. Dentre todos os tweets da base experimental,
verificou-se que existiam apenas 25.370 usuários influenciadores que postaram tweets
com o termo avaliado. A abrangência desses alcançaram 255.465.058 milhões
seguidores. Como decorrência de Q1, refinamos as análises dos tweets da base
experimental e verificamos que apenas 1,83% (818 mensagens) possuíam informações
de geolocalização.
611
33
31
30
21
21
17
16
14
14
0100 200 300 400 500 600 700
Brasil
Malásia
Argentina
Uruguai
Venezuela
Paraguai
Colômbia
Estados Unidos
México
República Dominicana
Distribuição de Tweets geolocalizados
Figura 3. Distribuição de tweets por pais origem.
A Figura 3 apresenta a distribuição dos tweets geolocalizados avaliados pelo
workflow. Também se verificou que 43.649 (Tweets e Retweets) não são
geolocalizados, sendo que apenas 611 são confirmados do Brasil. Os resultados estão
alinhados com as estimativas de apenas 2% de geolocalização de tweets apresentada
por (Leetaru et al, 2011).
Para responder Q2, o workflow foi configurado para avaliar a frequência de
mensagens. Obtivemos os resultados apresentadas da Figura 4.
Figura 4. Distribuição temporal de tweets.
Ressaltamos que a questão Q2 difere de Q1, a primeira apresenta apenas
resultados estatísticos. Q2 analisa as mensagens em função da sua distribuição temporal
e representa os quantitativos de tweets ao longo do período de tempo do estudo.
Verificou-se que ocorreu um aumento subido de mensagens sobre o tema nos períodos
de novembro de 2015 até março de 2016. Estes períodos correspondem aos meses de
verão no Brasil onde ocorre um aumento natural dos casos das doenças transmitidas
pelos mosquitos. Além disso, verificou-se que o período se alinhou com a intensa
campanha governamental de combate ao mosquito.
Para responder Q3, o workflow foi parametrizado para analisar a frequência e os
períodos de postagens dos usuários sobre o tema. Os resultados gerados pelo workflow
tiveram como saída a Tabela 1.
Tabela 1. Resumo do quantitativo das hashtags postadas no período avaliado.
Hashtag
Número total de ocorrências
#Zika
374
#ZikaZero
20
#G1
18
#Dengue
13
#CombateAedes
9
Outras
23.783
Por fim, para responder Q4, o workflow foi parametrizado para analisar os
sentimentos das mensagens utilizando os algoritmos disponibilizados pelo Insights for
Twitter que se apoiam os recursos de computação cognitiva oferecidos pelo IBM
Watson Analytics Services (WATSON, 2016). Do total de mensagens originais, 42.697
não possui informações de sentimentos. Apenas 3,98% possuíam indicações, sendo 863
identificados como positivas e 575 com sentimentos negativos.
5. Conclusão
Neste trabalho desenvolvemos uma estratégia computacional baseada em workflows
datacêntricos apoiados por uma plataforma PaaS comercial de data analytics para
analisar o espalhamento de tweets relacionados ao tema “Aedes aegypti”.
Verificou-se que a plataforma ainda é pouco difundida na comunidade
científica, porém ela ofereceu um amplo suporte para o desenvolvimento do workflow e
condução dos experimentos. Ela permitiu responder as questões Q1, Q2, Q3 e Q4 com
agilidade. Destacamos que, apesar de o ser o foco deste trabalho avaliar o
desempenho do workflow datacêntrico, ele produziu os resultados em tempo muito
curto, aproximadamente três minutos para todas as execuções.
A abordagem baseada em workflow datacêntrico no Bluemix permitiu que se
verificasse que o espalhamento dos tweets avaliados. Observou-se que os períodos de
maior número de postagens coincidem com os momentos de maior enfoque do tema nas
mídias (rádio, TV e Internet) e nas campanhas publicitárias que alertavam sobre os
perigos e formas de prevenção das doenças relacionadas ao mosquito Aedes aegypti.
Como limitações encontramos dificuldades ao analisar como os tweets não
geolocalizados. Como trabalhos futuros existem diversas possibilidades oferecidas pela
plataforma e que por questões de escopo não foram exploradas neste trabalho, como por
exemplo aprofundar as análises de sentimentos dos tweets sobre o tema e produzir
visualizações dos dados.
Agradecimentos
Agradecemos ao FNDE e ao MEC/SeSU pelo financiamento concedido ao programa
PET SI/UFRRJ e a IBM Research do Brasil pelo acesso gratuito aos seus recursos
computacionais e a plataforma Bluemix.
Referências
Antunes M. N, et al. 2014. “Monitoramento de informação em mídias sociais: o e-
Monitor Dengue”, In: TransInformação, Campinas, 26(1):9-18, jan./abr., Brasil.
Cloud Foundry, 2016. https://www.cloudfoundry.org/
Chew C, Eysenbach G. 2010. Pandemics in the age of Twitter: content analysis of
Tweets during the 2009 H1N1 outbreak. PLoS One. 2010 Nov 29;5(11):e14118.
Dalmonte, E. 2014. Novos cenários comunicacionais no contexto das mídias
interativas: o espalhamento midiático. Revista Famecos. DOI:
http://dx.doi.org/10.15448/1980-3729.2015.2.19729.
DashDB. 2016. http://www.ibm.com/analytics/us/en/technology/cloud-data-
services/dashdb/
Davis Jr, C. A. et al 2011. Inferring the Location of Twitter Messages Based on User
Relationships”, In: Transactions in GIS, Blackwell Publishing Ltd.
Deelman, E et al. 2009 Workflows and e-Science: An overview of workflow system
features and capabilities. Future Generation Computer Systems 25 (5), 528-540.
Goderis, A., Li, P., e Goble, C. 2006. Workflow discovery: the problem, a case study
from e-science and a graph-based solution. In Int. Conf. on Web Services (ICWS),
pp. 312319.
Kwak, H., Lee, C., Park, H., and Moon, S. 2010. What is twitter, a Social Network or a
News Media? In Proceedings of the 19th Int Conf. on World Wide Web, pp. 591
600.
Node-Red. 2016. http://nodered.org/.
Santos, H.S et al. 2015. Uma Visão do Mercado Brasileiro de Ações a partir de Dados
do Twitter, In: IV Brazilian Workshop on Social Network Analysis and Mining
(BraSNAM 2015), Brasil.
Thapa, L. 2016. Spatial-Temporal Analysis Of Social Media Data Related To Nepal
Earthquake 2015. XXIII ISPRS Congress, July 2016, Prague, Czech Republic, pp.
567-571.
Toriumi, F. et al., 2013. Information Sharing on Twitter during the 2011 Catastrophic
Earthquake. In: Proc. 22nd Int’l Conf. on World Wide Web, pp. 1025–1028.
Van Hilten, L. G. 2016. Debunking Zika virus pseudoscience: we need to respond fast,
say researchers https://www.elsevier.com/connect/debunking-zika-virus-
pseudoscience-we-need-to-respond-fast-say-researchers.
Watson Analytics, 2016. http://www-03.ibm.com/software/products/en/watson-
analytics.
ResearchGate has not been able to resolve any citations for this publication.
Article
Full-text available
Social Medias these days have become the instant communication platform to share anything; from personal feelings to the matter of public concern, these are the easiest and aphoristic way to deliver information among the mass. With the development of Web 2.0 technologies, more and more emphasis has been given to user input in the web; the concept of Geoweb is being visualized and in the recent years, social media like Twitter, Flicker are among the popular Location Based Social Medias with locational functionality enabled in them. Nepal faced devastating earthquake on 25 April, 2015 resulting in the loss of thousands of lives, destruction in the historical-archaeological sites and properties. Instant help was offered by many countries around the globe and even lots of NGOs, INGOs and people started the rescue operations immediately; concerned authorities and people used different communication medium like Frequency Modulation Stations, Television, and Social Medias over the World Wide Web to gather information associated with the Quake and to ease the rescue activities. They also initiated campaign in the Social Media to raise the funds and support the victims. Even the social medias like Facebook, Twitter, themselves announced the helping campaign to rebuild Nepal. In such scenario, this paper features the analysis of Twitter data containing hashtag related to Nepal Earthquake 2015 together with their temporal characteristics, when were the message generated, where were these from and how these spread spatially over the internet?
Article
Full-text available
A partir da realidade atual dos meios de comunicacao, tem-se por objetivo verificar as possibilidades de participacao do individuo nos processos de discussao e visibilidade social. No contexto da recirculacao da informacao via redes sociais, sao feitas consideracoes acerca dos niveis de participacao do leitor/receptor na construcao e veiculacao da informacao. De maneira especifica, discutem-se os niveis de interacao entre produtos televisivos da TV convencional e sites de redes sociais, com os seguintes objetivos: a) questionar padroes sincronos e assincronos de audiencia; b) verificar indicativos de fortalecimento da audiencia e c) verificar distintos usos afastados dos protocolos sugeridos pela instância de producao.
Article
Full-text available
Este artigo apresenta os resultados preliminares da pesquisa "Monitoramento de informação sobre doenças negligenciadas: o e-Monitor Dengue". O e-Monitor Dengue é um sistema de monitoramento de informação na Internet feito por meio de um mecanismo robô, software ou agente inteligente que vasculha os sites sobre dengue disponíveis na Internet. Resultados de pesquisas anteriores indicaram novas perspectivas para o monitoramento, principalmente, por meio das mídias sociais. Dentre as mídias sociais, considera-se que o Twitter pode desempenhar um papel na gestão da informação ao permitir identificar usuários que podem atuar como filtro de informação, sendo possível acessar diretamente a informação mais relevante para uma determinada área de interesse. Assim, a partir do monitoramento do Twitter, a primeira pergunta a ser respondida no âmbito da pesquisa em andamento foi "Quem fala sobre dengue?". Inicialmente, foi possível identificar a relação dos atores/perfis localizados na cidade do Rio de Janeiro e Niterói com maior ocorrência do termo "dengue" em suas mensagens. Os perfis foram cadastrados no sistema de monitoramento e são monitorados constantemente. Outra pergunta a ser respondida foi "Quando se fala de dengue?". Observa-se que o número de twetts acompanha o crescimento do número de casos de dengue. São indícios de que há uma relação entre os rumores sobre dengue e o aumento de número de casos notificados. Evidencia-se, desta forma, que realizar o monitoramento nas mídias sociais durante o período de epidemia e fazer sua relação com a situação epidemiológica da dengue pode ser uma estratégia importante para as autoridades em vigilância epidemiológica.
Conference Paper
Full-text available
Much has been written on the promise of Web service discovery and (semi-) automated composition. In this discussion, the value to practitioners of discovering and reusing existing service compositions, captured in workflows, is mostly ignored. This paper presents one solution to workflow discovery. Through a survey with 21 scientists and developers from the my Grid workflow environment, workflow discovery requirements are elicited. Through a user experiment with 13 scientists, an attempt is made to build a gold standard for workflow ranking. Through the design and implementation of a workflow discovery tool, a mechanism for ranking workflow fragments is provided based on graph sub-isomorphism matching. The tool evaluation, drawing on a corpus of 89 public workflows from bioinformatics and the results of the user experiment, finds that the average human ranking can largely be reproduced.
Article
Full-text available
Scientific workflow systems have become a necessary tool for many applications, enabling the composition and execution of complex analysis on distributed resources. Today there are many workflow systems, often with overlapping functionality. A key issue for potential users of work- flow systems is the need to be able to compare the capabilities of the various available tools. There can be confusion about system functionality and the tools are often selected without a proper functional analysis. In this paper we extract a taxonomy of features from the way sci- entists make use of existing workflow systems and we illustrate this feature set by providing some examples taken from existing workflow systems. The taxonomy provides end users with a mechanism by which they can assess the suitability of workflow in general and how they might use these features to make an informed choice about which workflow system would be a good choice for their particular application.
Article
Full-text available
Surveys are popular methods to measure public perceptions in emergencies but can be costly and time consuming. We suggest and evaluate a complementary "infoveillance" approach using Twitter during the 2009 H1N1 pandemic. Our study aimed to: 1) monitor the use of the terms "H1N1" versus "swine flu" over time; 2) conduct a content analysis of "tweets"; and 3) validate Twitter as a real-time content, sentiment, and public attention trend-tracking tool. Between May 1 and December 31, 2009, we archived over 2 million Twitter posts containing keywords "swine flu," "swineflu," and/or "H1N1." using Infovigil, an infoveillance system. Tweets using "H1N1" increased from 8.8% to 40.5% (R(2) = .788; p<.001), indicating a gradual adoption of World Health Organization-recommended terminology. 5,395 tweets were randomly selected from 9 days, 4 weeks apart and coded using a tri-axial coding scheme. To track tweet content and to test the feasibility of automated coding, we created database queries for keywords and correlated these results with manual coding. Content analysis indicated resource-related posts were most commonly shared (52.6%). 4.5% of cases were identified as misinformation. News websites were the most popular sources (23.2%), while government and health agencies were linked only 1.5% of the time. 7/10 automated queries correlated with manual coding. Several Twitter activity peaks coincided with major news stories. Our results correlated well with H1N1 incidence data. This study illustrates the potential of using social media to conduct "infodemiology" studies for public health. 2009 H1N1-related tweets were primarily used to disseminate information from credible sources, but were also a source of opinions and experiences. Tweets can be used for real-time content analysis and knowledge translation research, allowing health authorities to respond to public concerns.
Conference Paper
Neste artigo apresentamos uma visão do mercado de ações brasileiro a partir da caracterização e análise de dados coletados do Twitter no período de julho de 2013 a julho de 2014. Este trabalho tem como principal diferencial ser o primeiro a apontar as ações da BOVESPA que podem ter seu volume financeiro e número de ordens de compra e venda monitorados pelo Twitter. Além disso, nas nossas análises observamos que os eventos e notícias sobre o mercado de ações são capazes de gerar picos de postagens pelos usuários do Twitter e que a frequência de postagens acompanha o início das negociações e mantém-se por cerca de três horas após o fechamento do mercado de ações. Além disso, verificamos que 10% dos usuários são responsáveis por mais de 90% das postagens no Twitter. Finalmente, observamos que o montante financeiro e o volume de ordens de compra e venda são positivamente correlaciona dos para 66% das ações mencionadas no Twitter, ao passo que as dimensões de oscilação e oscilação máxima não estão correlacionadas.
Conference Paper
Such large disasters as earthquakes and hurricanes are very unpredictable. During a disaster, we must collect information to save lives. However, in time disaster, it is difficult to collect information which is useful for ourselves from such traditional mass media as TV and newspapers that contain information for the general public. Social media attract attention for sharing information, especially Twitter, which is a hugely popular social medium that is now being used during disasters. In this paper, we focus on the information sharing behaviors on Twitter during disasters. We collected data before and during the Great East Japan Earthquake and arrived at the following conclusions: • Many users with little experience with such specific functions as reply and retweet did not continuously use them after the disaster. • Retweets were well used to share information on Twitter. • Retweets were used not only for sharing the information provided by general users but used for relaying the information from the mass media. We conclude that social media users changed their behavior to widely diffuse important information and decreased non-emergency tweets to avoid interrupting critical information.
Article
User interaction in social networks, such as Twitter and Facebook, is increasingly becoming a source of useful information on daily events. The online monitoring of short messages posted in such networks often provides insight on the repercussions of events of several different natures, such as (in the recent past) the earthquake and tsunami in Japan, the royal wedding in Britain and the death of Osama bin Laden. Studying the origins and the propagation of messages regarding such topics helps social scientists in their quest for improving the current understanding of human relationships and interactions. However, the actual location associated to a tweet or to a Facebook message can be rather uncertain. Some tweets are posted with an automatically determined location (from an IP address), or with a user‐informed location, both in text form, usually the name of a city. We observe that most Twitter users opt not to publish their location, and many do so in a cryptic way, mentioning non‐existing places or providing less specific place names (such as “Brazil”). In this article, we focus on the problem of enriching the location of tweets using alternative data, particularly the social relationships between Twitter users. Our strategy involves recursively expanding the network of locatable users using following‐follower relationships. Verification is achieved using cross‐validation techniques, in which the location of a fraction of the users with known locations is used to determine the location of the others, thus allowing us to compare the actual location to the inferred one and verify the quality of the estimation. With an estimate of the precision of the method, it can then be applied to locationless tweets. Our intention is to infer the location of as many users as possible, in order to increase the number of tweets that can be used in spatial analyses of social phenomena. The article demonstrates the feasibility of our approach using a dataset comprising tweets that mention keywords related to dengue fever, increasing by 45% the number of locatable tweets.
Conference Paper
Twitter, a microblogging service less than three years old, com- mands more than 41 million users as of July 2009 and is growing fast. Twitter users tweet about any topic within the 140-character limit and follow others to receive their tweets. The goal of this paper is to study the topological characteristics of Twitter and its power as a new medium of information sharing. We have crawled the entire Twitter site and obtained 41:7 million user profiles, 1:47 billion social relations, 4; 262 trending topics, and 106 million tweets. In its follower-following topology analysis we have found a non-power-law follower distribution, a short effec- tive diameter, and low reciprocity, which all mark a deviation from known characteristics of human social networks (28). In order to identify influentials on Twitter, we have ranked users by the number of followers and by PageRank and found two rankings to be sim- ilar. Ranking by retweets differs from the previous two rankings, indicating a gap in influence inferred from the number of followers and that from the popularity of one's tweets. We have analyzed the tweets of top trending topics and reported on their temporal behav- ior and user participation. We have classified the trending topics based on the active period and the tweets and show that the ma- jority (over 85%) of topics are headline news or persistent news in nature. A closer look at retweets reveals that any retweeted tweet is to reach an average of 1; 000 users no matter what the number of followers is of the original tweet. Once retweeted, a tweet gets retweeted almost instantly on next hops, signifying fast diffusion of information after the 1st retweet. To the best of our knowledge this work is the first quantitative study on the entire Twittersphere and information diffusion on it.