Conference PaperPDF Available

Using Linked Data in the Data Integration for Maternal and Infant Death Risk of the SUS in the GISSA Project

Authors:

Abstract and Figures

Making good governance decisions is a constant challenge for Public Health administration. Health managers need to make data analysis in order to identify several health problems. In Brazil, these data are made available by DATASUS. Generally, they are stored in distinct and heterogeneous databases. TheLinked Data approach allow a homogenized view of the data as a unique basis. This article proposes a ontology-based model andLinked Data to integrate datasets and calculate the probability of maternal and infant death risk in order to give support in decision-making in the GISSA project.
Content may be subject to copyright.
Using Linked Data in the Data Integration for Maternal and
Infant Death Risk of the SUS in the GISSA Project
Renato Freitas
Instituto Federal do Ceará (IFCE)
Aracati, Ceará, Brasil
jrenatosfreitas@gmail.com
Cleilton Lima
Instituto Atlântico
Fortaleza, Ceará, Brasil
cleilton_rocha@atlantico.com.br
Oton Braga
Instituto Federal do Ceará (IFCE)
Aracati, Ceará, Brasil
otoncbraga@gmail.com
Gabriel Lopes
Instituto Federal do Ceará (IFCE)
Fortaleza, Ceará, Brasil
gabriellopes9102@gmail.com
Odorico Andrade
Congresso Nacional
Brasília, Distrito Federal, Brasil
odorico0811@gmail.com
Mauro Oliveira
Instituto Federal do Ceará (IFCE)
Aracati, Ceará, Brasil
amauroboliveira@gmail.com
ABSTRACT
Making good governance decisions is a constant challenge for Pub-
lic Health administration. Health managers need to make data
analysis in order to identify several health problems. In Brazil,
these data are made available by DATASUS. Generally, they are
stored in distinct and heterogeneous databases. The Linked Data
approach allow a homogenized view of the data as a unique basis.
This article proposes a ontology-based model and Linked Data to
integrate datasets and calculate the probability of maternal and
infant death risk in order to give support in decision-making in the
GISSA project.
KEYWORDS
Ontology; Linked Data; Public Health System; SUS Database
1 INTRODUÇÃO
Tomar boas decisões de governança é um desao constante para
administração de qualquer atividade prossional, não sendo difer-
ente na Saúde Pública. Devido a interdependência entre os diversos
domínios envolvidos em sistemas de saúde (clínico epidemiológico,
administrativo, normativo, etc.) [
7
], gestores precisam analisar a
relação entre os dados destes domínios a m denir as melhores
estratégias, seja para a prevenção ou para a solução de problemas.
SINASC
1
e e-SUS
2
são exemplos de bases de dados de saúde pública,
heterogêneas e distintas, disponibilizadas pelo Departamento de
Informática do SUS - DATASUS.
A análise da relação entre os dados das diversas bases do DATA-
SUS é uma atividade dispendiosa e massiva, mesmo fazendo-se uso
clássico de computadores. Para que um gestor tenha uma visão com-
pleta de um problema em saúde pública, os dados das diversas bases
1Sistema de Informações sobre Nascidos Vivos
2SUS eletrônico
Permission to make digital or hard copies of all or part of this work for personal or
classroom use is granted without fee provided that copies are not made or distributed
for prot or commercial advantage and that copies bear this notice and the full citation
on the rst page. Copyrights for components of this work owned by others than ACM
must be honored. Abstracting with credit is permitted. To copy otherwise, or republish,
to post on servers or to redistribute to lists, requires prior specic permission and/or a
fee. Request permissions from permissions@acm.org.
WebMedia ’17, October 17–20, 2017, Gramado, Brazil
©2017 Association for Computing Machinery.
ACM ISBN 978-1-4503-5096-9/17/10.. .$15.00
https://doi.org/10.1145/3126858.3131606
disponíveis devem passar por uma integração, i.e., tornarem-se um
conjunto homogêneo. Contudo, integrar dados não é um processo
trivial. Faz-se, portanto, necessário se dispor de mecanismos com-
putacionais mais elaborados, capazes de integrar dados e extrair
informações relevantes que auxiliem gestores de saúde a tomarem
boas decisões [
8
]. Sistemas baseados em ontologias e Linked Data
[
1
][
4
][
5
] e suas tecnologias associadas, tais como RDF e SPARQL,
são capazes de integrar fontes de dados e inferir novas informações
a partir de bases heterogêneas de conhecimento [2][9].
Neste contexto, tem-se o GISSA
3
, um sistema inteligente de
governança para o apoio à tomada de decisão em ambientes de
saúde, desenvolvido a partir do framework LARIISA [
8
]. Trata-se
de um projeto nanciado pela FINEP
4
que atende o Programa Rede
Cegonha do Ministério da Saúde, cujo o objetivo é preservar a saúde
da mãe e da criança, em especial nos primeiros anos de vida [
5
]
[10].
Este artigo propõe e implementa um modelo baseado em ontolo-
gias e Linked Data que, usando dados clínicos e sociais do DATASUS,
promove a integração de dados e calcula a probabilidade do risco
de óbito materno e infantil para o GISSA. Com isso, o novo mod-
elo fortalece a gestão de conhecimento, apoiando prossionais e
tomadores de decisão no SUS.
A organização deste artigo é apresentada a seguir. Na seção dois,
são apresentados os trabalhos relacionados que usam Linked Data
para saúde. Na seção três é descrito o modelo proposto, sua arquite-
tura, integração de dados e cálculos dos riscos de óbito materno
e infantil. Por m, na secão quatro, a conclusão e as aspirações
futuras deste artigo.
2 TRABALHOS RELACIONADOS
Nesta seção apresentamos alguns trabalhos que propõem soluções
computacionais de suporte à tomada de decisão em sistemas de
saúde.
Em [
4
] é apresentado um modelo de suporte à tomada de decisão
na gestão de resíduos, baseado em raciocínio sobre regras e ontolo-
gias. As ontologias foram criadas a partir dos dados abertos de 30
empresas e representam a taxonomia de resíduos, classicando-os
pelo grau de efeitos nocivos sobre o meio ambiente. Resultados
mostram as melhores estratégias de gerenciamento de resíduos
3https://www.gissa.com.br/
4Financiadora de Estudos e Projetos
com custo mínimo, aumentando a eciência do sistema de gerenci-
amento de resíduos em Volgograd, Rússia.
O sistema proposto por [
2
], baseado em Linked Data, destina-se à
seleção de métodos de tratamento de câncer. Ele faz uma integração
dos dados dos hospitais e dados abertos no campo de ciência da vida,
Linked Life Data (LLD), e os dispõem num espaço de dados global.
Depois, ele usa um algorítmo de seleção para encontrar casos de
tratamento de câncer com base na similaridade na classicação
do paciente. Já o trabalho de [
1
] disponibiliza informações sobre
infestação do mosquito Aedes Aegypti no município de Cuiabá,
Brasil, através de mashup. Para isso o autor utiliza Linked Open
Data e SPARQL. Os resultados desse trabalho, além de trazerem
benefícios à comunidade, através de informações de saúde pública,
proporcionam uma ferramenta de auxílio aos gestores na tomada
de decisão nos casos de surtos epidemiológicos.
Em [
3
], foi desenvolvida uma aplicação que usa dados integrados
de informações sobre medicamentos. As fontes foram selecionadas
de acordo com as necessidades de conhecimento dos médicos. Para
integrá-las, foram usados os princípios Linked Data e Processa-
mento de Linguagem Natural (PLN). Os resultados dessa aplicação
implicaram a otimização do tempo do médico e uma ferramenta
de suporte à tomada de decisão que ajuda a reduzir erros nas pre-
scrições de medicamentos. Embora esse trabalho use os princípios
Linked Data, ele não faz uso de ontologia de domínio ou de aplicação
para representar o conhecimento que o médico necessita.
Diferente dos trabalhos relacionados aqui apresentados, este
artigo apresenta uma ontologia de risco desenvolvida a partir das
heurísticas de especialistas em saúde onde estão os fatores de riscos
relevantes para o cálculo da probabilidade de óbito materno-infantil.
3 MODELO BASEADO EM ONTOLOGIA E
LINKED DATA
Para a construção do nosso modelo, seguimos as especicações
de materialização apresentadas em [
5
]. Essa materialização resulta
num mashup, i.e., uma visão homogeneizada dos dados, do qual é
utilizada para realizar inferências. A criação desse modelo envolve
cinco etapas:
1.
Selecionar as fontes de dados que alimentarão a aplicação.
2.
Extrair e transformar os dados das fontes selecionadas,
possivelmente heterogêneos, em grafos RDF.
3. Identicar links semânticos entre as fontes de dados.
4.
Combinar e fundir representações do mesmo objeto em
fontes distintas numa visão homogeneizada.
5.
Realizar consultas parametrizadas a fonte de dados in-
tegrada usando o vocabulário da
OD
e obter o cálculo da
probabilidade do risco de óbito-infantil.
3.1 Arquitetura
O modelo proposto neste artigo está estruturado numa arquitetura
de 5 camadas, exibida na Figura 1.
A camada Bases de Dados é formada pelas bases de dados SIM,
e-SUS, SINASC E SINAN, todas disponibilizadas pelo do DATASUS.
Cada base de dados
dbi
é descrita por uma ontologia fonte
Odb i
,
Figura 2. Na camada de Acesso e Transformação de Dados é re-
alizado o mapeamento das bases de dados relacionais para RDF,
Figure 1: Arquitetura do modelo baseado em ontologia e
Linked Data.
através dos frameworks D2RQ
5
e R2RML. Na camada de Integração
dos Dados, a interligação das fontes RDF é realizada por links semân-
ticos através do SILK - Link Discovery Framework. Na camada de
Processamento de Dados é utilizada a linguagem SPARQL para
realizar consultas parametrizadas à fonte de dados integrada. Na
camada de Apresentação, uma aplicação web usa dashboards para
exibir as informações inferidas pela camada de processamento de
dados.
3.2 Knowledge Base
Modelos baseados em ontologias possuem, geralmente, base de
conhecimento composta por ontologia de domínio, ontologias de
aplicação e regras de inferência. Para a base de conhecimento do
GISSA não foram especicadas regras de inferência. Foram criadas,
como pode ser visto na Figura 2, uma ontologia de domínio
OD
para representar uma demanda de governança e uma ontologia de
risco ORi sk para representar as heurísticas dos especialistas.
Figure 2: Mapeamento das ontologias.
5http://d2rq.org/
3.2.1 Ontologia de Domínio. A ontologia de domínio
OD
trata-
se de uma ontologia de referência. Ela especica todos os conceitos
necessários ao modelo. Essa ontologia contém o vocabulário geral
para integrar os dados exportados em RDF através dos mapeamen-
tos e links semânticos.
3.2.2 Ontologia de Risco (
ORi sk
). Essa ontologia,
ORi sk
, foi
desenvolvida a partir das heurísticas dos especialistas em saúde
materno-infantil (Figura 3). Ela é dividida em dois domínios: clínico
e social. Nesses domínios, usando-se Linked Data na integração de
dados, estão os fatores de risco relevantes para o cálculo da proba-
bilidade para risco de óbito materno-infantil. Além disso, também
são descritos os eventos relacionados a gestação e ao parto. As-
sim, a Ontologia de Risco
ORi sk
representa uma coleção de riscos,
tais como, “uma mãe que tenha baixa escolaridade, que não re-
cebe bolsa-família (riscos sociais), que teve rubéola (risco clínico)”,
etc. Levando em consideração que alguns tipos de riscos materno
têm inuência direta no bebê, essa correlação está representada na
ORi sk
. Por exemplo, se uma mãe teve rubéola ou tétano neonatal,
se o parto foi induzido, se a gestação foi múltipla, então o risco de
óbito do bebê aumenta consideravelmente. Essa ontologia tem 51
tipos de riscos e cada risco tem um peso. Esse peso foi denido por
especialistas, mediante o relato de suas experiências e pesquisas, em
conformidade com a gravidade do risco. Na gura 3 é apresentada
parte da OR isk , os riscos clínicos do bebê.
Figure 3: Parte da Ontologia de Risco.
3.3 Transformação dos Dados
Para transformar uma base de dados em grafo RDF foram utilizadas
no GISSA duas ferramentas: i) R2RML, uma linguagem de mapea-
mento de dados relacionais para RDF. Deniu-se, de acordo com o
padrão das triplas RDF, uma coluna-chave que identica um reg-
istro para ser o URI do sujeito. Da base de dados SIM, por exemplo,
usou-se a coluna “numerodo”, e da base de dados SINASC, o atrib-
uto “numerodn”. As demais colunas foram mapeadas para serem
as propriedades do referido URI e o valor literal das colunas foi
mapeado para ser o objeto na tripla; ii) D2RQ-server acessa as bases
de dados através da ferramenta generate-mapping. Ele interpreta os
mapeamentos do R2RML e gera os RDF populados.
3.4 Integração do Dados
Foi usada a SILK
6
, uma linguagem de especicação de links no
padrão XML, para se identicar os relacionamentos entre entidades
6http://silkframework.org/
dentro das fontes RDF. Utilizando-se heurísticas, foi vericada se
existe uma relação semântica entre entidades para o processo de
integração dos dados [
11
]. A Listing 1 representa a estrutura básica
da especicação de links semânticos entre as fontes usadas na apli-
cação GISSA. Na linha 3 são denominados todos os prexos que
referenciam as URI’s das fontes de dados. Na linha 5 são congu-
rados um
<DataSource>
para cada fonte de dados
RD Fi
e, dentro
dele, os parâmetros name="endpointURI" ename="graph".
Listing 1: Estrutura da especicação SILK
1<? xml v er s ion = " 1 . 0 " e nc o d in g = " ut f 8 " ?>
2< S i l k >
3< P r e f i x e s . . . / >
4...
5<DataSources . . . />
6...
7[ < B l o c k i n g . . . / >]
8...
9< I n t e r l i n k s . . . / >
10 ...
11 [ < Ou tp uts . . . / >]
12 ...
13 < / S i l k >
Foram conguradas (linha 9) a tag
<LinkType>
com a propriedade
owl:sameAs
; a tag
<SourceDataset>
como a fonte origem; a tag
<TargetDataset>
como a fonte alvo. Para a tag
<LinkageRule>
foram passadas as regras de comparação através da propriedade
<Comparemetric= “levenshteinDistance” threshold= “1”
,
comparando as entradas
<Input path= “?a/sim:dtnasc”/>
e
<Input path= “?b/sinasc:dtnasc”/>
por suas labels. Por m,
na linha 11 foram congurados os parâmetros
<Param name=
“format” value= “ntriples”/>
para denir o tipo de saída do
arquivo. A fusão dos dados fora realizada pelo framework SIEVE[
6
].
3.5 Cálculo dos Riscos
Como já comentado, e mostrado na Figura 3, o cálculo do risco de
óbito infantil e materno foram divididos em dois domínios: clínico
e social. Essa divisão permite identicar as principais causas de
óbito em cada domínio, além de possibilitar que decisões e ações
especícas sejam realizadas. O risco clínico de óbito infantil é o
mais complexo, pelo fato de que alguns riscos clínicos presentes nas
mães inuenciam direta e imediatamente no risco do bebê. Além
dos riscos clínicos da mãe, também foram analisados os riscos iden-
ticados nos eventos gestação e parto que impactam diretamente
na vida do bebê, tais como, se o parto foi induzido ou não, se a
gestação foi única, dupla ou múltipla, dentre outros. Uma mãe ou
um bebê podem ser classicados em baixo, médio ou alto risco,
considerando o cálculo do percentual de risco para cada indivíduo.
As faixas de valores para classicar um indivíduo são: entre 0%
e 10% corresponde a baixo risco, entre 10% e 20% o indivíduo é
considerado em risco intermediário, e acima de 20% é considerado
em alto risco. Elas levam em consideração a quantidade de riscos
existentes em um indivíduo, visto que para se atingir o critério de
alto risco são necessários vários riscos presentes em um indivíduo.
Em seguida é descrito como é realizado o cálculo do fator de
risco de óbito materno e infantil nos domínios clínico e social. O
cálculo do percentual de óbito materno considerando os fatores
sociais é dado por:
Definição 1.
mãe M,um cojunto de riscos RM={ri,ri+1,
· · · ,rk} RT M ={ri,ri+1,· · · ,rn},tal que,0<ikn,
onde RT M são todos os riscos possíveis para M.
Definição 2. Cada fator de risco
riRT M
tem um
peso
0
w20.
Desta forma, o risco social total de
mM
, i.e.
Rm
, pode ser
encontrado pela Equação 1.
Ri sc oS oc i al Da M ae (m)=
k
Õ
i=1
f(ri),
f(ri)=Pe soDo Ri sc oS oc ial(ri),se a mãe apresentar o risco social ri
0,caso contrário (1)
Para obter o máximo dos riscos que poderiam está presentes em
uma mãe, RT M , calcula-se a Equação 2.
Ma x Ri s co So ci al D a Ma e (m)=
n
Õ
i=1
Pes oDoRi sc oS oc ia l(ri),riRT M (2)
A probabilidade de óbito materno considerando os riscos sociais
é dada pela Equação 3.
Probab Ob it oRis coSo ci al (m)=Ri sc oS oc ia l Da M ae (m)
Ma x Ri s co So ci al D a Ma e (m)(3)
Os mesmos cálculos foram feitos para encontrar a probabilidade
de óbito materno observando os riscos dos fatores clínicos. Para se
calcular o risco de óbito infantil foram considerados a inuência de
fatores de risco do ascendente do indivíduo e de eventos que o en-
volvem diretamente. A probabilidade de óbito infantil é encontrada
pela Equação 4. O resultado de RiscoDaMae(m) envolve, a fusão
entre os totais do risco social e risco clínico da mãe. E o resultado
de RiscoDosEventos(m) compreende os riscos existentes no parto e
gestação.
P7=Ri sc os D aC r ia nc a(c)+R is cosD aM ae (m)+Ri sc os DosE vent os (m)
Ma x Ri s co Be b e(c)+M ax R i sc oM a e(m)+M ax R i sc oE ven to s(m)
(4)
Todos os cálculos deste modelo do GISSA foram feitos na camada
de negócio. Para realizar consultas sobre os dados integrados, foi
usada a API Jena, um framework Java para construir aplicações
para Web Semântica e Linked Data. Ela usa protocolos SPARQL
e o vocabulário da
OD
nos scripts de consultas. Essas consultas
parametrizadas com dados da mãe e do bebê à base integrada, retor-
nam a probabilidade de óbito infantil por meio de métodos denidos
para tal procedimento.
4 CONCLUSÃO
Este trabalho apresentou um modelo baseado em ontologias e
Linked Data Mashup que integra bases de dados distintas e het-
erogêneas do SUS, baseado na metodologia desenvolvida em [
5
].
Este modelo fornece a probabilidade de risco de óbito materno e
infantil, fornecendo indicadores a gestores de saúde pública. Parale-
lamente, um trabalho com objetivo similar feito usando mineração
de dados [
10
] foi implementado no projeto GISSA. Atualmente, o
GISSA busca a denição de seu modelo de inteligência onde estes
dois trabalhos têm papel relevante. Apesar da probabilidade ter
7Probabilidade de óbito infantil
sido validada pelos especialistas em saúde, não existe ainda uma
ferramenta matemática, como Matriz de Confusão, na validação de
algoritmos para validar as ontologias neste trabalho, ou vice-versa.
Assim, a expectativa é de que o modelo nal de inteligência do
framework GISSA seja espelhado em um modelo híbrido onde seja
determinante o trabalho aqui apresentado.
ACKNOWLEDGMENTS
Os autores agradecem à Lucelia Ribeiro
8
e Charlys Pinheiro
9
, do
Instituto Atlântico
10
, e à Dra Ivana Barreto, da Fundação Oswaldo
Cruz (Fiocruz), que muito contribuíram com as heurísticas dos riscos
de óbito materno e infantil, bem como aos demais participantes
e dirigentes do projeto GISSA. Agradecimentos especiais à Profa.
Vânia Vidal que conduziu as pesquisa sobre ontologia. Este artigo
foi apoiado pela FINEP e pela Fundação Cearense de Apoio ao
Desenvolvimento Cientíco e Tecnológico, no âmbito do Programa
de Incentivo à Interiorização e Inovação Tecnológica - BPI, FUNCAP,
edital n09/2015.
REFERENCES
[1]
Patricia Graziely Antunes de Mendonça, Cristiano Maciel, and José Viterbo Filho.
2014. Visualizing Aedes Aegypti Infestation in Urban Areas: A Case Study on
Open Government Data Mashups. In Proceedings of the 15th Annual International
Conference on Digital Government Research (dg.o ’14). ACM, New York, NY, USA,
186–191. https://doi.org/10.1145/2612733.2612751
[2]
J. Hu, H. Cai, B. Xu, and C. Xie. 2014. A Linked Data Based Decision Support
System for Cancer Treatment. In 2014 Enterprise Systems Conference. 39–44.
https://doi.org/10.1109/ES.2014.15
[3]
Jakub Kozák, Martin Nečaský, Jan Dědek, Jakub Klímek, and Jaroslav Poko-
rný. 2013. Linked Open Data for Healthcare Professionals. In Proceedings of
International Conference on Information Integration and Web-based Applications
&#38; Services (IIWAS ’13). ACM, New York, NY, USA, Article 400, 10 pages.
https://doi.org/10.1145/2539150.2539195
[4]
M. Kultsova, R. Rudnev, A. Anikin, and I. Zhukova. 2016. An ontology-based
approach to intelligent support of decision making in waste management. In 2016
7th International Conference on Information, Intelligence, Systems Applications
(IISA). 1–6. https://doi.org/10.1109/IISA.2016.7785401
[5]
Gabriel Lopes, Vânia Vidal, and Mauro Oliveira. 2016. A Framework for Creation
of Linked Data Mashups: A Case Study on Healthcare. In Proceedings of the 22Nd
Brazilian Symposium on Multimedia and the Web (Webmedia ’16). ACM, New
York, NY, USA, 327–330. https://doi.org/10.1145/2976796.2988213
[6]
Pablo N Mendes, Hannes Mühleisen, and Christian Bizer. 2012. Sieve: linked
data quality assessment and fusion. In Proceedings of the 2012 Joint EDBT/ICDT
Workshops. ACM, 116–123.
[7]
Luiz Odorico Monteiro de Andrade. 2012. Inteligência de Governança para apoio
à Tomada de Decisão. Ciência & Saúde Coletiva 17, 4 (2012).
[8]
Mauro Oliveira, Carlos Hairon, Odorico Andrade, Regis Moura, Claude Sicotte,
JL Denis, Stenio Fernandes, Jerome Gensel, Jose Bringel, and Herve Martin.
2010. A context-aware framework for health care governance decision-making
systems: A model based on the brazilian digital tv. In World of Wireless Mobile
and Multimedia Networks (WoWMoM), 2010 IEEE International Symposium on a.
IEEE, 1–6.
[9]
Solange Oliveira Rezende. 2003. Sistemas inteligentes: fundamentos e aplicações.
Editora Manole Ltda.
[10] Cristiano Silva, Joyce Quintino, Ronaldo Ramos, Odorico Monteiro, and Mauro
Oliveira. 2017. LAÍS, um Analisador Baseado em Classicadores para a Geração
de Alertas Inteligentes em Saúde, Victoria E. Herscovitz, Cesar A. Z. Vasconcellos,
and Erasmo Ferreira (Eds.). XXXV Simpósio Brasileiro de Redes de Computadores
(SBRC) - I Workshop de Computação Urbana (CoUrb), Belém, Pará, Brasil, 1–13.
[11]
Julius Volz, Christian Bizer, Martin Gaedke, and Georgi Kobilarov. 2009. Silk-A
Link Discovery Framework for the Web of Data. LDOW 538 (2009).
8Enfermeira e Mestre em Saúde Pública pela Universidade Federal do Ceará
9Bacharel em Telemática pelo IFCE e Analista de Sistemas no IA
10http://www.atlantico.com.br/
... In summary, data integration consists of combining data from different sources to obtain valuable information. Such a task has been the focus of many studies because of the large amount of heterogeneous data available on the Web [8,11,13]. Integration is important to allow users to have a unified view of heterogeneous data and easily consult different information about them [6]. In addition, this integration allows you to consider multiple definitions/views about an object. ...
... In addition, this integration allows you to consider multiple definitions/views about an object. For example, [17] use data from multiple sources to identify various drug side effects, and [11] propose a model based on ontologies and data binding (Linked Data) to integrate data sets to calculate the probability of maternal and infant death risk. Thus, users can better discover knowledge from multiple data, and then this integration can provide support for decision-making among many other applications. ...
Chapter
Data from the Web are increasingly heterogeneous and unstructured, representing challenges for data crawling, integration, and preprocessing. There are studies that are “data oriented,” i.e., their work is developed to deal with some problem generated by available data, hence their results are restricted to the respective data. In contrast, there are various problems prior to identifying what data is needed to a specific study, and often multiple data sources are needed. This chapter covers such problems with definitions, current solutions, possible issues, and future work. Especially, the first issue in dealing with data coming from the Web is to define the crawling strategy, which can be classified according to the period and how to start it. The second issue is to define a strategy for integrating data from different sources to have a uniform view for users or applications, and to store them in a way that allows efficient consultation. Note that a possibility is to collect data from each source and store them separately for later integration, or to store all data in a single location in an integrated fashion as each collection is performed. The third issue is data preprocessing, which takes place before or after the data integration, and involves solving missing and duplicate data, normalization, data veracity, etc. Overall, this chapter addresses these three issues in an integrated way with a focus on practical and research questions.
... Araujo et al. [2017] utilizam de técnicas de coleta e pré-processamento de dados para predizer o sucesso de um álbum de música baseado em comentários de redes sociais online. Já Freitas et al. [2017] propõem uma estratégia de integração de dados baseada em ontologias e dados conectados (tecnologias a serem explicadas mais adiante neste capítulo) para calcular a probabilidade do risco de óbito maternos e infantil no Brasil. Ainda em integração, o conceito de ontologia é tão versátil que Veiga et al. [2017] o utilizam para dados provenientes de redes de sensores e internet das coisas. ...
... Em resumo, a integração de dados consiste em combinar dados de diferentes fontes para obter informações valiosas. Tal tarefa tem sido foco de muitos estudos devido à ampla quantidade de dados heterogêneos disponíveis na Web [Doan et al., 2018, Freitas et al., 2017, Golshan et al., 2017. A integração é importante para permitir que usuários tenham uma visão unificada de dados heterogêneos e consultem facilmente diferentes informações sobre os mesmos [Bouzeghoub et al., 2002]. ...
... As a case study, we built SemanticSUS 1 , a semantic portal which is intented to offer a semantic view that semantically integrates data sources from the unified health system of Brazil (SUS). In its current state, SemanticSUS semantically integrates three SUS data sources which are available on the GISSA platform (Freitas et al., 2017). The portal semantic View was used to generate the specification of the knowledge graph NDR (Neonatal Death Risk). ...
Article
Full-text available
The main goal of semantic integration is to provide a virtual semantic view that is semantically connected to data so that applications can have integrated access to data sources through the virtual Knowledge Graph. A semantic view can be published on a semantic portal to make it reusable for building Knowledge Graphs for different applications. This paper takes the first step towards publishing a semantic view on a semantic portal. This paper has three main contributions. First, we introduce a vocabulary for specifying semantic views. Then, we introduce a vocabulary for specification and quality assessment of Knowledge Graph. Third, we describe an approach to automatize the construction of a high-quality Knowledge Graph reusing a semantic view.
Preprint
Full-text available
Las bases de datos relacionales constituyen una de las fuentes de datos más utilizadas. Sin embargo, como fuente de almacenamiento presenta un grupo de limitaciones. En las bases de datos relacionales se dificulta almacenar conocimiento semántico. Para solventar las carencias en la representación de conocimiento de las bases de datos relacionales, una tendencia ha sido el uso de las ontologías. Las ontologías poseen una mayor riqueza semántica y son más cercanas al vocabulario del usuario final que los esquemas de las bases de datos relacionales. El objetivo de la presente investigación consiste en realizar un mapeo sistemático acerca de los escenarios en que se vinculan las bases de datos relacionales y las ontologías para brindar una mejor integración, consulta y visualización de los datos almacenados. El mapeo se llevó a cabo aplicando una propuesta metodológica establecida en la literatura. Como resultado de la investigación, se detectó que el mapeo de bases de datos relacionales a ontologías y la utilización de las ontologías para la integración de fuentes de datos heterogéneas fueron los escenarios de mayor presencia. Igualmente, se identificaron tendencias y desafíos en cada uno de los escenarios que pueden merecer mayores esfuerzos de investigación en el futuro.
Chapter
The Fog of Things (FoT) proposes a paradigm which uses the Fog Computing concept to deploy Internet of Things (IoT) applications. The FoT exploits the processing, storage, and network capacity of local resources, allowing for the integration of different devices in a seamless IoT architecture, and it defines the components which compose the FoT paradigm describing their characteristics. This chapter presents the FoT paradigm and relates it to IoT architecture describing the main characteristics and concepts from the sensor and actuator communication to gateways, and local and cloud servers. Lastly, this chapter presents SOFT-IoT platform as a concrete implementation of FoT, which uses microservice infrastructure distributed along devices in the IoT system.
Chapter
Model-driven Engineering (MDE) is an approach that considers models as the main artifacts in software development. Models are generally built using domain-specific languages, such as UML and XML. These languages are defined by their own metamodels. In this context, this chapter aims to present the basics of MDE as well as key frameworks and languages available for its support, providing the necessary background to assist in building an environment to build models in accordance with a particular metamodel. Models built in this environment can then be used to document and maintain systems from different domains.
Article
Full-text available
Introdução: O avanço tecnológico na sociedade é um fato e faz-se necessário considerar o uso de tecnologias nos sistemas de saúde, aumentando o escopo de intervenções no âmbito da atenção e da gestão. Os objetivos do estudo foram analisar a associação entre tecnologias em saúde e gestão compartilhada e identificar as contribuições das Tecnologias de Informação e Comunicação (TICs) para a gestão compartilhada em saúde. Métodos: Estudo qualitativo. Trata-se de uma Revisão Integrativa de Literatura com artigos científicos em língua portuguesa e inglesa. Encontradas 115 publicações na MEDLINE e 3 na Revista Eletrônica Gestão & Saúde. Resultados: Analisou-se 8 produções, publicadas no período de 2008 a 2018, identificando-se experiências de avaliação de tecnologias em saúde em 25 países com o exercício de gestão compartilhada. O Projeto de Lei Federal Nº 9.617/2018 foi incluso por propor a gestão compartilhada através da comunicação na internet, totalizando 9 produções. É possível o público participar da gestão em saúde utilizando ferramentastecnológicas. Conclusão: Tem-se a ampliação da incorporação de tecnologias na saúde e o seu constante desenvolvimento no contexto nacional e internacional. A gestão compartilhada em saúde através das TICs é uma intervenção de saúde digital que poderá fortalecer a participação social.
Conference Paper
Full-text available
Providing guarantees of real-time traffic delivery based on the availability of network resources has been one of the main issues discussed in the literature. However, due to the converging nature of digital architectures, to the increasing demand for real-time sensitive traffic such as voip and other multimedia applications, and to a greater user adaptability relative to the use of new technologies, solutions based only on Quality of Service (QoS) appear to be insufficient to meet user requirements. In fact, QoS metrics are centered on the network, describing the nature of the traffic (using metrics such as throughtput, delay, jitter, etc.). The concept of context-based networks enriches the traffic management since it considers users, network and enduser devices requirements, providing a generic and cutting-edge approach for traffic optimization. In this work, the Software Defined Networks (SDN) paradigm provides the required mechanisms for the implementation of a dynamic control architecture and management of network resources due to the decoupling of control plan and routing plan.Nevertheless, flowtable configuration within SDNs´controllers is still carried out statically, which does not allow the description of the dynamic nature of context-based networks.Therefore, in this work we propose the application of a usercentric (context-based) optimization solution to SDNs called Context-Aware Adaptive Routing Framework (CAARF-SDN). Within CAARF-SDN the concepts of Quality of Service (QoS), Quality of Experience (QoE), Quality of Device (QoD), Quality of Context (QoC), and adaptive routing are integrated to provide a dynamic and proactive approach for the delivery of contextsensitive traffic.
Conference Paper
Full-text available
In this paper a concept of intelligent support of decision making in waste management using knowledge-based approach is presented, which is a promising way to increase efficiency of waste management system in the cities. Analysis of the domain of waste management shows that the appropriate support of decision making can be implemented using contemporary technologies of artificial intelligent such as rule-based reasoning and ontology. In the paper a general scheme of the integration of this reasoning mechanism and ontology is suggested, as well the problems of domain knowledge representation are considered. Implementation of a prototype of intelligent decision support system in waste management using rule-based reasoning and ontology is described.
Conference Paper
Full-text available
Linked Data promotes the publication of structured data on the Web, easing the development of an homogeneized-view over heterogeneous sources, called Linked Data Mashup view (LDM view). But the development of this homogeneized view still is a challenging task. This article proposes a framework Ontology-based that aims to ease the process of creation of LDM views. This framework allow users without specifics knowledge to create their own applications, based on their needs. We also present a case study in which we use our approach to develop an integrated view over two heterogeneous sources from Brazilian Public Health System.
Article
Full-text available
Publishing open government data and displaying the related information is a task that requires systematization and the use of various technologies. Due to technical limitations (dependence on technological platforms, for example), this is not a standard practice among government system developers. In this work, we present a case study that involves the creation of a map to visualize information about the infestation of Aedes aegypti (dengue vector) in the municipality of Cuiabá, based on the selection and analysis of open data. This case study not only demonstrates that offering an easy way for presenting information on public health brings benefits to the community, but it also discusses a solution that serves as a strategy for government agencies to make use of resources related to open data.
Conference Paper
Full-text available
Physicians are overwhelmed with many different drugs and the need to know a lot of information about all of them. That is, however, almost impossible in the fast evolving area of pharmaceutical industry. Although many data sources about drugs are published on the Web, structured or unstructured, it is very time consuming to search through them. In this paper we identify these data sources according to information needs of physicians. We show that they can be relatively easily integrated using the Linked Data principles and, in case of unstructured data, NLP methods. An application on the top of the integrated data sets is presented as a possible tool for clinical decision support.
Article
Full-text available
The Web of Linked Data grows rapidly and already contains data originating from hundreds of data sources. The quality of data from those sources is very diverse, as values may be out of date, incomplete or incorrect. Moreover, data sources may provide conflicting values for a single real-world object. In order for Linked Data applications to consume data from this global data space in an integrated fashion, a number of challenges have to be overcome. One of these challenges is to rate and to integrate data based on their quality. However, quality is a very subjective matter, and finding a canonic judgement that is suitable for each and every task is not feasible. To simplify the task of consuming high-quality data, we present Sieve, a framework for flexibly expressing quality assessment methods as well as fusion methods. Sieve is integrated into the Linked Data Integration Framework (LDIF), which handles Data Access, Schema Mapping and Identity Resolution, all crucial preliminaries for quality assessment and fusion. We demonstrate Sieve in a data integration scenario importing data from the English and Portuguese versions of DBpedia, and discuss how we increase completeness, conciseness and consistency through the use of our framework.
Article
Full-text available
The Web of Data is built upon two simple ideas: Employ the RDF data model to publish structured data on the Web and to set explicit RDF links between entities within different data sources. This paper presents the Silk – Link Discovery Framework, a tool for finding relationships between entities within different data sources. Data publishers can use Silk to set RDF links from their data sources to other data sources on the Web. Silk features a declarative language for specifying which types of RDF links should be discovered between data sources as well as which conditions entities must fulfill in order to be interlinked. Link conditions may be based on various similarity metrics and can take the graph around entities into account, which is addressed using a path-based selector language. Silk accesses data sources over the SPARQL protocol and can thus be used without having to replicate datasets locally.
Conference Paper
Full-text available
This paper proposes a governance decision-making framework for public health care systems. It encompasses and integrates data about family homes in a new intelligent health care information system. In order to support end-user interactions, the framework has been built on the GINGA middleware developed for the Brazilian Digital TV, whose full access will be country-wide in 2015. Based on five governance fields, namely knowledge, normative, clinical-epidemiological, administrative, and shared management, the framework relies on an Optical-WiMAX communication infrastructure (Brazilian Digital Belt), which will reach 82% of urban population in the Ceara State. In addition, we present a case study showing how the framework could be used for improving health care governance decisions.
Article
Cancer treatment is a complex process that needs experienced doctors and solid medical knowledge. Different cancer treatment methods work for different patient characteristics. Sometimes it is hard for doctors to specify the treatment for certain patient because it is difficult to get useful information to support treatment decision making from diverse clinic data source. In order to improve the effectiveness of information searching from complicated data environment for cancer therapy, we propose a linked data based system for cancer treatment methods selecting to help doctors in the process of cancer treatment. This system incorporates hospital inner data and open data in life science field combined with Linked Data model. On this basis, a cancer treatment selection algorithm is proposed to find similar cases from historical cases. Finally, a protocol system is implemented to show the usability of our method in the applications for intelligent medical supporting.
Sistemas inteligentes: fundamentos e aplicações. Editor a Manole Ltda . Solange Oliveira Rezende
  • Solange Oliveira Rezende
  • Rezende Solange Oliveira