Conference PaperPDF Available

OpenSoils: e-Science em Segurança de Solos

Authors:

Abstract and Figures

A segurança dos solos é um problema global, crescente e crítico que afeta a todos os países do mundo. O objetivo do OpenSoils é conectar e compartilhar grandes quantidades de dados curados de solos nos níveis brasileiro e sul-americano. OpenSoils é um framework leve, aberto, elástico, multiusuário que armazena, descreve, organiza, harmoniza grandes conjuntos de dados de perfis de solos. Também oferece dados abertos e mapas permitem que os usuários naveguem pelos principais dados de solo da região. O OpenSoils é uma das primeiras infraestruturas voltados para segurança de solos baseada em conceitos de e-Science e Open Science.
Content may be subject to copyright.
Octava Conferencia de Directores de Tecnología de
Información y Comunicación en Instituciones de Educación
Superior, TICAL2018
y
II Encuentro Latinoamericano de e-Ciencia
“Transformación Digital en Instituciones de Educación
Superior, Ciencia y Cultura
OpenSoils: e-Science em Segurança de Solos
Sérgio Manuel Serra da Cruz1,2,3, Marcos Bacis Ceddia1, Pedro Vieira Cruz1,
Gabriel S. Rizzo2, Renan C. T. Miranda2, Sabrina O. Cruz2, Ana Clara Correa2,
Felipe Klinger2, Élton C. Marinho3, Eber Assis Schmitz3
1 Universidade Federal Rural do Rio de Janeiro PPGMMC/UFRRJ
Seropédica, Rio de Janeiro, Brasil
Departamento de Computação - serra@ufrrj.br,
Departamento de Solos - ceddia@ufrrj.br, pedroveira.br@gmail.com
2 Programa de Educação Tutorial - PET-SI/UFRRJ
Seropédica, Rio de Janeiro, Brasil
renan, gabriel, anaclara, sabrina, filipeklinger {pet-si.ufrrj.br}
3 Universidade Federal do Rio de Janeiro PPGI/UFRJ
Ilha do Funo, Rio de Janeiro, Brasil
elton.marinho@ppgi.ufrj.br, eber@nce.ufrj.br
Resumo. A segurança dos solos é um problema global, crescente e crítico que afeta a todos os
países do mundo. O objetivo do OpenSoils é conectar e compartilhar grandes quantidades de
dados curados de solos nos níveis brasileiro e sul-americano. OpenSoils é um framework leve,
aberto, elástico, multiusuário que armazena, descreve, organiza, harmoniza grandes conjuntos
de dados de perfis de solos. Também oferece dados abertos e mapas permitem que os usuários
naveguem pelos principais dados de solo da região. O OpenSoils é uma das primeiras
infraestruturas voltados para segurança de solos baseada em conceitos de e-Science e Open
Science.
Abstract. Soils security is a global, growing and critical problem that affects every country in
the world. The goal of OpenSoils is to connect and share large amounts of cured soil data at the
Brazilian and South American levels aiding researchers to developed soils researchers.
OpenSoils is a lightweight, open, elastic, provenance-oriented framework that collects, stores,
describes, organizes, and harmonizes large data sets of soil profiles and boreholes. It also offers
open data and maps allowing users to navigate through the data. OpenSoils is one of the first
soils security-based infrastructures based on e-Science and Open Science concepts.
Palavras Chave: Open Data, Open Science, Proveniência de Dados, Workflows Científicos.
Eixo Temático: Melhora de Processos
Octava Conferencia de Directores de Tecnología de Información, TICAL2018,
Transformación Digital en las Instituciones de Educación Superior,
y
II Encuentro Latinoamericano de e-Ciencia
Transformación Digital de la Ciencia y la Cultura
Cartagena de Indias, Colombia, 3 - 5 de septiembre de 2018
1 Introdução
A agricultura é um domínio complexo tanto do ponto de vista científico como
também da integração e gestão de grandes volumes de dados. Ela incorpora em suas
práticas disciplinas que variam desde a genômica às ciências do solo e atua em
diferentes escalas que vão desde os genes à geolocalização apoiada por satélites. A
capacidade de integrar e explorar seus datasets é uma questão crucial para enfrentar
as novas demandas agrícolas, ambientais e sociais vivenciados pela sociedade atual,
como por exemplo as questões de sustentabilidade, segurança alimentar e de solos [1].
Segundo Koch et al. [2], os solos são provavelmente o recurso natural mais
importantes que sustentam a vida terrestre e humana e a segurança de solos es
relacionada com a manutenção e melhoria global dos recursos do solo para produção
de alimentos, fibras e água. Ela contribui para a saúde humana, o sequestro de
carbono, a agricultura de precisão, a sustentabilidade energética e climática além de
ajudar a manter a biodiversidade e a proteção global do ecossistema [1,2]. A
segurança dos solos, assim como a segurança alimentar, tem várias dimensões (por
exemplo, capacidade, condições, meios financeiros, conectividade e codificação) que
interagem com componentes ambientais, sociais e econômicos e que podem ser
explorados do ponto de vista da computação científica [3].
A segurança de solos é um domínio de pesquisa que pode ser classificado como
intensivo em processamento e dados e que requer a adoção de técnicas de computação
comuns as áreas de big data, ciência de dados, processamento distribuído, gestão do
conhecimento e governança de dados.
O ciclo de vida da pesquisa em segurança de solos começa com a coleta de dados
no campo, perpassa por diferentes tipos de procedimentos experimentais em campo
ou laboratórios e termina na estação de trabalho de manipulação e visualização de
dados do pesquisador do tomador de decisões (Figura 1). Uma das limitações das
ferramentas atuais, é a ausência de suporte e correlação entre os datasets utilizados na
geração dos resultados e publicações e tomada de decisões por parte de cientistas e
gestores ambientais ou políticos (seta vermelha).
Fig. 1. Exemplo dos horizontes em um perfil de solos e as principais fases do ciclo de vida de
investigações de solos (mapas adaptados de MELO et al., [4]).
Octava Conferencia de Directores de Tecnología de Información, TICAL2018
y
II Encuentro Latinoamericano de e-Ciencia
Transformación Digital en Instituciones de Educación Superior, Ciencia y Cultura
Cartagena de Indias, Colombia, 3 - 5 de septiembre de 2018
Ressaltamos que as investigações em segurança de solos (e da própria agricultura)
estão em rápida transformação. Essa área possui uma série de desafios e
oportunidades que ainda estão em aberto e que foram pouco explorados pela
comunidade de pesquisa em e-Science. Além disso, destacamos que esse domínio do
conhecimento ainda não atraiu o mesmo grau de atenção que outras áreas tradicionais
da e-Science, tais como bioinformática, engenharia, química computacional.
1.1 Motivação e objetivo
Uma das motivações para o desenvolvimento da plataforma foi oferecer
soluções para os problemas descritos no relatório 011.713/2015-1 do Tribunal de
Conta da União (TCU). OpenSoils foi concebido para ser um ativo computacional
colaborativo, de acesso público voltado para a organização, sistematização e
operacionalização de dados decorrentes de levantamentos de solos do Brasil. Através
deste texto, defendemos a necessidade de conduzir pesquisas interdisciplinares em
segurança de solos considerando os papéis da ciência da computação, governança de
dados, ciência de dados e modelagem matemática para enfrentar os desafios
supracitados. Vislumbramos que várias abordagens computacionais tradicionais da e-
science podem ser incorporadas ao domínio, dentre elas: workflows científicos,
proveniência de dados, dados abertos, open science, big data, ciência de dados,
aprendizado de máquina, entre outros. Tais abordagens podem ajudar a comunidade
de solos a realizar investigações mais amplas e oferecer novos conhecimentos para a
sociedade.
O objetivo deste trabalho é divulgar o OpenSoils nas comunidades latino-
americanas [38]. Ele foi concebido para contribuir com as políticas brasileiras de
proteção e mapeamento de solos, projetando e estabelecendo as bases para um esforço
de longo prazo, sendo baseado nos fundamentos de open science e e-science para a
área de segurança de solos. Acreditamos que posicionará o Brasil como um dos
principais atores mundiais no que tange a pesquisa e inovação nesta área. Este artigo
está organizado da seguinte maneira. Na seção 2 apresenta a fundamentação teórica.
Na seção 3 estão os trabalhos relacionados. Na seção 4 é apresentada a arquitetura do
OpenSoils, seus usos, primeiros artefatos. Por fim, na Seção 5 as lições aprendidas,
observações finais e sugestões de trabalhos futuros.
2 Solos, dados de solos e ciência aberta
O desenvolvimento dos solos é um processo natural e complexo que se dá a partir de
materiais inorgânicos e orgânicos. O solo é definido como a(s) camada(s) de material
mineral e/ou orgânico geralmente frouxo, ou solto, que é afetado por processos
físicos, químicos e/ou biológicos na superfície planetária ou próximo a ela e
geralmente contém líquidos, gases, biota e plantas. [5].
O solo é considerado um sistema aberto que interage com outros componentes do
ciclo geológico e biológico. As características de um solo são uma função do material
parental, clima, relevo, organismos, clima e tempo. [6]. Os solos são avaliados no
Octava Conferencia de Directores de Tecnología de Información, TICAL2018
y
II Encuentro Latinoamericano de e-Ciencia
Transformación Digital en Instituciones de Educación Superior, Ciencia y Cultura
Cartagena de Indias, Colombia, 3 - 5 de septiembre de 2018
campo através de seus perfis ou tradagens, os quais são definidos como seções
bidimensionais compostas por uma sucessão vertical de horizontes, comumente
denominados O, A, B, C (começando na superfície), que foram submetidos ao
processo de conformação do solo. Cada perfil de solo possui propriedades
mineralógicas, morfológicas, químicas, hidrológicas, físicas, biológicas e ambientais
muito específicas. A figura 2 ilustra um exemplo de uma estratégia utilizada nas
investigações de solos. A natureza das investigações exige que as ações
desempenhadas pelos pesquisadores ocorram em três ambientes distintos e
complementares: no campo (in situ), nos laboratórios (in vitro) e nos ambientes
computacionais (in silico); os dados primários de solos são coletados diretamente no
campo com equipamentos/técnicas/experimentos específicos.
Fig. 2. Representação conceitual dos três ambientes de coleta de dados (in situ, in vitro e in
silico) e fluxos de dados entre os experimentos de segurança de solos. A figura também
apresenta exemplos da abordagem computacional adotada pelo OpenSoils [38].
Devido as peculiaridades da área, os dados primários de solos são difíceis de
coletar, mapear, analisar, harmonizar e compartilhar sob a forma de bancos de dados.
As investigações de segurança de solos, como qualquer outro domínio científico,
possuem um ciclo de vida e requerem esforços para melhorar o gerenciamento de
dados em longo prazo [7], [8].
Os dados primários dos solos têm algumas características chave, são: heterogêneos
em seus valores, semiestruturados em seus formatos e não convencionais em sua
semântica. Além disso, são catalogados segundo sistemas de classificação de solos
que variam entre os países. Atualmente, existem vários sistemas de classificação de
solos, por exemplo, Sistema Brasileiro de Classificação de Solos (SiBCS, 2006),
sistema estadunidense, entre outros.
Geralmente, cada sistema adota um conjunto de propriedades mineralógicas,
morfológicas, químicas e físicas. Porém, algumas dessas propriedades são peculiares
de cada sistema de classificação. Os valores das propriedades e suas unidades podem
variar tanto de acordo com o sistema de unidades utilizado quanto na língua dos
Octava Conferencia de Directores de Tecnología de Información, TICAL2018
y
II Encuentro Latinoamericano de e-Ciencia
Transformación Digital en Instituciones de Educación Superior, Ciencia y Cultura
Cartagena de Indias, Colombia, 3 - 5 de septiembre de 2018
países ou mesmo nos valores das propriedades morfológicas de cada sistema de
classificação. Essas características tornam a harmonização, reuso e compartilhamento
de dados um grande desafio computacional. Por exemplo, o Brasil utiliza o SiBCS,
essa classificação de solos é parcialmente compatível com os demais sistemas, possui
gaps semânticos que ainda são pouco explorados do ponto de vista computacional.
No Brasil, existe uma gama de instituições governamentais dispersas e sem clara
delimitação de funções que coletam dados de solos, ocasionando o problema da
geração de silos isolados de dados de solos. Os silos são repositórios de dados
legados que foram coletados por ao longo de décadas (por exemplo, levantamentos
pedológicos, artigos científicos, teses, planilhas, textos, arquivos nos formatos pdf,
csv ou HTML). Os silos, em geral, não possuem estruturas de dados logicamente
definidas e se caracterizam pela ausência de descritores de metadados.
Adicionalmente, existem vários repositórios de dados de solos que são inacessíveis a
consultas estruturadas, muitos são apresentados como planilhas ou arquivos de texto;
dificilmente são compartilhados ou reutilizados por agricultores, pesquisadores,
extensionistas, estudantes ou formuladores de políticas públicas [8].
Consequentemente, reproduzir os resultados de vários experimentos em segurança de
solos é, ao mesmo tempo, custoso e muito demorado, além de ser propenso a erros é,
às vezes, impossível repetir tais experimentos. Logo, a gestão de dados nessa área é
um problema em aberto.
Evidências recentes de estudos do tipo meta-pesquisa sugerem problemas de
integridade e reprodutibilidade de experimentos científicos em vários domínios do
conhecimento [9][13]. Pesquisadores, periódicos, órgãos de fomento e governos
estão cada vez mais preocupados com os achados científicos tendenciosos, pouco
reprodutíveis e/ou irreprodutíveis. Uma das abordagens que pode servir para expandir
a confiabilidade e robustez das investigações é a adoção de técnicas de open science
[14], e-science [15] e proveniência de dados [16][17] e governança de dados
científicos [18].
A open science é um termo abrangente que engloba um amplo arcabouço de
saberes aplicados a geração do conhecimento [19]. É um movimento global para
tornar a pesquisa científica e a disseminação de dados e aplicação dos conhecimentos
acessíveis em todos os níveis da sociedade. Atualmente, existem algumas
infraestruturas científicas abertas (por exemplo, OpenAIRE, OSF, EOSC), no entanto,
ainda não têm contemplam os desafios de segurança dos solos.
3 Trabalhos relacionados
As investigações sobre segurança de solos no Brasil e na América Latina ainda estão
começando. A gestão, curadoria, governança de dados e educação em solos ainda são
questões bastante subestimadas. Dados de solos são analisados por aplicações
isoladas, sendo compartilhados por pequenos grupos de pesquisadores que trabalham
em computadores pessoais [20]. Até o momento, não se verificou na literatura
plataformas abertas de software científico voltadas para apoiar todo o ciclo de vida de
pesquisas em segurança de solos.
Octava Conferencia de Directores de Tecnología de Información, TICAL2018
y
II Encuentro Latinoamericano de e-Ciencia
Transformación Digital en Instituciones de Educación Superior, Ciencia y Cultura
Cartagena de Indias, Colombia, 3 - 5 de septiembre de 2018
Dentre os trabalhos existentes na área de ciências de solos no Brasil, podemos citar
o BDSolos [21], ele é um banco de dados relacional que armazena cerca de 9.000
perfis de solos. Embora importante para pesquisadores de ciência do solo, o banco de
dados é pouco eficiente para fazer armazenamento e recuperação de dados, a interface
disponível não permite a entrada de dados novos por parte dos pesquisadores.
Outra proposta nacional é o Fe.BR [22]. Consiste de um site HTML que armazena
centenas de planilhas com dados de solos do Brasil. Fe.BR é apresentado como um
conjunto de arquivos que não compartilham uma mesma estrutura e são armazenados
em um disco virtual na Web. Apesar de se considerar aberto, o repositório não adota
integralmente os princípios do Open Knowledge Fundation (OKFN). Similar ao
BDSolos, o FeBR também não permite buscas avançadas de dados, limitando o
usuário a baixar planilhas para que este desenvolva estratégias para encontrar
informações específicas, o que se torna também um processo lento e sujeito a erros
metodológicos.
Assim, para suprir essas lacunas e oferecer uma ferramenta moderna para a
comunidade de pesquisas e usuários, concebemos o OpenSoils como um framework
aberto que, diferentemente dos trabalhos relacionados, pode ser utilizada por diversos
tipos de perfis, tais como, pesquisadores, professores, tomadores de decisões,
curadores de dados, planejadores da cidades, agricultores e estudantes. OpenSoils
adota open science, dados abertos, proveniência de dados e os princípios FAIR [23]
(Findable, Accessible, Interoperable e Reusable) para a gestão e o compartilhamento
de dados, sendo uma infraestrutura multidisciplinar e integradora de dados de solos
novos e legados.
A figura 2 ilustra, de modo resumido, o fluxo de dados na infraestrutura. Ela
permite que os experimentos científicos em segurança de solos se tornem mais
reprodutíveis, pode trabalhar com grandes quantidades de dados, é distribuída,
baseada em serviços web e dispositivos móveis e em workflows científicos
executados em ambiente de nuvens de computadores e pode provisionar recursos sob
demanda.
4 OpenSoils
Do ponto de vista técnico, OpenSoils é uma infraestrutura eletrônica de open science,
aberta, elástica, distribuída, multiusuário, multicamada e orientada para armazenar
dados primários, secundários de solos e sua proveniência. A plataforma é um
conjunto de serviço (PASS) concebido para ser distribuído, ter alta disponibilidade e
operar em nuvens híbridas de computadores. A Figura 3 ilustra, de modo simplificado
a arquitetura proposta, suas camadas e resume o ciclo de vida dos dados do solo
(representado como setas) [24][26].
Camada I - É a camada dos usuários finais (por exemplo, especialistas em solos,
pesquisadores, formuladores de políticas, agricultores, profissionais da extensão rural,
assistência técnica e estudantes) que utilizam o portal da Web e/ou aplicativos móveis
para se conectar e acessar os dados ou serviços. Além disso, essa camada possui as
funcionalidades de governança oferecidas através da central de controle de projetos e
operações que são utilizados por curadores, administradores de dados e gestores de
Octava Conferencia de Directores de Tecnología de Información, TICAL2018
y
II Encuentro Latinoamericano de e-Ciencia
Transformación Digital en Instituciones de Educación Superior, Ciencia y Cultura
Cartagena de Indias, Colombia, 3 - 5 de septiembre de 2018
tecnologia da informação. Os usuários dessa camada para inserir, consultar ou
administrar serviços e dados no banco de dados OpenSoilsDB. Podem usar
aplicativos móveis, APIs, serviços web e aplicações web (por exemplo, os aplicativos
OpenSoils e/ou ferramentas da OpenSoilsLab) para coletar os dados diretamente no
campo, rastrear a rota de cada amostra enviada aos laboratórios de química e física
para serem posteriormente analisadas. Normalmente, cada amostra de solo tem sua
análise morfológica realizada in situ pelos especialistas, estas podem ser
complementadas posteriormente em laboratórios (in vitro). Assim, o aplicativo
OpenSpoilsApp submete, através de conexão segura, dados de solos brutos para o
sistema gerenciador de banco de dados na nuvem (Figura 4). Depois disso, cada
amostra de solo coletada dos horizontes é etiquetada e enviada para laboratórios onde
os pesquisadores fazem experimentos úmidos ou executam experimentos científicos
de natureza computacional (in silico) através de ferramentas digitais, tais como o
SisGExp [27]. Dependendo da natureza da amostra ela é encaminhada poderá ser
encaminha para solotecas ou museus de solos do Brasil e Américas.
Fig. 3. Visão geral da arquitetura do OpenSoils. Adaptada de Cruz et al. [38].
Fig. 4. Exemplos de telas do Portal da infraestrutura OpenSoils dos aplicativos móveis.
Camada II É uma camada de serviços internos, trata-se do backend da
arquitetura que oferece as APIs utilizadas pelos demais componentes. Utiliza modelos
científicos e matemáticos que são representados por workflows científicos centrados
Octava Conferencia de Directores de Tecnología de Información, TICAL2018
y
II Encuentro Latinoamericano de e-Ciencia
Transformación Digital en Instituciones de Educación Superior, Ciencia y Cultura
Cartagena de Indias, Colombia, 3 - 5 de septiembre de 2018
em dados (eles analisam a consistência dos dados recebidos da camada I e inserem
metadados de proveniência segundo a especificação PROV-DM da W3C). Também
pode utilizar a ferramenta RFlow [28] que gerencia, compartilha e encapsula
workflows científicos baseados em scripts estatísticos legados descritos em linguagem
R, permitindo a captura, de forma transparente, da proveniência retrospectiva dos
scripts R associados aos experimentos in silico. A camada II também permite a
ingestão de dados legados de solos armazenados em silos de dados dispersos na
Internet. Estes podem ser incorporados por meio de workflows de ETL (Extração-
Transformação-Carga) desenvolvidos em ferramentas de manipulação de dados (por
exemplo, Pentaho/Kettle, R, entre outros).
Camada III - É a camada mais interna do OpenSoils, armazena e organiza os
dados primários e secundários de solos e seus metadados. A estrutura interna suporta
um grau diversificado de granularidade de dados e se apoia em banco de dados
denominado OpenSoilsDB [29]. Esta camada pode armazenar tanto os novos dados
recém coletados no campo quanto os dados legados incorporados a partir dos silos de
dados pré-existentes. Ambos são anotados com proveniência.
Resumidamente o banco de dados é capaz de armazenar grandes volumes de dados
científicos (operacionais) e de governança. Os operacionais representam os perfis e
tradagens de solos, são dados de alta qualidade e são voltados para as comunidades
brasileira e internacional interessadas em padronização e harmonização de dados de
solos. Cada descrição de perfil de solo possui mais 250 atributos para registrar as
propriedades mineralógicos, morfológicos, químicos, físicos, sensores proximais,
fertilidade, contaminações por metais pesados e ambientais do solo, entre outros.
Além disso, o banco suporta o versionamento de dados, proveniência e armazena
dados georreferenciados do solo, imagens de perfis e dados analíticos físico-químicos
de cada horizonte de cada perfil/tradagem e de cada amostra de solo analisada em
laboratórios úmidos ou secos.
Os dados de governança, são os dados de projetos, experimentos, protocolos de
pesquisa/trabalho, usuários, grupos de trabalho, compliance, permissões e demais
descritores, eles são tão importantes quanto os operacionais e serão principalmente
utilizados na Camada IV. Grande parte das ões necessárias para garantir a qualidade
dos dados se apoiam na capacidade de permitir que pesquisadores executem e
gerenciem dados e experimentos de segurança do solo com captura sistemática de
metadados de proveniência de dados. Proveniência refere-se à trilha de registros que
explicam a origem de um item de dado [17]. A proveniência dos dados dos workflows
da camada II consiste no registro da derivação de um resultado por um processo
computacional (por exemplo, um perfil do solo, uma imagem, um mapa). O
OpenSoilsDB adota integralmente a recomendação PROV-DM para armazenar a
proveniência retrospectiva das execuções dos workflows científicos e scripts [30].
Além disso, o OpenSoilsDB suporta as diretrizes FAIR para a gestão e
compartilhamento de dados científicos abertos.
O banco de dados também permite a ingestão de grandes volumes de dados legados
de solos que podem ser importados por meio de workflows ETL da camada II. Além
disso, para suportar dados abertos, conectamo-nos com plataformas abertas (por
exemplo, CKAN, DSPACE) que compartilham datasets de dados abertos,
harmonizados e curados para toda a comunidade de usuários da plataforma. Por ser
um padrão internacional, as plataformas abertas facilitam a publicação de dados
Octava Conferencia de Directores de Tecnología de Información, TICAL2018
y
II Encuentro Latinoamericano de e-Ciencia
Transformación Digital en Instituciones de Educación Superior, Ciencia y Cultura
Cartagena de Indias, Colombia, 3 - 5 de septiembre de 2018
curados, adoção de identificadores persistentes de dados e autores (por exemplo, URI,
DOI, ORCID) tornando-os facilmente reutilizáveis, gerenciáveis e referenciáveis por
terceiros. Além disso, as plataformas de dados abertos suportam anotação de dados
com thesaurus e/ou ontologias, assegurando a interoperabilidade semântica entre
sistemas computacionais distintos ou mesmo entre taxonomias de classificação de
solos de países distintos.
Thesaurus e ontologias ainda em estudo para serem incorporados na plataforma e
para anotar semanticamente os dados curados de solos, permitindo transformá-los
triplas de RDF e ligá-los com a Web de dados (por exemplo, WikiData e DBpedia
[31]). O thesaurus para a infraestrutura é o Agrovoc [32]. O Agrovoc é um esquema
conceitual descrito em SKOS-XL e publicado como Linked Open Data, ele abrange
todas as áreas de interesse da Organização das Nações Unidas para Agricultura e
Alimentação (FAO). Ou seja, além de solos, inclui alimentos, agricultura e meio
ambiente. O thesaurus é publicado e mantido pela FAO, editado por uma comunidade
de especialistas possuindo mais de 34.000 conceitos disponíveis em 29 idiomas. Esse
thesaurus é muito utilizado por pesquisadores, bibliotecários e gestores de dados para
ações de indexação, recuperação e organização em sistemas de informação agrícola.
Camada IV A camada de governança de dados do OpenSoils permite
desenvolver estratégias de governança de dados nos níveis estratégico, tático e
operacional. A camada amplia a acessibilidade, compartilhamento e reutilização de
dados e permite difundir os conhecimentos sobre a segurança de solos tanto para a
comunidade científica quanto para cidadãos, agricultores e gestores públicos e
privados.
Adotar os princípios de governança no OpenSoils é vantajoso porque não só alinha
nossa plataforma com as principais demandas dos órgãos nacionais internacionais de
gestão de dados agrícolas (por exemplo, Infraestrutura Nacional de Dados Abertos
(INDA), a Infraestrutura Nacional de Dados Espaciais (INDE), GODAN (Global
Open Data for Agriculture and Nutrition) [33], CGIAR (Consultative Group for
International Agricultural Research) [34], Research Data Alliance (RDA)[35], World
Data System (ICSU-WDS) [36], entre outros). Além disso, oferecemos serviços
baseado em processos padronizados e projetados para assegurar a transparência de
dados/processos na coleta e distribuição de dados. A camada incorpora regras,
políticas, padrões, segurança, direitos e responsabilidades de usos de dados.
Adicionalmente, permite o gerenciamento e licenciamento de dados, uso de
ferramentas analíticas e serviços de visualização e geração de mapas que podem ser
conectados a outros softwares (por exemplo, QGIS, ArcGIS, R, Tableau ou sci-kit-
learn) para produzir relatórios analíticos, mapas raster, entre outros.
Embora a governança, preservação de longo prazo e a curadoria de dados de solos
tenham recebido pouca atenção dos governos e das comunidades de pesquisa em
segurança de solos, essa camada é fundamental e visa contribuir com as políticas de
gestão de dados científicos. Sua função principal é melhorar e manter a qualidade dos
datasets e das pesquisas em solos. Assim, para ter sucesso na governança, a qualidade
deve ser constantemente avaliada e os resultados devem continuamente realimentar as
camadas II e III da arquitetura. Além disso, para alcançar um público mais amplo,
nossos datasets poderão ser compartilhados em redes de dados científicos tais como a
RDA, ICSU-WDS, entre outras.
Octava Conferencia de Directores de Tecnología de Información, TICAL2018
y
II Encuentro Latinoamericano de e-Ciencia
Transformación Digital en Instituciones de Educación Superior, Ciencia y Cultura
Cartagena de Indias, Colombia, 3 - 5 de septiembre de 2018
Por fim, destacamos que além do perfil científico, a infraestrutura também possui
um perfil social e educacional, as principais amostras de solos coletadas durante as
pesquisas de campo podem ser direcionadas para solotecas e museus; essa faceta é
inovadora e socialmente inclusiva e permite que estudantes e visitantes sejam
conscientizadas sobre as importâncias da segurança de solos e funções e usos dos
solos.
4.1 Cenários de uso do OpenSoils
O OpenSoils foi concebido como uma infraestrutura que combina e interopera
tecnologias, recursos computacionais (dados, serviços, sensores, nuvens e repositórios
digitais) e de comunicações (aplicativos, protocolos e políticas de acesso a dados),
para apoiar estruturas organizacionais e pessoas necessárias para conduzir pesquisas
em segurança de solos, de forma moderna, colaborativa, inclusiva e cidadã,
Atualmente, o OpenSoils possui três usos principais: (i) oferecer aos pesquisadores
e gestores um repositório digital diversificado, integrado e confiável de dados de solos
do Brasil. (ii) oferecer ferramentas computacionais e mapas digitais de solos para
planejadores de cidades, agrônomos e agricultores para que possam tomar decisões
usando dados de solos harmonizados e de alta qualidade. (iii) auxiliar estudantes e o
público em geral a melhorar seus conhecimentos sobre os usos dos solos.
Mais especificamente, OpenSoils pode auxiliar em projetos de naturezas diversas,
dentre os quais podemos citar: coletas e consultas de dados no campo, busca de dados
de solos para estudos estatísticos/preditivos; avaliações da aptidão, conservação,
qualidade e de fertilidade dos solos; desenvolvimento de estudos de riscos de erosão,
movimentos de massa, alagamento, investigações do potencial de uso agrícola;
zoneamento ambiental, econômico e/ou ecológico; avaliação de seguro para
empreendimentos agrícolas e não agrícolas; classificação de terras para irrigação;
suporte na recomendação de usos de adubos, calagem e gessagem do solo; avaliação
de contaminação por metais pesados; apoio a programas educacionais em ciências do
solo; apoio na definição de novos critérios taxonômico do SiBCS; geração de mapas
digitais de atributos de solos de alta resolução espacial; de procedimentos
metodológicos para mapeamentos de solos e suas interpretações técnicas.
5 Considerações finais
Os estudos sistemáticos dos solos têm um papel importantes nos desafios globais
de sustentabilidade ambiental, gestão das cidades e principalmente na agricultura. No
entanto, ainda existem poucos trabalhos de cunho computacional para apoiar o
desenvolvimento das pesquisas em segurança de solos que utilizem grandes volumes
de dados de solos. Open Science, e-science e de dados abertos são conceitos que
podem auxiliar os pesquisadores a ampliar a confiabilidade, robustez e
reprodutibilidade dos experimentos de segurança do solo e oferecer soluções para
uma grande gama de usuários.
Octava Conferencia de Directores de Tecnología de Información, TICAL2018
y
II Encuentro Latinoamericano de e-Ciencia
Transformación Digital en Instituciones de Educación Superior, Ciencia y Cultura
Cartagena de Indias, Colombia, 3 - 5 de septiembre de 2018
5.1 Lições aprendidas
A plataforma OpenSoils é fruto de um esforço coletivo e colaborativo que uniu
atividades de ensino, pesquisa e extensão desenvolvidos em regime de parceria entre
o PET-SI/UFRRL (r1.ufrrj.br/petsi) e os departamentos de Computação e de Solos da
UFRRJ. No Brasil já existem vários arcabouços legais que servem de fundamentação
para a modelagem de plataformas de gestão de dados públicos de natureza científica.
Destacamos: (i) o relatório 011.713/2015-1 do TCU que apontou para a insuficiência
de informações, plataformas computacionais e a dificuldade de acesso a dados de
solos do Brasil; (ii) o conjunto de padrões, tecnologias, procedimentos e mecanismos
de controle necessários para disseminar e compartilhar de dados e informações
públicas no modelo de dados abertos elencados pela instrução normativa SLTI/MP nº
4/2012 da INDA e; (iii) o decreto 6.666 de 27/11/2008 que instituiu a INDE cuja
missão é catalogar, integrar e harmonizar dados geoespaciais existentes nas
instituições do governo brasileiro, produtoras e mantenedoras desse tipo de dado.
5.2 Conclusão
Neste artigo, apresentamos o OpenSoils [38], uma nova infraestrutura eletrônica
multiusuário que fornece apoio ao ciclo de vida de estudos e projetos em segurança de
solos. A infraestrutura armazena e compartilha datasets curados e permite a coleta de
dados in situ, in vitro e in silico e elaboração de mapas digitais de solos de alta
qualidade com base nesses dados curados. O OpenSoils é uma plataforma que já se
encontra operacional; seus aplicativos móveis e Web podem ser encontrados na loja
do PET-SI no Google Play e no sítio www.opensoils.org.
Como trabalhos futuros, planejamos concluir a implementação da infraestrutura e
investigar a ligação semântica entre solos e domínios relacionados para melhorar as
políticas de compartilhamento de dados, curadoria de dados e administração de dados.
Além disso, planejamos adotar o modelo de ciência cidadã [37] e envolver uma rede
de voluntários para auxiliar na coleta de novos dados de solos a serem utilizados nas
pesquisas em pedologia e segurança de solos. Também se vislumbra oferecer uma
estrutura de treinamento e capacitação baseado em técnicas de educação a distância
para ampliar a formação de profissionais em pedologia e áreas afins.
Agradecimentos
Este trabalho foi desenvolvido em parte graças as bolsas das agências brasileiras
FNDE e PIBIC/CNPq. Agradecimento dos autores para Renan Toyoyama e ao
programa PET-SI/UFRRJ, ao MEC/SESu. S.M.S da Cruz também agradece as redes
de pesquisas iberoamericas CYTED BigDSSAgro e SmartLogists@IB.
Octava Conferencia de Directores de Tecnología de Información, TICAL2018
y
II Encuentro Latinoamericano de e-Ciencia
Transformación Digital en Instituciones de Educación Superior, Ciencia y Cultura
Cartagena de Indias, Colombia, 3 - 5 de septiembre de 2018
Referências
[1] S. Wolfert, L. Ge, C. Verdouw, and M. J. Bogaardt, “Big Data in Smart Farming – A review,”
Agric. Syst., vol. 153, pp. 6980, 2017.
[2] A. Koch et al., “Soil Security: Solving the Global Soil Crisis,” Glob. Policy, vol. 4, no. 4, pp.
434441, Nov. 2013.
[3] A. McBratney, D. J. Field, and A. Koch, “The dimensions of soil security,” Geoderma, vol. 213,
pp. 203213, 2014.
[4] A. A. B. de Melo, G. S. Valladares, M. B. Ceddia, M. G. Pereira, and I. Soares, “Spatial
distribution of organic carbon and humic substances in irrigated soils under different management
systems in a semi-arid zone in Ceará, Brazil,” Semin. Ciências Agrárias, vol. 37, no. 4, p. 1845,
2016.
[5] H. van Es, “A New Definition of Soil,” CSA News, vol. 62, no. 10, p. 20, 2017.
[6] M. Pansu and J. Gautheyrou, Handbook of soil analysis: Mineralogical, organic and inorganic
methods. Berlin, Heidelberg: Springer Berlin Heidelberg, 2006.
[7] D. Yawson, M. Adu, B. Ason, F. Armah, and G. Yengoh, “Putting Soil Security on the Policy
Agenda: Need for a Familiar Framework,” Challenges, vol. 7, no. 2, p. 15, 2016.
[8] D. Arrouays et al., “Soil legacy data rescue via GlobalSoilMap and other international and
national initiatives,” GeoResJ, vol. 14, pp. 119, 2017.
[9] M. Baker and D. Penny, “Is there a reproducibility crisis?,” Nature, vol. 533, no. 7604, pp. 452
454, 2016.
[10] V. C. Neves, D. De Oliveira, K. A. C. S. Ocaña, V. Braganholo, and L. Murta, “Managing
Provenance of Implicit Data Flows in Scientific Experiments,” ACM Trans. Internet Technol.,
vol. 17, no. 4, pp. 122, 2017.
[11] D. Fanelli, “Opinion: Is science really facing a reproducibility crisis, and do we need it to?,”
Proc. Natl. Acad. Sci., vol. 115, no. 11, pp. 26282631, 2018.
[12] M. Hutson, “Artificial intelligence faces reproducibility crisis,” Science (80-. )., vol. 359, no.
6377, pp. 725726, Feb. 2018.
[13] J. Freire and F. Chirigati, “Provenance and the Different Flavors of Computational
Reproducibility,” Bull. Tech. Comm. Data Eng., vol. 41, no. 1, pp. 1526, 2018.
[14] M. Munafò, “Open Science and Research Reproducibility,” Ecancermedicalscience, vol. 10, Jun.
2016.
[15] T. Hey, S. Tansley, and K. Tolle, The Fourth Paradigm: Data-Intesive Scientific Discovery.
2009.
[16] P. Buneman, S. Khanna, and W.-C. Tan, “Data Provenance: Some Basic Issues,” Lect. Notes
Comput. Sci. Found. Softw. Technol. Theor. Comput. Sci., vol. 1974, pp. 8793, 2000.
[17] J. Freire, D. Koop, E. Santos, and C. T. Silva, “Provenance for computational tasks: A survey,”
Comput. Sci. Eng., vol. 10, no. 3, pp. 1121, 2008.
[18] M. C. Visoli, A. R. Silva, and L. E. Gonzales, “Acesso Aberto na Embrapa : breve histórico ,
avanços recentes e desafios Open Access at Embrapa : brief history , recent advances and
challenges Acceso abierto en Embrapa : breve historia , avances recientes y desafíos,” vol. 11, pp.
16, 2017.
[19] B. Fecher and S. Friesike, “Open Science: One Term, Five Schools of Thought,” Open. Sci., pp.
1747, 2014.
[20] R. Lokers, R. Knapen, S. Janssen, Y. van Randen, and J. Jansen, “Analysis of Big Data
technologies for use in agro-environmental science,” Environ. Model. Softw., vol. 84, pp. 494
504, Oct. 2016.
[21] EMBRAPA, “BDSOLOS: Banco de dados de solos.” [Online]. Available:
https://www.bdsolos.cnptia.embrapa.br/consulta_publica.html. [Accessed: 09-Mar-2018].
[22] “FeBR: Repositório de dados de solos.” [Online]. Available: http://coral.ufsm.br/febr/.
[Accessed: 09-Mar-2018].
[23] M. D. Wilkinson et al., “The FAIR Guiding Principles for scientific data management and
stewardship,” Sci. Data, vol. 3, p. 160018, Mar. 2016.
[24] E. Deelman, D. Gannon, M. Shields, and I. Taylor, “Workflows and e-Science: An overview of
workflow system features and capabilities,” Futur. Gener. Comput. Syst., vol. 25, no. 5, pp. 528
540, 2009.
[25] S. M. S. da Cruz, M. L. M. Campos, and M. Mattoso, “Towards a Taxonomy of Provenance in
Scientific Workflow Management Systems,” 2009 Congr. Serv. - I, pp. 259266, 2009.
Octava Conferencia de Directores de Tecnología de Información, TICAL2018
y
II Encuentro Latinoamericano de e-Ciencia
Transformación Digital en Instituciones de Educación Superior, Ciencia y Cultura
Cartagena de Indias, Colombia, 3 - 5 de septiembre de 2018
[26] M. Mattoso et al., “Towards supporting the life cycle of large scale scientific experiments,” Int. J.
Bus. Process Integr. Manag., vol. 5, no. 1, p. 79, 2010.
[27] S. M. S. da Cruz and J. A. P. do Nascimento, “SisGExp: Rethinking long-tail agronomic
experiments,” Lect. Notes Comput. Sci. (including Subser. Lect. Notes Artif. Intell. Lect. Notes
Bioinformatics), vol. 9672, pp. 214217, 2016.
[28] J. A. P. do Nascimento, “RFlow: uma arquitetura para execução e coleta de proveniência de
workflows estatísticos,” 2015.
[29] G. S. C. Rizzo, M. B. Ceddia, and S. M. S. da Cruz, “Banco De Dados Pedológico : Primeiros
Estudos,” p. 2017, 2017.
[30] L. Moreau and P. Missier, “PROV-DM: The PROV Data Model,” W3C Recommendation, 2013.
[Online]. Available: http://www.w3.org/TR/prov-dm/. [Accessed: 24-Mar-2018].
[31] “DBPedia.” [Online]. Available: http://wiki.dbpedia.org/. [Accessed: 24-Mar-2018].
[32] C. Caracciolo et al., “The AGROVOC linked dataset,” Semant. Web, vol. 4, no. 3, pp. 341348,
2013.
[33] GODAN, "Global Open Data for Agriculture and Nutrition". [Online]. Available:
https://www.godan.info/
[34] CGIAR, " Consultative Group for International Agricultural Research "[Online]. Available:
https://www.cgiar.org/
[35] RDA, Research Data Sharing Without Barriers.” [Online]. Available: https://www.rd-
alliance.org/.[Accessed: 25-Mar-2018].
[36] ICSU-WDS, ICSU - World Data System.” [Online]. Available: http://www.icsu-wds.org/.
[Accessed: 24-Mar-2018].
[37] C. B. Cooper, J. Dickinson, T. Phillips and R. Bonney, "Citizen Science as a Tool for
Conservation in Residential Ecosystems" Ecology and Society, vol. 12, no. 2, # 11, 2007.
[38] Cruz, S. M. S, Ceddia, M. B., Cruz, P. V C. et al. "Towards an e-infrastructure for Open Science
in Soils Security" XII Brazilian Workshop o E-Science. XXXVIII Congresso Sociedade
Brasileira da Computação, 2018.
ResearchGate has not been able to resolve any citations for this publication.
Article
Full-text available
Soils Security is a critical and growing global concern. The OpenSoils´ objective is to host, connect and share large amounts of curated soil data and knowledge at the Brazilian and South America level. The e-infrastructure consists of several layers of services, a database of soil profiles, a cloud-based computational framework to compute and share soil data integrated with a map visualization tools. OpenSoils is open, elastic, provenance-oriented and lightweight computational e-infrastructure that collects, stores, describes, curates, harmonizes and directs to various soil resource types: large datasets of soils profiles, services/applications, documents, projects and external links. OpenSoils is the first open science-based computational framework of soils security in the literature.
Article
Full-text available
Article
Full-text available
Legacy soil data have been produced over 70 years in nearly all countries of the world. Unfortunately, data, information and knowledge are still currently fragmented and at risk of getting lost if they remain in a paper format. To process this legacy data into consistent, spatially explicit and continuous global soil information, data are being rescued and compiled into databases. Thousands of soil survey reports and maps have been scanned and made available online. The soil profile data reported by these data sources have been captured and compiled into databases. The total number of soil profiles rescued in the selected countries is about 800,000. Currently, data for 117, 000 profiles are compiled and harmonized according to GlobalSoilMap specifications in a world level database (WoSIS). The results presented at the country level are likely to be an underestimate. The majority of soil data is still not rescued and this effort should be pursued. The data have been used to produce soil property maps. We discuss the pro and cons of top-down and bottom-up approaches to produce such maps and we stress their complementarity. We give examples of success stories. The first global soil property maps using rescued data were produced by a top-down approach and were released at a limited resolution of 1km in 2014, followed by an update at a resolution of 250m in 2017. By the end of 2020, we aim to deliver the first worldwide product that fully meets the GlobalSoilMap specifications.
Article
Full-text available
Smart Farming is a development that emphasizes the use of information and communication technology in the cyber-physical farm management cycle. New technologies such as the Internet of Things and Cloud Computing are expected to leverage this development and introduce more robots and artificial intelligence in farming. This is encompassed by the phenomenon of Big Data, massive volumes of data with a wide variety that can be captured, analysed and used for decision-making. This review aims to gain insight into the state-of-the-art of Big Data applications in Smart Farming and identify the related socio-economic challenges to be addressed. Following a structured approach, a conceptual framework for analysis was developed that can also be used for future studies on this topic. The review shows that the scope of Big Data applications in Smart Farming goes beyond primary production; it is influencing the entire food supply chain. Big data are being used to provide predictive insights in farming operations, drive real-time operational decisions, and redesign business processes for game-changing business models. Several authors therefore suggest that Big Data will cause major shifts in roles and power relations among different players in current food supply chain networks. The landscape of stakeholders exhibits an interesting game between powerful tech companies, venture capitalists and often small start-ups and new entrants. At the same time there are several public institutions that publish open data, under the condition that the privacy of persons must be guaranteed. The future of Smart Farming may unravel in a continuum of two extreme scenarios: 1) closed, proprietary systems in which the farmer is part of a highly integrated food supply chain or 2) open, collaborative systems in which the farmer and every other stakeholder in the chain network is flexible in choosing business partners as well for the technology as for the food production side. The further development of data and application infrastructures (platforms and standards) and their institutional embedment will play a crucial role in the battle between these scenarios. From a socio-economic perspective, the authors propose to give research priority to organizational issues concerning governance issues and suitable business models for data sharing in different supply chain scenarios.
Article
Full-text available
Soils generate agricultural, environmental, and socio-economic benefits that are vital to human life. The enormity of threats to global soil stocks raises the imperative for securing this vital resource. To contribute to the security framing and advancement of the soil security concept and discourse, this paper provides a working definition and proposes dimensions that can underpin the conceptualization of soil security. In this paper, soil security refers to safeguarding and improving the quality, quantity and functionality of soil stocks from critical and pervasive threats in order to guarantee the availability, access, and utilization of soils to sustainably generate productive goods and ecosystem services. The dimensions proposed are availability, accessibility, utilization, and stability, which are obviously similar to the dimensions of food security. Availability refers to the quality and spatial distribution of soils of a given category. Accessibility relates to the conditions or mechanisms by which actors negotiate and gain entitlements to occupy and use a given soil. Utilization deals with the use or purpose to which a given soil is put and the capacity to manage and generate optimal private and public benefits from the soil. Finally, stability refers to the governance mechanisms that safeguard and improve the first three dimensions. These dimensions, their interactions, and how they can be operationalized in a strategy to secure soils are presented and discussed.
Article
Full-text available
Knowledge of the spatial variability in soil properties can contribute to effective use and management. This study was conducted to evaluate the spatial distribution of the levels of total organic carbon (TOC) and humic substances (humic acid (C-FAH), fulvic acid fraction (C-FAF), and humin fraction (C-HUM)) in an Ultisol under different land uses, located in the irrigated perimeter of Baixo Acaraú- CE, transition to semiarid Ceará. The distribution and spatial dependence of the humic fractions were evaluated using descriptive statistics, including semivariogram analysis and data interpolation (kriging). The TOC showed a pure nugget effect, whereas the other fractions showed moderate spatial dependence. Forested and banana cultivation areas showed similar distributions of C-FAH and C-FAF, due to the high input of organic matter (leaves and pseudostems) in the area of banana cultivation and the absence of soil disturbance in the forested area. Data interpolation (kriging) and mapping were useful tools to assess the distribution and spatial dependence of soil attributes.
Article
Efforts to improve the reproducibility and integrity of science are typically justified by a narrative of crisis, according to which most published results are unreliable due to growing problems with research and publication practices. This article provides an overview of recent evidence suggesting that this narrative is mistaken, and argues that a narrative of epochal changes and empowerment of scientists would be more accurate, inspiring, and compelling.
Article
Scientific experiments modeled as scientific workflows may create, change, or access data products not explicitly referenced in the workflow specification, leading to implicit data flows. The lack of knowledge about implicit data flows makes the experiments hard to understand and reproduce. In this article, we present ProvMonitor, an approach that identifies the creation, change, or access to data products even within implicit data flows. ProvMonitor links this information with the workflow activity that generated it, allowing for scientists to compare data products within and throughout trials of the same workflow, identifying side effects on data evolution caused by implicit data flows. We evaluated ProvMonitor and observed that it could answer queries for scenarios that demand specific knowledge related to implicit provenance.