Conference PaperPDF Available

Proteção de Dados: Proposta de gerenciamento de dados de solos usando os princípios FAIR e a tecnologia blockchain

Authors:

Abstract

A quantidade de dados que são gerados diariamente, em todas as áreas do conhecimento, necessita de uma forma controlada de extração para que sejam usados de modo analítico, mostrando de onde são extraídas as descobertas com habilidade para transformar a realidade. Neste contexto, a agricultura está sendo transformada por dados, em especial, dados abertos, usados para ajudar agricultores, pesquisadores e formuladores de políticas para tomadas de decisão mais crítica. Neste trabalho foi feita uma análise teórica dos princípios FAIR com foco na e-Science, proveniência e na segurança de dados digitais na Agricultura digital, em especial na área de solos. A sociedade busca cada vez mais segurança e controle de suas informações e a tecnologia blockchain está alinhada com estas tendências. Analisando os conceitos inerentes aos princípios FAIR, mostra-se a aderência da tecnologia blockchain a estes conceitos. Apresentamos uma proposta de melhoria de uma plataforma que já tem todo um aporte para a proveniência de dados e um potencial enorme para se tornar um modelo seguro de base para coleta de dados de solo, a OpenSoils. A blockchain traz consenso e confiança na comunicação P2P, capacita os usuários (que controlam diretamente suas informações e transações), oferece durabilidade, confidencialidade e longevidade, traz dados de alta qualidade e integridade ao processo, além de transparência e imutabilidade, transações mais rápidas com baixo custo e totalmente digital. A introdução da tecnologia blockchain nesta plataforma pode, futuramente, contribuir para tornar, tanto pesquisas voltadas para dados de solos quanto para aplicações no campo, mais confiáveis e dinâmicas.
Décima Conferencia de Directores de Tecnología de
Información y Comunicación en Instituciones de
Educación Superior, TICAL2020
y
4° Encuentro Latinoamericano de e-Ciencia
“La ruta digital de una Universidad Inteligente”
Proteção de Dados: Proposta de gerenciamento de dados
de solos usando os princípios FAIR e a tecnologia
blockchain
Élton Carneiro Marinho1[0000-0003-0117-0610], Annatércia Gomes Pinheiro1 [0000-0001-7806-
0925], Alessandra Castro Fiorini Bessa 2[0000-0002-7047-9294], Sérgio Manuel Serra da
Cruz1,2[0000-0002-0792-8157], Eber Assis Schmitz1 [0000-0002-4839-4606]
1 Federal University of Rio de Janeiro, Rio de Janeiro RJ, Brasil
2 Federal Rural University of Rio de Janeiro, Rio de Janeiro RJ, Brasil
elton.marinho@ppgi.ufrj.br
annatercia@ufrj.br
alebessa@ufrrj.br
serra@ppgi.ufrj.br
eber@nce.ufrj.br
Resumo. A quantidade de dados que são gerados diariamente, em todas as áreas do conheci-
mento, necessita de uma forma controlada de extração para que sejam usados de modo analí-
tico, mostrando de onde são extraídas as descobertas com habilidade para transformar a reali-
dade. Neste contexto, a agricultura está sendo transformada por dados, em especial, dados
abertos, usados para ajudar agricultores, pesquisadores e formuladores de políticas para toma-
das de decisão mais crítica. Neste trabalho foi feita uma análise teórica dos princípios FAIR
com foco na e-Science, proveniência e na segurança de dados digitais na Agricultura digital,
em especial na área de solos. A sociedade busca cada vez mais segurança e controle de suas
informações e a tecnologia blockchain está alinhada com estas tendências. Analisando os con-
ceitos inerentes aos princípios FAIR, mostra-se a aderência da tecnologia blockchain a estes
conceitos. Apresentamos uma proposta de melhoria de uma plataforma que tem todo um
aporte para a proveniência de dados e um potencial enorme para se tornar um modelo seguro
de base para coleta de dados de solo, a OpenSoils. A blockchain traz consenso e confiança na
comunicação P2P, capacita os usuários (que controlam diretamente suas informações e transa-
ções), oferece durabilidade, confidencialidade e longevidade, traz dados de alta qualidade e
integridade ao processo, além de transparência e imutabilidade, transações mais rápidas com
baixo custo e totalmente digital. A introdução da tecnologia blockchain nesta plataforma pode,
futuramente, contribuir para tornar, tanto pesquisas voltadas para dados de solos quanto para
aplicações no campo, mais confiáveis e dinâmicas.
Abstract. Daily, a large quantity of data that is generated in all areas of Science, mainly in
Digital Agriculture. Thus, it requires a controlled extraction of knowledge from data files to
generate value to the production chain. In this context, agriculture can be transformed by big
data, especially open data that can be used to help farmers, researchers, and policymakers, to
make more critical decisions. This work was conducted in a theoretical analysis of FAIR
TICAL2020 y 4° Encuentro Latinoamericano de e-Ciencia
La ruta digital de una Universidad inteligente”
Cuenca, Ecuador, septiembre de 2020
principles with a focus on e-Science, data provenance, and digital data security. As society
seeks more security and control of its information, the blockchain technology can be consid-
ered aligned with these trends. In this paper, we present a proposal for the enhancement of the
OpenSoils Platform. Which was evaluated considering the blockchain consensus traces and
trust in P2P communication, it offers to the users (who directly control their information and
transactions), durability, confidentiality, and longevity. Besides, offer data traces of high qual-
ity, apart from transparency and immutability. We stress that the introduction of blockchain
technology in OpenSoils can, in the future, contribute to turning traditional soil researches into
more trustworthy and dynamic investigations.
Keywords: Blockchain, FAIR, Proveniência, Agricultura Digital.
Eixo Temático: Geração de dados abertos
Introdução
O solo é um recurso natural primário e finito que deriva de outros recursos. Na agricultura é, provavelmente,
o recurso mais crítico, quando bem gerido produz benefícios ambientais, de saúde e socioeconômicos [1]. É
de conhecimento geral, a quantidade finita de recursos hídricos e de solo e a forma como são utilizados
impactam, de certa forma, numa mudança climática que pode ser desastrosa para a vida na Terra como a
conhecemos. Logo, compreender os desafios que entremeiam essa temática é de interesse não somente aca-
dêmico quanto das nações [2].
Atualmente, os modelos e sistemas agrícolas baseados em e-Science tornaram-se importantes para avaliar,
potencializar e predizer o comportamento de diversas variáveis de interesse agrícola e econômico que afetam
diretamente os setores público e privado. No entanto, apesar das recentes pesquisas e das melhorias dos
modelos agrícolas, muitos dos atuais modelos são descendentes diretos de investimentos em pesquisa feitos
décadas atrás, e muitos dos principais avanços nas TIC da última década ainda não foram totalmente
explorados no campo [3].
Além dessa questão, dentro da seara de levantamento de dados pedológicos
1
, a totalidade de dados relaci-
onados aos solos é ainda desconhecida, muito dados são curados e levados em consideração para que os solos
possam ser classificados e reconhecidos corretamente. A classificação correta dos solos é de extrema impor-
tância para, por exemplo, na identificação da aptidão de um solo, entre outras necessidades práticas.
Não obstante a quantidade imensurável de informações que permeiam esse universo vital que é a Ciência
do Solo, a pesquisa científica tem vivido uma crise apontada em muitos trabalhos com relação a qualidade e
a reprodutibilidade dos dados, como indicado por Baker [4].
É fato reconhecido que o valor dos dados está na capacidade de usá-los de modo analítico, de onde são
extraídas as descobertas com habilidade para transformar a realidade. A agricultura mundial, em especial a
brasileira, está sendo transformada por dados, em especial, e-Science, dados abertos, usados para ajudar agri-
cultores, pesquisadores e formuladores de políticas a tomar decisões mais inteligentes e informadas, con-
forme muito bem colocado por L’Hénaff e Smith [5].
Pode-se observar que agricultores, de lugares variados do mundo, utilizam uma diversidade de dados para
decidir como e quando fertilizar, plantar ou colher; pesquisadores utilizam dados de diferentes bases, coleta-
dos de inúmeras formas, em seu formato bruto ou manipulado, para acessar informações cruciais para con-
dução de suas pesquisas; formuladores de políticas precisam de dados baseados em evidências para seus
investimentos e outros grupos podem usá-lo para tornar os serviços mais eficientes dentro do domínio da
agricultura [5].
Este trabalho tem como objetivo propor a melhoria de uma plataforma que tem um aporte inicial para
suportar a proveniência de dados e um potencial para se tornar um modelo seguro de base para coleta de
dados de solo. Dentro desse contexto, apresentamos nas seções abaixo uma proposta de como a plataforma
OpenSoils [6], [7] pode, futuramente, contribuir muito mais para tornar, tanto pesquisas voltadas para dados
de solos quanto para aplicações no campo, mais seguras, confiáveis e dinâmicas.
1
Dados de solos
TICAL2020 y 4° Encuentro Latinoamericano de e-Ciencia
La ruta digital de una Universidad inteligente”
Cuenca, Ecuador, septiembre de 2020
Princípios FAIR
Em 2014, em uma conferência intitulada “Jointly designing a data FAIRPORT”, foram discutidos os obstá-
culos relativos à utilização e reutilização de dados científicos; foram propostas soluções a estes problemas
através da criação de uma infraestrutura global para dados no contexto da e-Science. Esta conferência contou
com a presença de especialistas e pesquisadores, membros de institutos de pesquisa, editores, especialistas
em web semântica e cientistas da computação, que observaram a necessidade de criação de uma infraestrutura
global para suporte à descrição e a abertura dos dados de pesquisa voltados para a publicação, o comparti-
lhamento e a reutilização de dados [8].
Não obstante, foram discutidos uma série de requisitos para gerenciamento dos dados de forma aberta,
promovido pelas agências de fomento à pesquisa. Além da proposta de construção de um backbone
2
para
possibilitar a interoperabilidade global dos dados, para que os computadores pudessem interagir e descobrir
de forma automática os conjuntos de dados disponíveis para uma determinada pesquisa [8]. O resultado desta
conferência foi a elaboração de um conjunto de princípios, os Princípios de Dados FAIR apresentados por
Wilkinson et al. [9].
A sigla FAIR é um acrônimo para Findable, Accessible, Interoperable e Reusable. São princípios orien-
tadores de alto nível. Os dados científicos e seus metadados devem ser fáceis de achar, tanto para humanos
quanto para máquinas (Findable). Após localizados, os dados precisam ser acessados, possivelmente inclu-
indo autenticação e autorização (Accessible), também precisam se integrar a outros dados, interoperar com
aplicativos ou fluxos de trabalho para análise, armazenamento e processamento (Interoperable). Tudo isso
para que esses dados possam ser reutilizados. Para que possam ser replicados e/ou combinados em diferentes
configurações (Reusable), os metadados e os dados devem ser bem descritos.
Os metadados são de extrema importância para a gestão adequada dos dados FAIR. Metadados são, de
acordo com a NISO
3
(National Information Standard Organization), a informação estruturada que descreve,
explica, localiza ou possibilita que um recurso informacional seja fácil de recuperar, usar ou gerenciar [10,
p. 1] [10]. Segundo Sayão [11], parte considerável dos autores que estudam esse assunto, concorda que os
metadados podem ser divididos em três categorias conceituais: metadados descritivos, metadados estruturais
e metadados administrativos.
Metadados descritivos descrevem um recurso com o propósito de descoberta e identificação; podem in-
cluir elementos como título, autor, resumo, palavras-chave e identificador persistente. Metadados estruturais
documentam como os recursos complexos, compostos por diversos elementos, devem ser recompostos e
ordenados. A exemplo, as páginas digitalizadas separadamente de um livro, que são vinculadas e ordenadas
para formar um capítulo. Metadados administrativos fornecem informações que apoiam os processos de ges-
tão do ciclo de vida dos recursos informacionais, isto é, como, quando e o porquê de o recurso ter sido criado.
Nesta categoria estão os metadados que explicitam as especificidades e dependências técnicas do recurso;
inclui metadados para apoio à gestão dos direitos relacionados ao recurso.
Dessa forma, é fácil perceber como a estruturação dos metadados podem ajudar na gestão dos dados cien-
tíficos e porque precisam estar bem descritos. Algumas iniciativas voltadas para o setor da agricultura digital,
incluem ferramentas para cadastro e visualização de metadados em Agricultura Digital [12].
Sendo assim, é importante salientar a significância dos metadados para qualquer iniciativa que envolva
gestão de dados, ainda mais se o intuito for trabalhar com os princípios FAIR, como é o objetivo dessa
proposta. Esse conjunto de princípios traz na sua intenção o aprimoramento da capacidade das máquinas em
localizar e usar automaticamente os dados.
Os quatro princípios FAIR aplicam-se ao ciclo de vida dos dados e estão intimamente interconectados.
Aplicando-se estes princípios, não significa que os dados estejam sendo compartilhados abertamente, pois
FAIR DATA é diferente de Open Data
4
Segundo Martínez-Lavanchy et al. [13], os princípios FAIR promovem um conjunto de melhores práticas
para compartilhamento dos dados, respeitando restrições éticas, legais ou contratuais; por exemplo, o cum-
primento de regulamentos e acessos não autorizados. Aplicar estes princípios aos dados de solos significa
permitir que outros pesquisadores encontrem dados que são disponibilizados dentro de parâmetros para que
2
No contexto de redes de computadores, corresponde a um esquema de ligações centrais de um sistema de redes mais
amplo, de elevado desempenho e com dimensões continentais.
3
Disponível em: http://www.niso.org/home
4
“Dados abertos são dados que podem ser livremente usados, reutilizados e redistribuídos por qualquer pessoa - sujeitos,
no máximo, à exigência de atribuição da fonte e compartilhamento pelas mesmas regras.”[38]
TICAL2020 y 4° Encuentro Latinoamericano de e-Ciencia
La ruta digital de una Universidad inteligente”
Cuenca, Ecuador, septiembre de 2020
eles possam integrar-se com outros dados, sendo utilizados por humanos e máquinas e reusados para novas
pesquisas.
Considerando características essenciais destes princípios, citamos o aprimoramento da capacidade das
máquinas de encontrar e usar automaticamente os dados, além de apoiar sua reutilização. A utilização e
aplicação destas diretrizes, favorece o compartilhamento de informações em plataformas com acesso aberto;
repositórios integrados; datasets e quaisquer outros conjuntos de dados e/ou informação que se queira FAI-
Rificar. O processo de FAIRificação é um pré-requisito para gestão de dados apropriada e administração dos
dados [9].
Dentro desse cenário de gestão de dados, tem sido observada a crescente necessidade de se trabalhar com
dados capturados de forma periódica, de grande capacidade de processamento, que exigem uma gestão segura
para que possam ser reutilizados em pesquisas futuras. Pensando na solução dessa questão, como uma su-
gestão de ferramenta, surgiu a proposta da elaboração de um Plano de Gestão de Dados (PGD), um docu-
mento formal, com a descrição detalhada dos dados de pesquisa, contemplando todo o ciclo de vida da pes-
quisa.
De acordo com as recomendações do Guidelines on FAIR Data Management in Horizon [14], desde o
início de 2017, passou-se a exigir um plano de gestão de dados dos candidatos a financiamentos; garantindo,
assim, maior transparência nos seus investimentos, melhor controle na gestão dos dados gerados facilitando,
quando possível, o seu compartilhamento. No Brasil, o entendimento sobre esse cenário está em estágio
inicial, com a elaboração de propostas de modelos de plano de gestão de dados de pesquisa, baseado nos
princípios FAIR.
Dados FAIR podem contribuir para a transparência e reprodutibilidade da pesquisa e consequentemente,
contribui para a ciência aberta com dados de pesquisa de alta qualidade. A aplicação destes princípios de-
pende de como a pesquisa será conduzida e do campo do conhecimento no qual eles serão utilizados, de
acordo com Martínez-Lavanchy et al. [13]
Pode-se dizer que, sobre os objetivos de tornar dados FAIR, é necessário adicionar descrições de dados e
links de longa duração. Para torná-los acessíveis, é preciso definir quem poderá acessar e como será este
acesso. Caso os dados não possam ser totalmente abertos, é possível permitir o acesso através de um reposi-
tório com características de acesso limitado. Para haver interoperabilidade, pode-se usar padrões e formatos
comuns de legibilidade. Para que estes dados sejam reusados em pesquisas futuras, deve-se disponibilizar
documentação que descreva os dados, os metadados e as permissões apropriadas.
Portanto, tendo em vista que o Plano de Gestão de Dados viabiliza a descrição detalhada de dados, meta-
dados e repositórios, descrevendo o ciclo de vida do dado ao longo das etapas do projeto, não é difícil concluir
o quanto a elaboração de um PGD da Plataforma OpenSoils pode contribuir na qualidade dos dados e meta-
dados. De modo geral, os conceitos inerentes à gestão de dados de pesquisa são usados para aperfeiçoar a
plataforma OpenSoils.
Proveniência de Dados Digitais
Originalmente, o termo proveniência (do francês provenance) é definida como o histórico de um objeto,
seu pedigree. É amplamente usada em diversas áreas do conhecimento como forma de rastreio para locali-
zações, propriedade e originalidade de peças de grande importância e valor comercial, o que visa garantir aos
compradores a originalidade das obras em questão. É muito valorizado nas Belas Artes para garantir a legi-
timidade de uma obra, por exemplo [15].
Proveniência de Dados é bem compreendida dentro dos contextos das e-Science, Banco de dados e Bibli-
otecas Digitais [16][17], porém pouco explorada na área de agricultura. Nesses contextos existem diversos
trabalhos que comprovam sua importância em relação à documentação de objetos, dados ou ao processos
de experimentos científicos [18].
Para Allemang e Teegarden [19], proveniência refere-se a rastrear a fonte de algo. Na agricultura, muitas
vezes é necessário rastrear a fonte dos materiais físicos que compõem o produto final. Contudo, quando os
produtos passam por uma cadeia de transformações e por muitas mãos a caminho do consumidor final, isso
pode se tornar uma tarefa desafiadora. A proveniência nesse contexto também pode se referir à fonte de
dados, onde um conjunto de dados específico se originou, quando e como foi coletado. Uma boa proveniência
dos dados pode aumentar a confiança do consumidor e melhorar a eficiência da cadeia produtiva.
Assim como os bens físicos podem sofrer transformações de produtor para consumidor, o mesmo ocorre
com os dados. Os resultados podem ser derivados de dados brutos e propagados como conjuntos de dados.
TICAL2020 y 4° Encuentro Latinoamericano de e-Ciencia
La ruta digital de una Universidad inteligente”
Cuenca, Ecuador, septiembre de 2020
A confiança nos dados derivados depende da confiança nos dados de origem. Os dados, como qualquer in-
formação na web, devem ser tratados com ceticismo. Pode ser que este dado esteja desatualizado, incorreto
ou não tenha utilidade. Segundo Allemang e Teegarden [19], a confiança nos dados abertos começa com o
conhecimento de sua origem.
Para reduzir as incertezas de um indivíduo sobre os outros, toda informação deve possuir este “certificado
de origem”, ou seja, ter sua proveniência registrada. O fato de existir uma proveniência dos dados permite
que haja um rastreio na cadeia produtiva para identificação de gargalos, localização de um desajuste, entre
outros informações. A transparência dessas informações gera uma segurança maior do consumidor em rela-
ção as suas escolhas, que pode definir que tipo de alimento deseja consumir e com que processo de produção
[20].
Segundo o Consórcio W3C, a proveniência quando aplicada aos dados é a informação sobre entidades,
atividades e pessoas envolvidas na produção de um dado ou coisa, que pode ser usada para formar avaliações
sobre sua qualidade ou confiabilidade. O conjunto de documentos da especificação PROV
5
definem modelo,
serializações correspondentes e outras definições de suporte para permitir o intercâmbio interoperável de
informações de proveniência em ambientes heterogêneos, como a Web. O padrão PROV permite representar
e trocar informações de proveniência usando formatos amplamente disponíveis, como RDF e XML. Além
disso, fornece definições para acessar informações de proveniência, validá-las e mapear para o padrão Dublin
Core
6
[21].
A adoção da proveniência em sistemas agrícolas pode ser considerada como uma fonte de protagonismo
na relação entre produtores e consumidores e ter impacto na agricultura digital brasileira. Com um maior
poder decisório, estes acabam por agregar valor nas cadeias produtivas agrícolas, frequentemente dependen-
tes de mercados que não são agros (ex.: géis superabsorventes para mudas, que são viáveis se atrelados ao
mercado de fraldas e absorventes) [24, p. 128].
Neste contexto, os consumidores, um dos principais atores no processo, têm um papel primordial, suas
escolhas de consumo podem ajudar a definir, juntamente com outros atores, buscar melhores usos do solo
para atender suas demandas. Um consumidor consciente, e mais exigente, pode direcionar a melhor forma
de utilização do solo, para culturas mais saudáveis e uma agricultura mais sustentável através da escolha de
produtos com uma proveniência que atenda seus anseios e suas necessidades. Em última análise, o conheci-
mento e o mapeamento de solo ajudam a definir uma melhor forma para sua utilização. Ao sumarizar as
necessidades deste contexto para que seja possível gerar novos artefatos que agreguem valor a esta cadeia
produtiva, encontramos a necessidade de proveniência, de rastreabilidade e de transparência.
Alinhando-se proveniência com os princípios FAIR de reutilização, “R”, torna-se mister a manu-
tenção de registros de proveniência, de modo que os dados, ou metadados, coletados possam ser citados de
maneira precisa e adequada. Uma condição para Reutilização de Dados Digitais é a Proveniência dos Dados
(Figura 1): O princípio de reutilização indica que tanto os dados quanto os metadados, devem ser descritos
de forma detalhada e que seus atributos devem ser precisos e relevantes [23].
Figura 1- Adaptado de https://www.ands.org.au/working-with-data/fairdata/training
Com a aplicação dos princípios FAIR e a proveniência, a gestão adequada dos dados se torna um
mecanismo facilitador da reprodutibilidade de pesquisas e reuso desses dados em pesquisas futuras.
5
https://www.w3.org/TR/prov-overview/
6
É um esquema de metadados que visa descrever objetos digitais, tais como, vídeos, sons, imagens, textos e sites na web
[39].
TICAL2020 y 4° Encuentro Latinoamericano de e-Ciencia
La ruta digital de una Universidad inteligente”
Cuenca, Ecuador, septiembre de 2020
Blockchain garantindo a proteção dos dados
A facilidade com que se pode copiar e transformar dados na Web atualmente tornou cada vez mais difícil
determinar as origens de um determinado dado [24]. Os dados devem ser protegidos sob uma tecnologia que
minimize, ou mesmo impeça, qualquer tipo de alteração indevida. Para isso é necessário um protocolo de
confiança, uma tecnologia que forneça a proteção necessária.
Em uma rede cliente/servidor, os nós clientes conversam com a autoridade central, o servidor. Na block-
chain é utilizada uma rede peer-to-peer onde, por analogia, os nós funcionam como clientes e servidores para
outros nós da rede a fim de se chegar a um objetivo [25].
A tecnologia blockchain é aplicada para dados descentralizados e auto reguláveis. Através dela os dados
podem ser gerenciados e organizados de uma maneira transformadora: aberta, permanente, verificada e com-
partilhada, sem a necessidade de uma autoridade central [26]. Formada por bancos de dados compartilhados,
distribuídos e tolerantes a falhas e sem nenhuma autoridade certificadora onde todos os participantes da rede
podem compartilhar. Nenhuma entidade controla ou intermedia a blockchain [27].
Esta tecnologia pode ser compreendida como um livro razão, cuja manutenção é feita pela cooperação e
interação pelos nós em uma rede. Neste livro razão são guardadas todas as transações ocorridas. Estas tran-
sações não podem ser alteradas ou excluídas, garantindo um armazenamento imutável dos dados [25].
Por se tratar de uma arquitetura onde cada pode ser visto tanto como cliente como servidor (P2P),
elimina-se, desta forma, a necessidade de intermediários para as transações [27]. Esta mesma arquitetura, de
uma corrente de blocos, também irá garantir a imutabilidade dos dados, sua durabilidade de longevidade
[28]. Neste contexto, a blockchain garante a persistência dos dados e dos metadados, garantindo, assim, a
imutabilidade das informações [28].
A proposta aqui demonstra que os conceitos inerentes à blockchain podem ser usados para aprimorar a
plataforma OpenSoils. Com uma blockchain descentralizada e com consenso bem definido, cada parte inte-
ressada poderá gerir seu próprio nó na blockchain, tendo acesso aos seus dados e aos dados autorizados e
autenticados de forma mais rápida. Com o incremento da proveniência e da aplicação dos princípios FAIR,
conforme exposto anteriormente, o espectro fica ampliado para disponibilização de dados que possam ser
reutilizados e experimentos que possam ser reproduzidos.
Como as informações são guardadas na blockchain
A unidade básica de dados de uma rede blockchain é o bloco, sendo este uma estrutura de dados responsável
por armazenar informações sobre um conjunto de transações [25]. Uma transação é uma unidade de infor-
mação dentro de um bloco e pode representar qualquer coisa: dinheiro; ativos financeiros; músicas; proprie-
dades; etc.
Cada bloco possui uma identificação única e contém a identificação do bloco anterior, perfazendo, assim,
uma cadeia de blocos (“Block Chain”). O primeiro bloco, também chamado de bloco genesis, não possui
identificação para o bloco anterior. Outra propriedade de um bloco é o timestamp, esta propriedade torna
mais difícil para um usuário de - manipular a rede blockchain. O timestamp guarda informações sobre
data e hora de criação do bloco. Estes conceitos permitem que as transações possam ser rastreadas de maneira
histórica [25].
Cada bloco pode ser dividido em duas partes, o cabeçalho e o corpo do bloco. O cabeçalho possui infor-
mações de controle, enquanto o corpo do bloco possui as informações sobre as transações [29]. A figura 2
exemplifica estes conceitos.
TICAL2020 y 4° Encuentro Latinoamericano de e-Ciencia
La ruta digital de una Universidad inteligente”
Cuenca, Ecuador, septiembre de 2020
Figura 2 - Encadeamento de blocos na Blockchain
Os dados a serem incluídos nas transações podem perfeitamente atender às metas descritas nos princípios
FAIR para reuso. Os metadados descritos podem ser definidos para esta tecnologia, assim como um protocolo
aberto, permitindo autenticações e autorizações quando necessário. Também fica atendida a proveniência
dos dados.
A blockchain não resolve todos os problemas, mas permite que a identificação do ponto de ruptura na
cadeia seja feita de forma mais rápida, ou seja, o rastreio do ponto de falha é mais rápido.
As informações existentes em um blockchain podem ser públicas e estar disponíveis para o escrutínio de
qualquer pessoa que tenha interesse, lembrando que estes registros são protegidos por potentes criptografias
[25].
Estes fatores mostram que a blockchain é uma tecnologia segura em que os dados estão protegidos, o que
alinha esta tecnologia com os princípios FAIR [23].
O Regulamento Geral de Proteção de Dados (GDPR - General Data Protection Regulation) devolve o
controle dos dados pessoais aos seus proprietários, através de requisitos e obrigações para os provedores de
serviços que gerenciam e processam dados pessoais [30]. A tecnologia blockchain mostra-se aderente a este
princípio também através do controle de acesso das partes interessadas à blockchain.
dApps
DApps são interfaces com códigos salvos em blockchains e não em nuvens como os Apps. DApps não pos-
suem uma autoridade central para funcionar, sendo dependentes apenas de sua rede [31]. Para que uma apli-
cação seja considerada um dApp ela deve ser completamente open-source, sem autoridade controladora e as
operações devem ser gravadas de forma criptografada em uma blockchain [32].
Os dApps permitem que todo o código e dados sejam descentralizados, logo, imutáveis e invioláveis.
Esses aplicativos possuem natureza descentralizada, e mecanismos que protegem os dados da blockchain
[33].
A utilização destes dApps são importantes pois uma tendência à utilização de celulares, smartphones e
tablets como apoio a difusão de informações [35, p. 77] .
Trabalhos relacionados
No setor agrícola, os cientistas de dados continuam se surpreendendo com as quantidades maciças de dados
que podem ser utilizadas na solução de problemas supostamente intratáveis em diversos setores. Nos últimos
anos, projetos de e-Science, dados abertos e compartilhados em larga escala e algumas pesquisas forneceram,
nesse sentido, exemplos positivos de como planejar e conduzir iniciativas globais de compartilhamento de
dados.
TICAL2020 y 4° Encuentro Latinoamericano de e-Ciencia
La ruta digital de una Universidad inteligente”
Cuenca, Ecuador, septiembre de 2020
Inúmeras iniciativas estão impulsionando a abertura do acesso a dados agrícolas em todo o mundo, de-
mandando sistemas integrados capazes de gerenciar os grandes volumes heterogêneos de dados derivados de
diferentes fontes. Grupos de pesquisa em agricultura focam em promover boas práticas no domínio de inves-
tigação, incluindo a partilha de dados de políticas, planos de gestão de dados e interoperabilidade de dados,
dando acesso a pesquisa e aos dados agrícolas. Um exemplo de grupo de trabalho que se destaca é o Wheat
Data Interoperability WG, sendo o primeiro a produzir e publicar um conjunto de recomendações, que se-
guem os princípios FAIR, na aplicação do manejo de dados de trigo, identificando casos de uso relevantes
para prover um método sobre como produzir dados do trigo que sejam facilmente compartilháveis, reutilizá-
veis e interoperáveis [35].
Um documento elaborado por Allemang e Teegarden [19] descreve as prioridades para a criação de um
ecossistema de dados global eficaz para a agricultura, desde o engajamento das partes interessadas até o
fornecimento, o compartilhamento e a colaboração com os dados. O artigo foi encomendado pela Syngenta
7
com a assistência da GODAN
8
para catalisar o consenso sobre os desafios e princípios que devem ser abor-
dados na construção de um ecossistema global de dados para a agricultura. Os autores baseiam-se em sua
experiência com a iniciativa Open PHACTS
9
.
De acordo com os autores, isso começa com a criação de incentivos e confiança - entre fornecedores e
consumidores de dados, no que tange ao compartilhamento, abertura e uso de dados. Para eles, o segredo está
em desenvolver uma ampla conscientização e não poupar esforços para melhorar a qualidade dos dados,
proveniência, pontualidade e acessibilidade.
Os dados do solo mudam de local e de acordo com as estações. Para manter a confiança nos dados, é
necessário ter uma política estável que as partes interessadas cumpram, com a rapidez com que os dados são
disponibilizados e por quanto tempo são mantidos. Isso deve ser equilibrado com o fato de que acompanhar
os dados atuais pode representar desafios tecnológicos devido à escala do conjunto de dados e à taxa de
geração [36].
Além da iniciativa da GODAN para a criação de um ecossistema de dados global, outras duas iniciativas
que valem ser citadas são: O CABI, uma organização internacional, intergovernamental e sem fins lucrativos
que fornece informações e aplica conhecimentos científicos para resolver problemas na agricultura e no meio
ambiente. E a outra iniciativa é o ODI, que trabalha com o CABI e o GODAN para incentivar boas práticas
de gerenciamento de dados nos subsídios agrícolas da Fundação Bill & Melinda Gates.
O ODI busca explorar como aprimorar o acesso e o compartilhamento de dados nos programas agrícolas
em diversas regiões e tornar as pesquisas financiadas abertamente acessíveis. Para tanto, nesta iniciativa,
procura-se entender os desafios e tornar os dados mais FAIR.
Segundo L’Hénaff e Smith [5], através de uma série de personas, para explorar os desafios que envolvem
o acesso, compartilhamento e reutilização de dados, e de uma metodologia de mapeamento de ecossistema
de dados da ODI para estabelecer os relacionamentos e fluxos de dados entre as partes interessadas no intuito
de, por exemplo, aumentar a produtividade agrícola desenvolvendo um serviço de informações do solo. O
método foi considerado útil para comunicar como os dados são acessados, compartilhados e usados mos-
trando onde o valor dos dados é criado e onde existem barreiras.
Padarian e McBratney [37] descrevem um sistema que se utiliza de um modelo de compartilhamento de
dados do solo que é feito de forma centralizada. O controle da governança dos dados fica a cargo desta
entidade centralizadora. Os autores sugerem a utilização da blockchain para um banco de dados interinstitu-
cional.
Considerações Finais
Este trabalho apresentou uma proposta do uso da tecnologia blockchain aliado com a aplicação dos princípios
FAIR e e-Science voltada para o domínio das Ciências do Solo, destacando ainda a relevância da plataforma
OpenSoils, que possui aporte para proveniência de dados na gestão de dados de solos.
7
https://www.syngenta.com/
8
GODAN (Global Open Data): uma iniciativa que busca apoiar os esforços globais para tornar os dados agrícolas e
nutricionalmente relevantes disponíveis, acessíveis e utilizáveis para uso irrestrito em todo o mundo.
9
O Open PHACTS foi um projeto patrocinado por cinco anos pela Innovative Medicines Initiative na European Commis-
sion, cujo objetivo era disponibilizar dados científicos valiosos que podem beneficiar a indústria farmacêutica em
geral.
TICAL2020 y 4° Encuentro Latinoamericano de e-Ciencia
La ruta digital de una Universidad inteligente”
Cuenca, Ecuador, septiembre de 2020
Essa abordagem, é uma das primeiras na literatura que abraça esses conceitos conjuntamente, ela oferece
excelentes recursos para a gestão do conhecimento tradicionais da agricultura digital, no que tange às difi-
culdades que envolvem a reprodutibilidade de dados de pesquisa e aumento da confiabilidade desses dados.
Neste contexto, encontramos a necessidade de abordar proveniência, rastreabilidade e transparência. A ne-
cessidade da aplicação de princípios, como o FAIR, e da adoção de tecnologias que viabilizem esses cuidados
com a proteção do dado são ações que têm sido reconhecidas na literatura.
Com base nos princípios FAIR e nas características da tecnologia blockchain, podemos inferir que sua
ampla adoção, em sistemas voltados para a agricultura digital, apresentam os seguinte benefícios:
Os princípios FAIR organizam as informações de forma a serem amplamente reproduzíveis;
A tecnologia blockchain é aderente a estes princípios;
Permite a preservação da propriedade e o controle sobre seus dados;
Permite acesso instantâneo a base completa de informações;
Garante que os dados que sejam anexados à blockchain não possam ser violados;
Participação ativa nas decisões de governança;
Além do mais, a utilização da blockchain, diferentemente dos bancos de dados centralizados, ga-
rante uma maior proteção aos dados nela colocados, garantindo, inclusive, sua imutabilidade.
É importante frisar que muito ainda precisa ser feito dentro do próprio contexto de Ciência do Solo e da
Agricultura digital. Uma limitação deste trabalho é que ainda é necessário ampliar e detalhar melhor as in-
formações que permeiam o universo de classificação e da recomendação de usos de solos para que essa
proposta seja bem contemplada numa adaptação futura da plataforma. Além disso, elaborar um plano de
gestão de dados que acompanhe o ciclo de vida desses dados, dentro das limitações éticas e de acordo com
as atualizações vindas da literatura que envolvem esse domínio de solos, seria o próximo passo a ser tomado.
Do ponto de vista conceitual com vistas a expandir o uso da proposta, verificamos que o trabalho apre-
sentado é perfeitamente incorporável ao arcabouço ferramental e ao propósito da plataforma OpenSoils, pla-
taforma que possui uma infraestrutura voltada para segurança de solos e é baseada em conceitos de e-Science
e Open Science. Desta forma, a implementação dessa proposta se tornaria uma contribuição adicional à essa
infraestrutura eletrônica, no contexto da proteção e confiabilidade dos dados, além de ampliar sua abordagem
para uma conjuntura de dados abertos compartilhados, fornecendo conjuntos de dados de solos de maior
qualidade.
Referências
[1] S. M. S. Da Cruz et al., “Towards an e-infrastructure for Open Science in Soils Security,” vol. 2, no.
Figure 1, 2020.
[2] S. Cruz, F. Klinger, P. Cruz, A. Vieira, E. Schmitz, and E. Marinho, “Desenvolvendo Sistemas
Agrícolas de Próxima Geração: Um Estudo em Ciência de Solos,” pp. 135–144, 2020.
[3] Agropensa, “Summary for Policymakers,” in Climate Change 2013 - The Physical Science Basis,
Intergovernmental Panel on Climate Change, Ed. Cambridge: Cambridge University Press, 2014, pp.
130.
[4] M. Baker, “1,500 scientists lift the lid on reproducibility,” Nature, vol. 533, no. 7604, pp. 452454,
May 2016.
[5] P. L’Hénaff and F. Smith, “Creating FAIR and open agricultural data ecosystems – The ODI,” 2018.
[Online]. Available: https://theodi.org/article/creating-fair-and-open-agricultural-data-ecosystems.
[Accessed: 20-May-2020].
[6] S. M. S. da Cruz et al., “OpenSoils : Uma Plataforma de Apoio à Ciência do Solo,” no. November,
2019.
[7] M. Ceddia and P. Cruz, “OpenSoils : e-Science em Segurança de Solos,” in Tical, 2018, no.
September.
[8] Dutch Techcentre for Life Sciences, “Jointly designing a Data FAIRPORT - Dutch Techcentre for
Life Sciences,” 2014. [Online]. Available: https://www.dtls.nl/2014/01/20/jointly-designing-data-
fairport/. [Accessed: 20-May-2020].
[9] M. D. Wilkinson et al., “Comment: The FAIR Guiding Principles for scientific data management
and stewardship,” Sci. Data, vol. 3, pp. 19, Mar. 2016.
[10] J. (NISO) Riley, Understanding Metadata - What Is Metadata? 2017.
TICAL2020 y 4° Encuentro Latinoamericano de e-Ciencia
La ruta digital de una Universidad inteligente”
Cuenca, Ecuador, septiembre de 2020
[11] L. F. Sayão, “Uma outra face dos metadados: informações para a gestão da preservação digital,”
Encontros Bibli Rev. Eletrônica Bibliotecon. e Ciência da Informação, pp. 131, 2010.
[12] B. Corrêa et al., “Uma ferramenta para cadastro e visualização de metadados em Agricultura de
Precisão utilizando GeoNetwork,” no. May, pp. 3941, 2011.
[13] J. W. Martínez-Lavanchy, P.M., Hüser, F.J., Buss, M.C.H., Andersen, J.J., Begtrup, “(8) Research
Data Management (RDM) - FAIR Principles - YouTube,” 2019. [Online]. Available:
https://www.youtube.com/watch?v=OvEHYCSmzCA. [Accessed: 20-May-2020].
[14] European Commission, “Guidelines on Fair Data Management in Horizon 2020,” no. December, p.
6, 2016.
[15] F. C. da Silva, “Tratamento e preenchimento de falhas de séries de dados meteorológicos utilizando
workflows científicos paralelos em ambientes de GPU,” 2014.
[16] W.-C. Tan, “Provenance in Databases: Past, Current, and Future,” IEEE Data Eng. Bull., vol. 30, no.
4, pp. 312, 2007.
[17] L. Moreau et al., “The provenance of electronic data,” Commun. ACM, vol. 51, no. 4, pp. 5258,
Apr. 2008.
[18] L. Moreau, J. Freire, J. Futrelle, R. E. McGrath, J. Myers, and P. Paulson, “The open provenance
model: An overview,” Lect. Notes Comput. Sci. (including Subser. Lect. Notes Artif. Intell. Lect.
Notes Bioinformatics), vol. 5272, pp. 323326, 2008.
[19] D. Allemang and T. Bobbin, “A Global Data Ecosystem for Agriculture and Food,” vol. 24, no. 2, p.
23, 2016.
[20] Prodemge, “Agricultura 4.0,” no 15, p. 112, 2018.
[21] “World Wide Web Consortium (W3C).” [Online]. Available: https://www.w3.org/. [Accessed: 02-
Mar-2020].
[22] É. L. Bolfe, S. K. Campos, M. A. G. P. Júnior, E. Contini, R. de A. R. Rodrigues, and C. A. M.
Santana, “Futuro da Agricultura Brasileira,” Embrapa, p. 212, 2018.
[23] A. Jacobsen et al., FAIR Principles: Interpretations and Implementation Considerations,” Data
Intell., pp. 1029, Nov. 2019.
[24] P. Buneman, S. Khanna, and W.-C. Tan, “Data Provenance: Some Basic Issues,” Lect. Notes Comput.
Sci. Found. Softw. Technol. Theor. Comput. Sci., vol. 1974, pp. 8793, 2000.
[25] P. H. Alves, R. Laigner, and R. Nasser, “Desmistificando Blockchain: Conceitos e Aplicações,”
Comput. e Soc., no. August, pp. 124, 2018.
[26] Delft University of Technology et al., “Tecnologia Blockchain: uma visão geral. 01 Introdução,”
Harv. Bus. Rev., vol. 6, no. 2, pp. 14, 2017.
[27] I. Bashir, Mastering Blockchain: Deeper insights into decentralization, cryptography, Bitcoin, and
popular Blockchain frameworks. 2018.
[28] N. Baracaldo, L. A. D. Bathen, R. O. Ozugha, R. Engel, S. Tata, and H. Ludwig, “Securing data
provenance in internet of things (IoT) systems,” Lect. Notes Comput. Sci. (including Subser. Lect.
Notes Artif. Intell. Lect. Notes Bioinformatics), vol. 10380 LNCS, no. October, pp. 9298, 2017.
[29] Z. Zheng, S. Xie, H. Dai, X. Chen, and H. Wang, “An Overview of Blockchain Technology:
Architecture, Consensus, and Future Trends,” Proc. - 2017 IEEE 6th Int. Congr. Big Data, BigData
Congr. 2017, no. October, pp. 557564, 2017.
[30] N. B. Truong, K. Sun, S. Member, G. M. Lee, S. Member, and Y. Guo, “GDPR-Compliant Personal
Data Management : A Blockchain-Based Solution,” vol. 15, pp. 1746–1761, 2020.
[31] Fateclog, “O que é picking e qual é sua importância?,” 2011. .
[32] D. Johnston, “The General Theory of Decentralized Applications, Dapps,” 2012. [Online]. Available:
moz-extension://11b99dc9-485a-4550-b04f-b2b59eb7b24e/enhanced-
reader.html?openApp&pdf=https%3A%2F%2Fcryptochainuni.com%2Fwp-
content%2Fuploads%2FThe-General-Theory-of-Decentralized-Applications-DApps.pdf.
[Accessed: 26-Feb-2020].
[33] S. Ray, “What is a DAPP? - Towards Data Science,” 2018. [Online]. Available:
https://towardsdatascience.com/what-is-a-dapp-a455ac5f7def. [Accessed: 21-May-2020].
[34] É. C. Marinho, “Impacto dos fatores motivacionais na intenção de uso de uma plataforma EaD:
Pesquisa Multimétodo com Alunos do Ensino Médio,” p. 99, 2015.
[35] “RDA and Agriculture | RDA.” [Online]. Available: https://www.rd-alliance.org/rda-disciplines/rda-
TICAL2020 y 4° Encuentro Latinoamericano de e-Ciencia
La ruta digital de una Universidad inteligente”
Cuenca, Ecuador, septiembre de 2020
and-agriculture. [Accessed: 15-Aug-2020].
[36] “ACFR: Robots Set to Transform the Automotive and Agricultural Industries - Shara Evans.”
[Online]. Available: https://sharaevans.com/acfr-robots-set-to-transform-the-automotive-and-
agricultural-industries/. [Accessed: 15-Aug-2020].
[37] J. Padarian and A. B. McBratney, “A new model for intra-and inter-institutional soil data sharing,”
Soil, vol. 6, no. 1, pp. 8994, Mar. 2020.
[38] Brasil, “O que são dados abertos ?,” 2014. [Online]. Available: http://dados.gov.br/dados-abertos/.
[Accessed: 15-Aug-2020].
[39] “DCMI: Home.” [Online]. Available: https://dublincore.org/. [Accessed: 15-Aug-2020].
ResearchGate has not been able to resolve any citations for this publication.
Article
Full-text available
Data sharing and collaboration are critical to solving large-scale problems. The prevailing soil data-sharing model is based on different groups sending their data to a lead party. This model is of a centralised nature and, consequently, results in the participants ceding control and governance over their data to the lead party. Here we explore the use of a distributed ledger (blockchain) to solve the aforementioned issues. We explain what a blockchain is and some of its characteristics to then describe some features of a blockchain that make it an interesting candidate for an inter-institutional database. Finally, we describe the potential use case of developing a global soil spectral library with multiple, independent international institutions constituting the network.
Conference Paper
Full-text available
Os usos eficientes dos solos são problemas críticos que afetam vários países. O objetivo deste trabalho está na modelagem de um Sistema Agrícola de Próxima Geração (SAPG) para a área de Segurança de Solos. Apresentamos e avaliamos um serviço denominado do OpenSoils Edu que é parte de um SAPG voltado para gestão de dados pedológicos. O serviço é capaz de mapear grandes quantidades de dados de solos e pode ser utilizado por diversos tipos de usuários para visualização e compartilhamento de dados curados de solos.
Conference Paper
Full-text available
RESUMO Solos são recursos não renováveis e parte vital do meio ambiente; os usos racionais bem como a gestão dos dados de solos são problemas globais que afetam a todos os países do mundo. O objetivo deste artigo é apresentar a plataforma OpenSoils que armazena, conecta e compartilha grandes quantidades de dados curados de solos brasileiros. OpenSoils é uma plataforma aberta, elástica, multiusuária que descreve, organiza e harmoniza grandes conjuntos de dados de perfis e tradagens de solos. Também oferece dados curados e geração de relatórios e mapas permitem que os usuários consultem os dados de solo da sua região. OpenSoils é uma das primeiras infraestruturas voltados para segurança de solos baseada na tríade de conceitos de e-Science e Open Science. PALAVRAS-CHAVE: Agricultura 4.0, Aplicativos móveis, Segurança de Solos. ABSTRACT Soils are nonrenewable resources; they are an essential asset of the environment. Rational use of the soils and data management are global, growing and critical problems that affect every country in the world. The goal of OpenSoils is to connect and share large amounts of cured soil data at the Brazilian level aiding researchers to developed soils researchers. OpenSoils is an open, elastic, provenance-oriented framework that collects, stores, describes, organizes, shares and harmonizes large data sets of soil profiles and boreholes. It also offers high-quality data and maps allowing users to navigate through the data. OpenSoils is one of the first soils security-based infrastructures based on e-Science and Open Science concepts.
Article
Full-text available
The FAIR principles have been widely cited, endorsed and adopted by a broad range of stakeholders since their publication in 2016. By intention, the 15 FAIR guiding principles do not dictate specific technological implementations, but provide guidance for improving Findability, Accessibility, Interoperability and Reusability of digital resources. This has likely contributed to the broad adoption of the FAIR principles, because individual stakeholder communities can implement their own FAIR solutions. However, it has also resulted in inconsistent interpretations that carry the risk of leading to incompatible implementations. Thus, while the FAIR principles are formulated on a high level and may be interpreted and implemented in different ways, for true interoperability we need to support convergence in implementation choices that are widely accessible and (re)-usable. We introduce the concept of FAIR implementation considerations to assist accelerated global participation and convergence towards accessible, robust, widespread and consistent FAIR implementations. Any self-identified stakeholder community may either choose to reuse solutions from existing implementations, or when they spot a gap, accept the challenge to create the needed solution, which, ideally, can be used again by other communities in the future. Here, we provide interpretations and implementation considerations (choices and challenges) for each FAIR principle.
Conference Paper
Full-text available
Blockchain, the foundation of Bitcoin, has received extensive attentions recently. Blockchain serves as an immutable ledger which allows transactions take place in a decentralized manner. Blockchain-based applications are springing up, covering numerous fields including financial services, reputation system and Internet of Things (IoT), and so on. However, there are still many challenges of blockchain technology such as scalability and security problems waiting to be overcome. This paper presents a comprehensive overview on blockchain technology. We provide an overview of blockchain architechture firstly and compare some typical consensus algorithms used in different blockchains. Furthermore, technical challenges and recent advances are briefly listed. We also lay out possible future trends for blockchain.
Article
Full-text available
In the study of fine art, provenance refers to the documented history of some art object. Given that documented history, the object attains an authority that al- lows scholars to appreciate its importance with respect to other works, whereas, in the absence of such history, the object may be treated with some skepticism. Our IT landscape is evolving as illustrated by applications that are open, com- posed dynamically, and that discover results and services on the fly. Against this challenging background, it is crucial for users to be able to have confidence in the results produced by such applications. If the provenance of data produced by computer systems could be determined as it can for some works of art, then users, in their daily applications, would be able to interpret and judge the qual- ity of data better. We introduce a provenance lifecycle and advocate an open approach based on two key principles to support a notion of provenance in com- puter systems: documentation of execution and user-tailored provenance queries.
Article
The need to understand and manage provenance arises in almos t every scientific application. In many cases, information about provenance constitutes the proofof correctness of results that are generated by scientific applications. It also determines the quality andamount of trust one places on the results. For these reasons, the knowledge of provenance of a scientific re sult is typically regarded to be as important as the result itself. In this paper, we provide an overview ofresearch in provenance in databases and dis- cuss some future research directions. The content of this pa per is largely based on the tutorial presented at SIGMOD 2007 (11).