Project

The Free Brazilian Repository for Open Soil Data

Goal: The main goal of this project is to design, build and deploy a completely new type of soil data repository and show that this repository maximizes soil data discoverability and reusability.

Date: 4 December 2016

Updates
0 new
2
Recommendations
0 new
7
Followers
0 new
44
Reads
1 new
383

Project log

Alessandro Samuel-Rosa
added 5 research items
O volume de informação digital tem crescido a cada ano e essas informações precisam de meios práticos e seguros para serem armazenadas, utilizadas e reutilizadas. E assim, foram criados os repositórios digitais. Contudo, um problema que ocorre é que parte dos repositórios ainda não segue padrões mais amplamente aceitos para armazenamento e acesso aos dados. Isso dificulta o acesso e acarreta o potencial esquecimento dos repositórios e dos dados neles depositados. Pensando nisso, foram criadas certificações para repositórios de dados como o CoreTrustSeal. Essas certificações avaliam, entre outros aspectos, o grau de padronização, a confiança dos dados armazenados no repositório e a sua longevidade. Este trabalho tem como objetivo avaliar se o Repositório Brasileiro Livre para Dados Abertos do Solo (febr) atende aos requisitos necessários para obter a certificação CoreTrustSeal. Inicialmente, fez-se um levantamento dos requisitos para certificação CoreTrustSeal. Em seguida, analisou-se se o febr se enquadra em cada requisito analisado, atribuindo-lhe níveis de aderência. Os resultados mostraram que o febr necessita de ajustes para se enquadrar no padrão internacional CoreTrustSeal. Em especial, sugere-se a adoção de um esquema de metadados com padrões aceitos internacionalmente, trazendo assim mais segurança e confiabilidade para o repositório. PALAVRAS-CHAVE: Repositório digital. Dados da pesquisa. Pedometria.
O objetivo deste trabalho é apresentar uma solução automatizada para encontrar inconsistências nos dados do Repositório Brasileiro Livre para Dados Abertos do Solo (febr). O febr possui um manual que define todos os padrões do repositório, como convenções de codificação e unidades de medida, e é imprescindível que os conjuntos de dados estejam nos padrões lá definidos para garantir o bom funcionamento do repositório. A estrutura do repositório consiste em planilhas eletrônicas armazenados no Google Drive, serviço de armazenamento em nuvem oferecida pela Google. A Google oferece também o Apps Script, uma plataforma de desenvolvimento cuja linguagem é baseada na versão 3 do ECMAScript que permite criar novas funcionalidades para os aplicativos do Google. Foi desenvolvido um complemento para o Google Sheets, que verifica automaticamente o tipo de tabela do conjunto e procura por inconsistências nos dados, adicionando notas onde o responsável pelo conjunto deve realizar correções. Embora o complemento tenha sido apenas parcialmente implementado, as validações das tabelas 'dataset' e 'observacao' já estão disponíveis para uso final.
O objetivo desse estudo foi avaliar a disponibilidade e qualidade dos dados abertos do solo do estado com o maior PIB do país, São Paulo (SP), no Repositório Brasileiro Livre para Dados Abertos do Solo (FEBR). Em geral, o número de observações do solo disponíveis em São Paulo foi considerado insuficiente para produzir mapas detalhados das propriedades do solo para todo o estado. Espera-se os pesquisadores de São Paulo compartilhem dados do solo via FEBR para que seja possível produzir informação detalhada e atualizada sobre o solo do Brasil como um todo.
Alessandro Samuel-Rosa
added a research item
Introdução-A agropecuária é a principal atividade econômica do Estado de Goiás (GO), quarto maior produtor de soja do Brasil (22 milhões de toneladas/ano). Logo, conhecer o seu solo é de interesse nacional. O objetivo deste estudo foi avaliar a disponibilidade e qualidade dos dados abertos do solo em GO para produção de informação espacial (mapas). Material e Métodos-A principal fonte de dados abertos do solo do Brasil é o Repositório Brasileiro Livre para Dados Abertos do Solo (febr). Nós revisamos as planilhas de dados de GO no febr (dataset, observacao, camada, metadado), comparando os dados com os documentos originais. Quando um documento não estava online, contactamos bibliotecas e autores solicitando-o. As inconsistências encontradas (símbolos desconhecidos, erros de digitação, dados faltantes) foram registradas e corrigidas e, quando necessário, solicitamos ajuda aos autores para esclarecerem as dúvidas encontradas. Resultados e Discussão-Encontramos somente sete conjuntos de dados do solo de GO no febr, abrangendo todas as mesorregiões do estado, a maioria produzida antes de 1990, totalizando apenas 368 perfis. A revisão dos dados revelou que as coordenadas apresentam alguns problemas como baixa precisão e fonte e sistema de referência desconhecidos. A revisão das coordenadas foi dificultada pelo fato de vários novos municípios terem sido criados depois de 1990, principalmente com a criação do Estado do Tocantins. Outro fator que dificultou a revisão foi a falta de padronização dos documentos (por exemplo, ordem dos perfis, nomenclatura usada, formato das tabelas), exigindo maior tempo para a sua compreensão. Alguns trabalhos usam simbologia para horizontes própria, não definida nos manuais de descrição do solo. A maioria dos documentos não detalha os métodos analíticos, o que dificulta a harmonização dos dados para a produção de mapas do solo para todo o GO. Conclusões-O volume de dados do solo disponível no GO é pequeno, mas bem distribuído no território. As três principais limitações ao seu reúso são: falta de informação sobre métodos analíticos, baixa precisão das coordenadas, e desatualização. Os pesquisadores do GO precisam aderir com mais afinco aos projetos nacionais de resgate e compartilhamento de dados do solo. Palavras-chave: Pedometria, dados legados, repositório de dados.
Alessandro Samuel-Rosa
added a research item
Digital soil mapping (DSM) has benefited from the rapid increase in the power of computers to deal with large volumes of base data to produce new soil information. These base data include the environmental covariate data, which have become widely available at various spatial resolutions thanks to the quick development of remote sensing technology. Unfortunately, in several countries, the increase in the availability of the point soil data needed to calibrate DSM models has not been as fast. In Brazil, soil surveys have been carried out since the 1930’s. But most of the data collected along the last 90 years still is in paper format. Some of them may already have been lost forever. Very few institutions worked to compile and openly share the existing legacy soil data. Until 2016, the largest soil database in Brazil – Sistema de Informação de Solos Brasileiros, SISB – contained only about 9000 soil observations. Less than half of those contained spatial coordinates. In comparison, Australia, that is about the size of Brazil, contains data from almost 300 000 soil observations in its national soil database – National Soil Site Collation, NSSC. In the beginning of 2017, several Brazilian soil scientists from various universities and research institutions decided to change this scenario. The Free Brazilian Repository for Open Soil Data, febr, was born – building on the work done in SISB. By the end of 2018, febr already contained data from about 15 000 soil observations. About half of these data was collected before the 1990’s, when the official national soil survey program was stopped. Different from previous efforts, febr also aims at improving the quality and usability of legacy soil data for DSM. For example, existing spatial coordinates are checked for positional accuracy and missing ones are estimated – with a precision of a few hundred meters – using auxiliary environmental data. Only 20% of the observations still remain without spatial coordinates. Moreover, a series of (combined) automated and manual data validation routines have been implemented to guarantee the correctness of the soil property data. Most of the manual tasks are performed by undergraduate students under the supervision of soil scientists. Some undergraduate soil science courses are already including the development of activities in febr in their syllabus – such as legacy soil data compilation and validation. The formal involvement of undergraduate students is seen as the key to promote a cultural change towards a richer soil data sharing environment in Brazil.
Alessandro Samuel-Rosa
added 2 research items
Spatial applications require soil observations to be accompanied with quality geospatial data (coordinates and coordinate reference system, CRS). However, when it comes to legacy soil data, we frequently find geospatial data to be missing or in error. This study evaluates the quality of the geospatial data of legacy soil observations from the Brazilian Soil Information System (BDSolos). Consistency checks were performed on 6195 observations distributed across Brazil. Survey reports and maps, spatial data infrastructures, and web mapping services were studied as candidate sources of geospatial data. The positional accuracy of these sources was assessed using two sets of ground control points. Inconsistencies of varying types and magnitudes were found in about half of the observations, causing the misplacement of various observations (e.g. lying outside of Brazil). The involuntary substitution of symbols and numeric characters with similar appearance when recording coordinates and CRS was the commonest typing mistake both in survey reports and BDSolos. Among the candidate sources of geospatial data, web mapping services were the most promising. The positional error of coordinates estimated using web mapping services concentrated between 100 and 500 m, in some cases being only 30 m. That equals the precision of semi-detailed survey maps in which coordinates are measured in arcseconds (~30.8 m), being more accurate than observed for 1:25 000-scale topographic maps (>60 m). The accuracy of estimated coordinates depends on the quality of the observation location description. Feedback from soil surveys experts is crucial to improve the quality geospatial data.
Alessandro Samuel-Rosa
added a research item
Alessandro Samuel-Rosa
added a research item
Brazilian soil science has produced a great deal of data. Most of the information is published as a single paper, and the primary data is unavailable to other researchers. Lately, soil scientists have increased their concerns with data discoverability and reusability, and reproducible research. To address this issue, Brazilian soil scientists have recently created a data repository using community-built standards and following open data policies. The Free Brazilian Repository for Open Soil Data-febr, www.ufsm.br/febr-is a centralized repository targeted at storing open soil data and serving it in a standardized and harmonized format. The repository infrastructure was built using open source and/or free (of cost) software, and was primarily designed for the individual management of datasets. This is accomplished by storing each dataset using a collection of Google spreadsheets accessible online.
Alessandro Samuel-Rosa
added an update
Our abstract "BRINGING TOGETHER BRAZILIAN SOIL SCIENTISTS TO SHARE SOIL DATA" was selected for oral presentation at the 21WCSS, session Reconciling pedometrics and pedology.
 
Alessandro Samuel-Rosa
added an update
O Repositório Brasileiro Livre para Dados Abertos do Solo é fruto do trabalho de dezenas de pessoas das diversas instituições de ensino superior e pesquisa. Para contar ao mundo sobre nossa experiência, submetemos um resumo ao 21° Congresso Mundial de Ciência do Solo (21WCSS), que será realizado na cidade do Rio de Janeiro entre os dias 17 e 21 de agosto de 2018. Nós publicando aqui, além do resumo, a lista completa de autores e suas respectivas instituições. Os nomes e insituições em destaque são aqueles incluídos no resumo submetibo. Uma versão expandida desse resumo está sendo preparada para a XII Reunião Sul Brasileira de Ciência do Solo (XIIRSBCS), que ocorre nos dias 15, 16 e 17 de abril de 2018 na cidade de Xanxerê, SC.
 
Alessandro Samuel-Rosa
added a project goal
The main goal of this project is to design, build and deploy a completely new type of soil data repository and show that this repository maximizes soil data discoverability and reusability.
 
Alessandro Samuel-Rosa
added 2 research items
We have recently stimulated the emergence of an unprecedented collaborative effort among soil scientists from all over Brazil. The goal: to build a centralized, public and free repository of standardized and georeferenced soil iron data with national coverage. Many Brazilian soil scientists have already shared datasets, some of them even before we could insert the datasets in possession of our institutions in what we called the Brazilian Soil Iron Data Repository (Fe-BR, ufsm.br/febr). Since December 2016, Fe-BR already has some 26 thousand records from about 300 datasets, most of them from the Brazilian Soil Information System maintained by Embrapa (bdsolos.cnptia.embrapa.br). Along this period, we have seen that soil scientists are eager to share the datasets in their possession but are very sensitive to the extra efforts needed to do so. As such, we have designed a system that relies on data manipulation tools that are well known to all -- spreadsheets. We also aimed at a suite of tools that meets the basic technological requirements of a robust but flexible data repository -- version control, persistent identification, multiple file export options, concurrent edition, reviewing tools. The free online service Google Sheets has been able to fulfil all of these requirements. With Google Sheets, datasets in Fe-BR can be reviewed and/or augmented at any time by anyone on the internet with the permission to do so. This participatory approach can potentially boost the development of a completely new type of community driven, free and open soil data repository. There has obviously been some difficulties, such as (1) motivating authors to provide comprehensive metadata and adhere to standards, (2) guessing spatial coordinates of non-georeferenced soil observations, (3) establishing communication between data sources, and (4) finding people willing to help in data organization and standardization. Solutions for (3) usually increase the need for more collaborators thus inflating (4). Solving (1) seems to depend upon consistent and persistent awareness raising. Fortunately the enthusiasm and sense of public responsibility of soil scientists, and availability of free online collaborative mapping services such as Google Maps, have made it easier to solve (2). Next steps include launching a metadata catalog with search tools and improving the febr package for R (github.com/samuel-rosa/febr). Soil scientists are encouraged to use Fe-BR data to improve taxonomic systems, evaluate analytical methods, produce soil maps, identify priority areas for sampling and so on.
A pedometria é a disciplina da Ciência do Solo dedicada ao estudo da variação espacial e temporal do solo e, assim da pedogênese, lançando mão de tecnologias da informação (TIs) para a coleta, armazenamento, manipulação, modelagem e distribuição de dados do solo. O insumo básico de uma aplicação pedométrica são os dados do solo, que adquirem o papel de variáveis de resposta, ou dependentes. As variáveis de resposta são aquelas variáveis que se deseja compreender ou estimar, ou seja, as propriedades, características, atributos do solo, como o conteúdo de argila e a classe taxonômica.