Conference PaperPDF Available

Análise dos classificadores Random Forest e CART por meio da plataforma Google Earth Engine: Um estudo de caso da cobertura vegetal do município de Feira de Santana-BA, Brasil

Authors:

Abstract and Figures

Na atualidade, tem se aprimorado as metodologias de processamento digital de imagens por processamento em nuvens de computadores. Nessa perspectiva, a plataforma Google Earth Engine (GEE) tem se mostrado promissora para classificação da paisagem. O objetivo desse trabalho foi analisar o desempenho dos classificadores Random Forest (RF) e o Classification and Regression Tree (CART), que figuram dentre os classificadores do tipo Machine Learning. visando a identificação da classe de floresta do município de Feira de Santana, no estado da Bahia, nordeste do Brasil. Para tanto, realizou-se um levantamento bibliográfico, posteriormente, gerou-se os códigos de programação e efetuou-se a análise espacial na plataforma GEE. Ao final a imagem foi classificada utilizando os classificadores RF e CART. As análises da matriz de erro de re-substituição e o treinamento de acurácia demonstraram que o RF apresentou um melhor desempenho nas classes de floresta do município de Feira de Santana-BA.
Content may be subject to copyright.
II ENCONTRO LUSO-AFRO-AMERICANO DE GEOGRAFIA FÍSICA E AMBIENTE
Análise dos classificadores Random Forest e CART por meio da plataforma
Google Earth Engine: Um estudo de caso da cobertura vegetal do município
de Feira de Santana-BA, Brasil
Jonathas Jesus dos Santos(a), Deorgia Thayane Mendes de Souza(b) , Washington de Jesus
Sant’Anna da Franca Rocha(c) , Gustavo Macedo de Mello Baptista(d)
(a) Bolsista CAPES, Mestrando em PPGM/UEFS. E-mail: jonathas020@hotmail.com
(b) Professora da UEFS, Doutoranda em Geociências Aplicadas UnB. E-mail: deorgiasouza.geo@gmail.com
(c) Professor Adjunto da UEFS, Doutor em Geologia. E-mail: wrocha@uefs.br
(d) Professor da UnB, Doutor em Geologia UnB, E-mail: gmbaptista@unb.br
Resumo/
Na atualidade, tem se aprimorado as metodologias de processamento digital de imagens por
processamento em nuvens de computadores. Nessa perspectiva, a plataforma Google Earth Engine
(GEE) tem se mostrado promissora para classificação da paisagem. O objetivo desse trabalho foi
analisar o desempenho dos classificadores Random Forest (RF) e o Classification and Regression Tree
(CART), que figuram dentre os classificadores do tipo Machine Learning. visando a identificação da
classe de floresta do município de Feira de Santana, no estado da Bahia, nordeste do Brasil. Para
tanto, realizou-se um levantamento bibliográfico, posteriormente, gerou-se os códigos de programação
e efetuou-se a análise espacial na plataforma GEE. Ao final a imagem foi classificada utilizando os
classificadores RF e CART. As análises da matriz de erro de re-substituição e o treinamento de
acurácia demonstraram que o RF apresentou um melhor desempenho nas classes de floresta do
município de Feira de Santana-BA.
Palavras chave: Processamento em nuvem; Geotecnologias, Classificação de imagens.
1. Introdução
Feira de Santana é um município brasileiro localizado no nordeste do Brasil, estado da Bahia. Encontra-se
no Agreste, local de transição entre a Caatinga e a Mata Atlântica, com presença de fauna e flora dos dois
biomas. Possui clima tropical subúmido e altitude de 234m, encontra-se assentada sobre o Pediplano
Sertanejo, na unidade geomorfológica Tabuleiros Interioranos dentro do domínio morfoestrutural dos
Planaltos Inumados (RadamBrasil, 1981).
Na atualidade, tem se aprimorado as metodologias de processamento digital de imagens por
processamento em nuvens de computadores. Nessa perspectiva, o Google Earth Engine (GEE) tem se
II ENCONTRO LUSO-AFRO-AMERICANO DE GEOGRAFIA FÍSICA E AMBIENTE
mostrado promissor para classificação da paisagem. O GEE é uma plataforma de armazenamento on-line
para o processamento de imagens de Sensoriamento Remoto, atualmente sem nenhum custo (Horowitz,
2015). A utilização dessa plataforma pode reduzir custos substanciais em recursos e tempo, uma vez que
não é necessário fazer download para realizar várias análises em uma imagem, a própria plataforma
disponibiliza recursos para o processamento da imagem on-line, logo, não se gasta com pré-
processamento, licenciamento, espaço de disco, entre outros (Giri, et al, 2014; Santos, et al, 2016).
Dentre as soluções implementadas no GEE, dois classificadores são muito utilizados nessa plataforma: O
Random Forest (RF) e o Classification and Regression Tree (CART) que figuram dentre os classificadores
do tipo Machine Learning. O RF é um algoritmo de classificação e regressão inicialmente projetado para a
aprendizagem de programação. Este algoritmo é cada vez mais associado à classificação de imagem por
satélite e aérea, à criação de conjuntos de dados de campos contínuos, tais como, porcentagem de
cobertura de árvores e biomassa (Horning, 2010). O CART, é uma ferramenta analítica simples, porém
poderosa que ajuda a determinar as variáveis mais "importantes" (baseadas em poder explicativo) em um
determinado conjunto de dados (Morgan, 2014).
O objetivo desse trabalho foi analisar o desempenho dos classificadores RF e CART para a identificação
da classe de floresta do município de Feira de Santana, no estado da Bahia, nordeste do Brasil.
2. Materiais e Métodos
Para o desenvolvimento da investigação dos dois classificadores (RF) e (CART), inicialmente realizou-se
um levantamento bibliográfico sobre as principais categorias de pesquisa. Em seguida, produziu-se os
códigos de programação e procedeu-se a análise espacial na plataforma Google Earth Engine. Nesse
sentido, selecionou-se a imagem do satélite Sentinel-2A/B referente a coleção COPERNICUS/S2 e
definiu-se o período chuvoso do ano de 2017.
Posteriormente, carregou-se o arquivo vetorial do limite territorial de Feira de Santana e definiu-se a
combinação de bandas 3,8,2 para a visualização do mosaico (Figura 1). Aplicou-se a função máscara,
remoção de nuvens, bordas e filtros com medianas que ajudaram a pré-processar a imagem selecionada.
Extraiu-se o Enhanced Vegetation Index 2 (EVI2), o Normalized Difference Built Index (NDBI) e o
Modelo Digital do Terreno (MDT) para melhor identificar a classe de vegetação.
Logo em seguida, definiu-se os parâmetros de visualização da imagem e foram carregadas as amostras.
Definiu-se as classes de Floresta, Urbano, Água, Solo e Solo Exposto. Por conseguinte, a imagem foi
classificada utilizando os classificadores RF e CART. Uma das últimas etapas da classificação digital de
imagens é a da validação dos resultados da classificação (Meneses et al, 2012). Logo, foram realizados os
II ENCONTRO LUSO-AFRO-AMERICANO DE GEOGRAFIA FÍSICA E AMBIENTE
testes de acurácia com as duas classificações na plataforma GEE. Nessa perspectiva, utilizou-se a matriz
de erro de re-substituição e o treinamento de acurácia (Figura 1 a 5).
Figura 1. Mosaico de Feira de Santana, combinação de bandas 3,8,2, Sentinel-2A/B, maio a agosto de 2017
3. Resultados e discussão
Com as análises dos classificadores observou-se uma melhor seleção das classes de floresta por meio do
classificador RF, fato confirmado com as análises de Matriz de erro de re-substituição e o treinamento de
acurácia (Figuras 2 a 5).
Figura 2. Classificação supervisionada Classification and Regression Tree (CART)
II ENCONTRO LUSO-AFRO-AMERICANO DE GEOGRAFIA FÍSICA E AMBIENTE
Verificou-se que a matriz de erro de re-subistituição que apresentou um menor erro entre as classes foi a
referente a RF em contraposição a CART. Nessa perspectiva, a classe de floresta apresentou uma melhor
seleção na RF com um valor de 9463, confundindo-se com o solo com o valor de apenas 1. Em
contrapartida, na classificação CART a floresta denotou um valor de 9424 e confundiu-se com a classe de
solo em pequena proporção, apresentando um valor de 40 nessa classe (Figuras 4 e 5).
A classe urbana apresentou um menor erro de re-subistituição na classificação RF expressando um valor
de 2366, mas confundindo-se com o solo e solo exposto com valores de 2 e 33 respectivamente. Em
contraposição, na classificação CART, a classe urbana revelou um valor de 2113 e confundiu-se com solo
e solo exposto com valores de 52 e 236 respectivamente. (Figuras 4 e 5). A classe água foi a única que
não possuiu erros de re-subistituição, apresentando o valor de 1598 nas duas classificações.
A classe solo expressou um melhor resultado na classificação RF com um valor de 2529, confundindo-se
com a classe urbana apenas em valor 1. O solo na classificação CART denotou um valor de 2500,
misturando-se com a floresta, a classe urbana e o solo exposto, com valores de 9, 13 e 8 na devida ordem.
O solo exposto revelou um melhor desempenho também na classificação RF, tendo um valor de 14097,
mas confundindo-se com a classe urbana e o solo com valores de 12 e 2 nessa ordem. Na classificação
CART, o solo exposto apresentou um valor de 14004, misturando-se com floresta, a classe urbana, e solo
com valores de 2, 86 e 19 respectivamente (Figuras 4 e 5).
Figura 3. Classificação supervisionada Random Forest (RF)
II ENCONTRO LUSO-AFRO-AMERICANO DE GEOGRAFIA FÍSICA E AMBIENTE
Com o treinamento da acurácia, a classificação RF também revelou um melhor desempenho, com valor
mais próximo de 1 em comparação com a classificação CART (Figuras 4 e 5).
4. Conclusão
Os classificadores RF e CART demonstraram serem bastante eficazes na classificação de floresta no
município de Feira de Santana-BA. Entretanto, constatou-se um melhor desempenho, por meio das
análises de acurácia, do classificador RF. Nesse sentido, o RF pode colaborar significativamente na
identificação da cobertura vegetal, permitindo várias análises do espaço geográfico e avaliações de
possíveis impactos socioambientais.
Constata-se também uma maior facilidade para a realização de estudos de classificação e análises de
imagens de Sensoriamento Remoto por meio da plataforma Google Earth Engine. Todo o processamento
pode ser realizado on-line, de forma gratuita e de maneira rápida em comparação com os programas
tradicionais de processamento digital de imagens.
5. Referências
Giri, C. L. J.; Abbas, S. Murali, R.M.; Qamer, F.M. (2014). Distribution and dynamics of mangrove forests of South
Asia. Journal of Environmental Management. 148:101111.
Horowitz, F. G. (2015). MODIS Daily Land Surface Temperature Estimates in Google Earth Engine as an Aid in
Geothermal Energy Siting. Melbourne Australia: Proceedings World Geothermal Congress.
Figura 5. Teste de acurácia CART
Figura 4. Teste de acurácia RF
II ENCONTRO LUSO-AFRO-AMERICANO DE GEOGRAFIA FÍSICA E AMBIENTE
Horning, N. (2010). Random Forests: An algorithm for image classification and generation of continuous fields data
sets. Hanoi, Vietnam: International Conference on Geoinformatics for Spatial Infrastructure Development in Earth
and Allied Sciences.
Meneses, P. R.; Almeida, T. Rosa, A.N.C.S.; Sano, E.E.; Souza, E.B.; Baptista, G.M.M; Brites, R.S. (2012).
Introdução ao processamento de imagens de sensoriamento remoto. Brasília: UnB.
Morgan, J. (2014). Classification and Regression Tree Analysis. Boston University: Technical Report No. 1
Radambrasil (1981). Levantamento dos Recursos Naturais. - Folha SD-24-Salvador. Rio de Janeiro. Ministério das
Minas e Energia.
Santos, J. J.; Vasconcelos, R. N.; Chaves, J. M.; Souza, D. T. M. S.; Franca-Rocha, W. J. S. (2016). A Utilização do
Google Earth Engine para a Análise Temporal da Distribuição da Cobertura Vegetal: Um Estudo de caso no
município de Curaçá-Ba-Brasil com a utilização do NDVI. Puerto Iguazú Argentina: XVII Simposio Internacional
Selper.
ResearchGate has not been able to resolve any citations for this publication.
Conference Paper
Full-text available
O presente estudo faz parte de uma análise da vegetação do município de Curaçá-BA, utilizando índices de vegetação obtidos na base de dados do Google Earth Engine (GEE). GEE é uma plataforma de armazenamento on-line para o processamento de imagens de Sensoriamento Remoto, atualmente sem custos e com uma série de dados de imagens de satélite das diversas partes do mundo. A utilização do GEE economiza custos substanciais em recursos e tempo, uma vez que a plataforma disponibiliza ferramentas para o processamento da imagem online, sendo assim, não se gasta com pré-processamento, licenciamento, espaço de disco, entre outros. O município de Curaçá caracteriza uma região com vários perímetros irrigados ao norte do município, e uma vegetação típica da caatinga no centro e sul, como a presença de grandes áreas preservada dessa vegetação. O trabalho consistiu na seleção no ambiente do GEE de composições de 16 dias com os índices de vegetação NDVI e SAVI, obtidos em imagens MODIS nos anos de 2010 a 2015. As imagens selecionadas corresponderam ao mês de setembro de cada ano e ao recorte do município. Esse mesmo recorte espacial foi utilizado para obter o mapa de cobertura vegetal do MapBiomas, Coleção 1, do modelo digital de elevação e do mapa de hidrografia, para fins de comparação. As imagens com índices de vegetação foram simbolizadas com gradiente em cor vermelha, amarela e verde, representando as áreas com valores baixo, médio e alto, respectivamente. A análise integrada dos mapas de índices de vegetação com os mapas de hidrografia, topografia e cobertura vegetal, resultou na constatação de que a vegetação se concentra principalmente nas áreas mais elevadas do município ou em planícies fluviais e drenagens fluviais em áreas mais rebaixadas acompanhando os cursos de água, proliferando-se, sobretudo em períodos chuvosos. Nesse contexto, esta pesquisa pode contribuir de maneira significativa nos estudos dos avanços de geotecnologias como o GEE e em estudos ambientais que se utilizam de índices como o NDVI e SAVI para análise do comportamento da vegetação.
Random Forests: An algorithm for image classification and generation of continuous fields data sets
  • N Horning
Horning, N. (2010). Random Forests: An algorithm for image classification and generation of continuous fields data sets. Hanoi, Vietnam: International Conference on Geoinformatics for Spatial Infrastructure Development in Earth and Allied Sciences.
Introdução ao processamento de imagens de sensoriamento remoto
  • P R Meneses
  • T Almeida
  • A N C S Rosa
  • E E Sano
  • E B Souza
  • G M Baptista
  • R S Brites
Meneses, P. R.; Almeida, T. Rosa, A.N.C.S.; Sano, E.E.; Souza, E.B.; Baptista, G.M.M; Brites, R.S. (2012). Introdução ao processamento de imagens de sensoriamento remoto. Brasília: UnB.
Classification and Regression Tree Analysis
  • J Morgan
Morgan, J. (2014). Classification and Regression Tree Analysis. Boston University: Technical Report No. 1
Levantamento dos Recursos Naturais. -Folha SD-24-Salvador
  • Radambrasil
Radambrasil (1981). Levantamento dos Recursos Naturais. -Folha SD-24-Salvador. Rio de Janeiro. Ministério das Minas e Energia.