ThesisPDF Available

Identificação de Características Físicas em Imagens: uma abordagem aplicada ao problema de pessoas desaparecidas

Authors:

Abstract and Figures

Em 2018, aproximadamente 82.000 pessoas desapareceram somente no Brasil. Entretanto, as bases de dados públicas existentes costumam ser desatualizadas. Além disso, ainda não existe uma base de dados unificada de todo país, provocando assim a existência de múltiplos registros com informações complementares ou divergentes sobre a mesma pessoa em bases diferentes. Nesse contexto, o Myosotis foi desenvolvido com o intuito de consolidar informações de desaparecidos de diversas fontes e apresentar dados estatísticos que são inferidos a partir de um processo de agregação de dados e análise de padrões. A inferência de dados e análise de padrões é uma etapa importante, pois permite identificar possíveis perfis de desaparecimentos e assim contribuir para o estudo e prevenção dos mesmos. Com base no sistema Myosotis e tendo em vista os inúmeros casos de desaparecidos no Brasil, este trabalho tem a finalidade de viabilizar um refinamento das informações já consolidadas nesse sistema através do uso de rede neural profunda, mais precisamente a Capsule Network, ou CapsNet, que é especialista em classificar imagens. Diante do exposto, este trabalho propõe uma abordagem adicional que consiste na inserção de um mecanismo inteligente capaz de identificar e classificar características físicas que são relevantes para o processo de inferência estatística. Para tornar possível a identificação e classificação dessas informações, foram utilizadas duas bases de dados distintas: uma é própria do Myosotis e a segunda é fornecida pela Universidade Federal de Juiz de Fora (UFJF), cada qual sendo usada em diferentes fases. Através da abordagem proposta, a rede neural utilizada alcançou uma acurácia de 31,4\% na fase de testes de classificação. Esse resultado é inferior ao atingido pelo mesmo modelo de CapsNet em seus primeiros experimentos, evidenciando a sensibilidade da rede a diferentes tipos de imagens. Por fim, mostramos que também é possível enriquecer as informações dos desaparecidos já registradas no banco.
Content may be subject to copyright.
UNIVERSIDADE FEDERAL RURAL DO RIO DE JANEIRO
INSTITUTO MULTIDISCIPLINAR
ANDRESSA SILVA DE OLIVEIRA
SAMARA ALMENDANE DE LIMA SANTOS
Identificação de Características Físicas
em Imagens: uma abordagem aplicada
ao problema de pessoas desaparecidas
Prof. Leandro Guimarães Marques Al-
vim, D.Sc.
Orientador
Prof. Raul Sena Ferreira, M.Sc.
Co-orientador
Nova Iguaçu, Maio de 2021
Identificação de Características Físicas em Imagens: uma
abordagem aplicada ao problema de pessoas desaparecidas
Andressa Silva de Oliveira
Samara Almendane de Lima Santos
Projeto Final de Curso submetido ao Departamento de Ciência da Computação do
Instituto Multidisciplinar da Universidade Federal Rural do Rio de Janeiro como
parte dos requisitos necessários para obtenção do grau de Bacharel em Ciência da
Computação.
Apresentado por:
Andressa Silva de Oliveira
Samara Almendane de Lima Santos
Aprovado por:
Prof. Leandro Guimarães Marques Alvim, D.Sc.
Prof. Raul Sena Ferreira, M.Sc.
Prof. Filipe Braida do Carmo, D.Sc.
Prof. Natália Chaves Lessa Schots, D.Sc
NOVA IGUAÇU, RJ - BRASIL
Maio de 2021
Agradecimentos
Andressa Silva de Oliveira
Agradeço, em primeiro lugar, a Deus pela força e coragem durante toda esta
longa caminhada; a minha família que sempre acreditou em mim, me apoiou e me
incentivou a seguir meus sonhos; aos meus amigos de curso (Desiree Araújo, Fer-
nanda Oliveira, Hosana Gomes, Lívia Azevedo, Mayara Marques e Thiago Frazão)
com quem compartilhei não só conhecimento, bem como diversos momentos de ale-
gria, os quais serão sempre lembrados por mim.
A minha amiga, Samara Almendane, que me compreendeu e ajudou nos momen-
tos mais difíceis durante a elaboração deste trabalho; ao Prof. Sulimar Gomes por
todo conhecimento e apoio dados a mim.
Agradeço também ao Prof. Dr. Leandro Guimarães Marques Alvim e ao Prof.
Me. Raul Sena Ferreira pela paciência e orientação até o fim deste trabalho.
i
Samara Almendane de Lima Santos
Quero agradecer, em primeiro lugar, a Deus, pela força e coragem durante toda
esta longa caminhada; aos meus amados pais (Marcelo Santana e Margareth Almen-
dade), que sempre me apoiaram nas minhas escolhas e me encorajaram durante essa
jornada; aos colegas de curso (Desiree Araújo, Denilson Ferreira, Fernanda Oliveira,
Hosana Gomes, Lívia Azevedo, Mayara Marques e Thiago Frazão), por todo incen-
tivo e apoio durante a graduação, sem vocês eu não conseguiria suportar a pressão;
ao meu amor, Murilo Moura, que sempre acreditou e me apoiou durante a realização
deste trabalho; aos meus familiares, em especial minha avó (Maria Armendani) - em
memória, ao meu tio (Nilton Almendane) - em memória e a minha tia (Maria da
Penha Matias) que me acompanharam durante esta longa jornada.
A minha parceira de trabalho e amiga, Andressa Oliveira, obrigada pela amizade
e apoio durante a realização deste trabalho. Com certeza o fardo foi mais leve.
Agradeço também a todos os professores que me acompanharam durante a gra-
duação, em especial ao Prof. Dr. Leandro Guimarães Marques Alvim e ao Prof.
Me. Raul Sena Ferreira, responsáveis pela realização deste trabalho.
ii
RESUMO
Identificação de Características Físicas em Imagens: uma abordagem aplicada ao
problema de pessoas desaparecidas
Andressa Silva de Oliveira e Samara Almendane de Lima Santos
Maio/2021
Orientador: Leandro Guimarães Marques Alvim, D.Sc.
Em 2018, aproximadamente 82.000 pessoas desapareceram somente no Brasil
(BRASIL, 2019). Entretanto, as bases de dados públicas existentes costumam ser
desatualizadas. Além disso, ainda não existe uma base de dados unificada de todo
país, provocando assim a existência de múltiplos registros com informações comple-
mentares ou divergentes sobre a mesma pessoa em bases diferentes. Nesse contexto,
o Myosotis foi desenvolvido com o intuito de consolidar informações de desapareci-
dos de diversas fontes e apresentar dados estatísticos que são inferidos a partir de um
processo de agregação de dados e análise de padrões. A inferência de dados e análise
de padrões é uma etapa importante, pois permite identificar possíveis perfis de de-
saparecimentos e assim contribuir para o estudo e prevenção dos mesmos. Com base
no sistema Myosotis e tendo em vista os inúmeros casos de desaparecidos no Brasil,
este trabalho tem a finalidade de viabilizar um refinamento das informações já con-
solidadas nesse sistema através do uso de rede neural profunda, mais precisamente
aCapsule Network, ou CapsNet, que é especialista em classificar imagens. Diante
do exposto, este trabalho propõe uma abordagem adicional que consiste na inserção
de um mecanismo inteligente capaz de identificar e classificar características físicas
que são relevantes para o processo de inferência estatística. Para tornar possível a
identificação e classificação dessas informações, foram utilizadas duas bases de da-
dos distintas: uma é própria do Myosotis e a segunda é fornecida pela Universidade
Federal de Juiz de Fora (UFJF), cada qual sendo usada em diferentes fases. Através
da abordagem proposta, a rede neural utilizada alcançou uma acurácia de 31,4%
na fase de testes de classificação. Esse resultado é inferior ao atingido pelo mesmo
modelo de CapsNet em seus primeiros experimentos, evidenciando a sensibilidade
iii
da rede a diferentes tipos de imagens. Por fim, mostramos que também é possível
enriquecer as informações dos desaparecidos já registradas no banco.
Palavras-chaves: Aprendizado de Máquina, Redes Neurais, Pessoas Desapareci-
das.
iv
Lista de Figuras
Figura 1.1: Estatísticas de desaparecimento baseadas na cor da pele. . . . . . 2
Figura 2.1: Diferentes métodos de Aprendizado de Máquina. . . . . . . . . . 6
Figura 2.2: Neurônio biológico versus Perceptron. . . . . . . . . . . . . . . . . 8
Figura 2.3: Arquitetura da MLP. . . . . . . . . . . . . . . . . . . . . . . . . . 9
Figura 2.4: Relação entre Machine Learning eDeep Learning.......... 10
Figura 2.5: Estrutura de uma MLP. . . . . . . . . . . . . . . . . . . . . . . . 11
Figura 2.6: Relação entre diferentes partes de um sistema inteligente. . . . . . 12
Figura 2.7: Max pooling com 2x2 de área. . . . . . . . . . . . . . . . . . . . . 14
Figura 2.8: Arquitetura Capsule Network. . . . . . . . . . . . . . . . . . . . . 15
Figura 2.9: Imagem classificada utilizando o algoritmo K-médias. . . . . . . . 17
Figura 2.10: Algoritmos de classificação por área. . . . . . . . . . . . . . . . . 17
Figura 2.11: Algoritmos de classificação pixel a pixel. . . . . . . . . . . . . . . 18
Figura 3.1: Etapa de agregação de dados. . . . . . . . . . . . . . . . . . . . . 20
Figura 3.2: Mapa de calor gerado pelo sistema Myosotis. . . . . . . . . . . . . 21
Figura 4.1: Classificação esperada na fase de teste. . . . . . . . . . . . . . . . 30
Figura 4.2: Acurácia de treinamento e validação com MNIST. . . . . . . . . . 33
v
Figura 4.3: Acurácia de treinamento e validação com Cifar-10. . . . . . . . . 34
Figura 4.4: Acurácia de treinamento e validação com o conjunto de dados da
UFJF.................................. 35
vi
Lista de Tabelas
Tabela 4.1: Tabela de Classes. . . . . . . . . . . . . . . . . . . . . . . . . . . 29
Tabela 4.2: Tabela de Rotulação. . . . . . . . . . . . . . . . . . . . . . . . . . 29
Tabela 4.3: Quantidade de registros sem informação do traço físico. . . . . . . 31
Tabela 4.4: Acurácia das fases de treinamento, validação e teste. . . . . . . . 31
vii
Sumário
Agradecimentos i
Resumo iii
Lista de Figuras v
Lista de Tabelas vii
1 Introdução 1
1.1 Contextualização ............................. 1
1.2 Objetivos e Metodologia . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.3 Resultados................................. 3
1.4 Contribuições ............................... 3
1.5 Organização do Trabalho . . . . . . . . . . . . . . . . . . . . . . . . . 4
2 Aprendizado de Máquina 5
2.1 Técnicas de Aprendizado de Máquina . . . . . . . . . . . . . . . . . . 6
2.1.1 RedesNeurais........................... 7
2.2 Aprendizagem Profunda . . . . . . . . . . . . . . . . . . . . . . . . . 9
2.2.1 Redes Neurais Convolucionais . . . . . . . . . . . . . . . . . . 13
viii
2.2.1.1 Capsule Networks . . . . . . . . . . . . . . . . . . . 14
2.3 Classificação de Imagens . . . . . . . . . . . . . . . . . . . . . . . . . 16
3 Sistema Myosotis 19
3.1 Trabalhos Relacionados . . . . . . . . . . . . . . . . . . . . . . . . . . 22
4 Experimentos 28
4.1 Metodologia................................ 28
4.2 ConjuntodeDados ............................ 30
4.3 Resultados................................. 31
5 Conclusões 37
5.1 ProblemaAbordado ........................... 37
5.2 Resumo dos Resultados . . . . . . . . . . . . . . . . . . . . . . . . . . 37
5.3 Contribuições ............................... 38
5.4 TrabalhosFuturos............................. 39
Referências 40
ix
Capítulo 1
Introdução
1.1 Contextualização
Não são raros os relatos de casos de pessoas desaparecidas no Brasil. De acordo
com Brito (2017), foram mais de 70.000 notificações de desaparecimentos no ano
de 2016. Entretanto os dados do levantamento desse ano não estão atualizados,
pois cinco estados deixaram de repassar seus registros, gerando uma dificuldade em
garantir a precisão dos dados policiais. Dessa maneira, o levantamento realizado
não expressou com veracidade a quantidade de ocorrências de desaparecimento.
Tendo em vista a necessidade de unificar as informações dessas ocorrências de
desaparecimento em território nacional, surgiram algumas iniciativas não governa-
mentais. Entre elas está o Myosotis, que é um sistema web capaz de coletar dados
de desaparecimentos de fontes distintas e, a partir da consolidação desses elementos,
gerar outros conhecimentos relevantes a respeito da incidência de possíveis novos
casos (FERREIRA; OLIVEIRA; LIMA, 2018).
Diante disso, apresentamos a seguir a proposta deste trabalho que visa auxiliar
o Myosotis no que diz respeito à manutenibilidade de sua base de dados através
da identificação de características físicas importantes para a geração dos seus dados
estatísticos e que podem ser extraídas a partir da imagem do(a) desaparecido(a)
disponibilizada em seu cadastro.
1.2. OBJETIVOS E METODOLOGIA 2
1.2 Objetivos e Metodologia
Foi utilizado como base deste trabalho o sistema Myosotis. Esse é um sistema
web composto por informações de pessoas desaparecidas coletadas de diversas fon-
tes. Essas informações são consolidadas na base dados, gerando estatísticas dos
locais do desaparecimento e características das pessoas conforme ilustrado na Fi-
gura 1.1. Como esse processo não garante a completude dos dados na fonte original,
foi perceptível a ausência de algumas informações nas características dos desapare-
cidos. Um efeito dessa ausência de informações é a imprecisão dos dados estatísticos
gerados.
Figura 1.1: Estatísticas de desaparecimento baseadas na cor da pele.
Visando minimizar essa possível defasagem dos dados, a proposta deste trabalho
consiste em utilizar uma técnica de aprendizado de máquina para identificação e
classificação da cor da pele que é uma das características consideradas pelo Myo-
sotis para geração de dados estatísticos. Através da identificação e classificação
automática desse traço físico, é possível completá-lo nos registros que não possuem
essa informação a partir da fotografia do desaparecido, resultando na melhoria da
qualidade do dataset.
Sendo assim, foi utilizada uma Rede Neural Profunda com o intuito de fornecer
um mecanismo automático de identificação de traços físicos em fotografias de seres
1.3. RESULTADOS 3
humanos. Uma Rede Neural Profunda é uma técnica de aprendizado de máquina
muito popular aplicada em diversos problemas, tais como: detecção de objetos (SZE-
GEDY; TOSHEV; ERHAN, 2013), segmentação de tumores cerebrais (HAVAEI et
al., 2017), classificação de câncer de pele (ESTEVA et al., 2017), entre outros. As
imagens aqui utilizadas são oriundas do projeto Myosotis e também fornecidas pela
UFJF (Universidade Federal de Juiz de Fora). No que diz respeito à rede neural,
fez-se uso da Capsule Network (SABOUR; FROSST; HINTON, 2017).
Para tanto, esse mecanismo automático consiste em três etapas principais: pre-
processamento das imagens; identificação da face e classificação da cor da pele.
Com base na resposta obtida pelo modelo, esse traço detectado e classificado pode
ser usado para incorporar a base de dados com essa informação.
1.3 Resultados
Durante a classificação da cor da pele, característica usada para o desenvolvi-
mento deste trabalho, na fase de treinamento a acurácia obtida foi de 60% e na fase
de teste a acurácia obtida foi de 31.4%. Com efeito, o modelo da Capsule Network
aqui utilizado demonstrou menor desempenho quando empregado em imagens mais
complexas e que diferem de seu uso primário.
1.4 Contribuições
Extração e classificação de características
Este trabalho contribuiu com a extração de características humanas e sua
classificação a partir das imagens empregadas no sistema, além de mais de mil
dados rotulados. Adicionalmente, em virtude da abordagem utilizada para o
desenvolvimento deste trabalho, ele pode ser utilizado como fonte para pesqui-
sas futuras que envolvam aprendizado de máquina e processamento de imagens.
Completude de informações
Uma contribuição adicional é a minimização de características/informações
1.5. ORGANIZAÇÃO DO TRABALHO 4
ausentes na base de dados. Por exemplo, a ferramenta seria capaz de via-
bilizar a adição da cor da pele em cerca de 100 registros que não possuem
essa informação. Assim, o número de informações ausentes é reduzido con-
sideravelmente com a detecção automática dos traços e posterior inserção da
informação obtida no registro correspondente à imagem analisada.
Manutenibilidade da base de dados
Por fim, através do uso de Aprendizado de Máquina para detecção e clas-
sificação de traços humanos, este trabalho provê um modelo que favorece a
consistência e atualização dos dados armazenados.
1.5 Organização do Trabalho
Este trabalho encontra-se organizado da seguinte maneira: neste capítulo foi
feita uma breve exposição do cenário nacional com relação ao problema de pessoas
desaparecidas, além de uma introdução sobre os objetivos e metodologias e uma sín-
tese dos resultados e contribuições. No segundo capítulo, é apresentada uma visão
geral sobre técnicas de aprendizado de máquina, classificação de imagens e a expo-
sição de algumas abordagens utilizadas para efetuar essa classificação. No capítulo
3, descrevemos o sistema Myosotis, que foi usado como base para a realização deste
trabalho e apresentamos trabalhos relacionados presentes na literatura. No capítulo
4, discorremos acerca da metodologia e base de dados usadas. No quinto e último
capítulo, são apresentadas as contribuições com mais detalhes e trabalhos futuros.
Capítulo 2
Aprendizado de Máquina
Aprendizado de Máquina (em inglês, Machine Learning) é uma vertente da In-
teligência Artificial (IA) cujo intuito é o desenvolvimento de técnicas sobre o apren-
dizado computacional (MONARD; BARANAUSKAS, 2003). Ou seja, baseia-se na
ideia de que o sistema pode ser capaz de aprender com os dados, identificar padrões
e tomar decisões. Atualmente, a aplicabilidade do aprendizado de máquina pode ser
percebida em diversos setores, desde a economia até a saúde (SAS, 2019).
Existem alguns métodos de aprendizado de máquina como o aprendizado semi-
supervisionado, supervisionado, não-supervisionado e o aprendizado por reforço; en-
tretanto, os mais populares são os aprendizados supervisionado e não-supervisionado.
O aprendizado de máquina supervisionado fornece um conjunto de exemplos de trei-
namento para os quais os rótulos da classe associada é conhecido; enquanto que um
sistema baseado no aprendizado de máquina não-supervisionado analisa os exem-
plos fornecidos e tenta determinar se alguns deles podem ser agrupados e após o
agrupamento faz-se uma análise baseada no problema.
O método de aprendizado semi-supervisionado é dividido em duas partes, onde
primeiro o treino é realizado utilizando os dados rotulados, enquanto que na segunda
parte faz-se um retreino utilizando dados não rotulados. Seu uso é justificado quando
o custo associado à etapa de rotulação é alto ou quando os rótulos não podem ser
acessados em um curto período de tempo (FERREIRA et al., 2019).
2.1. TÉCNICAS DE APRENDIZADO DE MÁQUINA 6
Por fim, o aprendizado por reforço se difere dos demais porque baseia-se no
método da tentativa e erro para identificar as decisões mais assertivas. Ele possui
um agente que interage com o meio e tem um conjunto de ações pré-definidas que
podem ser executadas. Seu objetivo é realizar o conjunto de ações que maximizem
a recompensa esperada (SAS, 2019).
2.1 Técnicas de Aprendizado de Máquina
O Aprendizado de Máquina é composto por diversas abordagens e métodos; cada
qual aplica-se a uma determinada categoria de problemas. A Figura 2.1 mostra al-
guns exemplos. Dentre os métodos contidos nessa subárea da Inteligência Artificial,
podemos citar os algoritmos de agrupamento (clustering), árvores de decisão (deci-
sion tree), algoritmos de regressão e redes neurais.
Figura 2.1: Diferentes métodos de Aprendizado de Máquina.
Fonte: (SIVOLELLA, 2016)
2.1. TÉCNICAS DE APRENDIZADO DE MÁQUINA 7
Os algoritmos de clustering fazem parte da categoria de aprendizado não-supervisionado.
Ele é aplicado a bases de dados que não contêm rótulos definidos. O seu objetivo é dividir
os dados em subconjuntos do mesmo tipo. Este método baseia-se nas similaridades
e padrões para realizar o agrupamento (LACHI; ROCHA, 2005).
Enquanto que, no aprendizado de máquina supervisionado, encontramos os al-
goritmos de árvores de decisão, onde um conjunto de dados rotulado fornece o co-
nhecimento da resposta de saída (BARROS, 2016). Similarmente a abordagem de
aprendizado, tem os algoritmos de regressão com destaque na Regressão Linear com
o objetivo de, dado um conjunto de dados com uma grande quantidade de caracte-
rísticas obter o peso ótimo para cada uma delas. Este, obtém melhores resultados
quando o conjunto de características é muito grande, pois tende a sofrer menos
sobre-ajustes (em inglês, overfitting) que outras abordagens mais complexas. E a
Regressão Logística que por sua vez, é empregada em problemas de classificação,
uma vez que os rótulos de saída são divididos em duas partes e essas são mutuamente
exclusivas (SILVA, 2018).
Finalmente, as Redes Neurais também podem ser inseridas na classe de aprendi-
zado supervisionado, por ser composta de camadas e neurônios, onde o aprendizado
adquirido é passado de uma camada para outra de acordo com uma função de ati-
vação específica (ASSIS, 2014). Um dos algoritmos mais difundidos no treinamento
da rede é o de backpropagation. A seguir, serão apresentados mais detalhes acerca
desta técnica.
2.1.1 Redes Neurais
As Redes Neurais Artificiais podem ser descritas como um modelo baseado na
estrutura e dinâmica do cérebro humano. São chamadas dessa maneira em virtude
de sua composição: diversos neurônios conectados entre si. A Figura 2.2 apresenta
a comparação entre um neurônio biológico e o modelo matemático do Perceptron
(modelo mais antigo de rede neural que conta com apenas um neurônio) (GRüBLER,
2018). Além disso, de acordo com Haykin (2001), as redes neurais coincidem com o
cérebro humano porque também são capazes de reter o conhecimento.
2.1. TÉCNICAS DE APRENDIZADO DE MÁQUINA 8
Figura 2.2: Neurônio biológico versus Perceptron.
Fonte: (GRüBLER, 2018)
Adicionalmente, fazem parte da estrutura da rede neural a função de ativação,
peso sináptico e algoritmo de aprendizagem (FERREIRA, 2004). Ainda de acordo
com Ferreira (2004), cada neurônio aplica uma função de ativação nos sinais rece-
bidos como entrada, gerando uma saída. As conexões entre os neurônios são ditos
pesos sinápticos e são responsáveis por reter o conhecimento obtido no processo de
aprendizagem.
Sendo assim, nesse processo de aprendizagem os pesos são modificados até que
se alcance o resultado desejado. Ou seja, até que a rede tenha aprendido determi-
nada função (FERREIRA, 2004). Existem diversos modelos de arquitetura de redes
neurais. A Multilayer Perceptron é uma adaptação do Perceptron para resolver
problemas que não são linearmente separáveis. Ela possui um tipo de arquitetura
caracterizada da seguinte maneira: camada de entrada, camada oculta e camada de
saída (GRüBLER, 2018), conforme representação na Figura 2.3.
2.2. APRENDIZAGEM PROFUNDA 9
Figura 2.3: Arquitetura da MLP.
Fonte: (GRüBLER, 2018)
Segundo Grübler (2018), a camada de entrada não possui função computacional,
diferentemente das demais. Os neurônios aplicam os pesos sinápticos aos dados
fornecidos de entrada. Posteriormente, os valores de saída são somados ao bias e
mais um cálculo é realizado: a função de ativação. Ela tem o objetivo de medir a
probabilidade do resultado obtido, isto é, se ele deve ser passado adiante (para os
neurônios das próximas camadas) ou não.
Apesar da sua eficiência na resolução de diversos problemas, as Redes Neurais
possuem algumas limitações. Em visão computacional, por exemplo, é necessário
realizar diversos pré-processamentos com as imagens e definir variáveis manualmente
para que auxiliem na aprendizagem (MATHEUSFACURE, 2017). A partir daí, entra
em destaque a Aprendizagem Profunda, que será apresentada em detalhes a seguir.
2.2 Aprendizagem Profunda
Aprendizagem Profunda (em inglês, Deep Learning), é um campo de Aprendiza-
gem de Máquina que busca simular o comportamento do cérebro humano em tarefas
mais robustas para uma máquina como: reconhecimento visual, reconhecimento de
fala e processamento de linguagem natural (BEZERRA, 2016). Na Figura 2.4 é
apresentada a relação entre Aprendizado de Máquina e Aprendizado Profundo.
2.2. APRENDIZAGEM PROFUNDA 10
Figura 2.4: Relação entre Machine Learning eDeep Learning.
Fonte: (GOODFELLOW; BENGIO; COURVILLE, 2016)
A semelhança a um cérebro humano está na ideia de utilizar múltiplas camadas
onde cada camada possui múltiplos nós que são equivalentes ao neurônio do cérebro
humano. Cada camada aprende uma parte do problema a ser resolvido e, à medida
que vai se aprofundando nas camadas, mais conhecimento é adquirido. Ou seja,
o conhecimento obtido na primeira camada é passado por parâmetro para a outra
camada que aprende novas coisas e assim sucessivamente, visando reduzir os erros
no resultado.
Em um problema de reconhecimento de imagens, por exemplo, a primeira camada
aprende a identificar as bordas; a segunda utiliza o conhecimento obtido pela camada
anterior e aprende a identificar possíveis combinações de bordas; a terceira pode
aprender a identificar partes de objetos e assim por diante. Dessa maneira, à medida
que vai se aprofundando, mais conhecimento do todo vai sendo adquirido e assim a
chance de erro do resultado é menor (JÚNIOR, 2016). Um exemplo dessa arquitetura
multicamadas está ilustrado na Figura 2.5.
2.2. APRENDIZAGEM PROFUNDA 11
Figura 2.5: Estrutura de uma MLP.
Fonte: (JÚNIOR, 2016)
O destaque da Aprendizagem Profunda se dá na flexibilidade do modelo que é
criado; não sendo necessário escolher o que será usado na entrada, pois ele pode
definir uma melhor combinação de valores após analisar todos os parâmetros (FER-
NANDES; SILVA, 2018). A Figura 2.6 mostra as etapas de cada tipo de aprendizado
e o que cada um é capaz de aprender com os dados de entrada. Além disso, como
no Aprendizado de Máquina clássico, o Aprendizado Profundo também abarca as
classes de aprendizado supervisionado, não supervisionado e de reforço.
2.2. APRENDIZAGEM PROFUNDA 12
Figura 2.6: Relação entre diferentes partes de um sistema inteligente.
Fonte: (GOODFELLOW; BENGIO; COURVILLE, 2016)
Com isso é possível encontrar uma diversidade de métodos como: Recurrent Neu-
ral Network (MEDSKER; JAIN, 2001), Long short-term memory (HOCHREITER;
SCHMIDHUBER, 1997), Auto Enconders (HINTON; KRIZHEVSKY; WANG, 2011),
Generative Adversarial Network (LEDIG et al., 2017) e Convolutional Neural Network
(KALCHBRENNER; GREFENSTETTE; BLUNSOM, 2014). Cada método possui
uma aplicação específica e, por isso, para definir qual método utilizar deve-se levar
em consideração alguns fatores, tais como: os tipos de dados, o tipo de aprendizado
(supervisionado, não supervisionado ou de reforço) e a tarefa que será resolvida
(SHARMA, 2018).
2.2. APRENDIZAGEM PROFUNDA 13
2.2.1 Redes Neurais Convolucionais
Rede Neural Convolucional (em inglês, Convolutional Neural Network), é um
modelo de Aprendizado Profundo capaz de trabalhar com um grande volume de
dados e obter bons resultados. Se destaca na utilização da técnica de convolução,
que é um tipo de operação linear, ao invés da multiplicação de matrizes em pelo
menos uma camada (RODRIGUES, 2019); sendo muito aplicada em reconhecimento
de imagens.
A arquitetura da Rede Neural Convolucional é composta por camadas de: en-
trada, convolução, função de ativação, Pooling eFully Connected. Cada camada
possui o seu papel específico para melhor aproveitamento da rede. A camada de
entrada é definida de acordo com as dimensões da imagem, comumente são matrizes
tridimensionais. Em geral, as imagens utilizam três canais, RGB, com os valores de
cada pixel. Na camada de convolução, há uma convolução de matrizes utilizando
uma matriz menor (Kernel) que funciona como filtro. Esse filtro é formado por
pesos inicializados aleatoriamente que lê os píxeis gerando uma matriz de dimen-
sões menores que a de entrada. Nesta camada, também é importante escolher como
será um padding (preenchimento feito na imagem), sua escolha afeta diretamente na
saída da convolução.
Por sua vez, o padding pode ser nenhum, resultando em nenhum acréscimo à
saída da convolução, ou zero pad, que adiciona uma borda preenchida por zeros. O
intuito do padding é não deixar as camadas diminuírem mais rápido que o necessário
para o aprendizado (ALVES, 2018). Após a camada de convolução, uma função de
não-linearidade é aplicada. De acordo com Stroski (2018), isso é necessário porque
o mundo real é não-linear e a rede neural convolucional deve identificar padrões
não-lineares.
A função mais usada em redes convolucionais é a Relu, por não gerar grandes
diferenças de acurácia quando comparada a outras funções. O objetivo nesta parte é
zerar todos os valores negativos da saída da camada anterior (ALVES, 2018). Após
zerar os valores negativos, o processo de Pooling, gera uma amostragem sem perda
2.2. APRENDIZAGEM PROFUNDA 14
de características. Neste processo, a informação da camada anterior é simplificada
utilizando o método max pooling, onde apenas o maior número da unidade é passado
para a saída (ALVES, 2018). Um exemplo desse método é apresentado na Figura
2.7
Figura 2.7: Max pooling com 2x2 de área.
Fonte: (HANDAN, 2018)
Fully Connected é a última camada da arquitetura da rede neural convolucional,
onde toda a rede é conectada. Como entrada, utiliza a saída da camada anterior
e, posteriormente, faz a classificação na saída utilizando a quantidade de classes
definida no modelo (ALVES, 2018).
2.2.1.1 Capsule Networks
Capsule Network é uma variante da Rede Neural Convolucional que foca em apli-
cações de classificação, detecção e reconhecimento em imagens e vídeos (XI; JIN,
2017). Verificou-se que a CNN (Convolutional Neural Network) sofre perda de infor-
mações importantes da imagem ao passar nas arquiteturas de camadas (SABOUR;
FROSST; HINTON, 2017). Ou seja, quando uma imagem sofre uma alteração,
como rotação ou translação, há uma perda das informações processadas nas ca-
madas. Podendo gerar falsos resultados, ou distorção das imagens na camada de
saída.
Pensando nisso, foi desenvolvida a Capsule Network que é um tipo de rede neural
convolucional cuja arquitetura é baseada em cápsulas. Uma cápsula é um "grupo de
neurônios cujo vetor de atividade representa os parâmetros de instanciação de um
2.2. APRENDIZAGEM PROFUNDA 15
tipo específico de entidade, como um objeto ou uma parte do objeto"(SABOUR;
FROSST; HINTON, 2017). Essa arquitetura é composta por 5 camadas: Entrada,
ReLu Conv1, PrimaryCaps, RouteCaps e Saída, como exemplificado na Figura 2.8.
Na Entrada, uma imagem é fornecida para a rede e informações básicas da imagem
como bordas ou curvas são extraídas. Nesta mesma fase, treina-se a imagem através
de convoluções. Seleciona-se pequenas partes da imagem, de modo que só é visto os
píxeis que estão dentro da seleção feita. E então, multiplica-se cada pixel por um
conjunto de peso (altura, largura e posição) e guarda o valor em um vetor.
Na camada ReLu Conv1, aplica-se a função ReLu em todas as convoluções ge-
radas na saída do processo anterior. Desta forma, uma não linearidade é formada
na rede neural. Na PrimaryCaps, ocorre outra convolução como na primeira fase.
Mas agora, com o objetivo de extrair formas mais complexas da imagem. Uma pi-
lha de imagem é gerada neste processo, dividida em partes iguais e encapsuladas.
Com isso, cada cápsula possui uma matriz com nvalores. Na RouteCaps, ocorre
uma seleção da imagem do processo anterior. Considerando apenas os dados úteis,
uma seleção mais inteligente ocorre, evitando ruídos no resultado. Os pontos mais
altos de concordância são repassados para a próxima camada. Na saída, o resultado
gerado na etapa anterior é mostrado.
Figura 2.8: Arquitetura Capsule Network.
Fonte: (MUKHOMETZIANOV; CARRILLO, 2018)
Capsule Networks evita falsos positivos, pois considera a orientação espacial re-
lativa dos recursos entre si e, por possuir roteamento dinâmico, evita que a rede
atribua incorretamente o objeto a outro rótulo, evitando, assim, falsos negativos;
enquanto as Redes Neurais Convolucionais, que também possuem uma arquitetura
2.3. CLASSIFICAÇÃO DE IMAGENS 16
em camadas, têm a camada de pooling, cujo o objetivo é reduzir o tamanho passando
apenas o pixel ativado mais alto da região para a próxima camada.
A funcionalidade descrita acima não considera as posições dos objetos contidos
na imagem e acaba gerando dúvida sobre o resultado gerado. Numa imagem que
contenha um rosto de uma pessoa, por exemplo, ao passar pela rede convolucional,
um olho pode ser comparado com uma boca, porque a imagem sofreu rotação. Dando
um resultado duvidoso.
2.3 Classificação de Imagens
A Classificação de Imagens é caracterizada como um processo de reconhecer pa-
drões (CâMARA et al., 1996). Tal processo segue algum critério de semelhança e
define classes de objetos similares entre si. Um exemplo de Classificação de Ima-
gens encontra-se na Figura 2.9, que apresenta uma imagem com diferentes tipos
de solo identificados e classificados utilizando K-médias, além de áreas edificadas e
de cultivo. Esse processo consiste de várias etapas, entre as quais: seleção de um
sistema de classificação e amostras para treinamento, pré-processamento de dados,
extração e seleção de características, seleção de um método de classificação e um
processamento pós-classificação.
2.3. CLASSIFICAÇÃO DE IMAGENS 17
Figura 2.9: Imagem classificada utilizando o algoritmo K-médias.
Fonte: (CANTO; JUNIOR; CANDEIAS, 2016)
Além disso, algumas abordagens utilizadas atualmente são: classificação de sub-
pixel, classificação por área, classificação por contexto e classificação baseada no
conhecimento (LU; WENG, 2007). De modo geral, há dois grupos de algoritmos de
classificação por pixel, sendo eles: classificação não-supervisionada e supervisionada
(LI et al., 2014). Como demonstrado na Figura 2.10.
Figura 2.10: Algoritmos de classificação por área.
Fonte: (TRINDADE; FACCO; FILHO, 2019)
Na classificação supervisionada existe a necessidade de um conjunto de trei-
namento; ou seja, uma amostra significativa de imagens é selecionada e tem suas
propriedades espectrais extraídas e comparadas com uma amostra utilizada para
2.3. CLASSIFICAÇÃO DE IMAGENS 18
treinamento (LI et al., 2014). A técnica de classificação de uma imagem por pixel,
diferentemente da classificação utilizando subpixel, assume que cada pixel é puro.
Sendo assim, ao obter uma imagem e suas características, coloca-as nos classifica-
dores por pixel. Essas características são consideradas uma coleção de píxeis com
informações espectrais, sendo formadas por variáveis espectrais e suas transforma-
ções.
Por sua vez, na classificação não-supervisionada, as imagens são divididas em
grupos baseados nos valores da imagem, sem ajuda de um conjunto de treinamento
ou qualquer tipo de conhecimento prévio (LI et al., 2014). Os classificadores desse
tipo mais comuns são K-MEANS e Iterative Self-Organizing Data Analysis (ISO-
DATA) (BALL; HALL; INSTITUTE, 1965).
Figura 2.11: Algoritmos de classificação pixel a pixel.
Fonte: (TRINDADE; FACCO; FILHO, 2019)
Os algoritmos de classificação pixel a pixel podem ser divididos em supervisio-
nados e não-supervisionados. Além disso, cada grupo desse possui um subconjunto
de técnicas como demonstrado na Figura 2.11.
Capítulo 3
Sistema Myosotis
Todos os anos, milhares de pessoas desaparecem no Brasil. Somente em 2018,
82.000 pessoas foram registradas como desaparecidas (BRASIL, 2019). Conside-
rando esse problema e tendo como motivação as necessidades identificadas pela
Rede Nacional Brasileira de Identificação e Localização de Crianças e Adolescen-
tes Desaparecidos (DESAPARECIDOS, 2010), foi desenvolvido o sistema Myosotis
(FERREIRA; OLIVEIRA; LIMA, 2018). O propósito geral do sistema é prover uma
ferramenta tecnológica que auxilie a realização do trabalho preventivo das agências
nacionais no que diz respeito aos desaparecimentos. Além disso, também utiliza
conhecimentos estatísticos e aprendizado de máquina para inferir a porcentagem de
possíveis novas ocorrências na mesma região onde pessoas desapareceram anterior-
mente. Mais especificamente, o sistema concentra-se em dois objetivos: registrar em
local único os dados de pessoas desaparecidas e promover o compartilhamento de
informações entre os membros da rede.
No que concerne a sua estrutura, o Myosotis consiste em três partes principais:
agregação de dados, inferência estatística e análise de padrões, interface e API.
A agregação de dados é responsável por coletar informações de desaparecidos de
diferentes fontes realizando um mapeamento dos dados. Dessa maneira, o sistema
mescla as informações e gera novos atributos a partir de registros duplicados no
banco de dados. Por exemplo, se uma pessoa possui registro de desaparecimento em
2 locais diferentes e, em cada um deles, possui 3 características informadas, então, no
20
Myosotis, a mesma pessoa terá 6 características registradas. A Figura 3.1 exemplifica
como a agregação de dados é realizada. Além de combinar os atributos relacionados
a cada pessoa desaparecida, o sistema também gera dados sobre o estado utilizando
os prefixos do telefone e coordenadas geográficas a partir do endereço informado.
Figura 3.1: Etapa de agregação de dados.
Fonte: (FERREIRA; OLIVEIRA; LIMA, 2018)
Por sua vez, a etapa de inferência estatística e análise de padrões utiliza dados
geográficos dos registros como latitude e longitude para relacionar desaparecimentos
em locais próximos. Para definir a relação entre os desaparecimentos e os locais, é
utilizado um método estimador de densidade — Kernel Density Estimation (KDE)
(DUDA; HART; STORK, 2001) — que se baseia na quantidade de ocorrências em
cada estado (FERREIRA; OLIVEIRA; LIMA, 2018). Ao aplicar técnicas de análise
de padrões, o objetivo é prover possíveis esclarecimentos sobre o fenômeno. Observar
quais características estão associadas aos desaparecimentos pode contribuir com a
destinação de recursos para iniciativas de prevenção de forma mais assertiva.
Adicionalmente, apesar de haver esforços governamentais para a unificação dos
dados e para a articulação de serviços de atendimento ao público, os registros não
estão disponíveis de maneira organizada e não há uma interface pública que per-
mita a análise dos dados ou a visualização de estatísticas (FERREIRA; OLIVEIRA;
LIMA, 2018). Diante disso, também foi construída uma interface que permite ao
21
usuário informar alguns parâmetros de busca e/ou selecionar a área em que deseja
que a busca seja realizada, bem como uma API que viabiliza a disponibilização das
informações. O resultado é apresentado como forma de mapa de calor e com gráficos
informativos. Um exemplo do mapa que é gerado na interface pode ser verificado
na Figura 3.2.
Figura 3.2: Mapa de calor gerado pelo sistema Myosotis.
Cabe destacar que o sistema mantém as fontes originais e potencializa o que já
era feito através da centralização de informações e geração de dados probabilísticos
de possíveis novas ocorrências. Além disso, o Myosotis utiliza uma base de dados que
contém cerca de 2.000 registros. Cada registro conta com 24 atributos associados a
cada pessoa, que são: nome, foto, gênero, cor dos olhos, cor da pele, cor do cabelo,
peso, altura, tipo físico, status de transtorno mental (se possui ou não), idade, data
de nascimento, quantidade de dias de desaparecimento, data de desaparecimento,
vizinho, cidade, estado, marca de nascimento, status (desaparecido ou encontrado),
informações sobre o caso, registro no departamento de polícia, fonte da informação,
latitude e longitude (FERREIRA; OLIVEIRA; LIMA, 2018).
Finalmente, pode-se notar a contribuição exposta pelo sistema Myosotis, desde a
padronização e unificação do dataset ao compartilhamento e inferência de informa-
ções relevantes para o problema. O projeto também é uma iniciativa open source, o
3.1. TRABALHOS RELACIONADOS 22
que significa que é aberto a melhorias que podem ser desenvolvidas e acrescentadas
por outras pessoas que estejam dispostas a trabalhar em prol de causas sociais, neste
caso, de pessoas desaparecidas.
Ainda assim, a possibilidade de defasagem dos dados coletados pode ocasionar
uma maior imprecisão dos dados estatísticos. Visando a probabilidade de ocorrên-
cia dessa defasagem, utilizamos aqui uma técnica de aprendizado de máquina para
classificação das características mais relevantes e que podem ser extraídas a partir
da fotografia disponibilizada, tais como: cor da pele, cor do cabelo, cor dos olhos,
sexo e identificação de marca e/ou tatuagem.
3.1 Trabalhos Relacionados
Na década de 70, foi proposta uma heurística simples para computar caracterís-
ticas de textura de imagens e utilizar como classificadores os seguintes algoritmos:
Piecewise Linear Discriminant Function (DUDA; FOSSUM, 1966) e Minimax (HA-
RALICK; SHANMUGAN; DINSTEIN, 1973). A abordagem consistiu da análise de
distribuição de tons de cinza para extrair das imagens características importantes
a fim de empregá-las nos algoritmos supracitados. Para tanto, microfotografias de
rochas, fotografias aéreas e imagens de satélite foram utilizadas como conjunto de
dados. Para as microfotografias e imagens de satélite, atingiu-se uma acurácia de
89% e 83,5%, respectivamente. No que diz respeito às fotografias aéreas, 82,3%
foram classificadas corretamente. Como sendo um trabalho piorneiro da década de
70, os algoritmos de classificação ainda eram rudimentares e limitados. A área de
aprendizado de máquina não estava desenvolvida.
Após observar que há diversos algoritmos para classificação de imagens de senso-
riamento remoto, os quais geralmente utilizam uma abordagem que analisa pixel a
pixel, constatou-se que os resultados são insatisfatórios quando comparados aos re-
sultados obtidos ao de sensoriamento manual (BINS; ERTHAL; FONSECA, 1993).
Além disto, os autores observaram que o processamento na análise de imagens de
sensoriamento remoto, normalmente, é feito pixel a pixel, utilizando o atributo es-
3.1. TRABALHOS RELACIONADOS 23
pectral do pixel. Sendo assim, incorporaram outros tipos de informações além das
espectrais, com o intuito de melhorar os resultados da classificação. Para esse pro-
pósito, foi utilizado o algoritmo de agrupamento de dados, o ISOSEG, que é um
conjunto de regiões, caracterizadas pelos atributos estatísticos: média, matriz de
covariança e área. O método foi divido em duas partes. A primeira, particiona
a imagem em regiões e extrai os seus atributos. A segunda, utiliza o algoritmo
ISOSEG para classificar as regiões da imagem. Como resultado obtido da técnica
proposta, tem-se na saída uma imagem classificada.
Buscando uma melhor generalização de classes no problema de classificação,
utilizou-se Support Vector Machines em um conjunto de imagens diversificado que
abarcava imagens de animais, pessoas, aeronaves e veículos (CHAPELLE; HAFF-
NER; VAPNIK, 1999). Sua principal característica consiste em histogramas de alta
dimensionalidade como representação da imagem. A abordagem tem como princípio
básico a classificação genérica, que pode ser descrita como a categoria de objeto mais
provável de estar presente em uma dada imagem. Além de bons resultados no que
diz respeito ao objetivo principal, observou-se também um ganho de performance
significativo nos experimentos. Pode-se destacar como alguns dos resultados dessa
técnica duas das sete categorias da matriz de confusão: a categoria aviões contendo
386 imagens teve 341 classificadas corretamente; por sua vez, a categoria pessoas
teve 296 de 358 imagens classificadas corretamente.
Lyons et al. (2000) também propuseram um novo algoritmo para extração de
informações e classificação de imagens faciais . As categorias usadas para a classi-
ficação são: etnia, sexo e expressão facial. A etnia foi dividida em asiático e não-
asiático; o sexo em feminino e masculino; e as expressões em feliz, triste, irritado,
amedrontado, surpreso e enojado. A abordagem utilizada combina a estabilidade do
Gabor Wavelet (LEE, 1996) com uma maneira mais simples e rápida de treinamento
– similar ao algoritmo de Fisherface (HESPANHA; KRIEGMAN; BELHUMEUR,
1997). A transformada de Gabor Wavelet é menos sensível à posição como ocorre
com os valores de tons de cinza de cada pixel, colaborando para uma maior tolerância
a erros. Durante a realização dos experimentos, observou-se que foram alcançados
resultados semelhantes aos obtidos usando Perceptron Multicamada (ZHANG et al.,
3.1. TRABALHOS RELACIONADOS 24
1998) na mesma base de dados: 92% com Linear Discriminant Analysis (LDA) e
90% com Perceptron não-linear.
Também foi proposto um algoritmo de detecção de faces para imagens coloridas
com variações de luz e fundos complexos (HSU; ABDEL-MOTTALEB; JAIN, 2002).
Para tal, foram definidas algumas etapas fundamentais que consistem em: compen-
sação de iluminação, transformação da cor e detecção de regiões da face como olhos,
boca e extremidades do rosto. Esse conjunto de regiões é conectado e obtém-se um
triângulo, o qual é elemento decisivo na identificação da face. Para a realização dos
experimentos, utilizou-se duas bases de dados provenientes de vídeos e internet. A
primeira, HHI database com 206 imagens e taxa de detecção de 96,60%; enquanto
que a Champion database com 227 imagens comprimidas e atingiu-se uma taxa de
detecção de 80,58%. Considerando os recursos tecnológicos disponíveis da época, os
resultados foram bastante expressivos.
Bosc, Zisserman e Muñoz (2007) com o objetivo de aprimorar a forma de classi-
ficar imagens categorizando os objetos e levando em conta que um objeto pode ter
milhares de categorias, podendo dificultar a sua categorização, foi usada a seguinte
abordagem: primeiro foi feita a generalização da representação de uma imagem para
uma região de interesse (ROI ) e da aparência (palavras visuais) sozinha e à forma lo-
cal (distribuições de bordas). Depois foi feita uma seleção automática das regiões de
interesse em treinamento, buscando a inibição da desordem de fundo e adicionando
a invariância para a instância do objeto. Por fim, usou-se Random Forests (BREI-
MAN, 2001) e Random Ferns como classificadores - Random Forests ou Florestas
de Decisão atuam gerando um conjunto de árvores de decisão durante a fase de
treinamento - em vez de SVM (Support Vector Machine), promovendo a facilidade
de treinamento e teste. Dessa forma, foi notado um aumento do desempenho de
3% a 5%, dependendo do grau de variação da posição do objeto dentro do conjunto
de dados. Adicionalmente, concluem que gerar dados extras durante o treinamento
aumenta o desempenho em 2%.
Com o objetivo de extrair informações de objetos contidos nas imagens analisa-
das e processadas (CHACON et al., 2011) propuseram uma análise de um conjunto
3.1. TRABALHOS RELACIONADOS 25
de técnicas tendo como foco a aplicação dos Momentos Invariantes HU. Os objetos
contidos nas imagens são agrupados em pixels e separados do fundo da imagem,
sendo possível destacar somente os objetos e classificá-los de acordo com as suas ca-
racterísticas. Um objeto ao ser extraído pode sofrer alterações devido às dimensões.
A aplicação dos Momentos Invariantes HU é utilizada na tentativa de extrair as
características dos objetos evitando possíveis ruídos causados por alterações como:
rotação, translação ou escala. Foi possível observar que para extração de atributos
houve uma grande variação de atributos, e para evitar isso seria bom uma orga-
nização do espaço de características, com a finalidade de simplificar as etapas de
treinamento e classificação.
Simonyan, Vedaldi e Zisserman (2014) observaram a visualização de modelos de
classificação de imagens aprendidos em Redes Convolucionais Profundas (Convoluti-
onal Networks - ConvNets) considerando duas técnicas de visualização, com base na
computação do gradiente de pontuação da classe em relação à imagem de entrada.
A primeira técnica gera uma imagem artificial, que é representativa de uma classe de
interesse. A segunda calcula um mapa de saliência de classe específico da imagem,
destacando as áreas da imagem dada, discriminativa em relação à classe dada. Além
disso, estabelecem conexão entre métodos de visualização baseados em gradiente e
as redes neurais deconvolucionais. Com isso, foi possível demonstrar que técnicas
de visualização baseadas em gradientes generalizam o procedimento de reconstrução
do ConvNets.
Diante das possíveis aplicações de Redes Neurais Convolucionais, especialmente
no problema de classificação de imagens, foi proposto por Oquab et al. (2014) um
método que consiste em transferir a representação de imagens aprendidas com a Rede
Neural para outras tarefas de reconhecimento visual . O objetivo é reaproveitar
as camadas treinadas para computar representações de imagem de nível médio.
A motivação para tal baseia-se na alta quantidade de imagens necessárias, o que
restringe o uso de Redes Neurais Convolucionais a problemas limitados. Ao realizar
a transferência, é possível aplicá-la a problemas que possuem menor quantidade de
dados para treinamento. O método proposto obteve uma melhoria de 18,3% e 7,2%
em relação a outros trabalhos realizados com o conjunto de dados PASCAL VOC
3.1. TRABALHOS RELACIONADOS 26
2007 e 2012.
Visando a melhoria de qualidade das abordagens de reconhecimento de objetos
utilizando aprendizado de máquina, em (VARGAS; CARVALHO; VASCONCELOS,
2016), foi empregado o uso de Redes Neurais Convolucionais Profundas para classifi-
car um dataset de 1.2 milhão de imagens de alta resolução em 1000 classes distintas.
A rede possuía 60 milhões de parâmetros e 650.000 neurônios, além de 5 camadas
de convolução. Esse modelo aliado à implementação em GPU alcançou uma taxa
de erros top-1 de 37,5% e top-5 de 17.0%, enquanto que o melhor resultado obtido
anteriormente foi de 45,7% e 25,7%. Com a criação de placas gráficas cada vez
mais potentes, bem como o aumento de pesquisas acerca de programação paralela,
tornou-se cada vez mais frequente a sua utilização em diversas áreas de computa-
ção; viabilizando trabalhos como esse, cuja complexidade é observada pelos diversos
campos de conhecimento estudados para o seu desenvolvimento.
Analisando o conjunto de métodos que utilizam operações matemáticas para
realizar modificações em pixels, no intuito de melhorar a imagem para facilitar a
sua visualização foi sugerida por Lima e Ramalho (2017-2018) a utilização do algo-
ritmo Matriz de Coocorrência Estrutural (Structural Co-occurence Matrix, SCM) .
A ideia da utilização deste algoritmo é conseguir extrair informações das imagens
para uma melhorar descrição das mesmas. E segundo os resultados adquiridos, foi
possível obter uma análise detalhada da imagem. Através da Matriz de Coocorrên-
cia Estrutural gerada e dos atributos calculados sobre ela. Também vale ressaltar
a flexibilidade da estratégia tomada, pois é possível desenvolver funções que atuem
dentro do escopo do método (LIMA; RAMALHO, 2017-2018); podendo ser usado
em aplicações envolvendo sistemas de visão computacional e processamento digital
de imagens.
Por fim, em 2018 foi apresentado um método para melhorar a classificação de
imagens de sensoriamento remoto de resolução espacial muito fina (VFSR). Para
isso foram integrados Rede Neural Convolucional Baseada em Contexto (CNN) e
Perceptron Multicamada Baseado em Pixel (MLP) através de uma abordagem de
fusão de decisão baseada em regra. A eficácia da junção desses dois algoritmos
3.1. TRABALHOS RELACIONADOS 27
pode ser verificada pela melhora da taxa de classificação correta de várias classes
como telhados, asfalto, prédios, entre outros. De dezoito classes, houve melhoria em
dezesseis delas utilizando MLP-CNN (ZHANG et al., 2018).
Com base nesses trabalhos, pode-se notar a evolução do campo de Aprendizado
de Máquina e suas diversas possibilidades de áreas de aplicação. Da mesma maneira,
neste trabalho foi utilizado um novo modelo de Rede Neural, a Capsule Network.
Segundo Sabour, Frosst e Hinton (2017), a CapsNet se mostrou mais eficiente em
relação à Rede Neural Convolucional, pois preserva propriedades da imagem, como
rotação e translação, durante o treinamento. Essa capacidade de preservação das
propriedades contribui com o objetivo aqui proposto: a identificação e classificação
automática da cor da pele.
Capítulo 4
Experimentos
Este trabalho baseia-se, primordialmente, em três etapas: rotulação de uma
parcela das imagens contidas nas bases de dados coletadas (Myosotis e UFJF),
recorte das imagens utilizadas no treinamento, por fim o treinamento e teste de um
modelo de Rede Neural com o intuito de detectar a classificação das características
rotuladas.
4.1 Metodologia
Em primeiro lugar, nós fizemos uma rotulação de 1.300 imagens considerando as
características físicas apresentadas na Tabela 4.1. Cada característica corresponde a
um conjunto de classes distinto. Um exemplo de rotulação é demonstrado na Tabela
4.2. Do total de imagens rotuladas, 76% pertencem à base de dados fornecida pela
UFJF e o restante ao sistema Myosotis.
Neste trabalho, uma característica específica foi utilizada para classificação: a
cor da pele. Entretanto, as 1.300 imagens foram rotuladas levando em consideração
as principais características físicas visíveis nas fotos dos desaparecidos e que estão
mapeadas nas bases de dados, as quais são: cor da pele, cor do cabelo, cor dos olhos,
sexo e identificação de marca e/ou tatuagem.
4.1. METODOLOGIA 29
Cor da Pele Cor do cabelo Cor dos olhos Marca/tatuagem Sexo
Branca Preto Azul Sim Feminino
Preta Branco Castanho Não Masculino
Parda Louro Preto - -
Amarela Colorido Verde - -
Indígena Grisalho - - -
Tabela 4.1: Tabela de Classes.
Imagem Cor da pele Cor dos olhos Cor do cabelo Marca/Tatuagem Sexo
1 Parda Preto Colorido Não Feminino
6 Preta Preto Preto Não Feminino
8 Parda Preto Preto Não Feminino
9 Parda Preto Preto Não Feminino
11 Branca Preto Colorido Não Feminino
Tabela 4.2: Tabela de Rotulação.
Em seguida, foi feita a divisão das imagens rotuladas da seguinte maneira: 996
imagens para a fase de treinamento e 280 para a fase de testes. Após a rotulação e
separação do conjunto das imagens entre treinamento e teste, um pré-processamento
é realizado. Essa etapa consiste na identificação da face e recorte da imagem com o
intuito de eliminar outros elementos que possam afetar o aprendizado da rede. Para
isso, utilizou-se a biblioteca OpenCV (BRADSKI; KAEHLER, 2008) em Python,
que é open source e fornece diversos métodos de visão computacional.
Como técnica de aprendizado de máquina, foi utilizada a CapsNet para clas-
sificação das imagens previamente rotuladas e recortadas. A abordagem utilizada
consiste no treinamento da rede considerando essas imagens. Após o treinamento,
é realizada a classificação da cor da pele com o conjunto de imagens de teste. O
resultado esperado nessa última etapa pode ser observado na Figura 4.1.
Além disso, vale ressaltar que o modelo da rede usado neste trabalho é uma adap-
tação do modelo construído por Guo (2020). O modelo original possui um total de
cinquenta epochs — quantidade de iterações realizadas durante o treinamento — e
um batch de tamanho cem. Essa configuração faz com que a rede faça cinquenta
4.2. CONJUNTO DE DADOS 30
iterações usando cem imagens por vez. Aqui nós diminuímos o tamanho do batch
para quarenta. Isso foi necessário para corresponder à quantidade total de ima-
gens disponíveis dos desaparecidos. O modelo base mostrou um ótimo desempenho
quando aplicado à base de dados do MNIST, conforme ilustrado na Figura 4.2.
Figura 4.1: Classificação esperada na fase de teste.
4.2 Conjunto de Dados
Neste trabalho foram utilizados dois conjuntos de dados. O primeiro, conce-
dido pela Universidade Federal de Juiz de Fora (UFJF) ufjf, com cerca de mais de
10.000 registros; o segundo, do sistema Myosotis, com 1.738 registros. Cada base é
composta por características físicas das pessoas desaparecidas, informações sobre o
desaparecimento e status (desaparecido(a) ou encontrado(a)).
Os dados coletados da Universidade Federal de Juiz de Fora (UFJF) foram usados
na etapa de treinamento, enquanto que os do Myosotis foram usados na etapa de
testes do modelo empregado para classificação. Na Tabela 4.3 são apresentados o
total de registros contidos em cada base de dados, bem como o total de informações
ausentes em cada dataset.
4.3. RESULTADOS 31
Base de dados Total Cor da Pele Cor do cabelo Cor dos olhos Marca/tatuagem
Myosotis 1.738 167 1.682 38 1.726
UFJF 10.499 6.241 6.453 8.503 -
Tabela 4.3: Quantidade de registros sem informação do traço físico.
4.3 Resultados
ACapsule Network mostrou-se promissora em seus primeiros experimentos uti-
lizando a base de dados MNIST. Dessa forma, utilizamos esse mesmo modelo de
Capsule Network para classificar a cor da pele nas imagens dos desaparecidos. Adi-
cionalmente, nós fazemos uma comparação do mesmo modelo de rede em diferentes
conjuntos de dados com o intuito de analisar seu comportamento e desempenho.
Para esse propósito, foram utilizados o MNIST e o Cifar-10.
O treinamento da rede com as imagens oriundas da UFJF obteve uma taxa de
acurácia de 60%; por sua vez, o treinamento com a base Cifar-10 resultou numa
acurácia de 80%. Após o treinamento com as imagens da Universidade Federal
de Juiz de Fora, os pesos obtidos foram armazenados e o primeiro teste com a rede
conseguiu atingir uma acurácia de 31,4%. Com efeito, o modelo da Capsule Network
aqui utilizado demonstrou menor desempenho, conforme a ilustrado na Tabela 4.4.
Dessa forma, o modelo não atingiu a qualidade de aprendizado esperada para que
fosse possível utilizá-lo como ferramenta de complementação da informação da cor
da pele na base de dados.
Conjunto de dados Treinamento Validação Teste
MNIST > 99% > 98% 99.08%
CIFAR-10 80% < 10% 69.87%
MYOSOTIS/UFJF 60% < 10% 31.4%
Tabela 4.4: Acurácia das fases de treinamento, validação e teste.
A quantidade e complexidade das imagens das pessoas desaparecidas podem ser
considerados fatores relevantes no aprendizado da rede. Em contraponto ao MNIST
e ao Cifar-10 que possuem 60.000 e 50.000 imagens disponíveis para treinamento
4.3. RESULTADOS 32
respectivamente, aqui dispomos de menos de 2% do total de suas bases. Dessa
forma, a rede não possui uma quantidade significativa de dados necessários para sua
aprendizagem.
Além disso, as imagens usadas não se assemelham às do MNIST, onde foi obtido o
melhor resultado. Elas são mais complexas, pois possuem diferentes fundos, variação
de cores, entre outros elementos que tornam mais difícil a detecção e classificação
da cor da pele. Em outras palavras, no processo de aprendizado a rede precisa
distinguir o que é a pele dentre as demais partes da imagem para então classificá-
la. Abaixo apresentamos a performance da CapsNet quando aplicada a diferentes
conjuntos de dados.
A Figura 4.2 apresenta a redução dos erros e o aumento da acurácia — taxa
de acerto de classificação — da rede neural aplicada ao conjunto de dados MNIST.
Nesse conjunto, pode-se observar que a taxa de erro chega a quase zero, enquanto
que a acurácia atinge quase 100%. O mesmo não ocorre com as bases Cifar-10,
ilustrado na Figura 4.3. Um resultado semelhante ao obtido com o Cifar, ocorre
com o conjunto de imagens dos desaparecidos, conforme mostra a Figura 4.4.
4.3. RESULTADOS 33
Figura 4.2: Acurácia de treinamento e validação com MNIST.
Fonte: (GUO, 2020)
4.3. RESULTADOS 34
Figura 4.3: Acurácia de treinamento e validação com Cifar-10.
4.3. RESULTADOS 35
Figura 4.4: Acurácia de treinamento e validação com o conjunto de dados da UFJF.
Como mostrado nos gráficos acima, o resultado adquirido no conjunto de imagens
dos desaparecidos não foi considerado suficiente para uma boa aprendizagem da
rede. Apesar da rede ter aprendido algo, ainda não é suficiente para utilizá-la
como ferramenta de aprimoramento da base de dados.Um fator adicional que pode
justificar o resultado gerado é a quantidade de imagens utilizada no treinamento em
relação a cor da pele. Neste trabalho, essa característica é composta por: branca,
parda, preta, indígena e amarela. Por sua vez, as imagens utilizadas não tinham a
mesma proporção de amostras para cada cor, dificultando o aprendizado da rede e
influenciando na acurácia obtida nas fases de treinamento e teste.
4.3. RESULTADOS 36
Não obstante, através do uso de uma rede neural com melhor desempenho, será
possível complementar cerca de mais de 100 registros de desaparecidos que constam
na base do Myosotis cuja informação de cor da pele não está presente. Caso o mesmo
procedimento seja aplicado à base fornecida pela UFJF, mais de 6.000 registros
seriam beneficiados. Esse número de informações complementadas pode crescer à
medida que a rede seja treinada para identificar novos traços.
Por fim, alguns processos podem ser realizados com o objetivo de melhorar a
performance da Capsule Network. Pode-se aumentar o conjunto de treinamento
coletando e rotulando novas imagens, além usar técnicas de data augmentation
(SHORTEN; KHOSHGOFTAAR, 2019) nas imagens já disponíveis. Do mesmo
modo, é razoável analisar métodos de aprimoramento do modelo para a classificação
de diferentes tipos de imagens.
Capítulo 5
Conclusões
5.1 Problema Abordado
Neste trabalho, foi apresentado o problema de pessoas desaparecidas no Brasil,
com foco na identificação e categorização automática de seus traços físicos. Além
disso, também foi usado como base para o desenvolvimento deste projeto o sistema
Myosotis. Esse, por sua vez, reúne informações de diversas fontes com registros de
desaparecidos.
Dessa maneira, o foco desta abordagem consiste em viabilizar o aprimoramento
da qualidade e consistência das informações já coletadas e consolidadas pelo Myo-
sotis através do uso de aprendizado de máquina. Neste trabalho especificamente foi
utilizada a Capsule Network, que é uma variante das redes neurais convolucionais.
5.2 Resumo dos Resultados
Durante a etapa de treinamento do modelo da Capsule Network aqui utilizado,
observou-se uma taxa de acurácia de aproximadamente 60% quando aplicado aos
dados da UFJF e 80% quando aplicado ao Cifar. Todavia, na etapa de teste da
rede treinada com o conjunto da UFJF o modelo demonstrou desempenho inferior;
alcançando 31,4% de acurácia. O teste foi feito tendo como entrada para a CapsNet
5.3. CONTRIBUIÇÕES 38
o conjunto de dados rotulados do Myosotis.
Deste modo, vale salientar alguns fatores que podem ter influenciado tais efeitos:
quantidade insuficiente de dados para treinamento e uso de imagens mais complexas
do que as usadas nos primeiros experimentos com a CapsNet. Ainda assim, a Caps-
Net se mostrou promissora quando aplicada ao problema de classificação, como foi
apresentado na Figura 4.2.
Por fim, através de um processo automatizado de identificação e classificação da
cor da pele cujo desempenho seja satisfatório, é possível eliminar a ausência dessa
informação de mais de 100 registros do Myosotis e 6.000 da UFJF. Ademais, o
número de dados complementados pode crescer à medida que a rede é aperfeiçoada
e treinada para comportar os demais traços físicos rotulados.
5.3 Contribuições
As contribuições centrais deste trabalho consistem em:
Extração e classificação de características
Este trabalho contribuiu com a extração de características humanas e sua
classificação a partir das imagens empregadas no sistema, além de mais de mil
dados rotulados. Adicionalmente, em virtude da abordagem utilizada para o
desenvolvimento deste trabalho, ele pode ser utilizado como fonte para pesqui-
sas futuras que envolvam aprendizado de máquina e processamento de imagens.
Completude de informações
Uma contribuição adicional é a minimização de características/informações
ausentes na base de dados. Por exemplo, a ferramenta seria capaz de via-
bilizar a adição da cor da pele em cerca de 100 registros que não possuem
essa informação. Assim, o número de informações ausentes é reduzido con-
sideravelmente com a detecção automática dos traços e posterior inserção da
informação obtida no registro correspondente à imagem analisada.
Manutenibilidade da base de dados
5.4. TRABALHOS FUTUROS 39
Por fim, através do uso de Aprendizado de Máquina para detecção e clas-
sificação de traços humanos, este trabalho provê um modelo que favorece a
consistência e atualização dos dados armazenados.
5.4 Trabalhos Futuros
Como melhoria deste trabalho e da proposta apresentada, podemos destacar o
aperfeiçoamento do processamento das imagens considerando mais de uma ou todas
as características outrora rotuladas. Além disso, pode-se aumentar a amostra de
dados nas etapas de teste e treinamento com o intuito de aprimorar a performance
da rede e/ou inserir um novo modelo de rede neural profunda para a finalidade aqui
proposta.
Com uma rede mais precisa também é possível inserir dados na base. Conside-
rando uma rede treinada com todas as características rotuladas e com resultados
mais eficazes, é exequível verificar se há informação incompleta de algum dos traços
físicos considerados e, se houver, inserir o dado faltante; completando a informação
na base de dados.
Referências
ALVES, G. Entendendo Redes Convolucionais (CNNs).
2018. Disponível em: <https://medium.com/neuronio-br/
entendendo-redes-convolucionais-cnns-d10359f21184>. Acesso em: 30 de
jun. 2020.
ASSIS, L. da S. O uso de uma Rede Neural Artificial Supervisionada para obtenção
do fator de carga de um alimentador. 2014.
BALL, G.; HALL, D.; INSTITUTE, S. R. Isodata: A Method of Data Analysis
and Pattern Classification. Stanford Research Institute, 1965. Disponível em:
<https://books.google.com.br/books?id=zaKYnQEACAAJ>.
BARROS, P. Aprendizagem de Maquina: Supervisionada ou Não
Supervisionada? 2016. Disponível em: <https://medium.com/
opensanca/aprendizagem-de-maquina-supervisionada-ou-n%C3%
A3o-supervisionada-7d01f78cd80a>. Acesso em: 23 de jun. 2020.
BEZERRA, E. Introdução à aprendizagem profunda. Artigo–31oSimpósio
Brasileiro de Banco de Dados–SBBD2016–Salvador, 2016.
BINS, L. S.; ERTHAL, G. J.; FONSECA, L. M. G. Um Método de Classificação
Não Supervisionada por Regiões. 1993. 65-68 p.
BOSC, A.; ZISSERMAN, A.; MUñOZ, X. Image Classification using Random
Forests and Ferns. 2007.
BRADSKI, G.; KAEHLER, A. Learning OpenCV: Computer vision with the
OpenCV library. [S.l.]: "O’Reilly Media, Inc.", 2008.
BRASIL, A. Mais de 82 mil pessoas desapareceram no último ano, segundo
anuário. Exame, 2019. Disponível em: <https://exame.abril.com.br/brasil/
mais-de-82-mil-pessoas-desapareceram-no-ultimo-ano-segundo-anuario/>. Acesso
em: 09 de nov. 2019.
BREIMAN, L. Random forests. Machine learning, Springer, v. 45, n. 1, p. 5–32,
2001.
BRITO, D. Burocracia atrapalha busca de desaparecidos. Agência Senado,
2017. Disponível em: <https://www12.senado.leg.br/noticias/especiais/
especial-cidadania/burocracia-atrapalha-busca-de-desaparecidos>. Acesso em: 10
de abr. 2020.
REFERÊNCIAS 41
CANTO, L. F. C. D.; JUNIOR, J. R. T.; CANDEIAS, A. L. B. AnÁlise
comparativa de classificadores em imagens landsat 8 (oli) com e sem correÇÃo
atmosfÉrica no entorno de petrolÂndia-pe. VI SimpósioBrasileirodeCiências
Geodésicas e TecnologiasdaGeoinformação, p. 8, 2016.
CHACON, G. et al. Aplicação da técnica de momentos invariantes no
reconhecimento de padrões em imagens digitais. 2011. 14 p.
CHAPELLE, O.; HAFFNER, P.; VAPNIK, V. N. Support Vector Machines for
Histogram-Based Classification. 1999.
CâMARA, G. et al. Spring: Integrating remote sensing and gis by object-oriented
data modelling. Computers Graphics, v. 20, n. 10, p. 395–493, June 1996.
DESAPARECIDOS, C. N. de Crianças e A. Rede Nacional de Identificação
e Localização de Crianças e Adolescentes Desaparecidos. 2010. Disponível em:
<https://www.desaparecidos.gov.br/index.php/redesap>. Acesso em: 09 de nov.
2019.
DUDA, R.; HART, P.; STORK, D. Pattern classification. Wiley, 2001. (Pattern
Classification and Scene Analysis: Pattern Classification). ISBN 9780471056690.
Disponível em: <https://books.google.pt/books?id=YoxQAAAAMAAJ>.
DUDA, R. O.; FOSSUM, H. Pattern recognition by iteratively determined linear
and piecewise linear discriminant functions. IEEE Transactions on Computers,
v. 15, p. 220–232, April 1966.
ESTEVA, A. et al. Dermatologist-level classification of skin cancer with deep neural
networks. nature, Nature Publishing Group, v. 542, n. 7639, p. 115–118, 2017.
FERNANDES, W. R.; SILVA, R. C. da. Aprendizagem profunda de máquinas:
conceitos, técnicas e bibliotecas. 2018.
FERREIRA et al. Amanda: Semi-supervised density-based adaptive model for
non-stationary data with extreme verification latency. Information Sciences,
Elsevier, v. 488, p. 219–237, 2019.
FERREIRA, A. A. Comparação de arquiteturas de redes neurais para sistemas de
reconhecimento de padrões em narizes artificiais. p. 23–25, 2004.
FERREIRA, R. S.; OLIVEIRA, C. G.; LIMA, A. A. B. Myosotis: An
information system applied to missing people problem. In: Proceedings of
the XIV Brazilian Symposium on Information Systems. New York, NY, USA:
ACM, 2018. (SBSI’18), p. 31:1–31:7. ISBN 978-1-4503-6559-8. Disponível em:
<http://doi.acm.org/10.1145/3229345.3229379>.
GOODFELLOW, I.; BENGIO, Y.; COURVILLE, A. Deep Learning. [S.l.]: MIT
Press, 2016. <http://www.deeplearningbook.org>.
REFERÊNCIAS 42
GRüBLER, M. Entendendo o funcionamento de uma Rede Neu-
ral Artificial. 2018. Disponível em: <https://medium.com/brasil-ai/
entendendo-o-funcionamento-de-uma-rede-neural-artificial-4463fcf44dd0>.
Acesso em: 02 de jul. 2020.
GUO, X. CapsNet-Keras. 2020. Disponível em: <https://github.com/XifengGuo/
CapsNet-Keras>. Acesso em: 15 de mar. 2021.
HANDAN, A. Deep Learning: Convolutional Neural
Networks. 2018. Disponível em: <https://labs.bawi.io/
deep-learning-convolutional-neural-networks-7992985c9c7b>. Acesso em: 01
de jul. 2020.
HARALICK, R. M.; SHANMUGAN, K.; DINSTEIN, I. Textural Features for
Image Classification. 1973. 611-615 p.
HAVAEI, M. et al. Brain tumor segmentation with deep neural networks. Medical
image analysis, Elsevier, v. 35, p. 18–31, 2017.
HAYKIN, S. Redes Neurais: Princípios e prática. 2aedição. ed. [S.l.]: Bookman,
2001. 28 p. ISBN 978-85-7307-718-6.
HESPANHA, J. P.; KRIEGMAN, D. J.; BELHUMEUR, P. N. Eigenfaces vs.
fisherfaces: Recognition using class specific linear projection. IEEE Transactions
on Pattern Analysis Machine Intelligence, IEEE Computer Society, Los Alamitos,
CA, USA, v. 19, n. 07, p. 711–720, jul 1997. ISSN 1939-3539.
HINTON, G. E.; KRIZHEVSKY, A.; WANG, S. D. Transforming auto-encoders.
In: SPRINGER. International conference on artificial neural networks. [S.l.], 2011.
p. 44–51.
HOCHREITER, S.; SCHMIDHUBER, J. Long short-term memory. Neural
computation, MIT Press, v. 9, n. 8, p. 1735–1780, 1997.
HSU, R.-L.; ABDEL-MOTTALEB, M.; JAIN, A. K. Face Detection in Color
Images. 2002. 1 p.
JÚNIOR, M. R. d. S. Mapas auto-organizáveis probabilísticos para categorização
de lugares baseada em objetos. Dissertação (Mestrado) — Universidade Federal de
Pernambuco, 2016.
KALCHBRENNER, N.; GREFENSTETTE, E.; BLUNSOM, P. A convolutional
neural network for modelling sentences. arXiv preprint arXiv:1404.2188, 2014.
LACHI, R. L.; ROCHA, H. V. da. Aspectos básicos de clustering: conceitos e
técnicas. 2005.
LEDIG, C. et al. Photo-realistic single image super-resolution using a generative
adversarial network. In: Proceedings of the IEEE conference on computer vision
and pattern recognition. [S.l.: s.n.], 2017. p. 4681–4690.
REFERÊNCIAS 43
LEE, T. S. Image representation using 2d gabor wavelets. IEEE Transactions on
Pattern Analysis and Machine Intelligence, v. 18, n. 10, p. 959–971, Oct 1996.
LI, M. et al. A review of remote sensing image classification techniques: the role
of spatio-contextual information. European Journal of Remote Sensing, p. 391–399,
2014.
LIMA, M. de S.; RAMALHO, G. L. B. Desenvolvimento de algoritmos de análise
de imagens por meio da matriz de interdependência espacial. 2017–2018.
LU, D.; WENG, Q. A survey of image classification methods and techniques for
improving classification performance. International journal of Remote sensing,
Taylor & Francis, v. 28, n. 5, p. 823–870, 2007.
LYONS, M. J. et al. Classifying facial attributes using a 2-d gabor wavelet
representation and discriminant analysis. In: Proceedings Fourth IEEE
International Conference on Automatic Face and Gesture Recognition (Cat. No.
PR00580). [S.l.: s.n.], 2000. p. 202–207.
MATHEUSFACURE. Introdução às Redes Neurais Artificiais: Uma apresentação
teórica e intuitiva às redes neurais artificiais. 2017. Disponível em: <https:
//matheusfacure.github.io/2017/03/05/ann-intro/>. Acesso em: 02 de jul. 2020.
MEDSKER, L. R.; JAIN, L. Recurrent neural networks. Design and Applications,
CRC press, v. 5, 2001.
MONARD, M.; BARANAUSKAS, J. Conceitos sobre Aprendizado de Máquina.
2003. 1-18 p.
MUKHOMETZIANOV, R.; CARRILLO, J. Capsnet comparative performance
evaluation for image classification. CoRR, abs/1805.11195, 2018. Disponível em:
<http://arxiv.org/abs/1805.11195>.
OQUAB, M. et al. Learning and Transferring Mid-Level Image Representations
using Convolutional Neural Networks. 2014.
RODRIGUES, J. do S. S. R. Aplicação de redes neurais convolucionais e
processamento digital de imagens para classificação do estado dos olhos e avaliação
de sonolência. 2019.
SABOUR, S.; FROSST, N.; HINTON, G. E. Dynamic routing between capsules.
CoRR, abs/1710.09829, 2017. Disponível em: <http://arxiv.org/abs/1710.09829>.
SAS. Machine Learning: O que é e qual sua importância? 2019. Disponível em:
<https://www.sas.com/pt_br/insights/analytics/machine-learning.html>. Acesso
em: 10 de nov. 2019.
SHARMA, A. Diferences Between Machine Learning Deep Learning.
2018. Disponível em: <https://www.datacamp.com/community/tutorials/
machine-deep-learning>. Acesso em: 25 de jun. 2020.
REFERÊNCIAS 44
SHORTEN, C.; KHOSHGOFTAAR, T. M. A survey on image data augmentation
for deep learning. Journal of Big Data, Springer, v. 6, n. 1, p. 1–48, 2019.
SILVA, J. C. da. Algoritmos de Aprendizagem de Máquina:
qual deles escolher? 2018. Disponível em: <https://medium.
com/machina-sapiens/algoritmos-de-aprendizagem-de-m%C3%
A1quina-qual-deles-escolher-67040ad68737>. Acesso em: 25 de jun. 2020.
SIMONYAN, K.; VEDALDI, A.; ZISSERMAN, A. Deep Inside Convolutional
Networks: Visualising Image Classification Models and Saliency Maps. 2014.
SIVOLELLA, A. Afinal, o que Machine Learning e Redes Neurais fa-
zem? 2016. Disponível em: <https://medium.com/@andressasivolella/
afinal-o-que-machine-learning-e-redes-neurais-fazem-7c89e1885064>. Acesso em:
18 de jun. 2020.
STROSKI, P. N. O que são redes neurais convolucionais? 2018.
Disponível em: <https://www.electricalelibrary.com/2018/11/20/
o-que-sao-redes-neurais-convolucionais/>. Acesso em: 30 de jun. 2020.
SZEGEDY, C.; TOSHEV, A.; ERHAN, D. Deep neural networks for object
detection. 2013.
TRINDADE, P. M. P.; FACCO, D. S.; FILHO, W. P. Sensoriamento Remoto:
introdução ao Processamento Digital de Imagens. 2019. 21-22 p.
VARGAS, A. C. G.; CARVALHO, A. M. P.; VASCONCELOS, C. N. Um estudo
sobre redes neurais convolucionais e sua aplicação em detecção de pedestres. p. 1–4,
2016.
XI, E.; JIN, S. B. Y. Capsule network performance on complex data. p. 1–7, 2017.
ZHANG, C. et al. A hybrid MLP-CNN classifier for very fine resolution remotely
sensed image classification. 2018.
ZHANG, Z. et al. Comparison between geometry-based and gabor-wavelets-based
facial expression recognition using multi-layer perceptron. In: Proceedings Third
IEEE International Conference on Automatic Face and Gesture Recognition. [S.l.:
s.n.], 1998. p. 454–459.
ResearchGate has not been able to resolve any citations for this publication.
Article
Full-text available
Abstract Deep convolutional neural networks have performed remarkably well on many Computer Vision tasks. However, these networks are heavily reliant on big data to avoid overfitting. Overfitting refers to the phenomenon when a network learns a function with very high variance such as to perfectly model the training data. Unfortunately, many application domains do not have access to big data, such as medical image analysis. This survey focuses on Data Augmentation, a data-space solution to the problem of limited data. Data Augmentation encompasses a suite of techniques that enhance the size and quality of training datasets such that better Deep Learning models can be built using them. The image augmentation algorithms discussed in this survey include geometric transformations, color space augmentations, kernel filters, mixing images, random erasing, feature space augmentation, adversarial training, generative adversarial networks, neural style transfer, and meta-learning. The application of augmentation methods based on GANs are heavily covered in this survey. In addition to augmentation techniques, this paper will briefly discuss other characteristics of Data Augmentation such as test-time augmentation, resolution impact, final dataset size, and curriculum learning. This survey will present existing methods for Data Augmentation, promising developments, and meta-level decisions for implementing Data Augmentation. Readers will understand how Data Augmentation can improve the performance of their models and expand limited datasets to take advantage of the capabilities of big data.
Article
Full-text available
Uma tarefa comum em análise dos dados nas imagens obtidos por sensores remotos éa geração de mapas temáticos a partir da classificação da cobertura terrestre. Normalmente, procura-se desenvolver diferentes algoritmos de classificação e depois aquele que apresenta o melhor desempenho, ou seja, maior acurácia é escolhido. Este tipo de metodologia pode acarretar perdas de importantes informações contidas nos classificadores descartados. O principal objetivo deste trabalhoé avaliar e comparar, visual e estatisticamente, os classificadores pixel a pixel através da classificação supervisionada pelos métodos da Máxima Verossimilhança Gaussiana e Distância Mínima e a classificação não supervisionada com o método K-médias, com o uso de doze classes temáticas, através do uso de técnicas de Processamento de Imagem em composições, fusão e índices em imagens do satélite Landsat 8-OLI, com valores de Número Digital e Reflectância de Topo da Atmosfera, sobre umaregião de desenvolvimento Sertão do Itaparica, no estado de Pernambuco. ABSTRACT-A common task in data analysis on the images obtained by remote sensing is the generation of thematic maps from the land cover classification. Usually, we try to develop different ranking algorithms and then the one that performs best, ie, greater accuracy is chosen. This type of methodology can lead to loss of important information contained in discarded classifiers. The main objective of this study is to evaluate and compare, visually and statistically, the pixel classifiers pixel by supervised classification by the methods of Maximum Likelihood Gaussian and Minimum Distance and unsupervised classification with the K-means method, using twelve classes themes, through the use of image processing techniques in compositions, fusion and index images of the satellite Landsat 8-OLI, with Digital number of values and Reflectance Top of atmosphere, on the Hinterland development region of Itaparica in the state of Pernambuco. 1. INTRODUÇÃO Os classificadores tradicionais, tais como pixel a pixel e por regiões, vêm sendo alvo de diversos estudos comparativos, sendo basicamente dividido em duas categorias: a Classificação Supervisionada e a Não Supervisionada. A Classificação Supervisionada depende de amostras de treino que sejam representativas das classes presentes na imagem. Assim, o algoritmo classifica os pixels para cada classe. Na Classificação Não Supervisionada os padrões de treino não se encontram classificados, onde os algoritmos têm que encontrar uma estrutura nos dados que permita segmentarem grupos. Os métodos de classificação ao nível do pixel, a que constituem objeto de estudo deste trabalho, são os métodos da Distância Mínima e Método da Máxima Verossimilhança Gaussiana, para a Classificação Supervisionada, e a Classificação Não-Supervisionada com algoritmo K-médias. Para a obtenção de um bom resultado nos testes dos classificadores, foi necessária escolherum número razoávelde pixels para cada amostra de treinamento da classe, com base em doze classes temáticas, para obter parâmetros comparativos entre os métodos. As imagens produzidas por sensores orbitais sofrem influência da atmosfera. Jensen (2009) informa que diferentes fluxos de energia radiante oriunda de várias fontes podem penetrar no campo de visada introduzindo ruído no processo de imageamento por sensoriamento remoto. A correção destas distorções atmosféricas pode ou não influir nos resultados alcançados. Deste modo, foram
Article
Full-text available
We develop a face recognition algorithm which is insensitive to large variation in lighting direction and facial expression. Taking a pattern classification approach, we consider each pixel in an image as a coordinate in a high-dimensional space. We take advantage of the observation that the images of a particular face, under varying illumination but fixed pose, lie in a 3D linear subspace of the high dimensional image space-if the face is a Lambertian surface without shadowing. However, since faces are not truly Lambertian surfaces and do indeed produce self-shadowing, images will deviate from this linear subspace. Rather than explicitly modeling this deviation, we linearly project the image into a subspace in a manner which discounts those regions of the face with large deviation. Our projection method is based on Fisher's linear discriminant and produces well separated classes in a low-dimensional subspace, even under severe variation in lighting and facial expressions. The eigenface technique, another method based on linearly projecting the image space to a low dimensional subspace, has similar computational requirements. Yet, extensive experimental results demonstrate that the proposed “Fisherface” method has error rates that are lower than those of the eigenface technique for tests on the Harvard and Yale face databases
Article
Concept drift refers to an alteration in the relations between input and output data in the distribution over time. Thus, a gradual concept drift alludes to a smooth and gradual change in these relations. It generates a model obsolescence and quality decrease in predictions. Besides, there is a challenging task: the extreme verification latency to certify the labels. For batch scenarios, state-of-the-art methods do not properly tackle the problems aforementioned due to their high computational time, lack of representing samples of the drift or even for having several hyperparameters for tuning. Therefore, we propose AMANDA, a semi-supervised density-based adaptive model for non-stationary data. It has two variations: AMANDA-FCP, which selects a fixed number of samples; and AMANDA-DCP, which, in turn, dynamically selects samples from data. Our results indicate that these two variations outperform the state-of-the-art methods for almost all synthetic and real datasets, with an improvement up to 27.98% regarding the average error. AMANDA-FCP improved the results for a gradual concept drift, even with a small size of initial labeled data. Moreover, our results indicate that semi-supervised classifiers are improved when they work along with our density-based methods. Therefore, we emphasize the importance of research directions based on this approach.
Article
In recent years, convolutional neural networks (CNN) have played an important role in the field of deep learning. Variants of CNN's have proven to be very successful in classification tasks across different domains. However, there are two big drawbacks to CNN's: their failure to take into account of important spatial hierarchies between features, and their lack of rotational invariance. As long as certain key features of an object are present in the test data, CNN's classify the test data as the object, disregarding features' relative spatial orientation to each other. This causes false positives. The lack of rotational invariance in CNN's would cause the network to incorrectly assign the object another label, causing false negatives. To address this concern, Hinton et al. propose a novel type of neural network using the concept of capsules in a recent paper. With the use of dynamic routing and reconstruction regularization, the capsule network model would be both rotation invariant and spatially aware. The capsule network has shown its potential by achieving a state-of-the-art result of 0.25% test error on MNIST without data augmentation such as rotation and scaling, better than the previous baseline of 0.39%. To further test out the application of capsule networks on data with higher dimensionality, we attempt to find the best set of configurations that yield the optimal test error on CIFAR10 dataset.
Article
A capsule is a group of neurons whose activity vector represents the instantiation parameters of a specific type of entity such as an object or object part. We use the length of the activity vector to represent the probability that the entity exists and its orientation to represent the instantiation paramters. Active capsules at one level make predictions, via transformation matrices, for the instantiation parameters of higher-level capsules. When multiple predictions agree, a higher level capsule becomes active. We show that a discrimininatively trained, multi-layer capsule system achieves state-of-the-art performance on MNIST and is considerably better than a convolutional net at recognizing highly overlapping digits. To achieve these results we use an iterative routing-by-agreement mechanism: A lower-level capsule prefers to send its output to higher level capsules whose activity vectors have a big scalar product with the prediction coming from the lower-level capsule.
Article
The contextual-based convolutional neural network (CNN) with deep architecture and pixel-based multilayer perceptron (MLP) with shallow structure are well-recognized neural network algorithms, representing the state-of-the-art deep learning method and the classical non-parametric machine learning approach, respectively. The two algorithms, which have very different behaviours, were integrated in a concise and effective way using a rule-based decision fusion approach for the classification of very fine spatial resolution (VFSR) remotely sensed imagery. The decision fusion rules, designed primarily based on the classification confidence of the CNN, reflect the generally complementary patterns of the individual classifiers. In consequence, the proposed ensemble classifier MLP-CNN harvests the complementary results acquired from the CNN based on deep spatial feature representation and from the MLP based on spectral discrimination. Meanwhile, limitations of the CNN due to the adoption of convolutional filters such as the uncertainty in object boundary partition and loss of useful fine spatial resolution detail were compensated. The effectiveness of the ensemble MLP-CNN classifier was tested in both urban and rural areas using aerial photography together with an additional satellite sensor dataset. The MLP-CNN classifier achieved promising performance, consistently outperforming the pixel-based MLP, spectral and textural-based MLP, and the contextual-based CNN in terms of classification accuracy. This research paves the way to effectively address the complicated problem of VFSR image classification.
Article
dx.doi.org/10.7437/NT2236-7640.2011.02.002 Este trabalho descreve a aplicacao dos momentos invariantes Hu como forma de reconhecimento de padroes em imagens digitais. Apresentamos uma analise da robustez do metodo em funcao da adicao de ruido em uma forma padrao e da operacao morfologica de erosao. Um classificador baseado na tecnica de vetores de suporte (SVM) tendo como entrada os momentos invariantes tambem e apresentado, permitindo a classificacao de dois padroes muito parecidos.
Article
Skin cancer, the most common human malignancy, is primarily diagnosed visually, beginning with an initial clinical screening and followed potentially by dermoscopic analysis, a biopsy and histopathological examination. Automated classification of skin lesions using images is a challenging task owing to the fine-grained variability in the appearance of skin lesions. Deep convolutional neural networks (CNNs) show potential for general and highly variable tasks across many fine-grained object categories. Here we demonstrate classification of skin lesions using a single CNN, trained end-to-end from images directly, using only pixels and disease labels as inputs. We train a CNN using a dataset of 129,450 clinical images-two orders of magnitude larger than previous datasets-consisting of 2,032 different diseases. We test its performance against 21 board-certified dermatologists on biopsy-proven clinical images with two critical binary classification use cases: keratinocyte carcinomas versus benign seborrheic keratoses; and malignant melanomas versus benign nevi. The first case represents the identification of the most common cancers, the second represents the identification of the deadliest skin cancer. The CNN achieves performance on par with all tested experts across both tasks, demonstrating an artificial intelligence capable of classifying skin cancer with a level of competence comparable to dermatologists. Outfitted with deep neural networks, mobile devices can potentially extend the reach of dermatologists outside of the clinic. It is projected that 6.3 billion smartphone subscriptions will exist by the year 2021 (ref. 13) and can therefore potentially provide low-cost universal access to vital diagnostic care.