ResearchPDF Available

Abstract and Figures

In data stream scenarios, the concept drift is a common problem. It refers to a modification in the relations between input and output data in the distribution over time, decreasing the accuracy of machine learning (ML) models. Besides, another frequent condition is when the instances’ labels are only available in the initial setting. This scenario is known as extreme verification latency (EVL). Thus, it is necessary for ML models to be able to be updated without the necessity of receiving the labels over time. Therefore, aiming to deal with these two relevant problems, we proposed two dynamic instance-selection methods to work along AMANDA method, a state of the art algorithm for concept drift scenarios with EVL. The instance-selection methods do that comparing the actual and the past distributions by using a modification of the bounded Bhattacharyya distance and a modified Hellinger distance along with the KDE algorithm. These statistical distances are applied to estimate the best percentage of instances to exclude. Hence, both proposed methods improved the AMANDA performance in 6 out of 20 datasets regarding the average macro-f1. Even though the results are statistically similar, our findings indicate that our new instance-selection methods significantly improve semi-supervised models under scenarios with concept drift and EVL conditions.
Content may be subject to copyright.
CENTRO FEDERAL DE EDUCAÇÃO TECNOLÓGICA
CELSO SUCKOW DA FONSECA CEFET/RJ
Seleção dinâmica de instâncias em dados não
estacionários em cenários de latência de verificação
extrema
Bruno Monteiro Accioli da Silva
Prof. Orientador: Dsc., Luciana Faletti Almeida
Prof. Coorientador: MSc., Raul Sena Ferreira
Rio de Janeiro
Julho de 2019
ii
Projeto final apresentado em cumprimento às
normas do Departamento de Educação Superior do
CEFET/RJ, como parte dos requisitos para obtenção
do título de Bacharel em Engenharia Eletrônica
iii
DEDICATÓRIA
Dedico esse trabalho a todo aquele que dedicou sua vida ou parte dela ao
desenvolvimento acadêmico e científico. Esse trabalho é uma homenagem a todas as pessoas
que, apesar dos obstáculos, e ainda que a vida tentasse os convencer de que aquele espaço não
era deles, se dedicaram e alcançaram objetivos que seus avós talvez nem soubessem que
poderiam ser alcançados.
iv
AGRADECIMENTOS
Gostaria aqui de agradecer a toda minha família, que tornou todo o processo de criação
desse trabalho mais fácil, principalmente meus pais, irmão e cunhada. Entenderam todas as
minhas ausências em datas importantes e me proporcionaram tudo que eu precisava, para que
eu pudesse focar nos meus estudos e tivesse o tempo e os recursos necessários para chegar aqui.
Agradeço aos amigos da faculdade, tanto os que começaram essa jornada comigo há 6
anos atrás, quando os que encontrei no meio do caminho, por me incentivarem e
compartilharem todas as dores e alegrias que esses anos me trouxeram, em especial ao Murilo,
Beatriz, Bianca, Caio, Leonardo, Hannah, Maíra e Felipe.
Meu muito obrigado aos meus irmãos de coração, que estiveram comigo até nos
momentos mais difíceis, e acreditaram em mim incondicionalmente, mesmo quando eu mesmo
não acreditava, e que falaram sempre tudo que eu precisei ouvir nos momentos difíceis, em
especial ao Lucas, Ruan e Nicolas.
Agradeço a minha orientadora Luciana por acreditar nesse trabalho e em mim desde lá
no início, quando ele era só uma ideia. Meu muito obrigado ao meu coorientador Raul que, não
bastasse o ponto de inflexão que foi no meu crescimento profissional, também fez questão de
participar do meu desenvolvimento acadêmico e ainda me deu sua amizade.
Obrigado a Radix, que foi sempre compreensiva ao longo desse processo, me cedeu
tempo, recursos e tudo mais que eu precisei para o desenvolvimento desse projeto.
Por fim, agradeço a essa força superior que, apesar dos muitos nomes, me foi
apresentada como Deus, e que sempre senti que me incentivou e esteve comigo.
v
RESUMO
Em cenários de fluxos de dados, mudança de conceito é um problema comum. Trata-se
da modificação da relação entre dados de entrada e saída na distribuição ao decorrer do tempo,
diminuindo a taxa de acerto de modelos de aprendizado de máquina. Além disso, outra condição
frequente é quando os rótulos das instâncias estão disponíveis no momento inicial. Esse
cenário é conhecido como latência de verificação extrema (LVE). Desta forma, é necessário
que os modelos de aprendizado de máquina sejam capazes de serem atualizados sem ser preciso
receber os rótulos ao longo do tempo. Portanto, visando lidar com esses dois problemas
relevantes, propusemos dois métodos de seleção dinâmica de instâncias que trabalham em
conjunto com o método AMANDA, que é um algoritmo do estado da arte para cenários de
mudança de conceito com LVE. Os métodos de seleção de instâncias fazem isso comparando a
distribuição atual e a passada usando uma modificação da distância limitada de Bhattacharyya
e uma versão modificada da distância de Hellinger aliado ao algoritmo de KDE. Estas distâncias
estatísticas são aplicadas para estimar a melhor porcentagem de instâncias a excluir.
Verificamos que ambos métodos propostos melhoraram a performance do AMANDA em 6 de
20 conjuntos de dados de acordo com o macro-f1. Embora os resultados tenham sido
estatisticamente similares, nossos resultados indicam que os novos métodos de seleção
dinâmica de instâncias melhoram significativamente modelos semi-supervisionados em
cenários com mudanças de conceito e condições de LVE.
Palavras-chave: Mudança de conceito, Seleção de instâncias, latência de verificação extrema.
vi
ABSTRACT
In data stream scenarios, the concept drift is a common problem. It refers to a
modification in the relations between input and output data in the distribution over time,
decreasing the accuracy of machine learning (ML) models. Besides, another frequent condition
is when the instances’ labels are only available in the initial setting. This scenario is known as
extreme verification latency (EVL). Thus, it is necessary for ML models to be able to be updated
without the necessity of receiving the labels over time. Therefore, aiming to deal with these two
relevant problems, we proposed two dynamic instance-selection methods to work along
AMANDA method, a state of the art algorithm for concept drift scenarios with EVL. The
instance-selection methods do that comparing the actual and the past distributions by using a
modification of the bounded Bhattacharyya distance and a modified Hellinger distance along
with the KDE algorithm. These statistical distances are applied to estimate the best percentage
of instances to exclude. Hence, both proposed methods improved the AMANDA performance
in 6 out of 20 datasets regarding the average macro-f1. Even though the results are statistically
similar, our findings indicate that our new instance-selection methods significantly improve
semi-supervised models under scenarios with concept drift and EVL conditions.
Keywords: Concept drift, Instance selection, Extreme verification latency.
vii
SUMÁRIO
1. Introdução ............................................................................................................................... 1
1.1. Motivação ....................................................................................................................... 1
1.2. Justificativa ..................................................................................................................... 2
1.3. Objetivos ......................................................................................................................... 3
1.4. Metodologia e Trabalho Realizado ................................................................................. 3
1.5. Organização do Trabalho ................................................................................................ 4
2. Fundamentos Teóricos ............................................................................................................ 5
2.1. Ambientes Não Estacionários ......................................................................................... 5
2.2. Mudança de Conceito ..................................................................................................... 6
2.3. Técnicas de Abordagem para Mudança de Conceito ...................................................... 8
2.3.1. Métodos Ativos ..................................................................................................... 8
2.3.2. Métodos Passivos ................................................................................................ 10
2.4. Aprendizado de Máquina Semi-supervisionado ........................................................... 11
2.5. Comparações de Distribuições Estatísticas ................................................................... 12
2.5.1. Distância de Hellinger ........................................................................................ 13
2.5.2. Distância de Bhattacharyya Limitada ................................................................. 14
3. Proposta ................................................................................................................................ 16
3.1. AMANDA .................................................................................................................... 16
3.1.1. AMANDA-FCP .................................................................................................. 17
3.1.2. AMANDA-DCP ................................................................................................. 19
3.2. Métodos de Seleção Dinâmica de Instâncias ................................................................ 20
3.2.1. Hellinger Distance Drift Detection Method Modificado Implementação
Original ......................................................................................................................... 22
3.2.2. Hellinger Distance Drift Detection Method Modificado Implementação Nova
...................................................................................................................................... 23
3.2.3. Bounded Battacharyya Distance ........................................................................ 24
4. Experimentos ........................................................................................................................ 25
4.1. Metodologia .................................................................................................................. 25
4.1.1. Conjuntos de Dados ............................................................................................ 25
4.1.2. Configuração ....................................................................................................... 27
4.1.3. Validação e Métricas .......................................................................................... 28
4.2. Resultados ..................................................................................................................... 29
4.2.1. Análise da Porcentagem de Corte dos Modelos Dinâmicos ............................... 29
4.2.2. Conjunto Sintético 2CDT ................................................................................ 31
4.2.3. Conjunto Sintético 4CRE-V2 .......................................................................... 34
4.2.4. Conjunto Sintético UG-2C-2D ........................................................................ 37
4.2.5. Conjunto Sintético MG-2C-2D ........................................................................ 40
4.2.6. Conjunto Sintético UG-2C-3D ........................................................................ 43
4.2.7. Conjunto Sintético UG-2C-5D ........................................................................ 45
4.2.8. Conjunto Sintético 1Csurr ............................................................................... 48
viii
4.2.9. Conjunto Real NOAA ...................................................................................... 51
4.2.10. Conjunto Real Electricity (ELEC2) ............................................................... 54
4.2.11. Conjunto Real Keyboard ............................................................................... 56
4.2.12. Resultados Gerais ............................................................................................. 59
5. Conclusão ............................................................................................................................. 63
5.1. Resumo do Problema .................................................................................................... 63
5.2. Resumo da Proposta ...................................................................................................... 64
5.3. Resumo dos Resultados ................................................................................................ 64
5.4. Principais Contribuições ............................................................................................... 65
5.5. Trabalhos Futuros ......................................................................................................... 65
Referências ............................................................................................................................... 67
1
Capítulo 1
Introdução
As técnicas de aprendizado de máquina têm se provado bem-sucedidas nos mais
diversos campos do conhecimento nos últimos anos. Grandes esforços foram feitos para
desenvolver técnicas que aprendem a desempenhar tarefas e em muitos casos chegam até a
superar o desempenho humano em determinadas tarefas. Contudo, o conhecimento se defasa
ao longo do tempo e com isso, há a necessidade de uma atualização contínua de aprendizado
[1]. Enquanto em determinados problemas, essa defasagem pode ser contornada com um
treinamento periódico de um modelo preditivo, em muitos outros casos isso não é suficiente.
Nos cenários onde isso ocorre, é dito que ocorre mudança de conceito [2]. Nesse caso, a
defasagem do conhecimento pode ocorrer de maneira mais rápida e em intervalos de tempos
indefinidos, cabe então ao modelo decidir quando e como devem se adaptar às mudanças do
conhecimento.
1.1 Motivação
Em se tratando do problema de mudança de conceito, muitos dos métodos atualmente
propostos são baseados em grupo de classificadores, ou ensembles [3, 4]. Enquanto esses são
de fato poderosos e apresentam ótimos resultados, tendem a ser mais custosos
computacionalmente, já que se trata de um grupo de classificadores que precisa ser treinado ao
invés de apenas um classificador [5, 6], além de geralmente necessitarem de uma maior
quantidade de dados para gerar bons resultados.
Em casos em que o tempo de processamento é crítico e não há muitos dados rotulados,
geralmente são utilizados algoritmos semi-supervisionados de modelos mais simples. Contudo
classificadores sofrem bastante com ruídos nos dados [7] e tendem a apresentar melhores
resultados quando treinados apenas com instâncias que são mais representativas desses dados.
Apesar de existirem alguns modelos que tentam tirar proveito da seleção de instâncias, ainda
não há na literatura muitos trabalhos que tratam disso, principalmente de seleção dinâmica e
automática de instâncias significativas.
2
O cenário de latência de verificação extrema (EVL) [8] também se mostra um cenário
pouco explorado e muito desafiador, pois a indisponibilidade de rótulos em problemas de fluxo
de dados impede o monitoramento futuro do desempenho do modelo. Não só desafiador, esse
é um cenário comum em muitos nichos em que o fluxo de dados é muito alto e o custo de
criação de rótulos é inviável ou muito caro.
Esse trabalho busca melhorar modelos capazes de lidar com mudança de conceito nesse
ambiente ainda mais difícil, também conhecido como cenário de latência de verificação extrema
[9]. O método apresentado nesse trabalho busca a melhoria de desempenho nesse cenário
através da seleção de instâncias mais importantes para o treino do modelo preditivo. Os
resultados indicam que a seleção dinâmica de instâncias é uma técnica promissora para ajudar
modelos de aprendizado de máquina a lidar com o problema de mudança de conceito.
Portanto, ainda uma extensa oportunidade de estudos que podem gerar melhoras
nesse processo, o que produzirá melhores modelos para cenários onde muitas técnicas de
mudança de conceito tendem a falhar.
1.2 Justificativa
Ao longo da busca pela solução de problemas, no âmbito da engenharia e computação,
tem sido cada vez mais utilizado uma abordagem baseada em dados. Essa abordagem já foi
aplicada com sucesso a diversos problemas de engenharia, como o reconhecimento de gases
por sensores químicos [10], predição do fluxo de massa em caldeiras de leito fluidizado
circulante (CFB) para o controle das caldeiras [11], reconhecimento de ambiente em sistemas
móveis autônomos [12], detecção de falhas em redes de comunicações móveis [13]. Isso se
deve a evolução computacional diretamente ligada ao grande volume de dados produzidos e a
capacidade cada vez maior de armazená-los, além do aumento na complexidade dos problemas,
que dificultam abordagens baseadas em modelagens físicas.
Uma premissa comumente utilizada em diversos problemas de predição é que a
distribuição dos dados é estática ao longo do tempo. Contudo, em problemas reais isso quase
nunca ocorre, e assim essa premissa compromete significativamente o desempenho de modelos
e os tornam rapidamente obsoletos, como é o caso dos problemas citados no parágrafo anterior,
que apresentam melhores resultados por se utilizarem de técnicas adaptam o modelo a
mudanças nas distribuições dos dados.
3
Não é incomum que trabalhos também assumam a disponibilidade dos rótulos de todas
as instâncias em tempo real. Esse claramente se trata de um cenário incomum em problemas de
fluxo de dados. Quando somente os rótulos do modelo inicial estão disponíveis, é dito que se
trata de um cenário de EVL, e esse foi considerado um dos desafios em aberto em problemas
de mineração de dados em fluxo por Krempl et al. [8]. Também se trata de um problema
explorado em poucos trabalhos anteriores.
1.3 Objetivos
Melhorar o desempenho de modelos de aprendizado de máquina em conjuntos de dados
com mudança de conceito através da utilização de métodos dinâmicos de seleção de instâncias
em cenários de latência de verificação extrema. Isso será feito através do estudo das formas
existentes de seleções instâncias e de distâncias estatísticas, de modo a mensurar o grau de
mudança de conceito. Por fim, será proposto um novo método de seleção dinâmica de
instâncias.
1.4 Metodologia e Trabalho Realizado
Após a realização de toda a pesquisa bibliográfica, foi escolhido e utilizado um método
de comparação estatística de distribuições para selecionar as melhores instâncias de uma
distribuição, visando captar melhor mudanças de conceitos, e retreinar o modelo em problemas
de fluxo de dados. Para a avaliação de desempenho do método, ele foi testado em bases de
dados com mudança de conceito que são frequentemente utilizadas em pesquisas da área, e o
desempenho do método foi determinado utilizando as métricas mais adequadas ao tipo de
problema e ao tipo de dados, levando em consideração o desbalanceamento dos dados e número
de classes existentes.
O primeiro método proposto utilizou a Bounded Bhattacharyya distance [14] como
método de distância estatística para comparação das distribuições de dois batches consecutivos,
em seguida selecionar dinamicamente as instâncias mais importante com o kernel density
estimation [15], que é um algoritmo aplicado com sucesso a esse problema em trabalhos
anteriores [8, 9]. Também foi proposto uma versão modificada do método proposto por Ferreira,
Zimbrão e Alvim [6] para a seleção dinâmica das instâncias.
4
Foi utilizado o método AMANDA [6] para o teste dos métodos propostos, por se tratar
do estado da arte para problemas de mudança de conceito e cenário de EVL, além de possuir
uma etapa de seleção de instâncias. Existem duas variações do AMANDA, o AMANDA-FCP,
que possui uma porcentagem fixa de exclusão de instâncias e o AMANDA-DCP, que possui
um método dinâmico que aproxima a quantidade ideal de instâncias a serem excluídas
utilizando a distância estatística de Hellinger.
Com relação as métricas, é analisada a acurácia para os dados balanceados apenas, por
não ser adequada a utilização quando desbalanceamento [17]. Para dados balanceados e
desbalanceados, é utilizado o macro-averaged F1-score, ou macro-f1, por dar a mesma
importância a todas as classes, independente do balanceamento dos dados [6, 17].
Os resultados mostram que o AMANDA-DCP-Hellinger2 e o AMANDA-DCP-BBD-1
foram melhores que o AMANDA-DCP utilizando o macro-f1 como trica em 13 dos 20
conjuntos de dados. Apesar de possuírem um rank médio maior que o AMANDA-DCP e menor
que o AMANDA-FCP, se equiparam estatisticamente com ambos métodos, como mostrado na
Figura 1.
Figura 1: Teste post hoc de Nemenyi comparando o desempenho dos métodos. Fonte: autor.
1.5 Organização do Trabalho
No capítulo 2, será definido o que caracteriza um ambiente não estacionário, o problema
de mudança de conceito e seus tipos de acordo com a literatura. Será falado sobre
classificadores semi-supervisionados, especialmente dentro do contexto de como eles são
usados em problemas de mudança de conceito e, finalmente, sobre distâncias estatísticas. No
capítulo 3, são descritos com mais detalhes o funcionamento das duas variações do AMANDA,
que é o modelo base utilizado, e será feito a proposta de modificação no método de seleção
dinâmica dele. No capítulo 4, são apresentados como foram conduzidos os experimentos e os
resultados apresentados por ele. No capítulo 5, é feito um resumo do problema e dos resultados
obtidos, além de apresentar possíveis linhas de trabalhos futuros para abordagem do problema
estudado.
5
Capítulo 2
Fundamentos Teóricos
O processo de seleção dinâmica de instâncias se relaciona com diversos tópicos, e por
isso, nesse capítulo é feito um estudo de cada um desses tópicos e de pesquisa bibliográfica
com principais trabalhos que os envolvem. Aqui é contextualizado o que é um ambiente não
estacionário e como este se relaciona com o problema de mudança de conceito (concept drift).
Sendo mudança de conceito o problema fundamental que se relaciona com o método a ser
proposto, esse tópico é estudado mais a fundo para compreender os tipos de mudança de
conceito e as diversas abordagens vigentes. Então, são tratados técnicas semi-supervisionadas
que são utilizadas em problemas de mudança de conceito quando os rótulos não estão sempre
disponíveis para o treino. Por fim, são pesquisados métodos de distância estatística que
permitem dimensionar a diferença entre a distribuição de dois batches consecutivos num
cenário de fluxo de dados.
2.1 Ambientes Não Estacionários
Segundo Karnic et al. [18], um ambiente não estacionário é aquele em que a distribuição
dos dados relacionados a uma variável é diferente em dois instantes de tempo consecutivos, e
por consequência, ocorre nos dados um fenômeno chamado mudança de conceito.
Frequentemente, em aplicações reais o ambiente é não estacionário, devido ao método de
geração dos dados em si ser um fenômeno intrinsicamente não estacionário. Seria esse o caso
de fenômenos sazonais ou periódicos, mudanças de gostos e hábitos, falhas de software ou
hardware que afetam o sistema e envelhecimento dos sensores [19].
Ambientes não estacionários são comumente associados a problemas onde a aquisição
de dados ocorre por fluxo de dados, ou streaming em inglês. Ou seja, há uma geração contínua
de dados provenientes de diversas fontes. Em aplicações que envolvem sensoriamento [10], por
exemplo, diversos fatores, como envelhecimento e fatores ambientais, podem modificar a
resposta dos sensores ao fenômeno mensurado, e consequentemente a distribuição dos dados
gerados.
6
Dados não estacionários também ocorrem em problemas de previsão que dependem de
variáveis inerentemente não estacionárias, a previsão de produção energética de turbinas de
energia eólica [20] por exemplo, depende da velocidade do vento, que é um fenômeno que
muda suas características ao longo do tempo.
A intervenção humana no processo de geração dos dados também são fontes comuns de
não estacionaridade, é o caso de aplicações que envolvem detecção de spam em e-mails [21],
onde características dos spams estão sempre em mudança para superar os métodos vigentes de
detecção, e classificação de sentimento em dados textuais [22], onde o vocabulário usado para
expressar sentimento positivo e negativo se modificam ao longo do tempo. Esses cenários
representam grandes desafios para a criação de modelos preditivos, que precisam se adaptar as
mudanças que ocorrem nos dados para manterem suas predições válidas.
2.2 Mudança de Conceito
Em ambientes não estacionários, a mudança da distribuição dos dados pode gerar
mudança de conceito (concept drift). As causas dessas mudanças podem ser várias. Em sistemas
de recomendação, os gostos dos usuários se modificam ao longo do tempo e produtos que antes
eram atrativos para um determinado usuário podem deixar de ser após algum tempo. Mudança
de conceito [2] é definido matematicamente como:

(1)
Onde são as variáveis independentes, é o rótulo ou variável discreta que busca-se
prever,  é a distribuição de probabilidade conjunta no instante e  é a distribuição de
probabilidade conjunta no instante consecutivo.
Para compreender o problema de mudança de conceito é importante saber os tipos
existentes, já que esse é um fator determinante para decidir que abordagem utilizar para adaptar
o modelo. Ocasionalmente, a mudança de conceitos em uma base é atribuída a contextos ocultos
(hidden contexts) [23], o que significa que a existência de atributos não expostos nos dados faz
com que o modelo não esteja ciente de contextos que influenciam no problema, e
consequentemente sofra de mudança de conceito.
Do ponto de vista temporal, mudanças de conceitos recorrentes se referem à quando os
mesmos conceitos reaparecem periodicamente. Esse tipo ocorre, por exemplo, quando se busca
realizar previsão do tempo, uma vez que condições de temperatura ou de outras variáveis
7
meteorológicas são aproximadamente anualmente cíclicas, ou seja, valores atuais são
semelhantes a leituras realizadas em anos passados no mesmo período do ano.
Além disso, mudanças de conceitos podem ser abruptas, graduais ou incrementais.
Quando abruptos, entre dois instantes de tempo e a distribuição dos dados muda
significativamente. Quando graduais, a distribuição dos dados muda lentamente ao longo do
tempo. A Figura 2 ilustra a diferença entre os tipos de mudança de conceito. Por exemplo,
alguém que acabou de se graduar na faculdade passa a ter preocupações monetárias
completamente diferentes, enquanto uma peça de um equipamento de fábrica se desagastando
lentamente pode causar uma mudança gradual na qualidade das partes de produto final [4].
Mudanças de conceitoss incrementais apresentam diversos conceitos no período de mudança
de um conceito para outro, como é o caso de um sensor que se desgasta ao longo do tempo,
comprometendo sua precisão [19].
Figura 2: Tipos de mudança de conceito [2].
Mudanças de conceitos ainda podem ser caracterizados como reais ou virtuais.
Mudanças de conceito virtuais ocorrem quando somente a distribuição dos dados p(X) muda,
mas a distribuição de probabilidade a posteriori p(y|X) continua a mesma. Por exemplo, o caso
de classificação de spam, onde os tipos de spam durante um longo período de tempo podem ser
os mesmos, mas a frequência em que cada um aparece pode mudar ao longo do tempo [24].
Nesses casos, a atualização do modelo preditivo se faz necessária pois o desempenho dele pode
decrescer mais que o limite desejado para uma determinada aplicação. Já mudanças de conceito
reais, apresentam uma mudança da distribuição de probabilidade a posteriori p(y|X) que pode
vir acompanhado ou não da mudança da distribuição dos dados p(X). A fronteira de decisão do
modelo anterior, portanto, já não será mais adequada aos novos conceitos e o modelo precisa
ser atualizado. A Figura 3 mostra a diferença entre mudanças reais e virtuais.
8
Figura 3: Mudança de conceito real e virtual [2].
É importante ressaltar que diferentes mudanças de conceitos podem estar presentes em
diferentes níveis em uma mesma base de dados, ocorrendo simultaneamente ou em intervalos
de tempos distintos.
2.3 Técnicas de Abordagem para Mudança de Conceito
Como já foi mostrado na seção 2.2, mudanças de conceitos podem ser classificadas de
diversas formas, e variam quanto a sua origem, velocidade de mudança e diversos outros
fatores. Existem atualmente diversos algoritmos e técnicas que visam a atualização de modelos
preditivos que sofrem de mudança de conceito, porém técnicas distintas são mais apropriadas
para determinados tipos de mudanças. Além disso, essas técnicas variam quanto a
complexidade dos modelos, e consequente tempo necessário de treinamento e tempo de
predição, fazendo com que o contexto em que será usada também seja de grande importância.
Uma primeira distinção importante a se fazer é entre métodos ativos e passivos. Métodos
ativos contam com alguma forma de detecção de mudança de conceito que gera um sinal
quando essa mudança é detectada, e então um novo modelo é treinado ou o modelo atual é
atualizado para se adaptar aos novos conceitos. Métodos passivos contam com um determinado
modelo que é constantemente retreinado para que o modelo esteja sempre atualizado de acordo
com os dados recentes.
2.3.1 Métodos Ativos
Métodos ativos de modelos adaptáveis requerem a utilização de um método de detecção
de mudanças e um mecanismo de adaptação do modelo, conforme é ilustrado na Figura 4.
9
Figura 4: Estrutura dos métodos ativos [19].
Na Figura 4, as setas pretas representam o processo de classificação, as setas azuis
representam o processo de detecção de mudanças, e as vermelhas, o processo de atualização do
modelo assim que a mudança é detectada. A etapa de extração dos atributos permite selecionar
quais atributos dos dados de entrada são utilizados para detectar as mudanças de conceitos e
quais são utilizados para a classificação.
Os métodos de detecção de mudanças podem seguir dois esquemas distintos. O primeiro
se baseia em monitorar métricas de desempenho do modelo. Uma vez que o modelo passa a
acertar cada vez menos na predição de novas instâncias, indicando que o modelo precisa ser
modificado, pois a distribuição dos dados para a qual foi treinado para prever já foi modificada.
Para ser possível fazer esse monitoramento, é necessário ter os rótulos reais para verificar a
assertividade do modelo, e não é incomum que isso não seja possível em problemas reais. É o
caso do EDDM [25], que utiliza a distância entre erros de classificação para detectar mudança
de conceito.
O segundo método monitora a distribuição estatística dos dados, e compara a
distribuição das variáveis no instante atual com a distribuição passada, e dessa forma busca
determinar se houve mudança no processo de geração dos dados em si. Assim, sempre que essas
distribuições são significativamente distintas, é disparado um alarme para a atualização do
modelo. Isso pode ser feito de diversas formas, como monitorar a média e variância das
amostras conforme é feito por Bifet e Gavaldà [26], por exemplo.
Certos métodos, como o proposto por Alippi, Boracchi e Roveri [27], optam por utilizar
simultaneamente os dois métodos, monitorando a distribuição dos dados e a relação deles com
10
os rótulos. Utilizar essa abordagem permite detectar de forma mais completa mudanças de
conceitos, mesmo que não haja mudança significativa na distribuição dos atributos como seria
o caso da inversão de conceitos, porém exige que haja a disponibilidade dos rótulos reais, o que
muitas vezes não é possível.
Os mecanismos de adaptação do modelo podem ser divididos em três tipos principais.
O primeiro é o de utilização de janelas deslizantes de treino que modificam seu tamanho,
consequentemente as instâncias presentes na janela, toda vez que mudanças são detectadas. O
segundo é o de pesagem de instâncias, onde para cada instância é atribuído um peso de acordo
com a idade e com a relevância dela, e sempre que uma mudança é detectada os pesos são
atualizados e o modelo é retreinado. O terceiro mecanismo é o de amostragem, e nele sempre
que uma mudança é detectada, são selecionadas as instâncias mais pertinentes ao novo conceito
entre as disponíveis.
2.3.2 Métodos Passivos
Métodos passivos não possuem nenhum tipo de detecção de mudança de conceito,
portanto, é assumido que as instâncias mais recentes são a que melhor representam os conceitos
existentes nos dados. Sendo assim, os modelos são sempre atualizados com as instâncias mais
recentes. Existem dois tipos básicos, com apenas um modelo preditivo ou com vários modelos,
também conhecidos como ensembles.
O uso de somente um modelo torna essas técnicas menos computacionalmente custosas
e adequadas para aplicações que precisam lidar com um alto fluxo de dados. Hulten et al. [28]
por exemplo, utiliza uma versão modificada de árvores de decisões (CVFDT) que são mais
eficientes para lidar com alto fluxo de dados e que se adaptam a mudança de conceitos
utilizando janelas deslizantes de treino adaptáveis.
Grupos de classificadores, ou ensembles, costumam apresentar maior taxa de acerto,
mas por outro lado, exigem maior poder computacional. Elwell e Polikar [3], por exemplo,
criam um novo modelo para todo novo lote de instâncias, e realizam uma votação com pesos
de cada modelo que são dinamicamente atualizados baseados na taxa de acerto de cada um no
ambiente atual e em ambientes passados.
11
2.4 Aprendizado de Máquina Semi-supervisionado
Em aprendizado de máquina semi-supervisionado, algoritmos tiram proveito não
somente dos dados rotulados, mas também de dados não rotulados para melhorar a acurácia do
modelo. Isso é vantajoso, pois, em muitos problemas, exige grande esforço rotular todas as
instâncias para o treino, e em certos casos simplesmente não é possível.
Em problemas que sofrem de mudança de conceito, a demora na obtenção dos rótulos
torna o problema ainda mais complexo, e se trata de um cenário comum em aplicações com
fluxo contínuo de dados. Em casos mais extremos, os rótulos estão disponíveis no treino
inicial dos dados, e posteriormente, todas as instâncias não possuirão rótulos. Esse tipo de
problema é denominado cenário de latência de verificação extrema (EVL, do inglês Extreme
Verification Latency).
A utilização de técnicas de extração de instâncias centrais (CSE, do inglês, Core Support
Extraction) aliada ao uso de algoritmos semi-supervisionados produz um ganho considerável
de acerto em problemas de mudança de conceito [16]. Sendo assim, em modelos de um único
classificador, costuma-se utilizar essas duas técnicas para obter melhores resultados.
Existem alguns métodos para lidar com mudança de conceito em cenários de EVL
utilizando algoritmos semi-supervisionados. Compacted object sample extraction [9], também
chamado de COMPOSE, é uma dessas técnicas. No COMPOSE, são recebidas instâncias “L”
com rótulos inicialmente e o modelo é treinado utilizando o algoritmo semi-supervisionado
label propagation [29], apesar de a técnica permitir utilizar outros algoritmos semi-
supervisionados. Em seguida, instâncias sem rótulos “U” são recebidas e classificadas (são
rotuladas), e então são incluídas no conjunto de instancias com rótulos “L”. Após isso, é
utilizada uma técnica de CSE para selecionar apenas as instâncias mais importantes, e o modelo
é então retreinado com essas instâncias, e assim o processo se repete ao receber novas instâncias
sem rótulos em iterações subsequentes.
Na primeira versão do COMPOSE, é utilizado compactação com α-shape, e na segunda
é utilizado Gaussian mixture models (GMM) e distância de Mahalanobis para extrair as
instâncias mais importantes, e com isso foi possível um ganho substancial de tempo de
execução. As principais desvantagens do COMPOSE são que ele assume que a distribuição dos
dados é uma mistura de Gaussianas, o que quase nunca é verdade [9] e apesar da redução do
tempo de execução ao utilizar GMM, ainda assim, é um método com alto custo computacional,
12
pois em cada batch é preciso aprender um conjunto de modelos de mistura de gaussianas, o que
possui um alto tempo de processamento [6].
Density-based adaptive model for non-stationary data [6], também chamado de
AMANDA, difere do COMPOSE no método CSE utilizado. Enquanto COMPOSE utiliza
GMM e distância de Mahalanobis para selecionar as instancias mais importantes da amostra,
AMANDA utiliza KDE (kernel density estimation) e a distância de Hellinger. Além disso,
AMANDA possui duas variações, AMANDA-FCP e AMANDA-DCP. AMANDA-FCP utiliza
um percentual de corte fixo, sendo assim, possui um parâmetro α que determina a porcentagem
de instâncias a serem descartadas e que precisa ser calibrado, isto é, testar diferentes valores
experimentalmente para encontrar o que produz melhores resultados. AMANDA-DCP utiliza
um percentual de corte dinâmico baseado em comparações estatísticas entre duas distribuições.
Assim, o parâmetro α não é escolhido e sim calculado dinamicamente utilizando uma versão
modificada do método HDDDM [30].
AMANDA-DCP possui a vantagem de não necessitar de nenhum parâmetro que deve
ser testado com múltiplos valores para encontrar o valor ótimo. Contudo, AMANDA-FCP
apresentou melhores resultados que AMANDA-DCP, o que indica uma necessidade de melhor
investigação do método de cálculo da porcentagem de instâncias a serem descartadas, isto é,
um aperfeiçoamento do método de comparação das distribuições.
2.5 Comparações de Distribuições Estatísticas
Compara-se distribuições estatísticas sempre que há duas amostras de uma população e
deseja-se verificar se essas duas amostras possuem a mesma distribuição de probabilidade ou
não. Existem diversos testes estatísticos que permitem confirmar ou rejeitar a hipótese de as
amostras possuírem a mesma distribuição e atribuir um grau de certeza à resposta obtida.
Testes não-paramétricos são frequentemente usados para essa tarefa, uma vez que não
assumem que os dados das amostras sigam nenhuma distribuição estatística em específico. Por
isso, podem ser utilizados mais facilmente, já que dificilmente dados reais seguem distribuições
parametrizadas conhecidas. O teste de KolmogorovSmirnov [31] é um exemplo de teste não-
paramétrico em que se compara a função de distribuição de duas amostras e a partir da maior
distância entre elas é verificado se ambas as amostras possuem a mesma distribuição.
Existem outros métodos, conhecidos como divergência estatística, que resultam em um
valor que diz o quão distante são as duas amostras. A Distância de Hellinger já foi utilizada
13
para a detecção de concept drift, por exemplo no método chamado de HDDDM [30], e se trata
de uma distância com valores mínimo e máximo definidos e é simétrica, o que significa que
para duas distribuições P e Q, a distância de Hellinger . Distância de
Bhattacharyya é simétrica, e ilimitada tendo seus valores definidos no intervalo , e é
extensamente utilizada para seleção de sinais e reconhecimento de padrões [32]. A distância de
Bhattacharyya limitada (BBD, do inglês, Bounded Bhattacharyya Distance) [14] é na verdade
uma família de distâncias com um parâmetro α que diferencia cada uma, e foi proposta de forma
a obter uma medida de divergência estatística semelhante a distância de Bhattacharyya, porém
limitada em um intervalo [0,1].
2.5.1 Distância de Hellinger
Ditzler e Polikar [30] propuseram uma adaptação da distância de Hellinger para a
detecção de mudança de conceito. A partir de duas amostras que se desejam comparar, o cálculo
da distância de Hellinger começa com a construção dos histogramas e com número de
classes , onde é a quantidade de instâncias na amostra. A distância de Hellinger é
então a média aritmética da distância calculada para cada um dos atributos, conforme é
mostrado na Equação 2.


 




(2)
Onde d é o número de atributos dos dados, b é o número de classes do histograma, e
 e  são as contagens de frequências de cada classe do histograma, para um dado atributo
. Essa adaptação da distância de Hellinger permite calcular um valor que represente a distância
entre as duas amostras para o caso de elas possuírem um ou mais atributos, além disso a
utilização de histogramas produz uma aproximação rápida da distribuição de cada um dos
atributos.
14
2.5.2 Distância de Bhattacharyya Limitada
A distância de Bhattacharyya limitada [14] é definida em função do coeficiente de
Bhattacharyya que, para duas distribuições e com funções de densidade de probabilidade
e , será:

(3)
Então, a distância de Bhattacharyya limitada será:


(4)
Sabendo que o coeficiente de Bhattacharyya representa uma medida aproximada de
sobreposição das duas amostras, temos que indica sobreposição completa das
distribuições e que e portanto são muito semelhantes, enquanto indica nenhuma
sobreposição e que e são muito diferentes. Onde , ,
sendo e .
É possível fazer a mesma adaptação utilizada na distância de Hellinger, utilizando a
distância de Bhattcharyya limitada. Sendo assim, construindo histogramas e para
aproximar a distribuição de cada atributo das amostras, o coeficiente de Bhattacharyya pode ser
reescrito conforme mostra a Equação 5.


 




(5)
Em que d é o número de atributos dos dados, b é o número de classes do histograma, e
 e  são as contagens de frequências de cada classe do histograma, para um dado atributo
. E assim, a distância limitada de Bhattacharyya limitada pode ser calculada conforme a
Equação 4.
Diferentes valores de resultam em diferentes distâncias, todas limitadas no intervalo
. Na Figura 5, é possível observar como diferentes valores de resultam em uma distância
diferente para um mesmo valor do coeficiente de Bhattacharyya entre duas amostras. Na
legenda da Figura 4, DH é a abreviação de distância de Hellinger, e foi incluída na comparação
apesar de ser uma distância diferente da distância de Bhattcharyya limitada.
15
Figura 5: Comparação de curvas de distância de Bhattcharyya limitada para diferentes
valores de . Fonte: autor.
Para valores de , obtêm-se uma resposta mais conservadora de distância, ou seja,
para duas amostras serem consideradas estatisticamente distantes, é necessário que a
sobreposição das duas amostras seja muito baixa, o que resultará em valores mais baixos de
distâncias no geral. Para valores de , o contrário acontece, e para duas amostras serem
consideradas estatisticamente próximas, é necessário que a sobreposição das duas amostras seja
muito alta, o que resultará em valores mais altos de distâncias no geral.
16
Capítulo 3
Proposta
Neste capítulo, é detalhado o funcionamento da implementação original do AMANDA,
que foi o método base escolhido para testar o método de seleção de instâncias. Também é
descrito como o AMANDA realiza a seleção de instâncias, tanto em sua versão com
porcentagem fixa de exclusão quanto sua versão com seleção dinâmica de instâncias. E ainda
no caso da versão com seleção dinâmica, é descrito o processo de cálculo dinâmico realizado
por ele baseado na distância de Hellinger. Em seguida é detalhado o funcionamento de dois
métodos propostos de seleção dinâmica, um deles é uma modificação direta do método utilizado
pelo AMANDA-DCP, enquanto o outro utiliza a distância de Bhattacharyya limitada detalhada
no capítulo anterior.
3.1 AMANDA
Em sua forma original, conforme ilustrado na Figura 5, o framework AMANDA possui
5 passos. Inicialmente, são recebidas instâncias iniciais rotuladas. No passo seguinte, são
recebidas instâncias não rotuladas. Em seguida, o classificador, classifica as instâncias não
rotuladas baseando-se nas instâncias rotuladas. Nesse momento, é utilizado algum método de
CSE para pesagem de cada instância, sendo assim, instâncias em regiões mais densas recebem
um peso maior. Por fim, um processo de filtragem, ou seleção de instâncias, é utilizado, e
baseando-se no peso atribuído pelo método de CSE, uma porcentagem das instâncias é mantida
e o resto é descartado. Após esse processo, retorna-se ao passo dois e é recebido um novo
conjunto de instâncias não rotuladas e então os passos consecutivos se repetem.
O passo 5, onde ocorre a seleção das instâncias, é onde o AMANDA-FCP e AMANDA-
DCP diferem. AMANDA-FCP terá um parâmetro livre fixo α com a porcentagem de instâncias
a ser descartadas, enquanto AMANDA-DCP calcula automaticamente esse parâmetro α em
cada instante. É também nesse passo em que diferentes métodos de seleção de instâncias serão
propostos.
17
Figura 6: Passo-a-passo do funcionamento do AMANDA [6].
O AMANDA permite que as etapas de pesagem e filtragem das instâncias sejam feitas
utilizando instâncias do batch anterior e do batch atual ou somente do batch atual. Dependendo
do problema, um método pode funcionar melhor que o outro.
3.1.1 AMANDA-FCP
O AMANDA com porcentagem fixa de corte (AMANDA-FCP) tem seu funcionamento
detalhado no Algoritmo 1. Ele utiliza um classificador semi-supervisionado, que nesse caso
será o label propagation, e um método de CSE, em que será usado o KDE.
18
Algoritmo 1 AMANDA - FCP
Entradas: Dados rotulados ; dados não rotulados ; classificador ; porcentagem de
corte α
Saídas: Classificador atualizado ; Rótulos y para cada 
1
2
3
4
5
6
7
8
9
10
11
12

 

 


)






O primeiro passo é o recebimento de um conjunto de dados rotulados , o classificador
semi supervisionado , um conjunto de dados não rotulados , e o valor do parâmetro α que
define qual a porcentagem de instâncias serão eliminadas.
Para cada batch t, utiliza-se os dados rotulados do batch anterior, onde  consiste
nos valores de cada atributo para cada instância do batch e  são os rótulos de cada uma
dessas instâncias. Na linha 4, o classificador é treinado utilizando os dados rotulados do batch
anterior, e em seguida classifica os dados não rotulados na linha 5, que, portanto, passam a
ter os rótulos atribuídos a cada instância previamente não rotulada. O conjunto de dados e
seus respectivos rótulos do batch atual são guardados em na linha 6. Ambos conjuntos
rotulados do batch atual e do batch anterior  o unidos e passam pelo processo de
pesagem realizado pelo KDE. As instâncias com seus pesos são guardadas em na linha 7.
Por fim, para cada classe c, as instâncias mais densas são selecionadas pelo método σ, onde a
quantidade de instâncias mantidas será . Então as instâncias mais densas passam a ser
 na linha 10 e serão utilizadas para treino no batch seguinte e o processo se repete até
terminar todos os batches.
19
É importante ressaltar que conforme sugerido pelo autor do método, o parâmetro α deve
ser maior ou igual a 0,5, pois dessa forma a cardinalidade dos dados não cresce indefinidamente
em cada batch, e menor ou igual que 0,9, pois eliminar mais que 90% dos dados geralmente
resultará em sobreajuste dos dados, fazendo com que o modelo não generalize bem os dados.
3.1.2 AMANDA-DCP
O AMANDA com porcentagem dinâmica de corte (AMANDA-DCP) tem seu
funcionamento detalhado no Algoritmo 2. Ele utiliza um classificador semi-supervisionado,
que nesse caso será usado o label propagation, um método de CSE, em que será usado o KDE
e um método de seleção de instâncias. Na versão original, o método de seleção dinâmica de
instâncias é uma versão modificada do método HDDDM [30], que se baseia na distância de
Hellinger.
Algoritmo 2 AMANDA - DCP
Entradas: Dados rotulados ; dados não rotulados ; classificador
Saídas: Classificador atualizado ; Rótulos y para cada 
1
2
3
4
5
6
7
8
9
10
11
12
13

 

 



)






O primeiro passo é o recebimento de um conjunto de dados rotulados , o classificador
semi supervisionado , e um conjunto de dados não rotulados .
20
Para cada batch t, utiliza-se os dados rotulados do batch anterior, onde  consiste
nos valores de cada atributo para cada instância do batch e  são os rótulos de cada uma
dessas instâncias. O classificador é treinado utilizando os dados rotulados do batch anterior
na linha 4, e em seguida classifica os dados não rotulados na linha 5, que, portanto, passam
a ter os rótulos atribuídos a cada instância previamente não rotulada. A porcentagem de corte
α é calculada no método ρ na linha 7. O conjunto de dados e seus respectivos rótulos do batch
atual são guardados em . Ambos conjuntos rotulados do batch atual e do batch anterior
 são unidos e passam pelo processo de pesagem realizado pelo KDE. As instâncias com
seus pesos são guardadas em na linha 8. Por fim, para cada classe c, as instâncias mais
densas são selecionadas pelo método σ na linha 11, onde a quantidade de instâncias mantidas
será . Então as instâncias mais densas passam a ser  e serão utilizadas para treino no
batch seguinte e o processo se repete até terminar todos os batches.
3.2 Métodos de Seleção Dinâmica de Instâncias
Na implementação do AMANDA-DCP, é necessário a utilização de um método ρ de
cálculo dinâmico da porcentagem de corte α. Sua implementação está detalhada no Algoritmo
3. O método ρ deve ser capaz de comparar a distribuição dos dados rotulados do batch anterior
 e do batch atual e calcular o α com base na distância estatística entre as duas
distribuições.
21
Algoritmo 3 lculo da porcentagem de corte
Entradas: Duas distribuições  e
Saídas: Porcentagem de corte α.
1
2
3
4
5
6
7
8
9










O algoritmo recebe os dados rotulados do batch anterior  e do batch atual como
entrada. Para cada atributo, é construído o histograma hu referente ao atributo i das instâncias
do batch anterior  de  na linha 5, e o histograma hv referente ao atributo i das instâncias
do batch atual de na linha 6. O número de classes do histograma é calculado como ,
onde M é o número de instâncias no batch anterior , assim garante-se que os dois
histogramas terão o mesmo número de classes. O histograma é uma forma de aproximar a
distribuição dos dados nos dois instantes de tempo, e então calcula-se a distância estatística
através do método τ e a soma à distância acumulada h na linha 7. Após a distância ser calculada
para todos os atributos N, obtêm-se a distância acumulada h de todos os atributos, e assim a
distância final entre as duas distribuições será a distância média entre todos os atributos. O valor
da porcentagem de corte será então o valor máximo da distância, que é , subtraído da
distância média entre os atributos. Esse valor de distância é então corrigido na linha 9, para
garantir que está entre o intervalo recomendado . onde  e .
No caso do AMANDA-DCP, o método ρ de cálculo dinâmico da porcentagem de corte
α é uma versão alterada do HDDDM, que passará a ser chamado de HDDDM modificado e será
ainda mais detalhado nas seções posteriores. Essa implementação difere da implementação
original, pois nela a média das distâncias das distribuições de cada atributo é utilizada para
calcular um valor percentual da quantidade de instâncias a serem excluídas, e não para detectar
a mudança de conceito em si. Além disso, para corrigir os pontos fracos do HDDDM
22
modificado que vão ser discutidos, serão sugeridas alterações nesse método e ainda proposta a
utilização de uma nova distância nas próximas seções.
3.2.1 Hellinger Distance Drift Detection Method Modificado Implementação
Original
Na implementação original do AMANDA-DCP, o método τ é a distância de Hellinger.
O intervalo da distância de Hellinger nesse caso é . Onde entende-se que quando é 0, as
distribuições são indistinguíveis uma da outra, e quando é as duas distribuições são
completamente diferentes. Contudo, a correção do valor final de α, impede valores maiores que
0,9 e menores que 0,5. Nas próximas seções, o método original do AMANDA-DCP será
também chamado de AMANDA-DCP-Hellinger.
Além disso, na construção do histograma, garante-se que as duas distribuições possuem
o mesmo número de classes, já que o mesmo número de classes é utilizado. Porém, não há a
garantia que os intervalos de cada classe são os mesmos, e dessa forma duas distribuições
conforme ilustradas na Figura 7 são indistinguíveis e possuirão distância 0, apesar de não
possuírem nenhuma sobreposição nas suas distribuições. Isso faz com que duas distribuições
só sejam consideradas completamente distintas se uma delas não tiver nenhuma instância.
Figura 7: Histogramas de duas distribuições, onde os dados da distribuição 2 são os dados da
distribuição 1 somados com a constante 8. Fonte: autor.
23
3.2.2 Hellinger Distance Drift Detection Method Modificado Implementação
Nova
Na nova implementação da distância de Hellinger são sugeridas algumas modificações
para buscar uma melhora dos resultados. Primeiramente, o valor da distância entre as
distribuições é normalizado para estar dentro do intervalo . Portanto, distribuições
absolutamente distintas terão distância igual a 1. Nas próximas seções, esse método modificado
do AMANDA-DCP será também chamado de AMANDA-DCP-Hellinger2.
Com relação à construção dos histogramas, ao invés de utilizar somente a quantidade
de classes do histograma hu para a construção do histograma hv, utiliza-se também os mesmos
intervalos de cada classe. Desta forma, a distância de duas distribuições pode apresentar valores
mais consistentes. Na Figura 8, podemos ver como isso resolve o problema citado na seção
anterior. Vemos que mesmo distribuições com histogramas idênticos, porém deslocados são
entendidas como distribuições cada vez mais distintas a medida que o espaçamento aumenta.
Figura 8: Histogramas de duas distribuições, onde a distribuição verde é a distribuição azul
somada de uma constante. Fonte: autor.
Além disso, a utilização da distância de Hellinger apresenta a desvantagem de nada
garantir que ela relaciona da melhor forma o grau de sobreposição das distribuições com o
número de instâncias a ser descartado. Por isso, na seção seguinte também é sugerida no lugar
da distância de Hellinger a utilização da BBD, que por se tratar de uma família de distâncias, é
possível testar diversas distâncias e encontrar a que melhor relaciona o grau de sobreposição
das distribuições e o percentual de corte das instâncias.
24
3.2.3 Bounded Battacharyya Distance
Conforme dito na seção 2.5.2, a distância de Bhattacharyya limitada é na verdade uma
família de diferentes distâncias, onde cada valor de β resulta em uma distância diferente. Como
a BBD já está sempre no intervalo , a normalização não é necessária.
Os histogramas seguem a mesma lógica de criação do HDDDM modificado na nova
implementação. Como o parâmetro β resulta em diferentes distâncias, é possível testar a BBD
com diferentes valores de β e checar quais apresentam melhor resultado.
A distância de Bhattacharyya limitada é uma candidata promissora para substituir a
distância de Hellinger pois variando β, pode-se obter infinitas distâncias estatísticas que
relacionam de forma diferente o grau de sobreposição das distribuições e a porcentagem de
corte. Sendo assim, alguma delas possivelmente relaciona de forma mais adequada essas duas
grandezas que a distância de Hellinger.
25
Capítulo 4
Experimentos
Neste capítulo são descritos os experimentos. É explicada a metodologia utilizada, em
que são descritos os conjuntos de dados, métricas e configuração dos experimentos. Além disso,
são mostrados e analisados os resultados. Em alguns conjuntos de dados, a análise dos
resultados é feita de forma mais detalhada para compreender os pontos fortes e fracos de todos
os métodos. No final, os resultados dos métodos são comparados de forma global, incluindo
todos os conjuntos de dados. Todos os experimentos foram realizados em um Intel Core i7-
8550U de 1,80 GHz e 8 GB de memória RAM.
4.1 Metodologia
Esta seção relata todos os detalhes de como foram conduzidos os experimentos. É
tratado sobre todos os conjuntos de dados utilizados para a comparação dos métodos, a
otimização dos hiperparâmetros e as métricas utilizadas.
4.1.1 Conjuntos de Dados
Para avaliar o desempenho dos novos métodos de seleção de instâncias, foram
realizados testes em diferentes conjuntos de dados que são comumente utilizados em problemas
que envolvem mudança de conceito [17, 19, 24, 25, 26]. Foram usadas 17 conjuntos de dados
artificiais e 3 conjuntos de dados reais, que simulam diferentes cenários e tipos de mudança de
conceito.
Para facilitar, foram adotados acrônimos para cada um dos conjuntos de dados
artificiais, são eles: One Class Diagonal Translation (1CDT), Two Classes Diagonal
Translation (2CDT), One Class Horizontal Translation (1CHT), Two Classes Horizontal
Translation (2CHT), Four Classes Rotating Separated (4CR), Four Classes Rotating with
Expansion V1 (4CRE-V1), Four Classes Rotating with Expansion V2 (4CRE-V2), Five Classes
Vertical Translation (5CVT), One Class Surrounding another class (1CSurr), Four Classes
Expanding and One Class Fixed (4CE1CF), Two Bidimensional Unimodal Gaussian Classes
26
(UG-2C-2D), Two Bidimensional Mulitimodal Gaussian Classes (MG-2C-2D), Two
Bidimensional Classes as Four Gaussians (FG-2C-2D), Two 3-dimensional Unimodal
Gaussian Classes (UG-2C-3D), Two 5-dimensional Unimodal Gaussian Classes (UG-2C-5D),
Two Rotating Gears (GEARS-2C-2D) e Rotating Checkerboard (Checker).
Os conjuntos de dados reais são 3: NOAA, Eletricity (ELEC2) e Keyboard.
De todos os conjuntos de dados apenas 3 possuem classes desbalanceadas: 1Csurr, NOAA e
Eletricity. Além disso, a maior parte dos conjuntos de dados utilizados possuem apenas duas
classes e dois atributos (colunas). Um total de 5 conjuntos de dados são exceção, e apresentam
mais que duas classes (4CR, 4CRE-V1, 4CRE-V2, 5CVT, 4CE1CF e Keyboard) e 5 conjuntos
de dados apresentam mais de 2 atributos (UG-2C-3D, UG-2C-5D, NOAA, Electricity e
Keyboard). É importante destacar que os conjuntos de dados artificiais foram construídos de
forma que cada um deles apresenta um ou mais tipos diferentes de mudanças de conceitos, o
que permite compreender melhor os pontos fracos e fortes de cada modelo testado.
A tabela 1 sintetiza as propriedades de cada conjunto de dados, onde classes indica o
número de classes, atributos é o número de atributos, instâncias é o número total de instâncias
e Mudança apresenta a quantidade de instâncias que apresentam mudança de conceito.
O primeiro conjunto de dados real na tabela é fornecido pela U.S. National Oceanic and
Atmospheric Administration (NOAA) com dados diários recolhidos de mais de 9000 estações
meteorológicas espalhadas ao redor do mundo com atributos referentes diversas características
climáticas, e as duas classes que se deseja prever é se vai chover ou não.
O segundo conjunto de dados real é o Electricity Market Dataset coletado pelo
Australian New South Wales Electricity Market. Esse conjunto de dados foi primeiro descrito
em [35], e ele contém informações do preço da energia elétrica em Nova Gales do Sul,
Austrália. O preço é comandado por demanda e procura, além de ser influenciado por outros
fatores não explicitamente presentes nos dados, como condições climáticas, e que resultam no
surgimento de contextos ocultos, gerando mudança de conceito. O objetivo é prever se o preço
irá subir ou descer em um intervalo de 24 horas. Essa é uma versão pré-processada dos dados
originais correspondente a maio de 1996 a dezembro de 1998.
O terceiro conjunto é o Keyboard, que busca autenticar um usuário pelo padrão de
digitação do mesmo, adicionando uma nova camada de segurança. Esse conjunto de dados foi
construído a partir do conjunto de dados da Carnegie Mellon University em [36], e o objetivo
é distinguir entre 4 participantes que digitaram a mesma senha em 8 sessões diferentes e que
aconteceram em dias distintos.
27
Tabela 1: Propriedades principais de cada conjunto de dados
Conjunto de Dados
Classes
Atributos
Instâncias
Mudança
1CDT
2
2
16000
400
2CDT
2
2
16000
400
1CHT
2
2
16000
400
2CHT
2
2
16000
400
4CR
4
2
144400
400
4CRE-V1
4
2
125000
1000
4CRE-V2
4
2
183000
1000
5CVT
5
2
40000
1000
1CSurr
2
2
55283
600
4CE1CF
5
2
173250
700
UG-2C-2D
2
2
100000
2000
MG-2C-2D
2
2
200000
2000
FG-2C-2D
2
2
200000
2000
UG-2C-3D
2
3
200000
2000
UG-2C-5D
2
5
200000
2000
GEARS-2C-2D
2
2
200000
2000
Checker
2
2
60000
300
NOAA
2
8
18159
Desconhecido
ELEC2
2
5
45312
Desconhecido
Keyboard
4
10
1600
200
4.1.2 Configuração
Os experimentos foram realizados com a simulação de um cenário de dados em batch,
o que significa que o conjunto de dados total foi dividido em diversos grupos menores que
chegam sequencialmente em ordem cronológica e são classificados. Inicialmente o modelo
começa com 5% dos dados para a criação do modelo inicial, e os outros 95% dos dados são
divididos em batches.
28
Apesar do AMANDA e dos modelos testados suportarem qualquer classificador semi-
supervisionado, não é o objetivo deste trabalho estudar qual é o melhor classificador para
problemas de concept drift. Sendo assim, foi utilizado o label propagation em todos eles por
ter sido o que apresentou melhores resultados dentro dos modelos testados por Ferreira,
Zimbrão e Alvim [6]. O objetivo dessa escolha do mesmo classificador para todos os modelos
visa tornar o processo de calibração de parâmetros e as comparações entre os modelos mais
simples, uma vez que só diferem no método de seleção de instâncias.
Também existem diversas técnicas de pesagem de instâncias para integrar o processo
de seleção de instâncias centrais, mas o KDE foi o método escolhido e utilizado em todos os
modelos que necessitam de um método de CSE por ter sido considerado o mais adequado dentro
dos métodos testados em [6, 16].
Para comparação, além do AMANDA-FCP, AMANDA-DCP e métodos propostos,
também são realizados testes em 3 modelos que servem de baselines. O primeiro é o modelo
estático, onde um classificador é treinado nos 5% iniciais dos dados e nunca mais é atualizado,
apenas classificando as instâncias dos batches subsequentes. O segundo baseline é o modelo
incremental, que a cada batch é retreinado sempre com os dados de todos os batches anteriores,
nunca descartando instâncias. E o terceiro baseline é o modelo de janela deslizante onde o
classificador é sempre treinado com as instâncias do batch imediatamente anterior apenas,
sendo assim, as instâncias de todos os outros batches passados são descartadas. Nenhum desses
modelos baselines possuem nenhum tipo de método de seleção de instâncias.
O parâmetro da distância limitada de Bhattacharyya no artigo original era chamado
de , e teve sua letra trocada aqui para não ser confundido com o do AMANDA-DCP. Como
esse valor de pode assumir infinitos valores e resultar em diferentes distâncias, em análise
prévia, o valor de como -1 resultou na distância que parecia mais promissora.
4.1.3 Validação e Métricas
Para avaliar os métodos, é utilizado a média da acurácia em todos os batches. No caso
de conjuntos de dados desbalanceados, existem métricas mais apropriadas [37], e por isso é
analisado o macro-F1 também. O tempo de processamento de cada método também será
avaliado.
Os modelos utilizados nos experimentos possuem hiperparâmetros, que foram
calibrados utilizando 20% dos dados, com exceção do conjunto de dados Keyboard, que utilizou
29
50%, devido ao tamanho reduzido do conjunto de dados. Dos 20% do conjunto de dados, 5%
foi utilizado como dados iniciais para treino do modelo e os outros 15% divididos em batches
com o mesmo número de instâncias que seriam utilizados nos experimentos. Então, utilizando
a técnica de grid search, os melhores parâmetros foram escolhidos. Para o AMANDA-FCP,
haviam 2 parâmetros a serem calibrados, um referente ao classificador e outro é o percentual
de instâncias a serem excluídas em cada batch. Para os modelos com seleção dinâmica de
instâncias existem apenas 1 parâmetro a ser calibrado, que é o referente ao classificador.
Os resultados aqui obtidos podem diferir com relação aos resultados apresentados por
Raul, Zimbrão e Alvim [6], devido a utilização de 20% dos dados para a calibração de
parâmetros em vez de somente 5%. Porém, o cenário dos experimentos ainda assim se configura
como um cenário de latência extrema de verificação, pois os modelos são calibrados em 20%
dos dados, e dados futuros nunca têm seus rótulos disponíveis. A utilização de 20% dos dados
para a calibração de parâmetros foi feita visando melhorar o processo de otimização dos
parâmetros livres.
4.2 Resultados
Esta seção apresenta os resultados obtidos nos experimentos com cada um dos conjuntos
de dados com todos os métodos. São avaliadas as métricas e discutido o desempenho de cada
método em questão.
4.2.1 Análise da Porcentagem de Corte dos Modelos Dinâmicos
A Figura 9 mostra a média em todos os batches das porcentagens de corte de cada
método dinâmico e em cada conjunto de dados. Pode-se observar que na média o modelo
AMANDA-DCP-BBD-1 tem uma tendência a excluir mais instâncias dentre todos os métodos
dinâmicos. Já o AMANDA-DCP-Hellinger é o que tem a tendência a excluir menos instâncias,
enquanto o AMANDA-DCP-Hellinger2 é o intermediário.
30
Figura 9: Percentual de corte médio em todos os conjuntos de dados. Fonte: autor.
uma nítida discrepância do valor médio da porcentagem de corte do AMANDA-
DCP-Hellinger nos conjuntos UG-2C-5D e NOAA em comparação com os outros métodos. A
razão disso pode ser que, em alguns casos, a tendência natural de um método calcular uma
distância menor para o mesmo nível de sobreposição das distribuições pode gerar um efeito em
cascata nas iterações subsequentes. Ou seja, numa determinada iteração, um método calcula
que a distância entre as distribuições do batch atual e do batch anterior são próximas, e por isso
ele exclui poucas instâncias. Portanto, na próxima iteração ele vai ter mais instâncias que os
outros métodos, e assim, a chance da distribuição das instâncias que ele manteve na iteração
anterior estar próxima da distribuição das instâncias do batch atual é maior do que se ele tivesse
excluído muitas instâncias na iteração anterior. O efeito contrário pode ocorrer com um método
que tende a gerar distâncias maiores entre distribuições.
A Figura 10 mostra individualmente a média das porcentagens de corte de cada método,
e as barras verticais indicam o desvio padrão das porcentagens em cada conjunto de dados.
Desta forma, é possível notar que em comparação com os outros métodos, o AMANDA-DCP-
Hellinger tem uma alta variabilidade. Isso indica que ele é um método de seleção mais sensível,
ou seja, pequenas variações do coeficiente de sobreposição resultam em variações maiores da
porcentagem de corte que os outros dois métodos. Apesar de possuírem variabilidade
semelhante, o AMANDA-DCP-Hellinger2 parece ter uma variabilidade menor de forma geral
que o AMANDA-DCP-BBD-1.
31
Figura 10: Percentual de corte médio e desvio padrão em todos os conjuntos de dados. Fonte:
autor.
4.2.2 Conjunto Sintético 2CDT
Esse conjunto de dados sintético possui duas classes e dois atributos, ambas classes se
deslocam em um movimento diagonal no espaço bidimensional. O conjunto é balanceado e
possui um total de 16000 instâncias.
Na Figura 11, é possível ver um gráfico de dispersão mostrando a posição das duas
classes em diferentes batches de forma cronológica, para ilustrar como o processo de mudança
de conceitos ocorre ao longo do tempo.
Figura 11: Gráfico de dispersão do conjunto de dados 2CDT em diferentes batches. Fonte:
autor.
A Figura 12 mostra como a acurácia de cada um dos modelos se comporta conforme os
dados evoluem e se modificam ao longo do tempo. Todos os modelos têm ou um desempenho
constante durante todo o processo ou possuem seu melhor desempenho no início, até
aproximadamente o batch 30. Isso era esperado, pois todos os modelos foram calibrados
utilizado 20% dos dados iniciais, então estão otimizados utilizando dados até o batch 16.
32
Os modelos de baseline e AMANDA-DCP-Hellinger2 na maior parte do tempo tem
uma acurácia de 50%, o que não é melhor que um modelo que escolhe aleatoriamente uma das
duas classes, uma vez que se trata de um conjunto de dados balanceado. Os únicos dois modelos
que conseguem manter uma acurácia mais elevada durante mais tempo são o AMANDA-FCP
e o AMANDA-DCP-BBD-1. O AMANDA-DCP-Hellinger é o que tem o pior resultado nesse
conjunto de dados, com uma acurácia de 0 a 30% a partir do batch 40.
A razão do declínio de acurácia do AMANDA-DCP-Hellinger por volta do batch 30
pode ser que como as classes estão bem próximas durante o movimento de translação, caso não
sejam selecionadas instâncias o suficiente, o modelo pode acabar não conseguindo criar a
fronteira de decisão mais adequada. Isso pode se agravar nas próximas iterações e o modelo
acabar classificando de forma quase inversa as duas classes.
Figura 12: Curva de acurácia do conjunto de dados 2CDT. Fonte: autor.
Com relação ao tempo de processamento, conforme mostrado na Figura 13, o modelo
Incremental é o que tem o pior tempo de processamento de todos, uma vez que a cada batch, o
número de instâncias para retreino aumenta. E com menor tempo é o Estático que só treina um
único modelo inicial. Analisando os outros modelos, todos possuem tempo de processamento
muito semelhantes.
Figura 13: Tempo de processamento do conjunto de dados 2CDT. Fonte: autor.
33
As Figuras 14 e 15 mostram os boxplots da acurácia e macro-F1, respectivamente.
Através destes, pode-se perceber que o AMANDA-DCP-Hellinger possui alta variabilidade no
desempenho nesse conjunto de dados. O AMANDA-FCP e o AMANDA-DCP-BBD-1
possuem desempenhos muito semelhantes, com a mediana mais alta comparado com os outros
modelos, embora também possuam uma variabilidade alta. Os modelos de janela deslizante e
AMANDA-DCP-Hellinger2 possuem um desempenho parecido, com as piores medianas e
baixa variabilidade, porém o modelo de janela deslizante possui alguns valores atípicos com
desempenho mais alto. O modelo Estático e o Incremental possuem desempenho parecido e em
comparação com os outros, ocupam uma posição intermediária de desempenho.
Figura 14: Boxplot da acurácia no conjunto
de dados 2CDT. Fonte: autor.
Figura 15: Boxplot do macro-f1no conjunto
de dados 2CDT. Fonte: autor.
A Figura 16 ilustra a redução do erro de cada método comparado com o modelo de
baseline estático. Os únicos métodos que apresentaram desempenho melhor que o modelo
estático foi o AMANDA-FCP e o AMANDA-DCP-BBD-1, onde o último teve uma redução
levemente menor que o AMANDA-FCP. Todos os outros métodos, portanto, tiveram
desempenho pior que o modelo estático. Os modelos de janela deslizante e incremental tiveram
desempenho muito próximo ao modelo estático, enquanto o AMANDA-DCP-Hellinger
apresentou o pior desempenho de todos.
34
Figura 16: Redução de erro no conjunto de dados 2CDT. Fonte: autor.
4.2.3 Conjunto Sintético 4CRE-V2
Trata-se de um conjunto de dados com 2 atributos e 4 classes balanceadas que além de
apresentarem um movimento rotativo em torno de um eixo comum, também se aproximam e
se afastam em um movimento periódico dentro do espaço bidimensional. Há um total de 183000
instâncias.
A Figura 17 mostra a posição das classes em diferentes batches, ilustrando como as
classes se movimentam ao longo do tempo. É possível ver que de forma geral as classes são
bem próximas, mesmo quando estão com afastamento máximo. Isso torna o problema mais
difícil, pois como instâncias das classes se misturam nas fronteiras fica mais difícil para um
modelo preditivo definir a fronteira de decisão de cada classe.
Figura 17: Gráfico de dispersão do conjunto de dados 4CRE-V2 em diferentes batches.
Fonte: autor.
35
Na Figura 18 se encontra a curva de acurácia, onde é possível notar que nenhum dos
modelos consegue manter um alto desempenho regularmente ao longo de todos os batches pela
dificuldade do problema.
O modelo estático na maior parte do tempo possui acurácia praticamente nula, e ele só
passa a ter uma acurácia mais alta quando os conjuntos as classes retornam a sua posição inicial
onde o modelo foi treinado. O modelo incremental apresenta comportamento parecido com o
estático, não modificando muito sua fronteira de decisão inicial. O modelo AMANDA-FCP
consegue manter um bom desempenho até o batch 20, em seguida passa a ter uma acurácia
muito baixa. O modelo AMANDA-DCP-BBD-1 é o que parece conseguir manter um
desempenho mais elevado por mais tempo, porém do batch 10 ao 50, ele apresenta uma acurácia
também próxima de zero. Tanto AMANDA-DCP-Hellinger quanto AMANDA-DCP-
Hellinger2 apresentam uma acurácia que varia ao longo do tempo e que em poucos momentos
ultrapassa 50%.
Figura 18: Curva de acurácia do conjunto de dados 4CRE-V2. Fonte: autor.
Conforme é mostrado na Figura 19, o modelo incremental possui o mais alto tempo de
processamento. Os modelos estático e de janela deslizante possuem os tempos mais baixos de
aproximadamente 3 segundos, porém os modelos AMANDA-FCP, e todas as variações do
AMANDA-DCP possuem tempos mais altos e muito semelhantes entre si, com um valor
aproximado de 17 segundos.
36
Figura 19: Tempo de processamento do conjunto de dados 4CRE-V2. Fonte: autor.
Através das Figuras 20 e 21, podemos ver que os modelos de fato possuem alta
variabilidade no desempenho nas duas métricas analisadas, com exceção de AMANDA-FCP
que possui um desempenho consistentemente baixo, porém possui muitos valores atípicos de
desempenho mais alto. Comparando as medianas é notável que os três métodos com seleção
dinâmica de instâncias possuem desempenho mais elevado no geral. Os modelos de baseline,
apesar de possuírem uma variabilidade semelhante na acurácia e macro-f1 em comparação com
os métodos com seleção dinâmica de instâncias, eles possuem uma mediana mais baixa, o que
sugere um pior desempenho de forma geral.
Figura 20: Boxplot da acurácia no conjunto
de dados 4CRE-V2. Fonte: autor.
Figura 21: Boxplot do macro-f1 no conjunto
de dados 4CRE-V2. Fonte: autor.
37
A Figura 22 mostra que apenas 2 modelos proporcionaram redução do erro em
comparação com o modelo estático. O AMANDA-DCP-BBD-1 foi o que apresentou maior
redução do erro, de quase 40% e o AMANDA-DCP-Hellinger proporcionou uma redução de
aproximadamente 7%. Todos os outros modelos resultaram em um erro maior que o modelo
estático, sendo que o AMANDA-FCP foi o que apresentou o pior resultado de todos.
Figura 22: Redução de erro no conjunto de dados 4CRE-V2. Fonte: autor.
4.2.4 Conjunto Sintético UG-2C-2D
Esse é um conjunto de dados com 2 atributos e 2 classes balanceadas com distribuições
gaussianas unimodais que realizam um movimento predominantemente rotacional. Possui um
total de  instâncias. A Figura 23 mostra em ordem cronológica a posição das classes.
Figura 23: Gráfico de dispersão do conjunto de dados UG-2C-2D em diferentes batches.
Fonte: autor.
As curvas de acurácia na Figura 24 mostram que os piores modelos são o estático e o
incremental, que apresentam comportamento bem parecido, com alta acurácia no início e no
fim, que é quando as classes retornam à posição inicial. O AMANDA-FCP consegue manter
38
alta acurácia até o batch 60, e então passa a errar muito e não consegue recuperar o desempenho
anterior. Os modelos com seleção dinâmica de instâncias e o de janela deslizante apresentam
alta acurácia até o batch 60, e então sofrem uma redução da acurácia, mas conseguem recuperar
o desempenho próximo do batch 80.
A razão do declínio de acurácia do AMANDA-FCP a partir do batch 60 é que este é um
período crítico do movimento onde as duas classes possuem uma grande sobreposição da
distribuição, tanto que todos os modelos têm sua acurácia reduzida. Contudo, se um modelo
nesse momento crítico elabora uma fronteira de decisão muito incoerente com a distribuição ao
selecionar as instâncias erradas, instâncias das duas classes passam a ser classificadas como da
outra classe. Esse erro pode se acumular nas próximas iterações caso a fronteira de decisão não
seja corrigida e assim, o modelo inverte a classificação das classes em relação aos rótulos reais.
Figura 24: Curva de acurácia do conjunto de dados UG-2C-2D. Fonte: autor.
A Figura 25 mostra que o modelo incremental possui o maior tempo de processamento,
e os modelos estático e de janela deslizante, os menores. Mais uma vez os modelos com seleção
dinâmica de instâncias e o AMANDA-FCP apresentam tempos muito semelhantes, muito
menores que o do incremental e significativamente maiores que os modelos de janela deslizante
e estático.
Figura 25: Tempo de processamento do conjunto de dados UG-2C-2D. Fonte: autor.
39
Com relação a variabilidade, as Figuras 26 e 27 indicam que os modelos estático,
incremental e AMANDA-FCP possuem alta variabilidade na acurácia e no macro-f1, porém o
AMANDA-FCP possui a mediana do desempenho em ambas métricas muito maior que os
outros dois modelos. Já os modelos com seleção dinâmica de instâncias e o de janela deslizante
apresentam uma variabilidade baixa e um alto desempenho, com apenas alguns valores atípicos
que chegam a um mínimo de aproximadamente 80% de acurácia e 0.8 de macro-f1.
Figura 26: Boxplot da acurácia no conjunto
de dados UG-2C-2D. Fonte: autor.
Figura 27: Boxplot do macro-f1 no conjunto
de dados UG-2C-2D. Fonte: autor.
A Figura 28 mostra que, nesse conjunto de dados, todos os modelos proporcionaram
redução de erro em comparação com o modelo estático. No caso do incremental, o ganho é bem
baixo, pois ele também não consegue modificar a fronteira decisão significativamente do
classificador para se adaptar às mudanças de conceitos. O AMANDA-FCP apresentou uma
redução do erro em torno de 50%, mas apesar disso, foi o segundo pior modelo nesse caso. E
os modelos de janela deslizante, AMANDA-DCP-Hellinger, AMANDA-DCP-Hellinger2 e
AMANDA-DCP-BBD-1 apresentaram os melhores desempenhos, muito próximos entre si e de
quase 120%. É possível notar que o os modelos com seleção dinâmica possuem uma pequena
vantagem com relação ao modelo de janela deslizante.
40
Figura 28: Redução de erro no conjunto de dados UG-2C-2D. Fonte: autor.
4.2.5 Conjunto Sintético MG-2C-2D
Esse é um conjunto de dados balanceado com 2 atributos e 2 classes com distribuições
gaussianas multimodais que se movimentam no plano. O conjunto possui um total de 
instâncias. A Figura 29 demonstra como essas classes se movimentam ao longo do tempo em
diferentes batches.
Figura 29: Gráfico de dispersão do conjunto de dados MG-2C-2D em diferentes batches.
Fonte: autor.
Na Figura 30 pode ser observado que os modelos estático e incremental, por não
conseguirem se adaptar à mudança de conceito, vão reduzindo gradualmente sua acurácia ao
longo de todo o processo. Os modelos AMANDA-FCP e de janela deslizante começam com
alta acurácia, e a partir do batch 20 começam a diminuir a acurácia, até que no batch 60
estabilizam em 50%, que não é um bom desempenho para um conjunto de dados balanceado e
com duas classes. O AMANDA-DCP-Hellinger apresenta um comportamento semelhante aos
modelos AMANDA-FCP e de janela deslizante, porém ele apresenta um pico de alta acurácia
41
no batch 90, seguido por um pico de baixa acurácia no batch 95. Os modelos que melhor
conseguem se adaptar às mudanças de conceitos desse conjunto de dados é o AMANDA-DCP-
Hellinger2 e AMANDA-DCP-BBD-1, que apesar de apresentarem uma queda na acurácia a
partir do batch 20 como todos os outros modelos, eles conseguem se recuperar e manter uma
acurácia sempre maior que 50%.
Figura 30: Curva de acurácia do conjunto de dados MG-2C-2D. Fonte: autor.
O modelo incremental foi o com maior tempo de processamento, como mostra a Figura
31. Os modelos estático e de janela deslizante tiveram os menores tempos de processamento.
Todos os outros métodos tiveram tempos bem semelhantes, em torno de 8 vezes maior que o
tempo do modelo de janela deslizante e quase 4 vezes menor que o do modelo incremental.
Figura 31: Tempo de processamento do conjunto de dados MG -2C-2D. Fonte: autor.
Os gráficos boxplots da acurácia e macro-f1 nas Figuras 32 e 33, respectivamente,
mostram que o AMANDA-DCP-Hellinger2 e o AMANDA-DCP-BBD-1 além de serem os que
possuem mais alta medianas nas duas métricas, são os que possuem menor variância, e são,
portanto, os mais consistentemente bons nessa base de dados. Os modelos estático e incremental
são os com pior desempenho, com variâncias muito altas e medianas muito baixas. Os modelos
de janela deslizante, AMANDA-FCP e AMANDA-DCP-Hellinger apresentam medianas muito
42
próximas, porém o AMANDA-DCP-Hellinger possui uma variância mais alta, apesar de sua
mediana ser levemente mais alta também.
Figura 32: Boxplot da acurácia no conjunto
de dados MG-2C-2D. Fonte: autor.
Figura 33: Boxplot do macro-f1 no conjunto
de dados MG-2C-2D. Fonte: autor.
A Figura 34 mostra que os modelos com maior redução percentual de erro em
comparação com o modelo estático são o AMANDA-DCP-Hellinger2 e o AMANDA-DCP-
BBD-1, ambos com redução maior que 80%. Os modelos de janela deslizante, AMANDA-FCP
e AMANDA-DCP-Hellinger apresentam reduções de erro muito próximas entre 40% e 50%.
Por último, o modelo incremental apresenta uma redução de erro muito baixa.
Figura 34: Redução de erro no conjunto de dados MG-2C-2D. Fonte: autor.
43
4.2.6 Conjunto Sintético UG-2C-3D
Esse conjunto de dados é balanceado e possui 2 classes e 3 atributos. Por ter mais que
dois atributos, uma visualização gráfica clara dos dados é mais difícil. Se tratam de 2 classes
com distribuições gaussianas unimodais que se movem no espaço tridimensional. Há 
instâncias no total.
As curvas de acurácia na Figura 35 mostram que, no geral, todos os modelos começam
a diminuir a acurácia a partir do batch 20, com exceção do estático que começa esse processo
em torno do batch 10. Em seguida, os modelos estático e incremental reduzem o desempenho
drasticamente até o batch 40, quando voltam a aumentar a acurácia, porém não conseguem
estabilizar em uma alta acurácia novamente. O modelo de janela deslizante após o batch 20
decai até chegar a uma acurácia de 50% e estabilizar. Os modelos que conseguem se adaptar
mais significativamente são os modelos AMANDA-FCP, AMANDA-DCP-Hellinger,
AMANDA-DCP-Hellinger2 e AMANDA-DCP-BBD-1. Contudo, o AMANDA-FCP, por volta
do batch 90, volta a cair até o último batch.
Figura 35: Curva de acurácia do conjunto de dados UG-2C-3D. Fonte: autor.
O resultado do tempo de processamento nesse conjunto de dados, presente na Figura 36,
é semelhante ao do conjunto de dados anterior. O modelo incremental tem o maior tempo de
processamento e os modelos de janela deslizante e estática possuem o menor tempo. Os
modelos AMANDA-FCP, AMANDA-DCP-Hellinger, AMANDA-DCP-Hellinger2 e
AMANDA-DCP-BBD-1 possuem tempos semelhantes, aproximadamente 4 vezes menor que
o incremental e quase 5 vezes maior que o estático.
44
Figura 36: Tempo de processamento do conjunto de dados UG-2C-3D. Fonte: autor.
Nas Figuras 37 e 38, é possível identificar 4 modelos com menor variabilidade e maior
mediana, são eles: AMANDA-FCP, AMANDA-DCP-Hellinger, AMANDA-DCP-Hellinger2
e o AMANDA-DCP-BBD-1. Dentre esses 4 modelos, o AMANDA-FCP e o AMANDA-DCP-
BBD-1 demonstram uma pequena vantagem por terem uma mediana um pouco maior e uma
variabilidade um pouco menor. Os modelos estático e incremental possuíram o pior
desempenho, com variâncias altas e medianas baixas. O modelo de janela deslizante possui
medianas muito próximas dos modelos estático e incremental, porém possui uma variabilidade
significativamente menor na acurácia. Contudo, ao observar o macro-F1, percebe-se que o
modelo de janela deslizante é tão ruim quanto os modelos estático e incremental.
Figura 37: Boxplot da acurácia no conjunto
de dados UG-2C-3D. Fonte: autor.
Figura 38: Boxplot do macro-f1 no conjunto
de dados UG-2C-3D. Fonte: autor.
45
Através da Figura 39, que mostra a redução percentual do erro em comparação com o
modelo estático, é possível observar que os 3 modelos de baseline possuem desempenho
semelhante, e dentre eles o de janela deslizante é o que consegue o menor erro, com em torno
de 15% de redução em comparação com o modelo estático. Os modelos AMANDA-FCP,
AMANDA-DCP-Hellinger, AMANDA-DCP-Hellinger2 e AMANDA-DCP-BBD-1 possuem
uma redução de erro próxima, contudo o que possui o menor erro é o AMANDA-DCP-BBD-1
e o AMANDA-DCP-Hellinger2, ainda que a diferença seja pequena.
Figura 39: Redução de erro no conjunto de dados UG-2C-3D. Fonte: autor.
4.2.7 Conjunto Sintético UG-2C-5D
Esse é um conjunto de dados balanceado que possui 5 atributos e 2 classes com
distribuições gaussianas unimodais que se deslocam ao longo do tempo. Além disso, possui
 instâncias. Por se tratar de um espaço de 5 dimensões, não é possível gerar diretamente
nenhuma visualização gráfica das classes.
Na Figura 40, todos os modelos começam com acurácia em torno de 100%. A partir do
batch 10, os modelos estático e incremental começam diminuir a acurácia rapidamente.
Contudo, o modelo incremental chega a uma acurácia de 50% no batch 35 e estabiliza nela até
o fim do processo, enquanto o modelo estático começa a aumentar sua acurácia a partir do batch
35, indicando que as classes estão voltando a suas posições inicias. Alguns modelos em algum
momento param de conseguir acompanhar as mudanças de conceitos e estabilizam em uma
acurácia de 50%. Isso ocorre com o modelo de janela deslizante por volta do batch 40 e com os
46
modelos AMANDA-FCP e AMANDA-DCP-Hellinger por volta do batch 50. Apenas os
modelos AMANDA-DCP-Hellinger2 e AMANDA-DCP-BBD-1 conseguem se adaptar às
mudanças de conceitos durante todos os batches, apesar de atingirem um pico mínimo de
acurácia de 70% no batch 70.
Figura 40: Curva de acurácia do conjunto de dados UG-2C-5D. Fonte: autor.
Novamente o mesmo padrão se repete nos tempos de processamento de cada método,
como mostra a Figura 41. O modelo incremental com o maior tempo de processamento e os
modelos estático e de janela deslizante com o menor tempo. Porém, é possível notar um
aumento significativo do tempo de processamento principalmente do modelo incremental,
devido a maior dimensionalidade dos dados. Os modelos AMANDA-FCP, AMANDA-DCP-
Hellinger, AMANDA-DCP-Hellinger2 e AMANDA-DCP-BBD-1 possuem tempos muito
próximos em torno de 25 segundos, que nesse caso é 18 vezes menor que o tempo do modelo
incremental e aproximadamente 2 vezes maior que o do modelo estático.
Figura 41: Tempo de processamento do conjunto de dados UG-2C-5D. Fonte: autor.
Observando os gráficos mostrados nas Figuras 42 e 43, é notável que apenas os modelos
AMANDA-DCP-Hellinger2 e AMANDA-DCP-BBD-1 possuem alta mediana e baixa
variabilidade tanto na acurácia quanto no macro-f1. O modelo mais consistentemente pior ao
longo de todo o processo é o modelo incremental, que na maior parte do tempo possui acurácia
47
entre 50% e 70% e macro-f1 entre 0.3 e 0.7. O modelo de janela deslizante também não
apresenta bons resultados, possuindo uma alta variabilidade e baixa mediana em ambas
métricas. Fica claro, principalmente observando o gráfico boxplot da macro-f1, que os modelos
AMANDA-FCP e AMANDA-DCP-Hellinger apesar de possuírem medianas altas, possuem
alta variabilidade.
Figura 42: Boxplot da acurácia no conjunto
de dados UG-2C-5D. Fonte: autor.
Figura 43: Boxplot do macro-f1 no conjunto
de dados UG-2C-5D. Fonte: autor.
Na Figura 44, encontra-se o gráfico de redução percentual de erro em comparação com
o modelo estático. Os modelos de janela deslizante e incremental resultam em um aumento do
erro em comparação com o modelo estático. Os modelos AMANDA-FCP e AMANDA-DCP-
Hellinger geram uma redução de aproximadamente 5%, enquanto os modelos AMANDA-DCP-
Hellinger2 e AMANDA-DCP-BBD-1 geram uma redução de erro por volta de 30%, sendo,
portanto, os melhores nessa base de dados.
48
Figura 44: Redução de erro no conjunto de dados UG-2C-5D. Fonte: autor.
4.2.8 Conjunto Sintético 1Csurr
Esse conjunto de dados possui duas classes e dois atributos. Trata-se de um dos poucos
conjuntos de dados utilizados nesse trabalho que é desbalanceado. A classe minoritária compõe
36,54% dos dados, enquanto a classe majoritária, 63,46% dos dados. Inicialmente, a classe
minoritária apresenta um movimento rotacional em volta da classe majoritária e eventualmente
a classe minoritária atravessa a classe majoritária, como ilustrado na Figura 45. Há 55283
instâncias.
Figura 45: Gráfico de dispersão do conjunto de dados 1Csurr em diferentes batches. Fonte:
autor.
A Figura 46 mostra que até o batch 83, todos os modelos possuem alta acurácia, com
exceção dos modelos estático e incremental. Isso ocorre, pois no início do movimento apenas
a classe minoritária se move de forma significativa, e como o modelo incremental tem mais
dificuldade em adaptar a fronteira de decisão e o modelo estático nunca atualiza, por volta do
batch 10, eles passam a acertar somente instâncias da classe majoritária.
49
Por volta do batch 83, a classe minoritária atravessa a classe majoritária, o que é uma
modificação naturalmente difícil para os modelos se adaptarem, e é possível ver que por isso
todos os modelos apresentam uma redução de acurácia nesse momento. O AMANDA-FCP é o
único que consegue não reduzir muito sua acurácia e consegue se adaptar a essa mudança, todos
os outros modelos reduzem drasticamente a acurácia e não conseguem mais classificar as
classes apropriadamente.
Figura 46: Curva de acurácia do conjunto de dados 1Csurr. Fonte: autor.
A Figura 47 mostra os tempos de processamento de todos os modelos. O modelo
incremental novamente é o com maior tempo de processamento, em torno de 7 vezes maior que
o segundo colocado. Todas as variações do AMANDA possuem tempos muito próximos e
maior que os tempos de processamento do modelo estático e do modelo de janela deslizante.
Figura 47: Tempo de processamento do conjunto de dados 1Csurr. Fonte: autor.
Analisando as Figuras 48 e 49, percebemos que todos os modelos apresentam uma baixa
variância, porém muitos valores anômalos, indicando que eventualmente apresentam acurácia
ou macro-f1 significativamente maiores ou menores do que costumam ter ao longo do processo.
Isso acontece pois todos os modelos possuem uma taxa de acerto consistente quando a classe
minoritária está em um movimento circular ao redor da majoritária, mas a mudança radical de
cenário quando a classe minoritária atravessa a majoritária é o que gera esses valores anômalos
nas métricas.
50
Os modelos estático e incremental, são claramente os piores, tanto do ponto de vista da
acurácia, como do macro-f1, uma vez que apresentam as medianas mais baixas nas duas
métricas. As variações do AMANDA e o modelo de janela deslizante parecem possuir medianas
e variabilidade bem próximas, porém o AMANDA-FCP é o que possui menos valores anômalos
na acurácia e no macro-f1, indicando um melhor desempenho. A variabilidade de todos os
modelos é baixa nas duas métricas.
Figura 48: Boxplot da acurácia no conjunto
de dados 1Csurr. Fonte: autor.
Figura 49: Boxplot do macro-f1 no conjunto
de dados 1Csurr. Fonte: autor.
Na Figura 50, que mostra a redução de erro de todos os modelos em comparação com o
modelo estático, observa-se que somente o modelo incremental possui um desempenho médio
pior que o modelo estático. O modelo com maior redução de erro é o AMANDA-FCP, seguido
pelo modelo de janela deslizante. Entre os modelos com seleção dinâmica, o AMANDA-DCP-
Hellinger parece ter tido uma leve vantagem, e o AMANDA-DCP-BBD-1 foi o pior dentre os
modelos dinâmicos.
51
Figura 50: Redução de erro no conjunto de dados 1Csurr. Fonte: autor.
4.2.9 Conjunto Real NOAA
Este é um conjunto de dados desbalanceado, que possui 2 classes e 8 atributos. A classe
minoritária representa 31.38% dos dados, enquanto a classe majoritária, 68,62%. Devido à alta
dimensionalidade, não é possível mostrar graficamente a representação das instâncias sem
técnicas de redução de dimensionalidade. Há 18159 instâncias.
Na Figura 51, as curvas de acurácia mostram que os modelos AMANDA-FCP e
AMANDA-DCP-BBD-1 apresentam um desempenho consistentemente mais baixos que os
outros modelos ao longo de todo o processo. O modelo estático parece ser o que apresenta
melhor desempenho, o que pode indicar que se trata de base de dados com uma mudança de
conceito bem baixa. Os outros modelos aparentam ter desempenho bem semelhante, levemente
pior que o modelo estático.
52
Figura 51: Curva de acurácia do conjunto de dados NOAA. Fonte: autor.
O tempo de processamento mostrados na Figura 52 apresenta um comportamento
semelhante a maior parte dos conjuntos de dados, com o modelo incremental sendo o com maior
tempo de processamento, seguido pelas variações do AMANDA e depois pelos modelos
estático e de janela deslizante, que possuem os menores tempos de processamento.
Figura 52: Tempo de processamento do conjunto de dados NOAA. Fonte: autor.
Os gráficos boxplot da acurácia e do macro-f1, na Figura 53 e na Figura 54
respectivamente, mostram como o desempenho dos modelos variam. Todos os modelos
parecem possuir uma variabilidade alta em ambas as métricas. O AMANDA-FCP, do ponto de
vista da acurácia, parece estar entre os piores modelos, porém, já que se trata de um conjunto
de dados desbalanceado a análise pelo macro-f1 é mais confiável. Ao observar o macro-f1, o
AMANDA-FCP parece ser o segundo melhor, dada a sua alta mediana em comparação com os
outros modelos. Da mesma forma, o AMANDA-DCP-BBD-1 possui um desempenho melhor
em comparação com os outros modelos utilizando o macro-f1 do que na acurácia, indicando
um acerto das duas classes mais consistente. Pela comparação dos dois gráficos, percebe-se que
os modelos de janela deslizante, incremental, AMANDA-DCP-Hellinger e AMANDA-DCP-
Hellinger2, apesar da acurácia alta, possuem macro-f1 baixos, indicando que a alta acurácia se
deve ao fato de conseguirem classificar bem a classe majoritária, mas não a minoritária.
53
Figura 53: Boxplot da acurácia no conjunto
de dados NOAA. Fonte: autor.
Figura 54: Boxplot do macro-f1 no conjunto
de dados NOAA. Fonte: autor.
Por fim, a análise da redução percentual do erro na Figura 55, mostra que todos os
modelos apresentam desempenho pior que o modelo estático. Como discutido, apesar do
AMANDA-FCP aparentar ser um dos dois piores, esse fato não foi constatado pela análise do
macro-f1, o qual sugere que o AMANDA-FCP é pior que o modelo estático. O modelo
MANDA-DCP-BBD-1 é o pior de todos, segundo a redução de erro, mas assim como o
AMANDA-FCP, apresentou resultados muito melhores do ponto de vista do macro-f1.
Figura 55: Redução de erro no conjunto de dados NOAA. Fonte: autor.
54
4.2.10 Conjunto Real Electricity (ELEC2)
Esse conjunto de dados possui 5 atributos e 2 classes. Há um desbalanceamento, porém
bem baixo. A classe minoritária corresponde a 42,45% dos dados, enquanto a majoritária,
57,55%. A representação gráfica direta não é possível devido à alta dimensionalidade. O
conjunto possui 45312 instâncias.
As curvas de acurácia na Figura 56 não deixam claro se algum dos modelos tem um
desempenho consistentemente melhor. Contudo, a partir do batch 70, nota-se que o modelo
estático parece conseguir manter um desempenho maior que os outros modelos, enquanto o
AMANDA-FCP diminui sua acurácia até o fim do processo a partir desse batch.
Figura 56: Curva de acurácia do conjunto de dados Electricity. Fonte: autor.
Conforme mostra a Figura 57, o incremental é o modelo com maior tempo de execução.
As variações do AMANDA vêm logo em seguida com tempos de processamento bem próximos
e por último, os mais rápidos são os modelos estático e de janela deslizante, que também
possuem tempos de processamento bem semelhantes.
Figura 57: Tempo de processamento do conjunto de dados Electricity. Fonte: autor.
55
As Figuras 58 e 59 mostram os gráficos boxplot de todos os modelos para acurácia e
macro-f1. Analisando a acurácia, o modelo estático parece ser o melhor de todos, porém ao
observar o macro-f1, ele parece ter um desempenho muito próximo da maioria dos modelos.
Os modelos de janela deslizante e AMANDA-FCP apresentam o pior desempenho quando
observado o macro-f1, com valores menores que 0,43 em 75% dos batches, indicando uma
dificuldade em classificar corretamente ambas classes simultaneamente quando comparados
com os outros modelos. É importante notar que mesmo os melhores modelos não apresentam
um desempenho consistente do ponto de vista do macro-f1, em geral indo de 0,2 até 0,9.
Figura 58: Boxplot da acurácia no conjunto
de dados Electricity. Fonte: autor.
Figura 59: Boxplot do macro-f1 no conjunto
de dados Electricity. Fonte: autor.
O gráfico de redução percentual do erro na Figura 60 mostra que nenhum dos modelos
tem desempenho melhor que o modelo estático. O modelo incremental é o que possui
desempenho mais próximo do modelo estático. Os modelos de janela deslizante e AMANDA-
FCP são os que possuem maior aumento do erro. E apesar do AMANDA-DCP-Hellinger,
AMANDA-DCP-Hellinger2 e AMANDA-DCP-BBD-1 apresentarem aumentos bem próximos
do erro, o AMANDA-DCP-BBD-1 é o que provoca menor aumento do erro, e o AMANDA-
DCP-Hellinger2, o que gera o maior aumento do erro.
56
Figura 60: Redução de erro no conjunto de dados Eletricity. Fonte: autor.
4.2.11 Conjunto Real Keyboard
Esse conjunto de dados possui 10 atributos e 4 classes balanceadas. A alta
dimensionalidade dos dados dificulta a visualização dos dados, mas sabe-se que esta base de
dados possui um grau de mudança de conceito menor que os outros conjuntos de dados cuja
mudança de conceito é conhecido. Esse conjunto de dados possui um total de 1600 instâncias,
que é um número significativamente menor que os outros conjuntos de dados. Devido à baixa
quantidade de instâncias, nesse conjunto de dados, foram utilizados 8 batches ao invés de 100
como na maioria dos outros conjuntos de dados.
Nas curvas de acurácia da Figura 61, percebe-se que 2 modelos não conseguem se
adaptar às mudanças de conceitos e vão gradualmente reduzindo sua taxa de acerto. O modelo
estático começa a diminuir sua acurácia já a partir do batch 1, e o AMANDA-FCP no batch 2.
Os outros modelos conseguem se adaptar às mudanças, porém no batch 3, os modelos
incremental e de janela deslizante possui um pico de baixa de acurácia, de aproximadamente
77% para o modelo de janela deslizante e de 84% para o modelo incremental. Mas todos os
outros modelos, com exceção do estático e AMANDA-FCP conseguem se adaptar e manter alta
acurácia ao longo de todos os batches.
57
Figura 61: Curva de acurácia do conjunto de dados Keyboard. Fonte: autor.
Com relação ao tempo de processamento, como é mostrado na Figura 62, esse conjunto
de dados apresenta certa peculiaridade com relação aos outros conjuntos de dados. Apesar do
modelo incremental ainda ser o que possui maior tempo de processamento, os modelos
AMANDA-FCP e as variações do AMANDA-DCP apresentam tempos de processamento
muito próximos ao modelo incremental. Isso ocorre devido à baixa quantidade de dados. Logo,
ainda que o modelo incremental nunca descarte instâncias, isso acaba não produzindo um alto
tempo de processamento. Porém, é importante observar que se houvessem mais dados, a
tendência era que a discrepância entre o tempo de processamento do modelo incremental e dos
outros modelos aumentasse. Os modelos estático e de janela deslizante continuam sendo os que
possuem menor tempo de processamento. Dentre as variações do AMANDA, o AMANDA-
DCP-Hellinger parece ser o com maior tempo e o AMANDA-DCP-BBD-1 o que possui menor
tempo. Contudo, como a diferença de tempo entre as variações do AMANDA são bem baixas,
não é possível afirmar categoricamente que um é mais eficiente que o outro.
Figura 62: Tempo de processamento do conjunto de dados Keyboard. Fonte: autor.
As Figuras 63 e 64 mostram os gráficos boxplots da acurácia e macro-f1. Do ponto de
vista de acurácia, o modelo incremental e as variações do AMANDA-DCP possuem medianas
58
muito próximas, apesar de pequenas diferenças de variabilidade. Todavia, ao observar o macro-
f1, percebe-se que as variações do AMANDA-DCP possuem melhor desempenho que o modelo
incremental por terem mediana maior, apesar de possuírem a mesma variabilidade nesse caso.
O modelo estático é o com pior desempenho em ambas métricas. Observando a acurácia, o
modelo de janela deslizante é melhor que o AMANDA-FCP, porém o macro-f1 indica que o
AMANDA-FCP em média consegue classificar melhor todas as classes que o modelo de janela
deslizante, por ter uma mediana mais alta. O modelo incremental apesar de possuir uma taxa
de acerto global maior, pode estar acertando consideravelmente mais certas classes do que
outras, quando comparado com as variações do AMANDA-DCP. Essa não é uma característica
desejável, uma vez que nesse conjunto de dados isso significaria que frequentemente certos
usuários seriam mais fáceis de autenticar do que outros.
Figura 63: Boxplot da acurácia no conjunto
de dados Keyboard. Fonte: autor.
Figura 64: Boxplot do macro-f1 no conjunto
de dados Keyboard. Fonte: autor.
A Figura 65 mostra a redução percentual de cada modelo em comparação com o modelo
estático. O modelo incremental, AMANDA-DCP-Hellinger, AMANDA-DCP-Hellinger2 e
AMANDA-DCP-BBD-1 são o que apresentam maior redução percentual do erro, de
aproximadamente 38%. No entanto, já foi constatado que as variações do AMANDA-DCP são
mais equilibradas quando foi analisado o gráfico boxplot do macro-f1 de todos os modelos. O
modelo AMANDA-FCP foi o que apresentou a menor redução de erro, de aproximadamente
17%, menor que o modelo baseline de janela deslizante.
59
Figura 65: Redução de erro no conjunto de dados Keyboard.
4.2.12 Resultados Gerais
O desempenho geral de cada modelo está representado na Tabela 2, que contém a média
do macro-f1 de cada modelo. Para melhor visualização da tabela, os modelos incremental e de
janela deslizante foram abreviados para Incremen. E Desl.. Está destacado em negrito o
melhor desempenho do ponto de vista do macro-f1 em cada conjunto de dados. Uma primeira
análise da Tabela 2 indica que o modelo AMANDA-FCP é o modelo com melhor desempenho
de forma geral, pois teve o melhor desempenho de todos os modelos em 7 de 20 conjuntos de
dados.
Sobre os modelos com seleção dinâmica de instâncias, os modelos AMANDA-DCP-
Hellinger2 e AMANDA-DCP-BBD-1 foram os melhores em 5 conjuntos de dados cada,
enquanto a implementação original do AMANDA-DCP foi o melhor em 4 conjuntos de dados.
Além disso, dos 3 conjuntos de dados reais, em dois deles os métodos com seleção dinâmica
de instâncias foram os que apresentaram melhores resultados.
Uma observação pertinente é que alguma das versões do AMANDA-DCP foi a melhor
em metade dos conjuntos de dados, o que mostra como uma seleção apropriada de instâncias
pode melhorar o desempenho do classificador. Contudo, esse estudo mostra a dificuldade de
encontrar uma única forma de seleção dinâmica que seja melhor para todos os casos.
60
Tabela 2: Macro-f1 médio
Conjunto de
Dados
Estático
Incremen.
Desliz.
AMANDA
FCP
AMANDA DCP
Original
Hellinger2
BBD-1
1CDT
0,9930
0,9955
0.9979
0,9997
0,9990
0,9996
0,9996
2CDT
0,5617
0,5477
0,4229
0,7540
0,3463
0,3331
0,7417
1CHT
0,9557
0,9667
0,9942
0,9964
0,9938
0,9960
0,9956
2CHT
0,3956
0,3843
0,3379
0,6831
0,4319
0,5184
0,3575
4CR
0,2088
0,2094
0,9998
0,9998
0,9998
0,9998
0,9998
4CRE-V1
0,2142
0,2053
0,1070
0,2398
0,1929
0,2100
0,2637
4CRE-V2
0,2038
0,1999
0,1255
0,1690
0,2029
0,1677
0,2487
5CVT
0,3553
0,3439
0,1143
0,3495
0,1871
0,1781
0,1656
1CSurr
0,4669
0,4658
0,8846
0,9587
0,8752
0,8748
0,8613
4CE1CF
0,9838
0,9882
0,8853
0,9803
0,9787
0,9738
0,9785
UG-2C-2D
0,4392
0,4563
0,9497
0,6614
0,9571
0,9589
0,9565
MG-2C-2D
0,4746
0,4882
0,5971
0,6096
0,7055
0,8976
0,8763
FG-2C-2D
0,7267
0,7305
0,8919
0,9310
0,8040
0,7631
0,7790
UG-2C-3D
0,4943
0,4841
0,5176
0,9239
0,9098
0,9284
0,9396
UG-2C-5D
0,6695
0,5072
0,5974
0,6489
0,6568
0,9129
0,9100
GEARS-2C-
2D
0,9514
0,9521
0,9755
0,9801
0,9637
0,9715
0,9651
CHECKER.
0,4867
0,4903
0,4688
0,4852
0,5051
0,5028
0,5028
NOAA
0,5052
0,4147
0,3988
0,4518
0,3915
0,3915
0,4212
Electricity
0,5838
0,5819
0,4292
0,4311
0,5846
0,5795
0,5837
Keyboard
0,6998
0,9187
0,8010
0,8260
0,9354
0,9354
0,9354
Com relação ao tempo de processamento, os modelos estáticos e de janela deslizante já
eram esperados de serem os mais rápidos, pois o modelo estático só realiza o treino uma vez
com os dados iniciais, e o modelo de janela deslizante, apesar de realizar múltiplos treinos, não
possui a etapa com o método de CSE para seleção das instâncias centrais, o que o torna mais
rápido. E o modelo incremental é o mais lento, pois não descarta instâncias antigas, e seu
conjunto de dados de treino aumenta a cada batch. Conforme mostrado por Ferreira, Zimbrão
e Alvim [6], o AMANDA-FCP tende a ser mais rápido que o método dinâmico, pois não possui
61
a etapa de cálculo do percentual de corte. Na Tabela 3, foi destacado o método mais rápido
entre todas as variações do AMANDA-DCP.
Tabela 3: Tempo de processamento médio em segundos
Conjunto de
Dados
Estático
Incremen.
Desliz.
AMANDA
FCP
AMANDA DCP
Original
Hellinger2
BBD-1
1CDT
0,3966
4,3911
0,4113
0,5758
0,5899
0,7855
0,6836
2CDT
0,2257
3,2604
0,2659
0,3395
0,3939
0,3757
0,3628
1CHT
0,4054
4,4377
0,3697
0,7119
0,9295
0,7517
0,8220
2CHT
0,3499
5,2872
0,3337
0,4813
0,5370
0,4914
0,4738
4CR
2,4313
50,1867
1,3259
12,1104
12,5332
11,6566
11,0495
4CRE-V1
1,6577
38,2838
1,2665
7,9768
8,0080
8,1207
8,0606
4CRE-V2
3,0361
106,6322
2,4653
17,1745
16,9485
16,7875
17,2545
5CVT
0,4744
9,0549
0,3740
0,7474
0,7663
0,8030
0,7628
1CSurr
1,4326
14,4671
0,7500
2,2144
2,3506
2,3395
2,2700
4CE1CF
2,3447
66,4219
1,6695
13,9676
14,3977
14,0853
14,1884
UG-2C-2D
1,4147
28,1976
1,1580
5,5402
5,7184
5,7671
5,7755
MG-2C-2D
3,2273
73,6734
2,2617
19,3438
19,4304
19,4904
19,6801
FG-2C-2D
3,4471
90,3127
2,6065
19,2192
18,1979
18,1354
17,9826
UG-2C-3D
5,4724
100,6317
2,7091
24,8583
24,1543
24,4733
25,5654
UG-2C-5D
11,6248
459,6997
5,5885
25,6978
25,9266
24,9943
24,4417
GEARS-2C-
2D
3,4550
92,8112
2,7417
23,3107
23,6361
23,0235
23,4529
CHECKER.
2,8384
65,1466
2,0089
24,2056
26,9032
31,5635
35,2531
NOAA
0,4647
11,4699
0,3278
0,6400
0,6766
0,6419
0,6320
Electricity
0,8475
37,7779
0,6522
1,9320
2,1249
2,1268
2,0814
Keyboard
0,0273
0,0983
0,0370
0,0800
0,0881
0,0816
0,0764
A Tabela 3 mostra que os métodos com seleção dinâmica de instâncias possuem tempos
de processamento parecidos. Dentre os métodos dinâmicos, o AMANDA-DCP-BBD-1 foi o
mais rápido dentre eles em 10 conjunto de dados. Isso pode ser explicado pelo fato de o
AMANDA-DCP-BBD-1 ter uma tendência a excluir mais instâncias em média do que os outros
métodos, conforme foi mostrado na seção 4.2.1. O AMANDA-DCP-Hellinger foi o mais rápido
62
em 6 conjunto de dados, e o AMANDA-DCP-Hellinger2 foi o mais rápido em 4 conjuntos de
dados. No entanto, percebe-se que de forma geral a diferença de tempo entre eles costuma ser
da ordem de  segundos.
Após gerar os resultados dos experimentos, foram utilizados o teste estatístico não-
paramétrico chamado teste de Friedman e o post hoc de Nemenyi com 95% de confiança. Esse
teste tem por objetivo comparar os métodos estudados e é adequado para comparar diversos
modelos que foram testados em diversos conjuntos de dados, como é descrito por Demšar [38].
Primeiramente, usando os dados da média de macro-f1, foi aplicado o teste de Friedman, cuja
hipótese nula de que as performances dos métodos são estatisticamente insignificantes foi
rejeitada. Em seguida, prosseguiu-se com o teste post hoc de Nemenyi, que uma vez que a
hipótese nula do teste de Friedman foi rejeitada, permite tentar ver quais métodos se distinguem
de forma significativa um do outro. A Figura 66 apresenta o resultado do teste post hoc, em que
a régua horizontal representa o rank médio de cada modelo, CD é a distância crítica, ou seja, a
distância mínima para dois modelos serem considerados estatisticamente diferentes e as linhas
horizontais em negrito agrupam os modelos cujos resultados o teste post-hoc não pode afirmar
que são estatisticamente diferentes.
Figura 66: Teste post hoc de Nemenyi. Fonte: autor.
A partir da Figura 66, nota-se que os métodos dinâmicos são indistinguíveis
estatisticamente do AMANDA-FCP, e que o AMANDA-BBD-1 foi o que chegou mais
próximo dele. Os métodos propostos então, parecem se equiparar com o estado da arte da área.
Como nesse trabalho foram utilizados 20% para otimização dos parâmetros do modelo,
ao invés de 5%, os modelos Estático e Incremental conseguem um resultado melhor que os
apresentados por Ferreira, Zimbrão e Alvim [6], pois tiram proveito de conceitos recorrentes
que viram nos 20% dos dados utilizados para otimização de parâmetros. Além disso, os modelos
iniciais por terem uma quantidade maior de dados que os modelos que são treinados nos batches
consecutivos, eles acabam generalizando melhor em casos de baixo grau de mudança de
conceito.
63
Capítulo 5
Conclusão
Neste capítulo são resumidos o problema abordado, a proposta e os resultados
alcançados. Por fim, são descritas as principais contribuições e apresentadas oportunidades de
trabalhos futuros que possam indicar caminhos dentro do contexto do trabalho.
5.1 Resumo do Problema
O problema abordado nesse trabalho foi o de mudança de conceito, característica de
ambientes não estacionários. Em diversas áreas, esse problema se agrava pela indisponibilidade
dos rótulos ao longo do processo, ou uma demora no tempo de obtenção desses rótulos,
denominado cenário de latência de verificação. Uma das formas de buscar a melhora do
classificador utilizado é utilizando técnicas de seleção de instâncias. Pensando nisso, foi
estudado formas dinâmicas de seleção de instâncias que independam da disponibilidade dos
rótulos num cenário de fluxo contínuo de dados, visando a melhoria de desempenho de
algoritmos de classificação.
Alguns métodos do estado da arte já tiram proveito de técnicas de seleção de instâncias
para cenários deste tipo, como o COMPOSE e o AMANDA, que possui duas versões, o
AMANDA-FCP e o AMANDA-DCP. O COMPOSE e o AMANDA-FCP apresentam bons
resultados, porém possuem a desvantagem de o processo de seleção de instâncias dos dois gerar
um parâmetro livre que precisa ter seu valor otimizado. O AMANDA-DCP realiza uma seleção
dinâmica de instâncias sem necessitar mais um parâmetro livre, porém apresentou resultados
significativamente piores que o AMANDA-FCP.
Sendo assim, buscou-se produzir uma forma de seleção dinâmica de instâncias que
produzisse melhores resultados, não necessitasse dos rótulos das instâncias e fosse automática,
não sendo necessário a criação de mais um parâmetro livre para ser otimizado.
64
5.2 Resumo da Proposta
Buscando melhores soluções para o problema apresentado, esse trabalho implementou
uma nova forma de seleção dinâmica de instâncias. Para isso, compara-se a distribuição dos
dados do batch anterior e do batch atual. Foi estudado a família de distâncias estatísticas
denominada distância Limitada de Bhattacharyya, cuja mudança do valor de um parâmetro livre
resulta em uma distância diferente, onde todas são limitadas a um valor de distância no intervalo
entre 0 e 1. Sabendo a inviabilidade de testar todas as infinitas distâncias dessa família, foi feito
um estudo prévio, onde foi definida a mais promissora para comparação com as variações do
AMANDA, por ser o que apresenta os melhores resultados.
Para comparar o método proposto e as duas variações do AMANDA, foram utilizados
20 conjuntos de dados que apresentam mudança de conceito e que são frequentemente
utilizados em trabalhos de estudo de mudança de conceito. Todos os métodos têm seus
parâmetros livres otimizados nos 20% iniciais dos dados, e seus desempenhos são
posteriormente comparados do ponto de vista de acerto de classificação, com as métricas de
acurácia e macro-f1, e de tempo de processamento.
5.3 Resumo dos Resultados
O método proposto de seleção dinâmica foi o que obteve resultados mais próximos do
método AMANDA-FCP com porcentagem fixa. Contudo, é importante observar que o teste
estatístico não conseguiu ver diferença significativa entre os métodos dinâmicos e o método
estático.
Os dois métodos propostos foram cada um os melhores de todos em 5 dos 20 conjuntos
de dados considerando o macro-f1, indicando um caminho promissor, porém que possibilita
melhoras, já que o resultado ideal seria um método que superasse o método estático e todos os
métodos dinâmicos.
O AMANDA-DCP-BBD-1 parece ser o mais rápido dos métodos dinâmicos, apesar de
a diferença dos tempos de processamento ser bem baixa, já que os métodos dinâmicos possuem
todos um algoritmo de complexidade parecido.
Os modelos, tanto com seleção estática quanto dinâmica, parecem ter uma dificuldade
maior em superar os modelos de baseline nos conjuntos de dados reais. Isso pode ocorrer pois
os métodos utilizados aqui não tiram proveito de conceitos recorrentes, e por isso, modelos de
65
baseline, como os modelos estático e incremental, que foram otimizados para ter o melhor
desempenho em 20% dos dados podem tirar proveito disso, caso esses conceitos ocorram
novamente. Além disso, bases reais geralmente possuem mudança de conceito mais sutil, e por
isso mais difícil de medir, ainda mais em casos com muitos atributos.
5.4 Principais Contribuições
Foi realizado uma revisão teórica sobre os métodos mais atuais para lidar com mudança
de conceito, e principalmente dos métodos que utilizam um classificador único e seleção de
instâncias. Além disso, também foram revistos alguns métodos de distância estatística que
servem para comparar a distribuição de dois conjuntos de dados diferentes.
Foram propostos dois novos métodos de seleção dinâmica de instâncias, que não criam
parâmetros livres e calculam dinamicamente a porcentagem de instâncias a ser excluídas em
cenário de latência de verificação extrema. Esses métodos se assemelham ao HDDDM, que é
um método que utiliza histogramas unidimensionais de cada atributo para detectar mudança de
conceito entre dois conjuntos de dados diferentes. A distância utilizada em um deles, porém,
difere do HDDDM, sendo utilizado uma distância da família de distâncias limitadas de
Bhattacharyya em vez da distância de Hellinger. Além disso, ambos métodos propostos
utilizam distâncias normalizadas entre 0 e 1, e comparam duas distribuições baseadas nos
histogramas delas de forma diferente do HDDDM.
5.5 Trabalhos Futuros
O método proposto e os métodos conhecidos possuem algumas desvantagens que abrem
espaço para futuros estudos que busquem melhoria dos resultados. Uma dessas desvantagens é
que mudanças de conceitos podem ocorrer a partir da mudança da distribuição de apenas um
atributo, ou de poucos atributos, e os métodos utilizados, por realizarem uma média da distância
de todos os atributos, esse tipo de mudança sutil pode não ser detectado devidamente no caso
de haver muitos atributos.
Frequentemente, em trabalhos anteriores, cenários de latência de verificação extrema
utilizam apenas 5% dos dados tanto para o modelo inicial, quanto para a otimização dos
parâmetros livres. Esse se trata de um cenário ainda mais extremo de indisponibilidade de
66
rótulos do que o utilizado nesse trabalho. Seria interessante testar os métodos aqui propostos
em cenários como este.
Uma outra possibilidade de estudo é que distâncias estatísticas possuem a função de
quantificar a diferença entre a distribuição de dois conjuntos de dados, porém, apesar dessa
diferença se relacionar com a quantidade ideal de instâncias que devem ser mantidas, podem
haver funções que mapeiam de forma mais adequada essas duas variáveis.
Também é possível se pensar no problema de seleção de instâncias mantendo-se
porcentagens diferentes de instâncias do batch anterior e do batch atual, ou até atribuindo
diferentes pesos a instâncias do batch anterior e a instâncias do batch atual antes de aplicar a
pesagem das instâncias com o método CSE. Isso poderia produzir uma melhora nos resultados,
já que quanto maior é a mudança de conceito, mais importantes são instâncias do batch atual e
menos importantes são instâncias do batch anterior.
Além disso é importante ressaltar a importância de novos trabalhos que apresentem mais
conjuntos de dados para o estudo do problema de mudança de conceito, principalmente
conjunto de dados mais próximos dos reais, com dimensionalidade mais alta e mudanças de
conceito mais irregulares. Isso possibilitaria uma melhor comparação dos modelos existentes e
auxiliaria novos estudos na busca pela elaboração de modelos mais sofisticados.
A área de estudo desse trabalho ainda é pouco explorada e, por isso, muitos caminhos
de estudos que podem ser seguidos para melhorar o desempenho de classificadores,
especialmente em cenários de latência de verificação, que ainda são um grande desafio.
67
Referências
[1] ŽLIOBAITĖ, I.; PECHENIZKIY, M.; GAMA, J.; An Overview of Concept Drift
Applications. In: Big data analysis: new algorithms for a new society, Springer,
Cham, pp. 91-114, 2016.
[2] GAMA, J. et al.; “A survey on concept drift adaptation”. ACM Computing Surveys, v.
46, n. 4, pp. 137, Mar. 2014.
[3] ELWELL, R.; POLIKAR, R.; “Incremental learning of concept drift in nonstationary
environments”. IEEE Transactions on Neural Networks, v. 22, n. 10, pp. 15171531,
2011.
[4] STANLEY, K. O.; “Learning Concept Drift with a Committee of Decision Trees”.
Informe técnico: UT-AI-TR-03-302, Department of Computer Sciences, University
of Texas at Austin, USA, 2003.
[5] DYER, K. B.; CAPO, R.; POLIKAR, R.; “Compose: A semisupervised learning
framework for initially labeled nonstationary streaming data”. IEEE Transactions on
Neural Networks and Learning Systems, v. 25, n. 1, pp. 1226, 2014.
[6] FERREIRA, R. S.; ZIMBRÃO, G.; ALVIM, L. G. M.; “AMANDA: Semi-supervised
density-based adaptive model for non-stationary data with extreme verification latency”.
Information Sciences, v. 488, pp. 219237, 2019.
[7] ZHU, X.; WU, X.; “Class Noise vs. Attribute Noise: A Quantitative Study”. Artificial
Intelligence Review, v. 22, n. 3, pp. 177210, 2004.
[8] KREMPL, G. et al.; “Open challenges for data stream mining research”. ACM SIGKDD
Explorations Newsletter, v. 16, n. 1, pp. 110, 2014.
[9] CAPO, R.; SANCHEZ, A.; POLIKAR, R.; “Core support extraction for learning from
initially labeled nonstationary environments using COMPOSE”. In: Proceedings of the
International Joint Conference on Neural Networks, pp. 602608, 2014.
[10] VERGARA, A. et al.; “Chemical gas sensor drift compensation using classifier
ensembles”. Sensors and Actuators, B: Chemical, v. 166167, pp. 320329, 2012.
[11] PECHENIZKIY, M. et al.; “Online mass flow prediction in CFB boilers with explicit
detection of sudden concept drift”. ACM SIGKDD Explorations Newsletter, v. 11, n.
2, pp. 109, May 2010.
[12] LUO, J. et al.; "Incremental learning for place recognition in dynamic environments".
In: 2007 IEEE/RSJ International Conference on Intelligent Robots and Systems.
68
IEEE, Oct. 2007.
[13] PAWLING, A.; CHAWLA, N. V; MADEY, G.; “Anomaly detection in a mobile
communication network”. Computational and Mathematical Organization Theory,
v. 13, n. 4, pp. 407422, Out. 2007.
[14] JOLAD, S. et al.; “A New Family of Bounded Divergence Measures and Application to
Signal Detection”. arXiv preprint arXiv:1201.0418. Jan. 2012.
[15] DUDA, R. O.; HART, P. E.; STORK, D. G.; Pattern Classification, 2 ed. New York,
John Wiley & Sons, 2012.
[16] SENA FERREIRA, R. et al.; "Density-Based Core Support Extraction for Non-
stationary Environments with Extreme Verification Latency". In: 2018 7th Brazilian
Conference on Intelligent Systems (BRACIS). IEEE, Oct. 2018.
[17] MANNING, C. D.; RAGHAVAN, P.; SCHUTZE, H.; Introduction to Information
Retrieval, 1 ed. New York, Cambridge University Press, 2008.
[18] KARNICK, M. et al.; “Learning concept drift in nonstationary environments using an
ensemble of classifiers based approach”. In: Proceedings of the International Joint
Conference on Neural Networks, pp. 34553462, Jun. 2008.
[19] DITZLER, G. et al.; “Learning in Nonstationary Environments: A Survey”. IEEE
Computational Intelligence Magazine, v. 10, n. 4, pp. 1225, 2015.
[20] BESSA, R. J.; MIRANDA, V.; GAMA, J.; “Entropy and correntropy against minimum
square error in offline and online three-day ahead wind power forecasting”. IEEE
Transactions on Power Systems, v. 24, n. 4, pp. 16571666, 2009.
[21] LINDSTROM, P.; DELANY, S.; NAMEE, B. MAC; “Handling concept drift in a text
data stream constrained by high labelling cost”. FLAIRS. AAAI Press, Menlo Park,
2010.
[22] BIFET, A.; FRANK, E.; "Sentiment knowledge discovery in Twitter streaming data".
In: International conference on discovery science, 2010.
[23] WIDMER, G.; KUBAT, M.; "Learning in the presence of concept drift and hidden
contexts". Machine learning, 1996.
[24] TSYMBAL, A.; “The problem of concept drift: definitions and related work”.
Computer Science Department, Trinity College Dublin, v. 106, n. 2, p. 58, 2004.
[25] BAENA-GARCÍA, M. et al.; “Early Drift Detection Method”. In: Fourth International
Workshop on Knowledge Discovery from Data Streams, Sep. 2006.
[26] BIFET, A.; GAVALDÀ, R.; "Learning from Time-Changing Data with Adaptive
Windowing". In: Proceedings of the 2007 SIAM International Conference on Data
69
Mining. Apr. 2007.
[27] ALIPPI, C.; BORACCHI, G.; ROVERI, M.; “Just-in-time classifiers for recurrent
concepts”. IEEE Transactions on Neural Networks and Learning Systems, v. 24, n.
4, pp. 620634, 2013.
[28] HULTEN, G.; SPENCER, L.; DOMINGOS, P.; “Mining time-changing data streams”.
In: Proceedings of the seventh ACM SIGKDD international conference on
Knowledge discovery and data mining, v. 18, pp. 97106, Aug. 2001.
[29] ZHU, X.; GHAHRAMANI, Z.; “Learning from Labeled and Unlabeled Data With Label
Propagation”. Journal of Experimental Psychology: General, v. 19, n. 1, pp. 119,
2002.
[30] DITZLER, G.; POLIKAR, R.; “Hellinger distance based drift detection for nonstationary
environments”. In: 2011 IEEE Symposium on Computational Intelligence in
Dynamic and Uncertain Environments (CIDUE), pp. 4148, Apr. 2011.
[31] PATIST, J. P.; “Optimal window change detection”. In: Seventh IEEE International
Conference on Data Mining Workshops (ICDMW 2007), pp. 557562, 2007.
[32] KAILATH, T.; “The Divergence and Bhattacharyya Distance Measures in Signal
Selection”. IEEE Transactions on Communications, v. 15, n. 1, pp. 5260, Fev. 1967.
[33] SOUZA, V. M. A. et al.; “Classification of evolving data streams with infinitely delayed
labels”. In: 2015 IEEE 14th International Conference on Machine Learning and
Applications (ICMLA), pp. 214219, 2015a.
[34] SOUZA, V. M. A. et al.; Data stream classification guided by clustering on
nonstationary environments and extreme verification latency”. In: Proceedings of the
2015 SIAM International Conference on Data Mining, 2015b.
[35] HARRIES, M.; WALES, N. S.; “Splice-2 comparative evaluation: Electricity pricing”.
Citeseer, 1999.
[36] KILLOURHY, K. S.; MAXION, R. A.; "Comparing anomaly-detection algorithms for
keystroke dynamics". In: Proceedings of the International Conference on
Dependable Systems and Networks, Jun. 2009.
[37] CHICCO, D.; “Ten quick tips for machine learning in computational biology”. BioData
Mining, v. 10, n. 1, pp. 117, 2017.
[38] DEMŠAR, J.; “Statistical Comparisons of Classifiers over Multiple Data Sets”. Journal
of Machine Learning Research, v. 7, pp. 30, Jan. 2006.
ResearchGate has not been able to resolve any citations for this publication.
Conference Paper
Full-text available
Machine learning solutions usually consider that the train and test data has the same probabilistic distribution, that is, the data is stationary. However, in streaming scenarios, data distribution generally change through the time, that is, the data is non-stationary. The main challenge in such online environment is the model adaptation for the constant drifts in data distribution. Worth to mention that the drift assumption is that class distributions overlap at subsequent time steps. Hence, the core region of data distribution have significant overlap with incoming data. Therefore, selecting samples from these core regions helps to retain the most important instances that represent the new distribution. This selection is denominated core support extraction (CSE). Thus, we present a study about density-based algorithms applied in non-stationary environments. We compared KDE, GMM and two variations of DBSCAN against single semi-supervised approaches. We validated these approaches in seventeen synthetic datasets and three real ones, showing the strengths and weaknesses of these CSE methods through many metrics. We show that a semi-supervised classifier is improved up to 68% on a real dataset when it is applied along with a density-based CSE algorithm. The results between KDE and GMM, as CSE methods, were close but the approach using KDE is more practical due to having less parameters.
Article
Full-text available
Machine learning has become a pivotal tool for many projects in computational biology, bioinformatics, and health informatics. Nevertheless, beginners and biomedical researchers often do not have enough experience to run a data mining project effectively, and therefore can follow incorrect practices, that may lead to common mistakes or over-optimistic results. With this review, we present ten quick tips to take advantage of machine learning in any computational biology context, by avoiding some common errors that we observed hundreds of times in multiple bioinformatics projects. We believe our ten suggestions can strongly help any machine learning practitioner to carry on a successful project in computational biology and related sciences.
Conference Paper
Full-text available
We introduce a new one-parameter family of divergence measures, called bounded Bhattacharyya distance (BBD) measures, for quantifying the dissimilarity between probability distributions. These measures are bounded, symmetric and positive semi-definite and do not require absolute continuity. In the asymptotic limit, BBD measure approaches the squared Hellinger distance. A generalized BBD measure for multiple distributions is also introduced. We prove an extension of a theorem of Bradt and Karlin for BBD relating Bayes error probability and divergence ranking. We show that BBD belongs to the class of generalized Csiszar f-divergence and derive some properties such as curvature and relation to Fisher Information. For distributions with vector valued parameters, the curvature matrix is related to the Fisher-Rao metric. We derive certain inequalities between BBD and well known measures such as Hellinger and Jensen-Shannon divergence. We also derive bounds on the Bayesian error probability. We give an application of these measures to the problem of signal detection where we compare two monochromatic signals buried in white noise and differing in frequency and amplitude.
Article
Full-text available
The prevalence of mobile phones, the internet-of-things technology, and networks of sensors has led to an enormous and ever increasing amount of data that are now more commonly available in a streaming fashion [1]-[5]. Often, it is assumed - either implicitly or explicitly - that the process generating such a stream of data is stationary, that is, the data are drawn from a fixed, albeit unknown probability distribution. In many real-world scenarios, however, such an assumption is simply not true, and the underlying process generating the data stream is characterized by an intrinsic nonstationary (or evolving or drifting) phenomenon. The nonstationarity can be due, for example, to seasonality or periodicity effects, changes in the users' habits or preferences, hardware or software faults affecting a cyber-physical system, thermal drifts or aging effects in sensors. In such nonstationary environments, where the probabilistic properties of the data change over time, a non-adaptive model trained under the false stationarity assumption is bound to become obsolete in time, and perform sub-optimally at best, or fail catastrophically at worst.
Conference Paper
Full-text available
Data stream classification algorithms for nonstationary environments frequently assume the availability of class labels, instantly or with some lag after the classification. However , certain applications, mainly those related to sensors and robotics, involve high costs to obtain new labels during the classification phase. Such a scenario in which the actual labels of processed data are never available is called extreme verification latency. Extreme verification latency requires new classification methods capable of adapting to possible changes over time without external supervision. This paper presents a fast, simple, intuitive and accurate algorithm to classify nonstationary data streams in an extreme verification latency scenario, namely Stream Classification Algorithm Guided by Clustering – SCARGC. Our method consists of a clustering followed by a classification step applied repeatedly in a closed loop fashion. We show in several classification tasks evaluated in synthetic and real data that our method is faster and more accurate than the state-of-the-art.
Article
Concept drift refers to an alteration in the relations between input and output data in the distribution over time. Thus, a gradual concept drift alludes to a smooth and gradual change in these relations. It generates a model obsolescence and quality decrease in predictions. Besides, there is a challenging task: the extreme verification latency to certify the labels. For batch scenarios, state-of-the-art methods do not properly tackle the problems aforementioned due to their high computational time, lack of representing samples of the drift or even for having several hyperparameters for tuning. Therefore, we propose AMANDA, a semi-supervised density-based adaptive model for non-stationary data. It has two variations: AMANDA-FCP, which selects a fixed number of samples; and AMANDA-DCP, which, in turn, dynamically selects samples from data. Our results indicate that these two variations outperform the state-of-the-art methods for almost all synthetic and real datasets, with an improvement up to 27.98% regarding the average error. AMANDA-FCP improved the results for a gradual concept drift, even with a small size of initial labeled data. Moreover, our results indicate that semi-supervised classifiers are improved when they work along with our density-based methods. Therefore, we emphasize the importance of research directions based on this approach.
Article
Vision\--based place recognition is a desirable feature for an autonomous mobile system. In order to work in realistic scenarios, a visual recognition algorithm should have two key properties: robustness and adaptability. This paper focuses on the latter, and presents a discriminative incremental learning approach to place recognition. We use a recently introduced version of the fixed\--partition incremental SVM, which allows to control the memory requirements as the system updates its internal representation. At the same time, it preserves the recognition performance of the batch algorithm and runs online. In order to assess the method, we acquired a database capturing the intrinsic variability of places over time. Extensive experiments show the power and the potential of the approach.
Chapter
In most challenging data analysis applications, data evolve over time and must be analyzed in near real time. Patterns and relations in such data often evolve over time, thus, models built for analyzing such data quickly become obsolete over time. In machine learning and data mining this phenomenon is referred to as concept drift. The objective is to deploy models that would diagnose themselves and adapt to changing data over time. This chapter provides an application oriented view towards concept drift research, with a focus on supervised learning tasks. First we overview and categorize application tasks for which the problem of concept drift is particularly relevant. Then we construct a reference framework for positioning application tasks within a spectrum of problems related to concept drift. Finally, we discuss some promising research directions from the application perspective, and present recommendations for application driven concept drift research and development.