Download full-text PDF

Impacto da geração de grafos na classificação semissupervisionada

Thesis (PDF Available)  · July 2013with15 Reads
DOI: 10.13140/RG.2.2.35270.06724
Thesis for: Mestre
Celso Sousa at University of São Paulo
  • University of São Paulo
Abstract
Uma variedade de algoritmos de aprendizado semissupervisionado baseado em grafos e métodos de geração de grafos foram propostos pela comunidade científica nos últimos anos. Apesar de seu aparente sucesso empírico, a área de aprendizado semissupervisionado carece de um estudo empírico detalhado que avalie o impacto da geração de grafos na classificação semissupervisionada. Neste trabalho, é provido tal estudo empírico. Para tanto, combinam-se uma variedade de métodos de geração de grafos com uma variedade de algoritmos de aprendizado semissupervisionado baseado em grafos para compará-los empiricamente em seis bases de dados amplamente usadas na literatura de aprendizado semissupervisionado. Os algoritmos são avaliados em tarefas de classificação de dígitos, caracteres, texto, imagens e de distribuições gaussianas. A avaliação experimental proposta neste trabalho é subdividida em quatro partes: (1) análise de melhor caso; (2) avaliação da estabilidade dos classificadores semissupervisionados; (3) avaliação do impacto da geração de grafos na classificação semissupervisionada; (4) avaliação da influência dos parâmetros de regularização no desempenho de classificação dos classificadores semissupervisionados. Na análise de melhor caso, avaliam-se as melhores taxas de erro de cada algoritmo semissupervisionado combinado com os métodos de geração de grafos usando uma variedade de valores para o parâmetro de esparsificação, o qual está relacionado ao número de vizinhos de cada exemplo de treinamento. Na avaliação da estabilidade dos classificadores, avalia-se a estabilidade dos classificadores semissupervisionados combinados com os métodos de geração de grafos usando uma variedade de valores para o parâmetro de esparsificação. Para tanto, fixam-se os valores dos parâmetros de regularização (quando existirem) que geraram os melhores resultados na análise de melhor caso. Na avaliação do impacto da geração de grafos, avaliam-se os métodos de geração de grafos combinados com os algoritmos de aprendizado semissupervisionado usando uma variedade de valores para o parâmetro de esparsificação. Assim como na avaliação da estabilidade dos classificadores, para esta avaliação, fixam-se os valores dos parâmetros de regularização (quando existirem) que geraram os melhores resultados na análise de melhor caso. Na avaliação da influência dos parâmetros de regularização na classificação semissupervisionada, avaliam-se as superfícies de erro geradas pelos classificadores semissupervisionados em cada grafo e cada base de dados. Para tanto, fixam-se os grafos que geraram os melhores resultados na análise de melhor caso e variam-se os valores dos parâmetros de regularização. O intuito destes experimentos é avaliar o balanceamento entre desempenho de classificação e estabilidade dos algoritmos de aprendizado semissupervisionado baseado em grafos numa variedade de métodos de geração de grafos e valores de parâmetros (de esparsificação e de regularização, se houver). A partir dos resultados obtidos, pode-se concluir que o grafo k-vizinhos mais próximos mútuo (mutKNN) pode ser a melhor opção dentre os métodos de geração de grafos de adjacência, enquanto que o kernel RBF pode ser a melhor opção dentre os métodos de geração de matrizes ponderadas. Em adição, o grafo mutKNN tende a gerar superfícies de erro que são mais suaves que aquelas geradas pelos outros métodos de geração de grafos de adjacência. Entretanto, o grafo mutKNN é instável para valores relativamente pequenos de k. Os resultados obtidos neste trabalho indicam que o desempenho de classificação dos algoritmos semissupervisionados baseados em grafos é fortemente influenciado pela configuração de parâmetros. Poucos padrões evidentes foram encontrados para auxiliar o processo de seleção de parâmetros. As consequências dessa instabilidade são discutidas neste trabalho em termos de pesquisa e aplicações práticas.
Full-text
Content uploaded by Celso Sousa
Author content
Celso_mestrado.pdf
3 B
Sorry, there is no online preview for this file type.
Conference Paper
Full-text available
September 2013
    A variety of graph-based semi-supervised learning (SSL) al-gorithms and graph construction methods have been proposed in the last few years. Despite their apparent empirical success, the field of SSL lacks a detailed study that empirically evaluates the influence of graph cons-truction on SSL. In this paper we provide such an experimental study. We combine a variety of graph construction... [Show full abstract]
    Conference Paper
    Full-text available
    July 2015
      Graph-based semi-supervised learning (SSL) algorithms have gained increased attention in the last few years due to their high classification performance on many application domains. One of the widely used methods for graph-based SSL is the Gaussian Fields and Harmonic Functions (GFHF), which is formulated as an optimization problem using a Laplacian regularizer term with a fitting constraint... [Show full abstract]
      Conference Paper
      Full-text available
      July 2016
        Graph-based semi-supervised learning (SSL) algorithms learn through a weighted graph generated from both labeled and unlabeled examples. Despite the effectiveness of these methods on a variety of application domains, most of them are transductive in nature. Therefore, they are uncapable to provide generalization for the entire sample space. One of the most effective graph-based SSL algorithms... [Show full abstract]
        Conference Paper
        Full-text available
        July 2015
          Graph-based semi-supervised learning (SSL) algorithms perform well when the data lie on a low-dimensional manifold. Although these methods achieved satisfactory performance on a variety of domains, they have not been effectively evaluated on time series classification. In this paper, we provide a comprehensive empirical comparison of state-of-the-art graph-based SSL algorithms combined with a... [Show full abstract]
          Conference Paper
          Full-text available
          December 2016
            One of the widely used algorithms for graph-based semi-supervised learning (SSL) is the Local and Global Consistency (LGC). Such an algorithm can be viewed as a convex optimization problem that balances fitness on labeled examples and smoothness on the graph using a graph Laplacian. In this paper, we provide a novel graph-based SSL algorithm incorporating two normalization constraints into the... [Show full abstract]
            Discover more