Conference PaperPDF Available

Гипотеза компактности и теорема Жордана в приложении к методу k ближайших соседей на графовых индексных структурах

Authors:

Abstract

Метод k ближайших соседей (kNN) обязывает хранить всю обучающую выборку, что ограничивает его применимость. В работе рассматривается подход, позволяющий уменьшить размер хранимых данных, а также увеличить устойчивость решения на границе классов за счёт процедуры голосования, учитывающей пересечение границы. Метод превосходит оригинальный алгоритм при использовании только 10% исходных данных и векторов, расположенных на границе классов.
УДК 004.855.5
Гипотеза компактности и теорема Жордана в приложении к методу k ближайших
соседей на графовых индексных структурах
С.И. Протасов
Университет Иннополис
Метод k ближайших соседей (kNN) является важным методом машинного обучения, он
эффективно решает задачу классификации для обучающих выборок, пространственная структура
которых неизвестна. Другие методы вносят существенные ограничения на форму границ классов;
хотя глубокие искусственные нейронные сети в теории позволяют аппроксимировать сколь угодно
сложные границы класса, они для этого требуют большого количества примеров в фазе обучения.
Несмотря на простоту и выразительность, kNN страдает от необходимости хранить всю
обучающую выборку, что ограничивает его применимость. В данной работе я рассмотрю подход,
который позволяет одновременно уменьшить размер хранимой выборки, и при этом увеличить
устойчивость решения на границе классов.
Предложенный метод опирается на гипотезу компактности [1]. Данная гипотеза не
является точно сформулированным утверждением, поэтому для своей работы я использую
следующую трактовку: объекты, находящиеся близко в метрическом пространстве, с большой
вероятностью принадлежат одному классу. Эта идея является основой метода kNN, однако
возможна дополнительная её интерпретация. Следствием гипотезы является наличие у классов
границ. Можно рассматривать границу класса как замкнутую гиперповерхность или совокупность
таких гиперповерхностей. Предложенная трактовка гипотезы позволяет использовать теорему
Жордана и её обобщение для многомерных случаев, сделанное Броуером [2]. Одно из следствий
теоремы утверждает, что если две точки принадлежат одному классу, то число пересечений
соединяющей их произвольной кривой с границей класса будет чётным, а если разным то
нечётной. Совместив следствие с гипотезой компактности получаю: отрезок между близко
расположенными векторами с высокой вероятностью пересечёт границу класса не более одного
раза.
Для бинарной классификации с помощью kNN предложенное выше утверждение работает
следующим образом: если удастся обнаружить с высокой достоверностью границу класса между
классифицируемым объектом и одним из ближайших соседей, то при голосовании такой сосед
должен отдать свой голос в пользу противоположного класса. Такой подход должен увеличивать
точность классификации вблизи границы класса.
Пусть искомая функция бинарной классификации имеет вид  01, где 0 и 1
соответствуют уверенному отнесению классифицируемого вектора к одному из классов. Пусть
также функция f будет единожды дифференцируемой. Тогда градиент , в соответствии с
гипотезой компактности, будет равен 0 почти везде внутри класса, и будет отличаться от 0 вблизи
границы классов. Воспользуюсь градиентной теоремой:
 
 , (1)
где γ произвольная непрерывная кривая между a и x. Утверждение теоремы (1) в дискретном
виде для отрезка примет вид:
        

1, (2)
где x классифицируемый вектор, a один из соседей. Если известно значение  и известна
функция градента , то используя численное интегрирование приближенно вычисляется .
Ненулевой модуль численного интеграла играет роль индикатора пересечения границы класса.
(а) (б) (в)
Рис. 1. Обучающая выборка в метрическом пространстве. Фон соответствует предсказанным классам,
пунктир — реальная граница класса (а) граница, предсказанная 5-NN классификатором и NSW-граф; (б)
разрез NSW-графа и опорное подмножество; (в) граница, предсказанная предложенным классификатором
Сформулирую метод аппроксимации для восстановления неизвестной функции градиента.
Замечу, что поскольку функция градиента является ненулевой в окрестности границы класса, то
для аппроксимации такой функции по обучающей выборке можно использовать некоторое
подмножество векторов близких к границе, а также их взаимное расположение. Для определения
такого подмножества я использую метризированные графы (proximity graphs) [3], к которым
относятся, например, граф Габриэля, триангуляция Делоне или минимальное остовное дерево.
Метризированный граф “мир тесен” (NSW) [4] является приближением триангуляции Делоне,
однако может быть построен по детерминированной процедуре с линейной временной
сложностью (см. рис. 1.а). Рёбра, принадлежащие разрезу этого графа по границе классов
(вершины ребра принадлежат разным классам, рис. 1.б) можно использовать как приближение
значение градиента в виде 
. В работе используется половина самых коротких рёбер.
Для получения непрерывной функции применяю взвешенное усреднение значений векторов в
окрестности, радиус которой равен медианному расстоянию между серединами рёбер в разрезе.
Для значения f(a) в (2) случайным образом выбирается опорное подмножество обучающей
выборки (см. рис. 1.б).
Результат работы предложенного алгоритма показан на рисунке 1.в. В экспериментах,
проведённых на наборе данных “100 leaves[5] удалось превзойти (97.92%) на задаче бинарной
классификации классический метод ближайших соседей при (96.53%) при размере опорного
подмножества всего 10% исходного набора.
Литература
1. Аркадьев А.Г., Браверман Э.М. Обучение машины распознаванию образов. - М.: Наука, 1964. 192 с.
2. Spanier E. Algebraic Topology NY:McGraw-Hill, 1966, p. 198.
3. Mathieson L., Moscato P. An Introduction to Proximity Graphs. Cham:Springer, Business and Consumer
Analytics: New Ideas, 2019, pp. 213-233.
4. Malkov, Y. [et al.]. Approximate nearest neighbor algorithm based on navigable small world graphs. --
Information Systems V.45, 2014. pp. 6168
5. Mallah C. [et al.]. Plant leaf classification using probabilistic integration of shape, texture and margin
features. Innsbruck:SPPRA, 2013 V. 5(1). pp. 4554.
ResearchGate has not been able to resolve any citations for this publication.
Article
Full-text available
Plant species classification using leaf samples is a challenging and important problem to solve. This paper introduces a new data set of sixteen samples each of one-hundred plant species; and describes a method designed to work in conditions of small training set size and possibly incomplete extraction of features. This motivates a separate processing of three feature types: shape, texture, and margin; combined using a probabilistic framework. The texture and margin features use histogram accumulation, while a normalised description of contour is used for the shape. Two previously published methods are used to generate separate posterior probability vectors for each feature, using data associated with the k-Nearest Neighbour apparatus. The combined posterior estimates produce the final classification (where missing features could be omitted). We show that both density estimators achieved a 96\% mean accuracy of classification when combining the three features in this way (training on 15 samples with unseen cross validation). In addition, the framework can provide an upper bound on the Bayes Risk of the classification problem, and thereby assess the accuracy of the density estimators. Lastly, the high performance of the method is demonstrated for small training set sizes: 91\% accuracy is observed with only four training samples.
Chapter
Proximity graphs are one of the combinatorial data-miner’s frontline tools. They allow expression of complex proximity relationships and are the basis of many other algorithms. Here we introduce the concept of proximity graphs, present basic definitions and discuss some of the most common types of proximity graphs.
Обучение машины распознаванию образов
  • А Г Аркадьев
  • Э М Браверман
Аркадьев А.Г., Браверман Э.М. Обучение машины распознаванию образов. -М.: Наука, 1964. 192 с.