Content uploaded by Stanislav Protasov
Author content
All content in this area was uploaded by Stanislav Protasov on Nov 20, 2020
Content may be subject to copyright.
УДК 004.855.5
Гипотеза компактности и теорема Жордана в приложении к методу k ближайших
соседей на графовых индексных структурах
С.И. Протасов
Университет Иннополис
Метод k ближайших соседей (kNN) является важным методом машинного обучения, он
эффективно решает задачу классификации для обучающих выборок, пространственная структура
которых неизвестна. Другие методы вносят существенные ограничения на форму границ классов;
хотя глубокие искусственные нейронные сети в теории позволяют аппроксимировать сколь угодно
сложные границы класса, они для этого требуют большого количества примеров в фазе обучения.
Несмотря на простоту и выразительность, kNN страдает от необходимости хранить всю
обучающую выборку, что ограничивает его применимость. В данной работе я рассмотрю подход,
который позволяет одновременно уменьшить размер хранимой выборки, и при этом увеличить
устойчивость решения на границе классов.
Предложенный метод опирается на гипотезу компактности [1]. Данная гипотеза не
является точно сформулированным утверждением, поэтому для своей работы я использую
следующую трактовку: объекты, находящиеся близко в метрическом пространстве, с большой
вероятностью принадлежат одному классу. Эта идея является основой метода kNN, однако
возможна дополнительная её интерпретация. Следствием гипотезы является наличие у классов
границ. Можно рассматривать границу класса как замкнутую гиперповерхность или совокупность
таких гиперповерхностей. Предложенная трактовка гипотезы позволяет использовать теорему
Жордана и её обобщение для многомерных случаев, сделанное Броуером [2]. Одно из следствий
теоремы утверждает, что если две точки принадлежат одному классу, то число пересечений
соединяющей их произвольной кривой с границей класса будет чётным, а если разным — то
нечётной. Совместив следствие с гипотезой компактности получаю: отрезок между близко
расположенными векторами с высокой вероятностью пересечёт границу класса не более одного
раза.
Для бинарной классификации с помощью kNN предложенное выше утверждение работает
следующим образом: если удастся обнаружить с высокой достоверностью границу класса между
классифицируемым объектом и одним из ближайших соседей, то при голосовании такой сосед
должен отдать свой голос в пользу противоположного класса. Такой подход должен увеличивать
точность классификации вблизи границы класса.
Пусть искомая функция бинарной классификации имеет вид 01, где 0 и 1
соответствуют уверенному отнесению классифицируемого вектора к одному из классов. Пусть
также функция f будет единожды дифференцируемой. Тогда градиент , в соответствии с
гипотезой компактности, будет равен 0 почти везде внутри класса, и будет отличаться от 0 вблизи
границы классов. Воспользуюсь градиентной теоремой:
, (1)
где γ – произвольная непрерывная кривая между a и x. Утверждение теоремы (1) в дискретном
виде для отрезка примет вид:
1, (2)
где x — классифицируемый вектор, a — один из соседей. Если известно значение и известна
функция градента , то используя численное интегрирование приближенно вычисляется .
Ненулевой модуль численного интеграла играет роль индикатора пересечения границы класса.
(а) (б) (в)
Рис. 1. Обучающая выборка в метрическом пространстве. Фон соответствует предсказанным классам,
пунктир — реальная граница класса (а) граница, предсказанная 5-NN классификатором и NSW-граф; (б)
разрез NSW-графа и опорное подмножество; (в) граница, предсказанная предложенным классификатором
Сформулирую метод аппроксимации для восстановления неизвестной функции градиента.
Замечу, что поскольку функция градиента является ненулевой в окрестности границы класса, то
для аппроксимации такой функции по обучающей выборке можно использовать некоторое
подмножество векторов близких к границе, а также их взаимное расположение. Для определения
такого подмножества я использую метризированные графы (proximity graphs) [3], к которым
относятся, например, граф Габриэля, триангуляция Делоне или минимальное остовное дерево.
Метризированный граф “мир тесен” (NSW) [4] является приближением триангуляции Делоне,
однако может быть построен по детерминированной процедуре с линейной временной
сложностью (см. рис. 1.а). Рёбра, принадлежащие разрезу этого графа по границе классов
(вершины ребра принадлежат разным классам, рис. 1.б) можно использовать как приближение
значение градиента в виде
. В работе используется половина самых коротких рёбер.
Для получения непрерывной функции применяю взвешенное усреднение значений векторов в
окрестности, радиус которой равен медианному расстоянию между серединами рёбер в разрезе.
Для значения f(a) в (2) случайным образом выбирается опорное подмножество обучающей
выборки (см. рис. 1.б).
Результат работы предложенного алгоритма показан на рисунке 1.в. В экспериментах,
проведённых на наборе данных “100 leaves” [5] удалось превзойти (97.92%) на задаче бинарной
классификации классический метод ближайших соседей при (96.53%) при размере опорного
подмножества всего 10% исходного набора.
Литература
1. Аркадьев А.Г., Браверман Э.М. Обучение машины распознаванию образов. - М.: Наука, 1964. 192 с.
2. Spanier E. Algebraic Topology — NY:McGraw-Hill, 1966, p. 198.
3. Mathieson L., Moscato P. An Introduction to Proximity Graphs. — Cham:Springer, Business and Consumer
Analytics: New Ideas, 2019, pp. 213-233.
4. Malkov, Y. [et al.]. Approximate nearest neighbor algorithm based on navigable small world graphs. --
Information Systems V.45, 2014. pp. 61–68
5. Mallah C. [et al.]. Plant leaf classification using probabilistic integration of shape, texture and margin
features. — Innsbruck:SPPRA, 2013 V. 5(1). pp. 45–54.