Content uploaded by Роман Курновский
Author content
All content in this area was uploaded by Роман Курновский on Jan 15, 2025
Content may be subject to copyright.
МЕЖДУНАРОДНЫЙ ЖУРНАЛ ПРИКЛАДНЫХ
И ФУНДАМЕНТАЛЬНЫХ ИССЛЕДОВАНИЙ № 12, 2024
41
ТЕХНИЧЕСКИЕ НАУКИ
УДК004.8
ЭВОЛЮЦИЯ МЕТОДОВ МАШИННОГО ОБУЧЕНИЯ:
ОТ ALPHAZERO К ALPHAPROOF И ИХ ПРИМЕНЕНИЕ
В РЕШЕНИИ МАТЕМАТИЧЕСКИХ ЗАДАЧ
Курновский Р.М.
Джи Пи Морган Банк, Самара, e-mail: r.kurnovskii@gmail.com
Вданнойстатьеподробнорассматриваютсяалгоритмымашинногообучения,заложенныевосновуси-
стемыAlphaZero,атакжеихприменениедлярешениясложныхматематическихзадачвсистемеAlphaProof.
Целью работы являлось определение математических правил работы алгоритмов, благодаря которым
онистольэффективны.Встатьетакжерассматриваютсяперспективыивызовы,связанныесприменением
нейронныхсетей в научныхисследованиях,особенновобластиматематическихдоказательств.Дляэтого
былпроведенвсестороннийобзорнаучныхисточниковисистематизацияданныхисследований.Быловыяв-
лено,чтоэффективностьмоделейбыласвязанасоптимизациямиалгоритмовпоискаподеревуМонте-Кар-
лоиразработкиновыхметодов.AlphaProofиспользуетметодыобучениясподкреплением,разработанные
набазеAlphaZero,котораяизначальноприменяласьдляигр,такихкакшахматыиго.Этиметодыпозволяют
системесправлятьсясматематическимизадачамивысокойсложности.Путемпреобразованияболеемилли-
оназадачизразличныхобластей,включаяалгебру,теориючиселигеометрию,вформальныеязыки,такие
какLean, AlphaProof эффективногенерируетипроверяетрешения,чтоделаетеемощныминструментом
дляматематическихисследований.
Ключевые слова: машинное обучение, нейронные сети, математические задачи, AlphaZero, AlphaProof
EVOLUTION OF MACHINE LEARNING METHODS:
FROM ALPHAZERO TO ALPHAPROOF AND THEIR
APPLICATION IN SOLVING MATHEMATICAL PROBLEMS
Kurnovskiy R.M.
J.P. Morgan, Samara, e-mail: r.kurnovskii@gmail.com
Thispaper provides a detailed accountof the machine learning algorithmsthat underpin theAlphaZero
system,togetherwithan analysis of their application to theresolutionof complex mathematical problems in
theAlphaProof system.The objective of this paper is to identify the mathematical principles underlying the
algorithms that make them so eective. Furthermore, the paper investigates the potential and obstacles to
utilizingneuralnetworksinscienticenquiry,particularly within the domain of mathematical proofs.Tothis
end,acomprehensive review of the scienticliteratureandsystematicorganizationof the research datawere
carried out. It was determined that the ecacy of the models was contingent upon optimizations of Monte
Carlotree searchalgorithmsand thedevelopmentof novelmethodologies.AlphaProofemploys reinforcement
learningtechniquesderivedfromAlphaZero,whichwasinitiallydeployedingamessuchaschessandGo.These
techniquesenablethesystemto address mathematical problems of considerable complexity.Bytransforming
overa million problems from diverse domains, including algebra, number theory, and geometry,into formal
languages like Lean, AlphaProof can eciently generate and verify solutions, making it a valuable tool for
mathematicalresearch.
Keywords: machine learning, neural networks, mathematical problems, Alphazero, Alphaproof
Введение
25июля2024г.командаResearchкомпа-
нии Google DeepMind, занимающаяся раз-
работкой и применением методов машин-
ногообучениядлярешенияматематических
задач, объявила о том, что их последние
моделиAlphaProofиAlphaGeometry2смог-
ли решить задания сложнейшей междуна-
родной математической олимпиады (65th
International Mathematical Olympiad, IMO
2024)науровнесеребряногомедалиста,от-
ставотпорогадлязолотоймедалина1балл
[1].Стоитучесть, что,вотличиеотреаль-
ныхучастниковолимпиады,решающихза-
дачи4,5часа, нейросетисправились лишь
за 3 дня, но, несмотря на это, в скором
времени ожидается многократное ускоре-
ние работыAlphaProof. Бурный рост ней-
ронныхсетейвсамых разныхприкладных
ифундаментальныхобластяхзапоследние
нескольколетпривлекаетвниманиемногих
специалистов.Одним из важныхвопросов
являетсявопросэволюциииразвитиямето-
довобучения.
Цель работы заключается в опреде-
лении ключевых технических и математи-
ческих особенностей работы алгоритмов
AlphaZero,AlphaProofи похожихмоделей,
благодаря которым они столь успешно ре-
шаютматематическиезадачи.
Материалы и методы исследования
Дляпроведенияисследованиябылаосу-
ществлена систематическая оценка и ана-
INTERNATIONAL JOURNAL OF APPLIED
AND FUNDAMENTAL RESEARCH № 12, 2024
42 TECHNICAL SCIENCES
лиз научных публикаций, посвященных
эволюции методов машинного обучения
с акцентом на разработку и применение
моделей,такихкакAlphaZeroиAlphaProof,
в решении математических задач. Основ-
ным методом исследования стал литера-
турныйобзор,включающийпоиск, отбор,
классификациюикритический анализна-
учных статей, опубликованных в период
с2012 по 2024 г.Материалы дляанализа
были получены из международных на-
учных журналов, включая Nature, IEEE,
Science,атакжепубликацийGoogle Deep-
Mind. Ключевыми словами поиска стали:
AlphaZero, AlphaProof, «машинное обу-
чение», «решение математических задач»
«глубокое обучение». Были рассмотрены
статьи, охватывающие как технические
аспекты алгоритмов, так и их примени-
мость в математике и смежных областях.
Критериямиотборастатейслужили:акту-
альность исследований в контексте при-
менения методов машинного обучения
к математическим задачам, детальное
описание архитектур моделей AlphaZero
и AlphaProof. Для структурирования дан-
ных применялась методология PRISMA,
котораяпозволиласистематизироватьпро-
цесс поиска, исключения дублирующихся
данныхианализарелевантныхисточников.
Результаты исследования и их обсуждение
Всеиспользуемыеобозначенияисимволыданывтаблице.
Используемыеобозначения
pвектор,каждаякомпонентаpaкоторого–этовероятностьпринятьданноеполо-
жениеприданномдействии
vскаляроценкирезультата
Θгиперпараметрынейросети
fΘфункциянейросетиприданныхгиперпараметрах
sданноеположениенадоске(напримереигрывго)
aпроизведенныйпереходподереву(действие)
Pr(a|s) вероятностьзанятьданноеположениенадоскеприданномдействии
zскаляр,характеризующийрезультатигры
πa
векторвероятностипроизвестиданныйпереходподеревуизданногоначально-
гоположения
vtскаляроценкирезультатаигрынаданномшаге
lфункцияпотерьвметодеградиентногоспуска
Tскаляр,характеризующийконечнуюпозициюнадереве
cрегулирующийпараметр
cpuct скаляр,определяющийуровеньисследованностиданнойветвидерева
xпараметр ошибки функции потерь, отличающий алгоритм PBT от алгоритма
AlphaZero
Всерешения семействаAlpha компании
DeepMind,включающиесистемыAlphaFold
2,AlphaZero,AlphaGo,AlphaStar,AlphaTen-
sor,AlphaCodeидр.,направленынарешение
вычислительныхприкладныхинаучныхза-
дач. Рассматриваемая система AlphaProof
представляетсобойпредварительнообучен-
ную на большой выборке математических
задачиих решениймодель сподкреплени-
емAlphaZero,схемуработыкоторойможно
проиллюстрироватьрис.1. Болеемиллиона
математических рукописных задач из всех
областейгеометрии,алгебры,теориивероят-
ностейитеориичисел,математическогоана-
лизаидругихбылипереведенынаформаль-
ный язык Lean с помощью Gemini [1]. Это
решилобольшинствопроблемсобработкой
естественного языка, нейросетевых галлю-
цинацийиошибок. Длярешения геометри-
ческихзаданийбылазначительноулучшена
модельAlphaGeometryзасчетбольшегоко-
личествазадачдляобучения.
МЕЖДУНАРОДНЫЙ ЖУРНАЛ ПРИКЛАДНЫХ
И ФУНДАМЕНТАЛЬНЫХ ИССЛЕДОВАНИЙ № 12, 2024
43
ТЕХНИЧЕСКИЕ НАУКИ
Рис. 1. Схематичное изображение процесса формализации математических задач,
обучения и их решения с помощью AlphaZero в системе AlphaProof
AlphaZero–этонейроннаясеть,которая
обучаетсяза счетсоревнования сама с со-
бойв течениемногих миллионов попыток
с подкреплением. Сначала процесс обуче-
нияслучаен,нодовольнобыстронейросеть
учится корректировать свои параметры,
причемнамногоболее успешно, чеммоде-
ли, обученные на заранее подготовленных
данных. AlphaZero использует эвристи-
ческий алгоритм поиска по дереву Мон-
те-Карло(Monte CarloTree Search, MCTS)
соценкойНОДфункцияминаоснове deep
learning. Именно нейросетевой оценкой
НОД этот алгоритм отличается от класси-
ческогоMCTS.Эта нейросетьтренируется
предсказывать по прошлым данным даль-
нейшиеданные (SL-policy network), потом
тренируетсяигратьсамассобой(RL-policy
network), а далее тренируется предсказы-
ватьшансына выигрыш [2].Восновеэто-
го метода все еще лежат математические
методы теории принятия решений (мар-
ковские процессы принятия решений и их
расширенияпри частичных наблюдениях),
теорииигрикомбинаторика,методМонте-
Карлоиискусственныйинтеллектвнастоя-
щихиграх.
Алгоритм MCTS итеративно строит
дерево поиска решения до достижения
какого-тоограниченияпопамяти,времени,
точности и т.п. Как и у множества других
такихалгоритмов,итерацииалгоритмапро-
изводятся в четыре шага: выбор дочерних
НОД, расширение количества НОД, моде-
лирование и обновление статистики оши-
бок[3]. Иллюстрацияалгоритмапредстав-
ленанарис.2.
Рассмотримматематическиеосновыра-
ботыалгоритмов работыAlphaZero.Отме-
тим,чтовыделенныеполужирнымначерта-
нием символы – это векторные величины,
еслинеуказаноиное.
Рис. 2. Схематичное изображение основных шагов алгоритма Monte Carlo Tree Search
INTERNATIONAL JOURNAL OF APPLIED
AND FUNDAMENTAL RESEARCH № 12, 2024
44 TECHNICAL SCIENCES
АвторыAlphaZero в работе [4] описы-
вают используемую нейросеть с глубоким
обучениемкакфункцию(p,v)=fΘ(s)спара-
метрамиΘ. Напримере с обучениемигры
вигруго,нейросетьfΘ(s)принимаетданное
положение на доске s, а на выходе предо-
ставляетвекторвероятностиp скомпонен-
тами pa = Pr(a|s) для каждого действия a
и скаляр оценки v ожидаемого результата
игрыz изотношения
]
.v zs
≈
Параме-
трыΘподбираютсяприобучениисиграми
со случайно подобранными Θ благодаря
подкреплению.Вкаждойигресначальным
положениемвходепоискаповетвивозвра-
щаетсявектор πa = Pr(a|s0).Параметрыней-
роннойсетипостояннообновляются,чтобы
минимизироватьразницумеждувеличиной
предсказанногорезультатаигры vt среаль-
нымрезультатомz.ДляэтогопараметрыΘ
корректируютсяпутемградиентногоспуска
пофункциипотерьl:
( )
22
() ,
T
l z v log c=−− +
πθ
p (1)
гдеT–этоконечнаяпозициянадереве,c–
параметр,которыйконтролируетрегуляри-
зациюэтойфункции.
ВAlphaZero,такжекакивAlphaGo Zero,
используется байесовская оптимизация ги-
перпараметров,ноони,какинастройкисети
и всего алгоритма, не изменяются от игры
вигру[5].Каждоеребро(s,a)вдеревепоис-
кахранитнаборстатистическихданных:
( ) ( ) ( ) ( )
{ }
,, ,, ,, , ,
N sa W sa Q sa P sa (2)
где априорная вероятность P(s,a), количе-
ство посещений N(s,a), значение действия
Q(s,a),W(s,a)–суммарноезначениедействия
наветвидерева.Каждоемоделированиена-
чинаетсясначальногосостоянияs0иитера-
тивновыбираетходы,которыемаксимизиру-
ютверхнююдоверительнуюграницувида
( ) ( )
( )
,,
t tt
a argmax Q s a U s a= + , (3)
где
( ) ( ) ( )
( )
, , /1 ,U sa sa N sa
∞+
. В част-
ности,в алгоритмеPUCTпредлагаетсята-
койвидфункцииU(s,a):
( ) ( ) ( )
( )
,
,, ,
1,
b
puct
N sb
U sa c P sa
N sa
=+
∑(4)
гдеcpuct–этоконстанта,определяющаяуро-
веньисследованностиданнойветви.
Припрохождениипоребру(s,a)обнов-
ляетсязначениесчетчикаN(s,a),аQ(s,a)об-
новляетсяпоправилу
( ) ( ) ( )
|,
1
,.
,ssa s
Q sa N sa V s
′′
→′
=∑ (5)
Здесь
,sa s→′
показывает,чтосимуля-
ция достигла данного
s′
при выполнении
ходаaизсостоянияs.
Помимо приведенного выше облег-
ченного математического объяснения ра-
боты алгоритма работыAlphaZero, полная
математическая модель содержит боль-
шое количество вероятностных поправок
и небольших, но многочисленных ша-
говкорректировок.
ПослепубликациистатейAlphaZeroне-
сколькоисследовательскихкоманд,каквса-
мойкомпанииDeepMind,такидругие,про-
водилиизучениеспособовиметодовопти-
мизацииалгоритмовAlphaZero.Так,иссле-
дователиизработы[6]в2020г.предложили
собственный разработанный «популяцион-
ныйметод»(PBT).Они использовалипод-
ходы, применяемые в машинном обуче-
нии для обработки генетических данных,
аименнонескольконейросетейсо случай-
ныминачальнымипараметрамиΘ.Всесети
объединяют информацию для улучшения
гиперпараметров,авслучае,еслионинедо-
статочноточные,топроисходитих прямая
замена на лучшие гиперпараметры другой
нейросети.Такжеследуетотметить,чтоал-
горитмпредусматриваетвозможностьруч-
ногоизменениягиперпараметроввнаучно-
исследовательскихцелях.
Вданномисследованиииспользовалось
16нейросетейдляоценок,причемфункция
потерьтеперьтакжезависитиотпараметра
ошибкиxмеждуz и v:
( )
22
() .
T
l x z v log c= −− +
πθ
p (6)
Врезультатеэкспериментовавторыоб-
наружили,что,используяметодPBTкигре
вгонаполе19×19,процентпобеднаддру-
гой нейросетью Facebook’s ELF OpenGo
v2, которая наиболее близка по мощности
со свободными реализациями AlphaZero,
составил74%.Этоговоритотом,чтоори-
гинальноеприменениеразличныхподходов
в нейросетевых методах обучения имеет
перспективу значительно увеличить спо-
собноститакихсоревновательныхсистем.
AlphaProof использует заранее обрабо-
танные Gemini данные, которые представ-
ляют собой формализованные с помощью
Lean математические задачи. Это одна
из слабых точек технологии и недостаток
обучения моделей на естественном языке,
из-зачегонанастоящиймоментневозмож-
но избежать многочисленных искажений.
Для решения конкретной математической
задачи,AlphaProofнеобходимоформализо-
ватьее,всоответствиисалгоритмомAlpaZ-
ero,описаннымвыше,генерируютсясотни
вариантырешенияэтойзадачи,апослепро-
МЕЖДУНАРОДНЫЙ ЖУРНАЛ ПРИКЛАДНЫХ
И ФУНДАМЕНТАЛЬНЫХ ИССЛЕДОВАНИЙ № 12, 2024
45
ТЕХНИЧЕСКИЕ НАУКИ
исходитпроверкаэтогорешенияспомощью
Lean, если оно идентифицируется как не-
верное,тоначинаетсяпроверкаследующе-
горешенияит.д.,до достиженияправиль-
ного решения. Это возможно благодаря
тому,чтоLean–этофункциональныйязык
программирования с зависимыми типами
на основе CoC (Calculus of Constructions)
и CiC (Calculus of Inductive Constructions)
[7]. Версия Lean 4 поддерживает высоко-
производительные технологии управления
памятью,чтоможетзначительноупростить
процесс обучения таких сложных систем,
какAlpaProof.
Наданныймоментещенетпубликаций
с тестами результатов работы алгоритмов
системы AlphaProof, неясно, есть ли отли-
чияточностиискоростиееработывзави-
симостиотобластиматематикизадач,ком-
пания Google DeepMind не представила
подробныеданныеотом,какимибылипро-
межуточныеэтапыобучения,оскоростиоб-
ученияна различныхзадачах,требовались
ли корректировки метода обучения. Эти
данныеожидаются в ближайшембудущем
свыходомвторойверсиисистемы, ноуже
сейчасстановитсяпонятным,чтотакоеис-
пользование нейросетей будет большой
иважнойчастьюбудущегоразвитияматема-
тики,таккакпозволитсвысокойточностью
искоростьюстрогопроверятьсложнейшие
иобъемныетеоремы,такжекакитеоремы
из областей математики, в которых боль-
шое количество абстрактных конструкций
и идей – сейчас такие задачи непосильны
существующим моделям искусственного
интеллекта. Помимо доказательства тео-
рем, это также будет большим прорывом
нетолькодлярешения сложнейшихзадач,
нои для ихсоставления.О том, как такие
нейросети внесут большой вклад в буду-
щеематематикинаTheOxfordMathematics
PublicLectures,рассказалведущиймировой
математикТеренсТао,которыйвидитвних
незаменимый инструмент и роль коллеги
приматематическихисследованиях.
Заключение
Всевышеизложенноепозволяетзаклю-
чить,чтозначительныйпрогрессвметодах
машинногообучения,улучшенияираспро-
странения применения AlphaZero в при-
кладныхифундаментальных исследовани-
яхбудеттолькоувеличиваться.AlphaProof,
в свою очередь, показывает перспективы
в качестве сильного инструмента для уче-
ного, что показывает прогресс в работах
по оптимизации и улучшению алгоритмов
такихсистем.
Список литературы
1.AIachievessilver-medalstandardsolving International
MathematicalOlympiadproblems//GoogleDeepMind.[Элек-
тронный ресурс]. URL: https://deepmind.google/discover/
blog/ai-solves-imo-problems-at-silver-medal-level/ (дата обра-
щения:04.09.2024).
2. David Silver,Aja Huang, Chris J. Maddison, Arthur
Guez,LaurentSifre,GeorgevandenDriessche,JulianSchrittwi-
eser,IoannisAntonoglou,VedaPanneershelvam,MarcLanctot,
Sander Dieleman, Dominik Grewe, John Nham, Nal Kalch-
brenner, Ilya Sutskever,Timothy Lillicrap, Madeleine Leach,
KorayKavukcuoglu,ThoreGraepel,DemisHassabis.Mastering
the game of Go with deep neural networks and tree search //
Nature.2016.Vol.529,Is.7587.P.484–489.
3. Cameron B. Browne, Edward Powley, Daniel White-
house,SimonM.Lucas,PeterI.Cowling,PhilippRohlfshagen.
ASurveyofMonte CarloTreeSearch Methods //IEEETrans.
Comput.Intell.AIGames.2012.Vol.4,Is.1.P.1–43.
4.DavidSilver,ThomasHubert,JulianSchrittwieser,Io-
annisAntonoglou,MatthewLai,ArthurGuez,MarcLanctot,
Laurent Sifre, Dharshan Kumaran, Thore Graepel, Timothy
Lillicrap,Karen Simonyan,DemisHassabis.Ageneralrein-
forcementlearningalgorithmthatmasterschess,shogi,and
Go through self-play // Science. 2018. Vol. 362, Is. 6419.
P.1140–1144.
5. David Silver, Julian Schrittwieser, Karen Simonyan,
IoannisAntonoglou,AjaHuang,ArthurGuez,ThomasHubert,
LucasBaker,Matthew Lai,AdrianBolton,YutianChen,Timo-
thyLillicrap,FanHui,LaurentSifre,GeorgevandenDriessche,
ThoreGraepel & Demis Hassabis. Mastering the game of Go
withouthumanknowledge//Nature.2017. Vol.550, Is. 7676.
P.354–359.
6. Ti-Rong Wu,Ting-Han Wei, I-Chen WuAccelerating
and Improving AlphaZero Using Population Based Training.
The Thirty-FourthAAAI Conference on Articial Intelligence
(AAAI-20).2020.P.1046–1053.
7. About Lean // Lean. [Электронный ресурс]. URL:
https://lean-lang.org/about/(дата обращения:04.09.2024).