ArticlePDF Available

Эволюция методов машинного обучения: от AlphaZero к AlphaProof и их применение в решении математических задач

Authors:

Abstract

В данной статье подробно рассматриваются алгоритмы машинного обучения, заложенные в основу системы AlphaZero, а также их применение для решения сложных математических задач в системе AlphaProof. Целью работы являлось определение математических правил работы алгоритмов, благодаря которым они столь эффективны. В статье также рассматриваются перспективы и вызовы, связанные с применением нейронных сетей в научных исследованиях, особенно в области математических доказательств. Для этого был проведен всесторонний обзор научных источников и систематизация данных исследований. Было выявлено, что эффективность моделей была связана с оптимизациями алгоритмов поиска по дереву Монте-Карло и разработкой новых методов. AlphaProof использует методы обучения с подкреплением, разработанные на базе AlphaZero, которая изначально применялась для игр, таких как шахматы и го. Эти методы позволяют системе справляться с математическими задачами высокой сложности. Путем преобразования более миллиона задач из различных областей, включая алгебру, теорию чисел и геометрию, в формальные языки, такие как Lean, AlphaProof эффективно генерирует и проверяет решения, что делает ее мощным инструментом для математических исследований.
МЕЖДУНАРОДНЫЙ ЖУРНАЛ ПРИКЛАДНЫХ
И ФУНДАМЕНТАЛЬНЫХ ИССЛЕДОВАНИЙ 12, 2024
41
ТЕХНИЧЕСКИЕ НАУКИ
УДК004.8
ЭВОЛЮЦИЯ МЕТОДОВ МАШИННОГО ОБУЧЕНИЯ: 
ОТ ALPHAZERO К ALPHAPROOF И ИХ ПРИМЕНЕНИЕ
В РЕШЕНИИ МАТЕМАТИЧЕСКИХ ЗАДАЧ
Курновский Р.М.
Джи Пи Морган Банк, Самара, e-mail: r.kurnovskii@gmail.com
Вданнойстатьеподробнорассматриваютсяалгоритмымашинногообучения,заложенныевосновуси-
стемыAlphaZero,атакжеихприменениедлярешениясложныхматематическихзадачвсистемеAlphaProof.
Целью работы являлось определение математических правил работы алгоритмов, благодаря которым
онистольэффективны.Встатьетакжерассматриваютсяперспективыивызовы,связанныесприменением
нейронныхсетей в научныхисследованиях,особенновобластиматематическихдоказательств.Дляэтого
былпроведенвсестороннийобзорнаучныхисточниковисистематизацияданныхисследований.Быловыяв-
лено,чтоэффективностьмоделейбыласвязанасоптимизациямиалгоритмовпоискаподеревуМонте-Кар-
лоиразработкиновыхметодов.AlphaProofиспользуетметодыобучениясподкреплением,разработанные
набазеAlphaZero,котораяизначальноприменяласьдляигр,такихкакшахматыиго.Этиметодыпозволяют
системесправлятьсясматематическимизадачамивысокойсложности.Путемпреобразованияболеемилли-
оназадачизразличныхобластей,включаяалгебру,теориючиселигеометрию,вформальныеязыки,такие
какLean, AlphaProof эффективногенерируетипроверяетрешения,чтоделаетеемощныминструментом
дляматематическихисследований.
Ключевые слова: машинное обучение, нейронные сети, математические задачи, AlphaZero, AlphaProof
EVOLUTION OF MACHINE LEARNING METHODS:
FROM ALPHAZERO TO ALPHAPROOF AND THEIR 
APPLICATION IN SOLVING MATHEMATICAL PROBLEMS
Kurnovskiy R.M.
J.P. Morgan, Samara, e-mail: r.kurnovskii@gmail.com
Thispaper provides a detailed accountof the machine learning algorithmsthat underpin theAlphaZero
system,togetherwithan analysis of their application to theresolutionof complex mathematical problems in
theAlphaProof system.The objective of this paper is to identify the mathematical principles underlying the
algorithms that make them so eective. Furthermore, the paper investigates the potential and obstacles to
utilizingneuralnetworksinscienticenquiry,particularly within the domain of mathematical proofs.Tothis
end,acomprehensive review of the scienticliteratureandsystematicorganizationof the research datawere
carried out. It was determined that the ecacy of the models was contingent upon optimizations of Monte
Carlotree searchalgorithmsand thedevelopmentof novelmethodologies.AlphaProofemploys reinforcement
learningtechniquesderivedfromAlphaZero,whichwasinitiallydeployedingamessuchaschessandGo.These
techniquesenablethesystemto address mathematical problems of considerable complexity.Bytransforming
overa million problems from diverse domains, including algebra, number theory, and geometry,into formal
languages like Lean, AlphaProof can eciently generate and verify solutions, making it a valuable tool for
mathematicalresearch.
Keywords: machine learning, neural networks, mathematical problems, Alphazero, Alphaproof
Введение
25июля2024г.командаResearchкомпа-
нии Google DeepMind, занимающаяся раз-
работкой и применением методов машин-
ногообучениядлярешенияматематических
задач, объявила о том, что их последние
моделиAlphaProofиAlphaGeometry2смог-
ли решить задания сложнейшей междуна-
родной математической олимпиады (65th
International Mathematical Olympiad, IMO
2024)науровнесеребряногомедалиста,от-
ставотпорогадлязолотоймедалина1балл
[1].Стоитучесть, что,вотличиеотреаль-
ныхучастниковолимпиады,решающихза-
дачи4,5часа, нейросетисправились лишь
за 3 дня, но, несмотря на это, в скором
времени ожидается многократное ускоре-
ние работыAlphaProof. Бурный рост ней-
ронныхсетейвсамых разныхприкладных
ифундаментальныхобластяхзапоследние
нескольколетпривлекаетвниманиемногих
специалистов.Одним из важныхвопросов
являетсявопросэволюциииразвитиямето-
довобучения.
Цель  работы заключается в опреде-
лении ключевых технических и математи-
ческих особенностей работы алгоритмов
AlphaZero,AlphaProofи похожихмоделей,
благодаря которым они столь успешно ре-
шаютматематическиезадачи.
Материалы и методы исследования
Дляпроведенияисследованиябылаосу-
ществлена систематическая оценка и ана-
INTERNATIONAL JOURNAL OF APPLIED
AND FUNDAMENTAL RESEARCH 12, 2024
42 TECHNICAL SCIENCES
лиз научных публикаций, посвященных
эволюции методов машинного обучения
с акцентом на разработку и применение
моделей,такихкакAlphaZeroиAlphaProof,
в решении математических задач. Основ-
ным методом исследования стал литера-
турныйобзор,включающийпоиск, отбор,
классификациюикритический анализна-
учных статей, опубликованных в период
с2012 по 2024 г.Материалы дляанализа
были получены из международных на-
учных журналов, включая Nature, IEEE,
Science,атакжепубликацийGoogle Deep-
Mind. Ключевыми словами поиска стали:
AlphaZero, AlphaProof, «машинное обу-
чение», «решение математических задач»
«глубокое обучение». Были рассмотрены
статьи, охватывающие как технические
аспекты алгоритмов, так и их примени-
мость в математике и смежных областях.
Критериямиотборастатейслужили:акту-
альность исследований в контексте при-
менения методов машинного обучения
к математическим задачам, детальное
описание архитектур моделей AlphaZero
и AlphaProof. Для структурирования дан-
ных применялась методология PRISMA,
котораяпозволиласистематизироватьпро-
цесс поиска, исключения дублирующихся
данныхианализарелевантныхисточников.
Результаты исследования и их обсуждение
Всеиспользуемыеобозначенияисимволыданывтаблице.
Используемыеобозначения
pвектор,каждаякомпонентаpaкоторого–этовероятностьпринятьданноеполо-
жениеприданномдействии
vскаляроценкирезультата
Θгиперпараметрынейросети
fΘфункциянейросетиприданныхгиперпараметрах
sданноеположениенадоске(напримереигрывго)
aпроизведенныйпереходподереву(действие)
Pr(a|s) вероятностьзанятьданноеположениенадоскеприданномдействии
zскаляр,характеризующийрезультатигры
πa
векторвероятностипроизвестиданныйпереходподеревуизданногоначально-
гоположения
vtскаляроценкирезультатаигрынаданномшаге
lфункцияпотерьвметодеградиентногоспуска
Tскаляр,характеризующийконечнуюпозициюнадереве
cрегулирующийпараметр
cpuct скаляр,определяющийуровеньисследованностиданнойветвидерева
xпараметр ошибки функции потерь, отличающий алгоритм PBT от алгоритма
AlphaZero
Всерешения семействаAlpha компании
DeepMind,включающиесистемыAlphaFold
2,AlphaZero,AlphaGo,AlphaStar,AlphaTen-
sor,AlphaCodeидр.,направленынарешение
вычислительныхприкладныхинаучныхза-
дач. Рассматриваемая система AlphaProof
представляетсобойпредварительнообучен-
ную на большой выборке математических
задачиих решениймодель сподкреплени-
емAlphaZero,схемуработыкоторойможно
проиллюстрироватьрис.1. Болеемиллиона
математических рукописных задач из всех
областейгеометрии,алгебры,теориивероят-
ностейитеориичисел,математическогоана-
лизаидругихбылипереведенынаформаль-
ный язык Lean с помощью Gemini [1]. Это
решилобольшинствопроблемсобработкой
естественного языка, нейросетевых галлю-
цинацийиошибок. Длярешения геометри-
ческихзаданийбылазначительноулучшена
модельAlphaGeometryзасчетбольшегоко-
личествазадачдляобучения.
МЕЖДУНАРОДНЫЙ ЖУРНАЛ ПРИКЛАДНЫХ
И ФУНДАМЕНТАЛЬНЫХ ИССЛЕДОВАНИЙ 12, 2024
43
ТЕХНИЧЕСКИЕ НАУКИ
Рис. 1. Схематичное изображение процесса формализации математических задач,
обучения и их решения с помощью AlphaZero в системе AlphaProof
AlphaZero–этонейроннаясеть,которая
обучаетсяза счетсоревнования сама с со-
бойв течениемногих миллионов попыток
с подкреплением. Сначала процесс обуче-
нияслучаен,нодовольнобыстронейросеть
учится корректировать свои параметры,
причемнамногоболее успешно, чеммоде-
ли, обученные на заранее подготовленных
данных. AlphaZero использует эвристи-
ческий алгоритм поиска по дереву Мон-
те-Карло(Monte CarloTree Search, MCTS)
соценкойНОДфункцияминаоснове deep
learning. Именно нейросетевой оценкой
НОД этот алгоритм отличается от класси-
ческогоMCTS.Эта нейросетьтренируется
предсказывать по прошлым данным даль-
нейшиеданные (SL-policy network), потом
тренируетсяигратьсамассобой(RL-policy
network), а далее тренируется предсказы-
ватьшансына выигрыш [2].Восновеэто-
го метода все еще лежат математические
методы теории принятия решений (мар-
ковские процессы принятия решений и их
расширенияпри частичных наблюдениях),
теорииигрикомбинаторика,методМонте-
Карлоиискусственныйинтеллектвнастоя-
щихиграх.
Алгоритм MCTS итеративно строит
дерево поиска решения до достижения
какого-тоограниченияпопамяти,времени,
точности и т.п. Как и у множества других
такихалгоритмов,итерацииалгоритмапро-
изводятся в четыре шага: выбор дочерних
НОД, расширение количества НОД, моде-
лирование и обновление статистики оши-
бок[3]. Иллюстрацияалгоритмапредстав-
ленанарис.2.
Рассмотримматематическиеосновыра-
ботыалгоритмов работыAlphaZero.Отме-
тим,чтовыделенныеполужирнымначерта-
нием символы – это векторные величины,
еслинеуказаноиное.
Рис. 2. Схематичное изображение основных шагов алгоритма Monte Carlo Tree Search
INTERNATIONAL JOURNAL OF APPLIED
AND FUNDAMENTAL RESEARCH 12, 2024
44 TECHNICAL SCIENCES
АвторыAlphaZero в работе [4] описы-
вают используемую нейросеть с глубоким
обучениемкакфункцию(p,v)=fΘ(s)спара-
метрамиΘ. Напримере с обучениемигры
вигруго,нейросетьfΘ(s)принимаетданное
положение на доске s, а на выходе предо-
ставляетвекторвероятностиpскомпонен-
тами pa = Pr(a|s)для каждого действия a
и скаляр оценки v ожидаемого результата
игрыz изотношения
]
.v zs
Параме-
трыΘподбираютсяприобучениисиграми
со случайно подобранными Θ благодаря
подкреплению.Вкаждойигресначальным
положениемвходепоискаповетвивозвра-
щаетсявектор πa = Pr(a|s0).Параметрыней-
роннойсетипостояннообновляются,чтобы
минимизироватьразницумеждувеличиной
предсказанногорезультатаигры vt среаль-
нымрезультатомz.ДляэтогопараметрыΘ
корректируютсяпутемградиентногоспуска
пофункциипотерьl:
( )
22
() ,
T
l z v log c=−− +

πθ
p (1)
гдеT–этоконечнаяпозициянадереве,c–
параметр,которыйконтролируетрегуляри-
зациюэтойфункции.
ВAlphaZero,такжекакивAlphaGo Zero,
используется байесовская оптимизация ги-
перпараметров,ноони,какинастройкисети
и всего алгоритма, не изменяются от игры
вигру[5].Каждоеребро(s,a)вдеревепоис-
кахранитнаборстатистическихданных:
( ) ( ) ( ) ( )
{ }
,, ,, ,, , ,
N sa W sa Q sa P sa (2)
где априорная вероятность P(s,a), количе-
ство посещений N(s,a), значение действия
Q(s,a),W(s,a)–суммарноезначениедействия
наветвидерева.Каждоемоделированиена-
чинаетсясначальногосостоянияs0иитера-
тивновыбираетходы,которыемаксимизиру-
ютверхнююдоверительнуюграницувида
( ) ( )
( )
,,
t tt
a argmax Q s a U s a= + , (3)
где
( ) ( ) ( )
( )
, , /1 ,U sa sa N sa
∞+
. В част-
ности,в алгоритмеPUCTпредлагаетсята-
койвидфункцииU(s,a):
( ) ( ) ( )
( )
,
,, ,
1,
b
puct
N sb
U sa c P sa
N sa
=+
(4)
гдеcpuct–этоконстанта,определяющаяуро-
веньисследованностиданнойветви.
Припрохождениипоребру(s,a)обнов-
ляетсязначениесчетчикаN(s,a),аQ(s,a)об-
новляетсяпоправилу
( ) ( ) ( )
|,
1
,.
,ssa s
Q sa N sa V s
′′
= (5)
Здесь
,sa s
показывает,чтосимуля-
ция достигла данного
при выполнении
ходаaизсостоянияs.
Помимо приведенного выше облег-
ченного математического объяснения ра-
боты алгоритма работыAlphaZero, полная
математическая модель содержит боль-
шое количество вероятностных поправок
и небольших, но многочисленных ша-
говкорректировок.
ПослепубликациистатейAlphaZeroне-
сколькоисследовательскихкоманд,каквса-
мойкомпанииDeepMind,такидругие,про-
водилиизучениеспособовиметодовопти-
мизацииалгоритмовAlphaZero.Так,иссле-
дователиизработы[6]в2020г.предложили
собственный разработанный «популяцион-
ныйметод»(PBT).Они использовалипод-
ходы, применяемые в машинном обуче-
нии для обработки генетических данных,
аименнонескольконейросетейсо случай-
ныминачальнымипараметрамиΘ.Всесети
объединяют информацию для улучшения
гиперпараметров,авслучае,еслионинедо-
статочноточные,топроисходитих прямая
замена на лучшие гиперпараметры другой
нейросети.Такжеследуетотметить,чтоал-
горитмпредусматриваетвозможностьруч-
ногоизменениягиперпараметроввнаучно-
исследовательскихцелях.
Вданномисследованиииспользовалось
16нейросетейдляоценок,причемфункция
потерьтеперьтакжезависитиотпараметра
ошибкиxмеждуz и v:
( )
22
() .
T
l x z v log c= −− +

πθ
p (6)
Врезультатеэкспериментовавторыоб-
наружили,что,используяметодPBTкигре
вгонаполе19×19,процентпобеднаддру-
гой нейросетью Facebook’s ELF OpenGo
v2, которая наиболее близка по мощности
со свободными реализациями AlphaZero,
составил74%.Этоговоритотом,чтоори-
гинальноеприменениеразличныхподходов
в нейросетевых методах обучения имеет
перспективу значительно увеличить спо-
собноститакихсоревновательныхсистем.
AlphaProof использует заранее обрабо-
танные Gemini данные, которые представ-
ляют собой формализованные с помощью
Lean математические задачи. Это одна
из слабых точек технологии и недостаток
обучения моделей на естественном языке,
из-зачегонанастоящиймоментневозмож-
но избежать многочисленных искажений.
Для решения конкретной математической
задачи,AlphaProofнеобходимоформализо-
ватьее,всоответствиисалгоритмомAlpaZ-
ero,описаннымвыше,генерируютсясотни
вариантырешенияэтойзадачи,апослепро-
МЕЖДУНАРОДНЫЙ ЖУРНАЛ ПРИКЛАДНЫХ
И ФУНДАМЕНТАЛЬНЫХ ИССЛЕДОВАНИЙ 12, 2024
45
ТЕХНИЧЕСКИЕ НАУКИ
исходитпроверкаэтогорешенияспомощью
Lean, если оно идентифицируется как не-
верное,тоначинаетсяпроверкаследующе-
горешенияит.д.,до достиженияправиль-
ного решения. Это возможно благодаря
тому,чтоLean–этофункциональныйязык
программирования с зависимыми типами
на основе CoC (Calculus of Constructions)
и CiC (Calculus of Inductive Constructions)
[7]. Версия Lean 4 поддерживает высоко-
производительные технологии управления
памятью,чтоможетзначительноупростить
процесс обучения таких сложных систем,
какAlpaProof.
Наданныймоментещенетпубликаций
с тестами результатов работы алгоритмов
системы AlphaProof, неясно, есть ли отли-
чияточностиискоростиееработывзави-
симостиотобластиматематикизадач,ком-
пания Google DeepMind не представила
подробныеданныеотом,какимибылипро-
межуточныеэтапыобучения,оскоростиоб-
ученияна различныхзадачах,требовались
ли корректировки метода обучения. Эти
данныеожидаются в ближайшембудущем
свыходомвторойверсиисистемы, ноуже
сейчасстановитсяпонятным,чтотакоеис-
пользование нейросетей будет большой
иважнойчастьюбудущегоразвитияматема-
тики,таккакпозволитсвысокойточностью
искоростьюстрогопроверятьсложнейшие
иобъемныетеоремы,такжекакитеоремы
из областей математики, в которых боль-
шое количество абстрактных конструкций
и идей – сейчас такие задачи непосильны
существующим моделям искусственного
интеллекта. Помимо доказательства тео-
рем, это также будет большим прорывом
нетолькодлярешения сложнейшихзадач,
нои для ихсоставления.О том, как такие
нейросети внесут большой вклад в буду-
щеематематикинаTheOxfordMathematics
PublicLectures,рассказалведущиймировой
математикТеренсТао,которыйвидитвних
незаменимый инструмент и роль коллеги
приматематическихисследованиях.
Заключение
Всевышеизложенноепозволяетзаклю-
чить,чтозначительныйпрогрессвметодах
машинногообучения,улучшенияираспро-
странения применения AlphaZero в при-
кладныхифундаментальных исследовани-
яхбудеттолькоувеличиваться.AlphaProof,
в свою очередь, показывает перспективы
в качестве сильного инструмента для уче-
ного, что показывает прогресс в работах
по оптимизации и улучшению алгоритмов
такихсистем.
Список литературы
1.AIachievessilver-medalstandardsolving International
MathematicalOlympiadproblems//GoogleDeepMind.[Элек-
тронный ресурс]. URL: https://deepmind.google/discover/
blog/ai-solves-imo-problems-at-silver-medal-level/ (дата обра-
щения:04.09.2024).
2. David Silver,Aja Huang, Chris J. Maddison, Arthur
Guez,LaurentSifre,GeorgevandenDriessche,JulianSchrittwi-
eser,IoannisAntonoglou,VedaPanneershelvam,MarcLanctot,
Sander Dieleman, Dominik Grewe, John Nham, Nal Kalch-
brenner, Ilya Sutskever,Timothy Lillicrap, Madeleine Leach,
KorayKavukcuoglu,ThoreGraepel,DemisHassabis.Mastering
the game of Go with deep neural networks and tree search //
Nature.2016.Vol.529,Is.7587.P.484–489.
3. Cameron B. Browne, Edward Powley, Daniel White-
house,SimonM.Lucas,PeterI.Cowling,PhilippRohlfshagen.
ASurveyofMonte CarloTreeSearch Methods //IEEETrans.
Comput.Intell.AIGames.2012.Vol.4,Is.1.P.1–43.
4.DavidSilver,ThomasHubert,JulianSchrittwieser,Io-
annisAntonoglou,MatthewLai,ArthurGuez,MarcLanctot,
Laurent Sifre, Dharshan Kumaran, Thore Graepel, Timothy
Lillicrap,Karen Simonyan,DemisHassabis.Ageneralrein-
forcementlearningalgorithmthatmasterschess,shogi,and
Go through self-play // Science. 2018. Vol. 362, Is. 6419.
P.1140–1144.
5. David Silver, Julian Schrittwieser, Karen Simonyan,
IoannisAntonoglou,AjaHuang,ArthurGuez,ThomasHubert,
LucasBaker,Matthew Lai,AdrianBolton,YutianChen,Timo-
thyLillicrap,FanHui,LaurentSifre,GeorgevandenDriessche,
ThoreGraepel & Demis Hassabis. Mastering the game of Go
withouthumanknowledge//Nature.2017. Vol.550, Is. 7676.
P.354–359.
6. Ti-Rong Wu,Ting-Han Wei, I-Chen WuAccelerating
and Improving AlphaZero Using Population Based Training.
The Thirty-FourthAAAI Conference on Articial Intelligence
(AAAI-20).2020.P.1046–1053.
7. About Lean // Lean. [Электронный ресурс]. URL:
https://lean-lang.org/about/(дата обращения:04.09.2024).
ResearchGate has not been able to resolve any citations for this publication.
Article
Full-text available
The game of Go has long been viewed as the most challenging of classic games for artificial intelligence owing to its enormous search space and the difficulty of evaluating board positions and moves. Here we introduce a new approach to computer Go that uses ‘value networks’ to evaluate board positions and ‘policy networks’ to select moves. These deep neural networks are trained by a novel combination of supervised learning from human expert games, and reinforcement learning from games of self-play. Without any lookahead search, the neural networks play Go at the level of state-of-the-art Monte Carlo tree search programs that simulate thousands of random games of self-play. We also introduce a new search algorithm that combines Monte Carlo simulation with value and policy networks. Using this search algorithm, our program AlphaGo achieved a 99.8% winning rate against other Go programs, and defeated the human European Go champion by 5 games to 0. This is the first time that a computer program has defeated a human professional player in the full-sized game of Go, a feat previously thought to be at least a decade away.
Article
Full-text available
Monte Carlo tree search (MCTS) is a recently proposed search method that combines the precision of tree search with the generality of random sampling. It has received considerable interest due to its spectacular success in the difficult problem of computer Go, but has also proved beneficial in a range of other domains. This paper is a survey of the literature to date, intended to provide a snapshot of the state of the art after the first five years of MCTS research. We outline the core algorithm's derivation, impart some structure on the many variations and enhancements that have been proposed, and summarize the results from the key game and nongame domains to which MCTS methods have been applied. A number of open research questions indicate that the field is ripe for future work.
Article
One program to rule them all Computers can beat humans at increasingly complex games, including chess and Go. However, these programs are typically constructed for a particular game, exploiting its properties, such as the symmetries of the board on which it is played. Silver et al. developed a program called AlphaZero, which taught itself to play Go, chess, and shogi (a Japanese version of chess) (see the Editorial, and the Perspective by Campbell). AlphaZero managed to beat state-of-the-art programs specializing in these three games. The ability of AlphaZero to adapt to various game rules is a notable step toward achieving a general game-playing system. Science , this issue p. 1140 ; see also pp. 1087 and 1118
Accelerating and Improving AlphaZero Using Population Based Training
  • Ti-Rong Wu
  • Ting-Han Wei
  • I-Chen Wu
Ti-Rong Wu, Ting-Han Wei, I-Chen Wu Accelerating and Improving AlphaZero Using Population Based Training. The Thirty-Fourth AAAI Conference on Artificial Intelligence (AAAI-20). 2020. P. 1046-1053.