BookPDF Available

Abstract

Пособие является первым изданием в серии "Интеллектуальные информационные системы", в котором приведены элементы классических и современных технологий прогнозирования, базирующиеся на дедуктивном и индуктивном подходах. Его логическая структура предусматривает сквозное сопровождение процессов прогнозирования: от формирования исходной информации, определения значимых факторов, увеличения их информативности – к выбору методов прогнозирования и их реализации в информационно-аналитических системах. Элементный базис пособия составляют регрессионные методы, которые, кроме самостоятельного значения, лежат в основании других методов; нейросетевые, эволюционные методы и методы теории нечетких множеств как составляющие технологии Soft Computing; задачи восстановления информации и кластеризации как самостоятельные задачи прогнозирования, а также как такие, решение которых является необходимым условием эффективного прогнозирования; методы препроцессинга данных и композиционные методы. Каждую структурную единицу учебного пособия формируют мо- дели, методы и алгоритмы, оптимизирующие процесс разработки или использования систем анализа данных и прогнозирования. Его особенностью является наличие в каждой главе заданий для самостоятельной работы, практических задач, в т.ч. и проблемного характера, библиографии, а также информации справочного характера в приложениях, что способствует более полному изучению изложенных технологий и знакомству с новыми. Пособие рассчитано на студентов, изучающих курсы, связанные с ин- теллектуальными информационными системами, аналитической обработкой информации, распознаванием образов, другими задачами искусственного интеллекта. Оно будет также полезно социологам, экономистам, специалистам в области теории и практики прогнозирования
1 В.Е. Снитюк. ПРОГНОЗИРОВАНИЕ. Модели, методы, алгоритмы
В.Е. Снитюк
ПРОГНОЗИРОВАНИЕ.
Модели, Методы, Алгоритмы
Учебное пособие
Киев - 2008
2 В.Е. Снитюк. ПРОГНОЗИРОВАНИЕ. Модели, методы, алгоритмы
ББК 32.97я73
УДК 004.89 (075.8)
С 53
Рецензенты:
академик НАН Украины (Международный на-
учно-учебный центр информационных технологий и систем НАН Ук-
раины и Министерства образования и науки Украины);
доктор технических наук, профессор Зайченко Ю.П. (Институт при-
кладного системного анализа НТУУ “КПИ”);
доктор технических наук, профессор Куссуль Н.Н. (Институт косми-
ческих исследований НАН Украины).
С н и т ю к В. Е. Прогнозирование. Модели, методы, алгоритмы:
учебное пособие. – К.: «Маклаут», 2008. – 364 с.
ISBN 978-966-2200-09-6
Аннотация
Пособие является первым изданием в серии "Интеллектуальные ин-
формационные системы", в котором приведены элементы классических и
современных технологий прогнозирования, базирующиеся на дедуктив-
ном и индуктивном подходах. Его логическая структура предусматривает
сквозное сопровождение процессов прогнозирования: от формирования
исходной информации, определения значимых факторов, увеличения их
информативности – к выбору методов прогнозирования и их реализации
в информационно-аналитических системах. Элементный базис пособия
составляют регрессионные методы, которые, кроме самостоятельного зна-
чения, лежат в основании других методов; нейросетевые, эволюционные
методы и методы теории нечетких множеств как составляющие техноло-
гии Soft Computing; задачи восстановления информации и кластеризации
как самостоятельные задачи прогнозирования, а также как такие, реше-
ние которых является необходимым условием эффективного прогнози-
рования; методы препроцессинга данных и композиционные методы.
Каждую структурную единицу учебного пособия формируют мо-
дели, методы и алгоритмы, оптимизирующие процесс разработки или
использования систем анализа данных и прогнозирования. Его особенно-
стью является наличие в каждой главе заданий для самостоятельной ра-
боты, практических задач, в т.ч. и проблемного характера, библиографии,
а также информации справочного характера в приложениях, что способ-
ствует более полному изучению изложенных технологий и знакомству с
новыми.
Пособие рассчитано на студентов, изучающих курсы, связанные с ин-
теллектуальными информационными системами, аналитической обра-
боткой информации, распознаванием образов, другими задачами искус-
ственного интеллекта. Оно будет также полезно социологам, экономи-
стам, специалистам в области теории и практики прогнозирования.
Ивахненк
о А.Г.
3 В.Е. Снитюк. ПРОГНОЗИРОВАНИЕ. Модели, методы, алгоритмы
Тем, Кто помнит, мечтает и верит…
Содержание
Предисловие 8
Введение 13
Глава
1
Классические методы
1.1.
Метод наименьших квадратов. Парная линейная
регрессия
17
1.2.
Множественная линейная регрессия
20
1.3.
Тестирование и устранение мультиколлинеарно-
сти
23
1.4.
Тестирование и устранение гетероскедастичнос-
ти
31
1.5.
Автокорреляция. Причины и следствия
35
1.6.
Множественная нелинейная регрессия
38
Практические задания
40
Контрольные вопросы и задания для самопроверки
41
Темы рефератов и расчетно-графических работ 42
Темы для самостоятельной работы
42
Глава
2
Нейросетевые
методы
2.1.
Основные понятия 45
2.2.
Алгоритм обратного распространения ошибки и
прогнозирование
48
2.3.
Алгоритм обучения RBF-сети и ее использование
для прогнозирования
56
2.4.
Сети встречного распространения–инструмента-
рий предварительного прогнозирования
60
Практические задания
65
Контрольные вопросы и задания для самопроверки
68
Темы рефератов и расчетно-графических работ 69
Темы для самостоятельной работы 70
4 В.Е. Снитюк. ПРОГНОЗИРОВАНИЕ. Модели, методы, алгоритмы
Глава
3
Эволюционное моделирование
и методы самоорганизации
3.1.
Метод группового учета аргументов. Общие поло-
жения
75
3.2.
Многорядный метод группового учета аргументов 76
3.3.
Критерий регулярности 78
3.4.
Критерий несмещенности 80
3.5.
Критерий баланса переменных 83
3.6.
Алгоритм разделения начальной выборки данных 85
3.7.
Ретроспектива эволюционного моделирования 86
3.8.
Генетический алгоритм. Историческая справка и
базовые элементы
88
3.9.
Основные понятия и пример задачи 90
3.10.
Элементный и функциональный базис генетичес-
кого алгоритма
91
3.11.
Эволюционные стратегии 97
3.12.
Сравнительный анализ эволюционных алгоритмов
100
3.13.
Мировые научные школы эволюционного моделиро-
вания
101
Практические задания
103
Контрольные вопросы и задания для самопроверки
104
Темы рефератов и расчетно-графических работ 107
Темы для самостоятельной работы 107
Глава
4
Методы обработки нечеткой
информации
4.1.
Основные понятия и определения 114
4.2.
Нечеткие отношения и нечеткий логический вывод
119
4.3.
Анализ нечетких экспертных заключений 126
4.4.
Принятие решений в нечетких условиях
128
Практические задания
130
Контрольные вопросы и задания для самопроверки
131
Темы рефератов и расчетно-графических работ 132
Темы для самостоятельной работы 133
5 В.Е. Снитюк. ПРОГНОЗИРОВАНИЕ. Модели, методы, алгоритмы
Глава
5
Препроцес
синг информации
5.1.
Энтропия и количество информации 136
5.2.
Нормализация и стандартизация начальных зна-
чений
138
5.3
Аналитико-эвристические алгоритмы определения
информативных признаков
140
5.4.
Алгоритм “выбеливания” входов 143
5.5.
Нейросетевое определение значимых факторов 145
5.6.
Методика “box-counting 147
Практические задания
150
Контрольные вопросы и задания для самопроверки
151
Темы рефератов и расчетно-графических работ 152
Темы для самостоятельной работы 153
Глава
6
Методы кластеризации
6.1.
Постановка задачи и ее предварительный анализ 156
6.2.
Характеристика методов кластерного анализа 158
6.3.
Алгоритмы, базирующиеся на гипотезе компакт-
ности
164
6.4.
Алгоритмы, базирующиеся на гипотезе лямбда-
компактности
165
6.5.
Растущие пирамидальные сети 168
6.6.
Эволюционная кластеризация 176
Практические задания
182
Контрольные вопросы и задания для самопроверки
185
Темы рефератов и расчетно-графических работ 186
Темы для самостоятельной работы 188
Глава
7
В
осстановление информации
7.1.
Математическая постановка задачи восстановления
пропусков в таблицах данных
191
6 В.Е. Снитюк. ПРОГНОЗИРОВАНИЕ. Модели, методы, алгоритмы
7.2.
Эвристические методы обработки некомплектных
данных
193
7.3.
Восстановление пропусков значений зависимой пе-
ременной
195
7.4.
Локальные методы восстановления пропусков 198
7.5.
Итерационный метод главных компонент для дан-
ных с пропусками
203
7.6.
ЕМ-алгоритм 207
7.7.
Эволюционный метод восстановления пропусков 208
Практические задания
213
Контрольные вопросы и задания для самопроверки
215
Темы рефератов и расчетно-графических работ 216
Темы для самостоятельной работы 217
Глава
8
Гибридные методы.
Практические приложения
8.1.
Нечеткие нейросетевые парадигмы 222
8.2.
Обучение нечетких нейросетей 228
8.3. Эволюционно-параметрическая оптимизация
RBF-сети
233
8.4. «Синтетическая» оптимизация структуры сельсько-
хозяйственного производства
243
8.5.
Композиционный метод эволюционного модели-
рования в проектных задачах
252
8.6.
Композиционный метод уменьшения
неопределенности
259
Контрольные вопросы и задания для самопроверки
264
Темы рефератов и расчетно-графических работ 265
Темы для самостоятельной работы 266
Глава
9
Другие методы
Soft Computing
9.1.
Муравьиные алгоритмы 269
9.2.
Программирование генетических выражений 280
9.3.
Нечеткие системы как универсальные аппрок-
симаторы
323
7 В.Е. Снитюк. ПРОГНОЗИРОВАНИЕ. Модели, методы, алгоритмы
Практические задания
336
Контрольные вопросы и задания для самопровер
ки
337
Темы рефератов и расчетно-графических работ 338
Темы для самостоятельной работы 338
Приложение А. Темы курсового проектирова-
ния
340
Приложение Б. Базовые программные модули 347
Приложение В. Формирование пирамидальной
растущей сети
353
Приложение Д. Статистические таблицы 360
8
От статистики – к анализу,
от анализа – к прогнозированию,
от прогнозирования – к планированию.
«Народная» мудрость
Предисловие
Процессы создания, функционирования и развития слож-
ных природных и искусственных систем сопровождаются не-
определенностью, которая является следствием размытости
целей, неполноты исходной информации, субъективности
представлений о будущих процессах и критериях их оценки.
Уменьшение неопределенности достигается путем предвиде-
ния и прогнозирования и, как следствие, объективизацией
субъективных решений. В известной монографии Л. Фогеля,
А. Оуэнса, М. Уолша "Искусственный интеллект и эволюци-
онное моделирование" указано на то, что разумное поведение
можно рассматривать как сочетание возможности предвидеть
состояния внешней среды с преобразованием каждого пред-
сказания в адекватную реакцию в соответствии с заданной
целью. Такой вывод определяет роль прогнозирования как
необходимого условия целенаправленной деятельности чело-
века при решении задач анализа и синтеза, а также выбора
оптимальных альтернатив.
Концепции и парадигмы, элементы которых представ-
лены в пособии, базируются на определенных логико-фило-
софских категориях, в том числе на индукции и дедукции.
Понятие дедукции встречаем еще у Аристотеля и в широком
смысле оно означает совокупность процессов научного мыш-
ления, включающих в себя разделение и определение поня-
тий, доказательство положений. Термин «индукция» впервые
встречается у Сократа, где она интерпретируется как нахож-
дение общего определения путем сравнения частных случаев
и исключения ложных определений. Аристотель различал
полную и неполную индукцию. Родоначальником современ-
ного понятия индукции считают Ф. Бэкона, который указы-
вал на то, что при обобщении необходимо соблюдать сле-
дующее правило: сделать три обзора всех известных случаев
9
проявления известного свойства у различных предметов
обзор положительных и отрицательных случаев; обзор слу-
чаев, в которых свойство проявляется в разной степени, и
только тогда делать обобщения. Дальнейшее развитие поня-
тие индукции получило в работах Дж. Ст. Милля.
Дедукция и индукция инцидентны понятиям анализа и
синтеза. Сходство дедукции и анализа очевидно, поскольку
анализ – прием мышления, через который происходит раз-
ложение на составные части того, что является целым. Состав
процесса дедукции включает следующие элементы: по-
ложение, из которого делается вывод; собственно процесс вы-
вода из указанного положения; заключение или положение,
полученное из исходного положения. Положения, из которых
делают выводы, сводятся к двум типам: очевидные истины и
обобщения, полученные путем опытов.
Элементы обеих рассматриваемых категорий присутст-
вуют в методах обработки информации и прогнозирования,
которые рассмотрены в пособии. В частности, большинство
приведенных задач решается с помощью дедуктивных схем,
приоритетным в которых является изучение сущности отно-
шений "причина-следствие". Представляют такой подход ме-
тоды предварительной обработки данных, идентификация
зависимости результирующей характеристики от входных
факторов, если заданы ее структура и априорная информа-
ция. Индуктивный подход реализован в методе группового
учета аргументов и методе Брандона построения уравнения
нелинейной множественной регрессии. Применение индук-
тивной и дедуктивной парадигм наталкивается на опреде-
ленные проблемы, основные из которых определены ниже. В
частности, дедуктивный подход часто "коррелирует" с "про-
клятием размерности".
В учебном пособии рассмотрены теоретические и при-
кладные аспекты технологий прогнозирования, в основе ко-
торых лежат классические и современные парадигмы. Заме-
тим, что изучение задач прогнозирования, моделей, методов
и средств их решения составляют часть учебного курса н-
формационные интеллектуальные системы". В частности, это
модели, методы и алгоритмы, основанные на использовании
10
статистического анализа и метода наименьших квадратов,
нейросетевые технологии, методы теории нечетких множеств,
эволюционное и гибридное моделирование.
В первой главе представлен метод наименьших квадратов,
который широко используется в подавляющем большинстве
методов прогнозирования. Изложены проблемы, сопровож-
дающие его применение при построении уравнений парной
и множественной линейной регрессии, алгоритмы тестиро-
вания таких явлений как мультиколлинеарность, гетероске-
дастичность и автокорреляция. Для построения множествен-
ной нелинейной регрессии рассмотрены аспекты примене-
ния метода Брандона.
Основные нейросетевые парадигмы представлены в сле-
дующей главе. Главная их особенность - минимальные тре-
бования к составу и структуре исходной информации. Рас-
смотрены квинтэссенция нейросетевых технологий - метод
обратного распространения ошибки, а также сети встречного
распространения и сети с радиально-базисными функциями
активации.
Третья глава содержит описание технологий, базирую-
щихся на идеях и принципах функционирования природных
систем естественного отбора, селекции и самоорганизации.
В частности, это метод группового учета аргументов, с помо-
щью которого получают сколь угодно сложные зависимости
при минимальном априорном информационном обеспече-
нии. Другую группу составляют эволюционные модели и ме-
тоды. Определены аспекты применения генетического алго-
ритма при решении задач оптимизации сложных зависимо-
стей.
Третьей составляющей представителем концепции "мяг-
кой вычислений" по определению профессора Л. Заде явля-
ется исчисление субъективных суждений с использованием
методов теории нечетких множеств. В четвертой главе пред-
ставлены основные понятия, алгоритмы нечеткого вывода и
анализа нечетких экспертных заключений.
В пятой главе приведены методы и алгоритмы препроцес-
синга данных, использование которых позволит повысить
точность и скорость прогнозирования. Составляющими эле-
В.Е. Снитюк. ПРОГНОЗИРОВАНИЕ. Модели, методы, алгоритмы
11
ментами предварительной обработки данных является стан-
дартизация и нормализация значений факторов, определе-
ние наиболее информативных и значимых факторов. На
уменьшение информационной энтропии направлены методы
главных компонент, "выбеливания" входов и расчета кросс-
энтропии.
Эффективность идентификации неизвестных зависимо-
стей определяется качеством решения задачи кластеризации.
В шестой главе представлены следующие группы методов
кластеризации: классические, базирующиеся на методе пар-
ных сравнений; методы, в основе которых лежит гипотеза
компактности; эволюционные методы.
Еще одной из задач прогнозирования является восстанов-
ление пропущенных значений. Ее особенность интерполя-
ционный характер, поскольку, зачастую, пропущенные зна-
чения находятся внутри области исследования. В седьмой
главе приведены эмпирические и локальные методы восста-
новления пропусков; вероятностно-статистические методы и
методы, в основе которых лежит построение уравнений ли-
нейной регрессии, в частности, метод Бартлетта и resampling-
методы; методы, разработанные Новосибирской школой ана-
лиза данных под руководством профессора Н.Г. Загоруйко, а
также эволюционные методы.
В восьмой главе изложены основы разработки и примене-
ния гибридных моделей и методов. Композиция нейросете-
вых парадигм, методов эволюционного моделирования и не-
четкого вывода определяет формирование новых направле-
ний исследования, что позволит увеличить точность прогно-
зирования, повысить интерпретируемость его результатов,
оптимизировать процессы принятия решений.
Девятая глава содержит адаптированные авторские пере-
воды статей авторов известных современных методов Soft
Computing. В частности, представлены муравьиные алго-
ритмы как метаэвристики, которые предназначены для ре-
шения задач дискретной оптимизации. Другую технологию
представляет программирование генетических выражений,
являющееся дальнейшим развитием и определенной комби-
нацией элементов генетических алгоритмов и генетического
В.Е. Снитюк. ПРОГНОЗИРОВАНИЕ. Модели, методы, алгоритмы
12
программирования. Указаны его преимущества при решении
задач классификации и аппроксимации неизвестных за-
висимостей. Далее приведена классическая теорема о нечет-
кой аппроксимации, на которой базируется большинство ут-
верждений о возможности аппроксимации функций с помо-
щью нечетких экспертных заключений.
Пособие содержит практические задания к каждой теме,
контрольные вопросы и задания для самопроверки, темы ре-
фератов и расчетно-графических работ, а также темы для са-
мостоятельной работы. Оно будет полезно студентам, обу-
чающимся по направлениям "Компьютерные науки", "Ком-
пьютерная инженерия", "Прикладная математика", эко-
номистов, социологов, других специалистов в области ана-
лиза информации, а также аспирантов и специалистов в на-
правлении искусственного интеллекта, теории и практики
прогнозирования.
В пособии, кроме известных методов прогнозирования,
представлены оригинальные разработки автора по оптими-
зации нейросетевых технологий, эволюционному моделиро-
ванию и их прикладному применению.
Автор благодарен рецензентам: академику НАН Украины
Ивахненко А.Г., профессорам Зайченко Ю.П. и Куссуль Н.Н.
за указанные пожелания и замечания, подавляющее боль-
шинство которых в данном издании пособия учтены.
Выражаю благодарность Говорухину С., Атамасю А. и
Гарбуз О. за помощь в подготовке электронного варианта по-
собия.
В.Е. Снитюк. ПРОГНОЗИРОВАНИЕ. Модели, методы, алгоритмы
13
Если вы не думаете о будущем,
у вас его и не будет.
Джон Ґолсуорси
Введение
Информационная неопределенность жизненного цикла
сложных систем, к которым относится и человек, является оп-
ределяющим фактором процесса их существования. Поведе-
ние людей, их судьба, в основном, связаны с принятием реше-
ний на различных этапах жизненного цикла. Известно, что
эти процессы, как диалектическая категория, должны иметь
начало и завершение. Для задачи прогнозирования началом
является сбор и анализ априорной информации. И хотя каж-
дый человек принимает решения каждый день, почти никто
не задумывается о том, какие предпосылки того или иного
решения, как зависит время от возникновения идеи или необ-
ходимости до их реализации от полноты, характера и формы
представления исходных данных.
История математики свидетельствует о том, что первые
попытки подвести научную базу под процессы принятия ре-
шений осуществлялись еще в 17-м столетии, когда делались
попытки вычисления частоты успеха в азартных играх. Для
двадцатого столетия было характерно доминирование клас-
сической интегро-дифференциальной парадигмы, которая
является основой методов, используемых для поддержки при-
нятия решений. Однако ее сторонники не акцентировали
внимание на значительных ограничениях и завышенных тре-
бованиях к априорной информации.
Тенденция к гумманизации общества во второй половине
20-го столетия привела к росту количества альтернативных
методов принятия решений, базирующихся на различных
научных парадигмах. К этому времени относится возникно-
вение теории нечетких множеств, которая позволила осуще-
ствлять оценивание субъективных суждений в категориях воз-
можности и необходимости, что расширило представления о
числовых множествах. Разработка теории нейронных сетей и
методов эволюционного моделирования явилась причиной
бурного развития нового направления в искусственном ин-
теллекте, базирующегося на принципах естественного отбора
и особенностях функционирования головного мозга чело-
века. Важную роль для развития теории и практики прогно-
зирования сыграл индуктивный метод моделирования - ме-
В.Е. Снитюк. ПРОГНОЗИРОВАНИЕ. Модели, методы, алгоритмы
14
тод группового учета аргументов. Он позволил осуществлять
качественное прогнозирование на «коротких» выборках дан-
ных.
Движение в направлении создания информационного
общества и общества, основанного на знаниях, обуславливает
расцвет современных технологий автоматизированного ин-
теллектуального анализа данных. Это связано главным обра-
зом с потоком новых идей в области компьютерных наук, об-
разовавшихся на пересечении предметных областей искусст-
венного интеллекта, статистики и теории баз данных. Эле-
менты автоматизированной обработки и анализа данных ста-
новятся неотъемлемой частью электронных хранилищ дан-
ных (Data Warehouses) и имеют в этом контексте, в зависимо-
сти от особенностей применения, названия: data mining (по-
лучение знаний из данных), KDD (knowledge discovery in
databases - открытия знаний в базах данных), text mining (по-
лучение знаний из обработки текстов, что особенно акту-
ально в связи с развитием сети Internet).
Компьютерные системы поддержки принятия решений,
реализующие указанные направления обработки данных, ба-
зируются на двух подходах. Первый, более традиционный,
заключается в том, что в системе фиксируется опыт эксперта,
и он используется для получения оптимального в данной си-
туации решения. Для второго подхода характерно нахожде-
ние решения на основе анализа ретроспективных данных,
описывающих поведение объекта, принятые в прошлом ре-
шения, их результаты и т.п. Внедрение таких систем в Ук-
раине наталкивается на препятствия, главные из которых
сравнительно небольшой срок существования предприятий с
определенной формой хозяйствования и нестабильность эко-
номики. Статистической информации, накопившейся за это
время, недостаточно для выработки на ее основе эффектив-
ной стратегии принятия решений с помощью систем data
mining. Названные факторы в значительной степени устанав-
ливают и формируют тенденции разработки и применения
информационных интеллектуальных систем.
Основными понятиями, которые определяют предмет
изучения курса "Информационные интеллектуальные сис-
темы", являются: интеллект, искусственный интеллект, ин-
формация. Определение интеллекта в различных энцикло-
педиях и справочниках позволяет характеризовать его как
В.Е. Снитюк. ПРОГНОЗИРОВАНИЕ. Модели, методы, алгоритмы
15
объект, способ и процесс. Приведем несколько из них, на наш
взгляд, наиболее содержательных.
Интеллект (intelligence) – от латинского intellectus ум,
способность человека мыслить, набор определенным образом
упорядоченной информации о среде; понятие, объединяю-
щее в себе память, мышление и позволяющее рациональное
познание и возможность предсказания будущих результатов.
Интеллект является высшим способом решения практиче-
ских и познавательных проблем, чем и отличается от других
форм поведения – инстинкта и навыков.
Интеллектом называется способность мозга решать (ин-
теллектуальные) задачи путем приобретения, запоминания и
целенаправленного преобразования знаний в процессе обу-
чения, исходя из опыта и адаптации к разнообразным обстоя-
тельствам.
Искусственный интеллект - раздел информатики, изу-
чающий алгоритмическую реализацию способов решения за-
дач человеком. Иными словами, в рамках искусственного ин-
теллекта изучают способы решения компьютером задач, не
имеющих явного алгоритмического решения.
Искусственный интеллект (artificial intelligence) трактуют
как способность автоматических систем брать на себя отдель-
ные функции интеллекта человека, а именно, выбирать и
принимать оптимизированные решения на основе ранее по-
лученного опыта и рационального анализа внешних воз-
действий.
Информацией называют набор символов (запись на неко-
тором материальном носителе), для которого существует в
природе хотя бы одно устройство (человек, машина, прибор),
для которого этот набор может быть использован для дости-
жения определенной цели.
Базируясь на основных понятиях, определяем цель курса -
изучение структурных элементов новых информационных
технологий, основой которых является теория искусственного
интеллекта, а именно, основных способов представления зна-
ний, моделей и методов их обработки, алгоритмов логиче-
ского вывода на знаниях, которые, в конечном итоге, ведут к
приобретению способности самостоятельного проектирова-
ния интеллектуальных информационных систем для под-
держки принятия решений и прогнозирования.
В.Е. Снитюк. ПРОГНОЗИРОВАНИЕ. Модели, методы, алгоритмы
16
Глава
1
Классические методы
Предвидеть − значит управлять.
Блез Паскаль
Основные понятия и термины
Идентификация Прогнозирование
Производная Оптимизационные задачи
Система линейных уравнений Методы оптимизации
Операции матричной алгебры Определитель
Математическое ожидание Линейная зависимость факторов
Дисперсия Обратная матрица
Коэффициент корреляции Критерий Стьюдента
Критерий Фишера
Критерий
2
Характеристическое уравнение Собственные числа и векторы
Среднеквадратическая погреш-
ность
Оценка параметра
Обучающая и контрольная по-
следовательность данных
Степень свободы
Содержательная оценка Несмещенная оценка
Временной ряд Дисперсионный анализ
Спецификация модели Тренд
Корреляционный момент Авторегрессия
Методы идентификации и прогнозирования, которые бу-
дут рассмотрены в главе "Классические методы", чаще всего
не являются самостоятельными методами, которые применя-
ются при решении слабоструктурированных и плохо форма-
лизованных задач искусственного интеллекта. Вместе с тем,
большинство методов, которые используются при решении
таких задач, базируются на регрессионных моделях и методах
или используют их в качестве составных элементов. Важной
их особенностью является развитый математический аппарат,
с помощью которого можно оценивать качество построенных
моделей, в частности, их точность и адекватность.
Построение и исследование трех видов моделей: парной
линейной регрессии, множественной линейной регрессии и
некоторых типов нелинейной парной и множественной рег-
В.Е. Снитюк. ПРОГНОЗИРОВАНИЕ. Модели, методы, алгоритмы
17
рессии базируется на использовании метода наименьших
квадратов. Вместе с тем, заметим, что адекватное его приме-
нение требует выполнения определенного ряда предпосылок,
которые будут рассмотрены ниже.
В этой главе детально изложен метод наименьших квадра-
тов для случая парной линейной регрессии, приведены выра-
жения для вычисления коэффициентов уравнения множест-
венной линейной регрессии. Показано, при каких условиях
наблюдаются неадекватные результаты применения метода
наименьших квадратов, а также определены критерии тести-
рования мультиколлинеарности, гетероскедастичности, авто-
корреляции и рассмотрены методы их устранения.
Значительные преимущества при анализе информации
для решения практических задач предоставляет метод Бран-
дона, с помощью которого строят уравнения множественной
нелинейной регрессии. Заметим, что приведенные модели и
методы используются для анализа как статической, так и ди-
намической информации и являются внутренними элемен-
тами многих систем аналитической обработки информации.
1.1. Метод наименьших квадратов.
Парная линейная регрессия
Метод наименьших квадратов (МНК), вне всяких сомне-
ний, является тем классическим методом, с которого рацио-
нально начинать представление и обоснование методов про-
гнозирования. Он предназначен для оценки неизвестных ве-
личин по результатам измерений или экспериментов, содер-
жащих случайные ошибки, и применяется для приближен-
ного представления заданной функции другими (более про-
стыми) функциями при обработке данных наблюдений. МНК
предложен К. Гауссом и А. Лежандром.
Таблица 1.1. Начальные данные
X
1
x
2
x
n
x
Y
1
y
2
y
n
y
Пусть имеются статистические данные или данные экспе-
риментов (табл. 1.1). Если фактор
X
интерпретируют как
время, то имеем динамический ряд (где
i
x
расположены в воз-
В.Е. Снитюк. ПРОГНОЗИРОВАНИЕ. Модели, методы, алгоритмы
18
растающем порядке). Необходимо получить аналитическую
зависимость
( ),
Y f X
(1.1)
которая наилучшим образом описывает начальные данные.
Словосочетание "наилучшим образом" понимаем в смысле
минимума суммы квадратов отклонений значений
i
y
, приве-
денных в табл. 1.1, от рассчитанных
i
y
по (1.1):
2
1
( ) ,
n
i i
i
E y y
(1.2)
где
( ).
i i
y f x
Идентификация зависимости (1.1) необходима,
в том числе, и для нахождения
1 1
( )
n n
y f x
, что уже является
задачей прогнозирования.
Заметим, что кроме функционала (1.2) применяются и
другие критерии оценки, в частности,
1
min,
n
i i
i
E y y
1
max .
i i
i n
E y y
Применение первого из них направлено на уменьшение
влияния отдельных "выбросов", а второго приводит к более
равномерному приближению во всех точках. Иное объясне-
ние состоит в том, что они отвечают наблюдениям в условиях
помех с разными статистическими свойствами. Если значения
исходной характеристики определяются с точностью до нор-
мально распределенного случайного слагаемого, то для оце-
нивания коэффициентов используется первый функционал.
Его применение оправдано также в условиях, если ошибка
измерений распределена по закону Лапласа (это отвечает на-
блюдениям при переменных условиях). Если слагаемое
(ошибка измерений) распределено нормально в некотором
интервале, то для оценки параметров регрессии необходимо
использовать второй функционал.
В.Е. Снитюк. ПРОГНОЗИРОВАНИЕ. Модели, методы, алгоритмы
19
Нанесем точки из табл. 1.1 на координатную плоскость
(рис. 1.1) и предположим, что зависимость (1.1) является ли-
нейной, то есть
Y a bX
, а отклонения от прямой вызваны
случайными факторами. Идентифицируем уравнения пря-
мой (найдем значения коэффициентов
a
и
b
) так, чтобы по-
лучить решение задачи
min,
E
(1.3)
т.е. необходимо найти минимум функционала
2
1
( ( )) .
n
i i
i
E y a bx
(1.4)
y
3
y
3
y
.
0
1
x
2
x
3
x
4
x
1n
x
n
x
1n
x x
Рис. 1.1. Парная регрессия
Для того, чтобы найти минимум (1.4), приравняем к нулю
частные производные в точках
a a
и
b b
, где
,
a b
соответ-
ствующие оценки параметров и упростим систему
1 1 1 1 1
2 2
1 1 1 1 1 1 1
2 ( ( )) 0, 0, ,
2 ( ( )) 0, 0, .
n n n n n
i i i i i i
i i i i i
n n n n n n n
i i i i i i i i i i i
i i i i i i i
y a bx y na b x na b x y
y a bx x x y a x b x a x b x x y
Последнюю систему можно представить в матричном виде
В.Е. Снитюк. ПРОГНОЗИРОВАНИЕ. Модели, методы, алгоритмы
20
1 1
2
1 1 1
.
n n
i i
i i
n n n
i i i i
i i i
n x y
a
b
x x
x y
Решая ее, получим значения коэффициентов
1 1 1
2 2
1 1
,
( )
n n n
i i i i
i i i
n n
i i
i i
n x y x y
b
n x x
,
a y bx
где
1 1
1 1
,
n n
i i
i i
y y x x
n n
− средние значения.
Вычислив
a
и
,
b
получим функцию
,
Y a bX
которая в
классе линейных функций наилучшим образом описывает
табличную зависимость в смысле минимума суммы квадратов
отклонений. Находим значения прогноза
1 1
.
n n
y a bx
1.2. Множественная линейная регрессия
Пусть начальные данные приведены в табл. 1.2, где
1
,...,
n
X X
- вектор входных факторов,
Y
- результирующая ха-
рактеристика,
m
- количество статистических наблюдений
или экспериментов. Уравнение линейной множественной
регрессии является таким:
0 1 1 2 2
... ,
n n
Y a a X a X a X U
(1.5)
где
U
– остаток, обусловленный случайными факторами.
Таблица 1.2. Начальные данные для многофакторной
линейной регрессии
1
X
2
X
3
X
...
1
n
X
n
X
Y
11
x
12
x
13
x
...
1 1
n
x
1
n
x
1
y
21
x
22
x
23
x
...
2 1
n
x
2
n
x
2
y
... ... ... ... ... ... ...
1 1
m
x
1 2
m
x
1 3
m
x
...
1 1
m n
x
1
m n
x
1
m
y
1
m
x
2
m
x
3
m
x
...
1
m n
x
m n
x
m
y
Перепишем (1.5) в матричном виде
В.Е. Снитюк. ПРОГНОЗИРОВАНИЕ. Модели, методы, алгоритмы
21
,
Y AX U
(1.6)
где
0 1 2 n
( , , ,..., ),
A a a a a
1 2 n
(1, , ,..., ) ,
T
X X X X
1 2
( , ,..., ),
m
U u u u
знаком
T
” обозначено вектор-столбец. Из уравнения (1.6)
получаем, что
U Y AX
. Рассмотрим функцию
2
1
,
m
T
i
i
E u UU
(1.7)
которую необходимо минимизировать. Поскольку
( )( ) 2 ,
T T T T T T
UU Y AX Y AX YY AXY AXX A
(1.8)
продифференцировав последнее выражение по
,
A
получим
( )
2 2 0,
T
T T T
UU
XY XX A
A
или
.
T T T
XX A XY
Отсюда
1
( ) ,
T T T
A XX XY
где
111 21
12 22 2
1 2
11 1 ...
...
.
...
... ... ... ...
...
m
m
n n mn
x
x x
X x x x
x x x
Пример 1.1. Пусть начальные данные заданы в табл. 1.3.
Предположим, что они описывают зависимость
1 1 2 2
,
Y a X a X
а отклонения рассчитанных значений исход-
ной характеристики от табличных значений вызваны случай-
ными факторами. Необходимо найти коэффициенты зави-
симости.
Таблица 1.3. Начальные данные
1
X
2
X
Y
1 2 4
2 3 5
4 6 9
7 8 17
1 5 7
4 2 6
Решение. На первом шаге находим произведение
В.Е. Снитюк. ПРОГНОЗИРОВАНИЕ. Модели, методы, алгоритмы
22
1 2
2 3
1 2 4 7 1 4 4 6 87 101
,
7 8 101 142
2 3 6 8 5 2
1 5
4 2
T
XX
обратную матрицу
1
0,07598 0,054
( )
0,054 0,04548
T
XX
и произведение
1
0,07598 0,054 1 2 4 7 1 4
( )
0,054 0,04548
2 3 6 8 5 2
T
XX X
0,0321 0,0102 0,0203 0,1 0,1942 0,196
.
0,0369 0,02836 0,0567 0, 0567 0,014 0,1252
Получим значение
1
1,144997
( )
1,016586
T T T
A XX XY
. Таким обра-
зом
1 2
1,145 1,017 .
Y X X
(1.9)
Если в модели (1.9) предполагалось наличие свободного
члена, то необходимо было бы матрицу
X
рассматривать в
виде
1 1 1 1 1 1
1 2 4 7 1 4
2 3 6 8 5 2
X
, а дальнейшие вычисления про-
изводить аналогично.
Метод наименьших квадратов в предложенном изложе-
нии можно использовать лишь при выполнении следующих
условий:
1. Математическое ожидание остатков
0.
MU
Это означает,
что сумма отклонений табличных значений от значений, рас-
считанных по найденной зависимости, равняется нулю. Если
это условие не выполняется, то выбрана неправильная форма
зависимости
1 2
( , ,..., )
n
Y F X X X
или в модели не учтен важ-
ный фактор. Тем не менее, математическая модель (1.5), кото-
В.Е. Снитюк. ПРОГНОЗИРОВАНИЕ. Модели, методы, алгоритмы
23
рая имеет свободный член, поддается коррекции так, что все-
гда можно добиться того, чтобы
0.
MU
2. Дисперсия остатков должна оставаться постоянной
.
DU const
Невыполнение этого условия свидетельствует о
влиянии факторов, не учтенных в модели.
3. Все входные факторы должны быть независимыми между
собою. Существование линейной зависимости между факто-
рами называется мультиколлинеарностью. Поскольку это ус-
ловие часто не выполняется, то необходимо определить уро-
вень влияния спецификации зависимости на оценку пара-
метров модели.
4. Входные факторы и остатки должны быть взаимно незави-
симыми. Невыполнение этого условия указывает на наличие
факторов, для которых характерной является зависимость
1
( ),
n n
i i
X f X
где
n
– номер эксперимента,
i
X
i
-й фактор.
1.3. Тестирование и устранение
мультиколлинеарности
Алгоритмом полного исследования мультиколлинеарно-
сти является алгоритм Фаррара-Глобера. С его помощью тес-
тируют три вида мультиколлинеарности:
1. В совокупности всех факторов (критерий Пирсона
2
– хи-
квадрат).
2. Каждого фактора с другими (критерий Фишера).
3. Каждой пары факторов (критерий Стьюдента).
Для оценки параметров модели, в которую входят муль-
тиколлинеарные переменные, используют также метод глав-
ных компонент.
Алгоритм Фаррара-Глобера.
Шаг 1. Нормируем и центрируем значения факторов
.
H
ik k
ik
k
x x
x
(1.10)
Шаг 2. Находим выборочную корреляционную матрицу
1
( ) .
H T H
R X X
n
(1.11)
Шаг 3. Рассчитываем значения критерия
2
В.Е. Снитюк. ПРОГНОЗИРОВАНИЕ. Модели, методы, алгоритмы
24
2
1
( 1 (2 5))ln ,
6
m n R
(1.12)
где
n
количество факторов,
m
количество наблюдений.
Сравниваем его с табличным значением при
1
( 1)
2
n n
степе-
нях свободы и уровне значимости
.
Если
2 2
,
табл
то в век-
торе входных факторов есть мультиколлинеарность.
Шаг 4. Определяем обратную матрицу
1
.
D R
(1.13)
Шаг 5. Вычисляем значение
F
– критерия Фишера
1 ,
1
k kk
m n
F d
n
(1.14)
где
kk
d
диагональные элементы матрицы
.
D
Рассчитанные
значения критериев сравниваются с табличными при
( )
m n
и
( 1)
n
степенях свободы и уровне значимости
.
Если
,
k
табл
F F
то
k
-й фактор мультиколлинеарен с другими.
Шаг 6. Находим выборочные частные коэффициенты корре-
ляции
.
kj
kj
kk jj
d
P
d d
(1.15)
Шаг 7. Вычисляем значения
t
– критерия Стьюдента
2
.
1
kj
kj
kj
P m n
t
P
(1.16)
Рассчитанные значения
kj
t
сравниваются с табличными при
( )
m n
степенях свободы и уровне значимости
.
Если
kj табл
t t
, то между
k
X
и
j
X
существует мультиколлинеар-
ность.
Алгоритм метода главных компонент
На практике часто приходится иметь дело с задачами, в
которых количество факторов превышает границы адекват-
ного анализа и интерпретации. Поэтому вместо множества
В.Е. Снитюк. ПРОГНОЗИРОВАНИЕ. Модели, методы, алгоритмы
25
исходных факторов
1
,...,
n
X X
рассматривают другое множе-
ство
1
,...,
m
Z Z
, где
.
m n

Причинами этого являются:
необходимость наглядного представления исходных дан-
ных, что достигается их проецированием на специальным
образом определенное одно-, двух- или трехмерное про-
странство:
стремление к лаконизму исследуемых моделей, которое од-
новременно позволит упростить расчеты и интерпретацию
моделей;
необходимость сжатия объемов статистической информа-
ции.
Процедура определения факторов
1
,...,
m
Z Z
базируется на
двух критериях: первый – максимальное сохранение исход-
ной информации, которая сосредоточена в значениях факто-
ров
1
,...,
n
X X
, второй максимальное использование инфор-
мации, которая находится в этих факторах относительно дру-
гих, внешних показателей.
Формально задача перехода к новому набору факторов
будет такой. Пусть
( )
Z Z X
некоторая
k
-мерная вектор-
функция начальных факторов и
( ( ))
k
I Z X
определенным
образом заданная мера информативности системы факторов
1
( ) ( ( ),
Z X Z X
2
( ),..., ( ))
k
Z X Z X
. Задача состоит в определении та-
кого набора факторов
~
Z
, найденного в классе
F
допустимых
преобразований начальных факторов
X
, которые являются
решением задачи поиска
~
( ( )) max ( ( )).
m m
Z F
I Z X I Z X
Предположим, что преобразование
F
определяет возможные
линейные ортогональные нормированные комбинации на-
чальных факторов, то есть
1 1 1
( ) ( ) ... ( );
j j jn n n
Z X c X MX c X MX
2
1
1, 1, ;
n
ji
i
c j n
1
0, , 1, , .
n
ji ki
i
c c j k n j k
Мерой информативности является отношение
В.Е. Снитюк. ПРОГНОЗИРОВАНИЕ. Модели, методы, алгоритмы
26
1
1
...
( ( )) ,
...
m
m
n
DZ DZ
I Z X
DX DX
где
D
это знак дисперсии. Тогда вектор
~
Z
определяется как
линейная комбинация
~
,
Z AX
где строки матрицы
A
удов-
летворяют условию ортогональности. Конструктивное по-
строение элементов матрицы
A
рассмотрено ниже.
Первой главной компонентой
1
( )
Z X
называется такая
нормировано-центрированная линейная комбинация на-
чальных факторов, которая среди всех других таких комби-
наций имеет наибольшую дисперсию.
k
главной компонентой исследуемой системы факто-
ров
1
,...,
n
X X
называется такая нормировано-центрированная
линейная комбинация этих факторов, которая не коррелиро-
вана с (
1
k
)-й предшествующими главными компонентами,
и среди всех других таких комбинаций, которые не коррели-
рованы с предшествующими (
1
k
)-й главными компонента-
ми линейных комбинаций, имеет наибольшую дисперсию.
Шаг 1. Нормируем и центрируем значения факторов
.
ij j
H
ij
x X
x
(1.17)
Шаг 2. Вычисляем выборочную корреляционную матрицу
1
( ) .
H T H
R X X
n
(1.18)
Шаг 3. Находим характеристические числа матрицы
R
из
уравнения
0.
R E
(1.19)
Шаг 4. Упорядочиваем собственные числа
k
по абсолютному
вкладу главной компоненты в общую дисперсию.
Шаг 5. Вычисляем соответствующие собственные векторы
.
k
a
Шаг 6. Находим главные компоненты-векторы
,
H
k k
Z X a
1, .
k m
Главные компоненты должны удовлетворять таким условиям:
В.Е. Снитюк. ПРОГНОЗИРОВАНИЕ. Модели, методы, алгоритмы
27
,
1
0,
n
k i
i
z
1, ,
i n
1
,
T
k k k
Z Z
n
1, ,
k m
0,
T
j k
Z Z
1, ,
k m
.
j k
Шаг 7. Определяем параметры модели
^
1
.
b Z Y
(1.20)
Шаг 8. Находим параметры модели
^ ^
Y X
^ ^
.
a b
(1.21)
Пример 1.2. Пусть есть некоторая система, имеющая три
входа и один выход или три входных фактора и одну резуль-
тирующую характеристику. Между ними существует зависи-
мость, в нашем случае предполагаем, что она линейная, то
есть
1 1 2 2 3 3
Y a X a X a X
. Необходимо решить задачу пара-
метрической идентификации. Начальные данные находятся в
табл. 1.4.
Таблица 1.4. Начальные данные
1
X
2