BookPDF Available

Новиков ДА Статистические методы в педагогических исследованиях (типовые случаи). М.: МЗ-Пресс, 2004. -- 67 с.

Authors:

Abstract

Работа содержит "рецепты" применения статистических методов в типовых случаях анализа экспериментальных данных в педагогических исследованиях. Приводится алгоритм выбора статистического критерия, методики определения достоверности совпадений и различий характеристик исследуемых объектов. Анализируются наиболее распространенные ошибки. Изложение сопровождается примерами анализа результатов педагогических экспериментов. Работа рассчитана на педагогов-исследователей, в первую очередь, на аспирантов и соискателей.
РОССИЙСКАЯ АКАДЕМИЯ ОБРАЗОВАНИЯ
Институт управления образованием
Д.А. Новиков
СТАТИСТИЧЕСКИЕ МЕТОДЫ
В ПЕДАГОГИЧЕСКИХ ИССЛЕДОВАНИЯХ
(ТИПОВЫЕ СЛУЧАИ)
Москва
МЗ-Пресс
2004
2
УДК 519.6
ББК 65, 74
Н 73
Новиков Д.А. Статистические методы в педагогиче-
ских исследованиях (типовые случаи). М.: МЗ-Пресс,
2004. – 67 с.
ISBN 5-94073-073-6
Серия «Статистические методы»
Редакционный совет серии: Богданов Ю.И., Вощинин А.П., Горба-
чев О.Г., Горский В.Г., Кудлаев Э.М., Натан А.А., Новиков Д.А.,
Орлов А.И. (председатель), Татарова Г.Г., Толстова Ю.Н., Фаль-
ко С.Г., Шведовский В.А.
Работа содержит "рецепты" применения статистических мето-
дов в типовых случаях анализа экспериментальных данных в
педагогических исследованиях. Приводится алгоритм выбора
статистического критерия, методики определения достоверности
совпадений и различий характеристик исследуемых объектов.
Анализируются наиболее распространенные ошибки. Изложение
сопровождается примерами анализа результатов педагогических
экспериментов.
Работа рассчитана на педагогов-исследователей, в первую
очередь, на аспирантов и соискателей.
Рецензенты: А.М. Новиковд.п.н., проф., академик
Российской академии образования
А.И. Орлов д.т.н., проф., президент Российской
ассоциации статистических методов
УДК 519.6
ББК 65, 74
ISBN 5-94073-073-6 ã Новиков Д.А., 2004
3
СОДЕРЖАНИЕ
Предисловие ..........................................................................................4
1. Введение ............................................................................................6
2. Структура педагогического эксперимента.....................................8
3. Элементы теории измерений .........................................................11
3.1. Шкалы измерений....................................................................11
3.2. Допустимые преобразования..................................................14
3.3. Применение шкал измерений в педагогических
исследованиях.................................................................................17
3.4. Агрегированные оценки..........................................................21
3.5. Комплексные оценки...............................................................23
4. Анализ использования статистических методов в
диссертационных исследованиях по педагогике .............................26
5. Типовые задачи анализа данных в педагогических
исследованиях .....................................................................................30
6. Методы обработки данных и примеры.........................................37
6.1. Описательная статистика........................................................37
6.2. Общие подходы к определению достоверности совпадений и
различий ..........................................................................................43
6.3. Методика определения достоверности совпадений и
различий для экспериментальных данных, измеренных в шкале
отношений.......................................................................................45
6.4. Методика определения достоверности совпадений и
различий для экспериментальных данных, измеренных в
порядковой шкале...........................................................................51
6.5. Алгоритм выбора статистического критерия........................58
7. Заключение......................................................................................62
Литература...........................................................................................64
4
ПРЕДИСЛОВИЕ
С большим удовольствием представляю читателю замечатель-
ную книгу, которая может осчастливить начинающего исследова-
теля. В ней всё рассказано о статистических методах, всё то, что
надо знать для успешного самостоятельного применения этих
методов в педагогических исследованиях. А дальше выход в
море более продвинутых методов. Конечно, если такой выход
нужен.
Статистические методы это набор инструментов научного
работника. Одни инструменты предназначены для первичной
обработки, другие для более тонкой отделки. Одни используются
чаще, другие реже. Одни современные, другие устарели. Но
есть базовый набор, которым должен владеть каждый научный
работник. Этот набор и представлен в книге профессора
Д.А. Новикова.
В настоящее время теория измерений это базовая общенауч-
ная теория, с которой должен быть знаком каждый научный работ-
ник. В книге рассмотрены основные шкалы измерения. Из них в
педагогических исследованиях, да и в любых иных, наиболее часто
применяются шкалы порядка и отношений. На основе теории
измерений дается обоснованная критика распространенной прак-
тике использования «среднего балла».
Изложение построено на основе выделенной автором структу-
ры педагогического эксперимента. Эта структура такова. Создают-
ся экспериментальная и контрольная группы. Проверяется отсут-
ствие различий между ними. Затем в экспериментальной группе
применяется исследуемая методика. А в контрольной традици-
онная. Если в конечном состоянии группы различаются, то налицо
эффект (превосходство) исследуемой методики.
В книге рассмотрены методы решения шести базовых задач.
Для каждой из двух наиболее часто применяемых шкал измерения
(порядковой и отношений) разобраны методы описания данных,
проверки совпадения характеристик двух групп и установления
различия двух групп. Приведены все необходимые формулы и
алгоритмы расчетов. Нет необходимости обращаться к иной лите-
ратуревсе есть в этой книге!
5
Однако статистические методы отнюдь не исчерпываются ба-
зовыми задачами. «Продвинутым» исследователям целесообразно
обратиться к существенно более толстым сочинениям, многие из
которых указаны в списке литературы. В частности, при различии
групп в начальном состоянии может помочь технология стандарти-
зации выборки. Более того, контрольная группа не всегда нужна,
например, при изучении взаимосвязи признаков.
Наконец самое важное. Настоящая книга полезна не только
при проведении педагогических исследований. Столь же хорошо
она может быть использована и в научных медицинских исследо-
ваниях. А также и в любых иных областях науки, отраслях народ-
ного хозяйства.
Книга выходит в серии «Статистические методы» издательст-
ва МЗ-Пресс. Прочитаете еепереходите к другим книгам серии.
Президент Российской ассоциации
статистических методов
А.И. Орлов
6
1. ВВЕДЕНИЕ
Экспериментальные исследования играют существенную роль
во всех науках. Можно утверждать, что, чем менее строгой являет-
ся наука, тем более значимую роль в ней играет эксперимент1.
Действительно, в науках сильной версии (см. [14]), использующих
математический аппарат, многие результаты могут быть получены
и обоснованы теоретически, на базе существующего эмпирическо-
го материала. В науках же слабой версии, к которым на сегодняш-
ний день принадлежит и педагогика, эксперимент зачастую явля-
ется единственным способом подтверждения справедливости
гипотезы и результатов теоретического исследования, так как
отсутствие общепринятой аксиоматики и адекватного формального
аппарата не позволяет привести должного обоснования, не прибе-
гая к эксперименту. Например, можно ли априори сказать, что та
или иная новая методика обучения или воспитания более эффек-
тивна, чем известные и применяемые до нее? Вряд ли пока эта
методика не будет апробирована, и результаты ее применения не
будут сопоставлены с результатами применения традиционных
методик, никаких выводов сделать нельзя.
При планировании и подведении результатов эксперимента
существенную роль играют статистические методы, которые
дают, в том числе, возможность устанавливать степень достовер-
ности сходства и различия исследуемых объектов на основании
результатов измерений их показателей.
Анализ диссертационных исследований по педагогическим
наукам (см. четвертый раздел настоящей работы) позволяет кон-
статировать, что на сегодняшний день складывается следующая
картина. С одной стороны, большинство исследователей четко
представляет, что использование статистических методов необхо-
димо (хотя бы потому, что это является общепринятым требовани-
ем в науке), и существует обширная литература по теоретической
и прикладной статистике. С другой стороны, статистические мето-
1 Эксперимент общий эмпирический метод исследования, суть которого
заключается в том, что явления и процессы изучаются в строго контролируе-
мых и управляемых условиях. Основной принцип любого эксперимента измене-
ние только одного фактора при неизменности и контролируемости всех осталь-
ных факторов.
7
ды в педагогике либо не используются вообще, либо часто исполь-
зуются некорректно.
Объяснений этому несколько. Во-первых, необходимо при-
знать, что существующая литература в большинстве своем ориен-
тирована на людей, имеющих математическое или техническое
образование, и практически недоступна гуманитариям (немного-
численные книги по математической статистике для гуманитариев
[4, 5, 8, 9, 10, 12, 23, 26, 30] подавляют своим объемом и, все таки,
наверное, слишком сложны). Во-вторых, класс типовых (наиболее
распространенных, массовых) задач (случаев) анализа данных,
возникающих в педагогических исследованиях, достаточно узок, и
для эффективного решения этих задач вовсе не требуется знаком-
ства со всем богатейшим арсеналом статистических методов. Все
это приводит к тому, что педагоги-исследователи боятся использо-
вать статистические методы, а если и используют, то на уровне
"шаманских заклинаний", особо не понимая, что и как надо делать,
что они делают и какие результаты получают.
Поэтому основной целью настоящей работы1 является изло-
жение "рецептов" применения статистических методов для реше-
ния типовых задач анализа данных в педагогических исследовани-
ях. Желающим же получить более полное представление о том, как
и в каких ситуациях, какие методы можно и нужно использовать,
порекомендуем ознакомиться с перечисленными в списке литера-
туры многочисленными учебниками и книгами, содержащими
методики и опыт применения статистических методов в различных
областях научного знания.
Дальнейшее изложение имеет следующую структуру. Во вто-
ром разделе описана модель педагогического эксперимента и
алгоритм действий исследователя при организации эксперимента и
обработке его результатов. Третий раздел содержит минимально
необходимые сведения из теории измерений относительно того,
какого рода данные существуют, и какие операции к ним приме-
нимы. В четвертом разделе проводится анализ использования
статистических методов в диссертационных исследованиях по
педагогике, что позволяет перечислить наиболее распространен-
1 Следует признать, что иногда мы были вынуждены немного жертвовать
корректностью изложения в пользу его доступности.
8
ные ошибки, и сформулировать в пятом разделе типовые задачи
анализа данных в педагогических экспериментальных исследова-
ниях. Шестой раздел включает описание методов решения этих
задач и примеры, а также алгоритм выбора статистического крите-
рия принятия решения относительно того, какой метод следует
использовать в той или иной конкретной ситуации.
2. СТРУКТУРА ПЕДАГОГИЧЕСКОГО ЭКСПЕРИМЕНТА
Целью эксперимента, в том числе в диссертационном исследо-
вании по педагогическим наукам, является эмпирическое подтвер-
ждение или опровержение гипотезы исследования и/или справед-
ливости теоретических результатов.
Рассмотрим следующую модель педагогического эксперимен-
та. Пусть имеется некоторый педагогический объект, изменение
состояния которого исследуется в ходе эксперимента. В качестве
объекта может выступать отдельный индивид, группа, коллектив и
т.д., например, множество учащихся, обучаемых по новой (предла-
гаемой в диссертации) методике. Состояние объекта измеряется1
теми или иными показателями2 (характеристиками) по критери-
ям3, отражающим его существенные характеристики. Примерами
критериев являются: успеваемость, уровень знаний и т.д., приме-
рами характеристиквремя выполнения заданий, число сделанных
учащимися ошибок, число правильно решенных задач и т.д.
Эксперимент заключается в целенаправленном воздействии на
объект, призванном изменить его определенным образом. Собст-
венно, это воздействие его состав, структура, свойства и т.д. и
есть результат теоретического (теоретической части) исследова-
1 Измерение "процесс определения какой-либо мерой величины чего-либо".
Величина "то (предмет, явление и т.д.), что можно измерить, исчислить".
Другими словами, величина мера некоторого множества, относительно эле-
ментов которого имеют смысл утверждения больше, меньше, равно. Мера
"единица измерения". Все определения здесь и далее взяты, если не оговорено
особо, из словаря русского языка С.И. Ожегова.
2 Показатель – "то, по чему можно судить о развитии и ходе чего-либо".
3 Критерий "1) средство для вынесения суждения; стандарт для сравнения;
правило для оценки; 2) мера степени близости к цели".
9
ния. Примерами воздействия являются новые содержание и фор-
мы, методы, средства обучения и т.д.
Следовательно, при проведении педагогического эксперимен-
та необходимо обосновать, что состояние объекта изменилось,
причем в требуемую сторону. Но этого оказывается недостаточно.
Ведь нужно обосновать, что изменения произошли именно в ре-
зультате произведенного воздействия.
Действительно, на утверждение о том, что успеваемость повы-
силась в результате использования новой методики, можно всегда
возразить, а, может быть, она сама повысилась бы, без каких-
либо нововведений, или в результате каких-либо других воздейст-
вий? Аналогично, на утверждение о том, что успеваемость уча-
щихся, прошедших обучение по новой методике, выше успеваемо-
сти тех, кто обучался по традиционной методике, можно возразить,
а, может быть, успеваемость первых до начала применения новой
методики была выше, и, если бы новая методика не применялась,
то она в результате оказалась бы выше наблюдаемой?
Таким образом, для того, чтобы выделить в явном виде ре-
зультат целенаправленного воздействия на исследуемый объект,
необходимо взять аналогичный объект и посмотреть, что происхо-
дит с ним в отсутствии воздействий.
Традиционно эти два объекта в экспериментальных исследо-
ваниях называют соответственно экспериментальной группой
(например, обучаемой по предложенной методике) и контрольной
группой (например, обучаемой по традиционной методике).
На рисунке 1 представлена в общем виде структура любого
педагогического эксперимента (двойными пунктирными стрелка-
ми отмечены процедуры сравнения1 характеристик объектов).
1 При этом мы по умолчанию подразумеваем, что методы (методики, тесты и
т.д.) измерения характеристик объектов одинаковы. Например, сравнивать
уровни знаний членов экспериментальной и контрольной группы, предлагая им
различные наборы задач, нельзя.
10
Начальное состояние
Конечное состояние
Время
Экспериментальная
группа
Контрольная
группа
Экспериментальная
группа
Контрольная
группа
III
III
IV
Экспериментальная
методика
Традиционная
методика
Рис. 1. Структура педагогического эксперимента
Констатации (в результате сравнения III см. рисунок 1) раз-
личий начального и конечного состояний (динамики) эксперимен-
тальной группы недостаточно быть может, аналогичные измене-
ния происходят и с контрольной группой, что может быть
установлено сравнением IV. Поэтому алгоритм действий исследо-
вателя заключается в следующем:
1) На основании сравнения I установить совпадение1 началь-
ных состояний экспериментальной и контрольной группы;
2) Реализовать воздействие на экспериментальную группу2;
3) На основании сравнения II установить различие конечных
состояний экспериментальной и контрольной группы.
Легко видеть, что, выполняя перечисленные шаги3, мы, фак-
тически, косвенным образом реализуем процедуру сравнения III,
1 Если говорить корректно, то с точки зрения математической статистики
совпадение установить невозможно можно установить различие или отсут-
ствие статистически значимого различия.
2 При выполнении данного шага необходимо быть уверенным, что и эксперимен-
тальная, и контрольная группы находятся в одинаковых условиях, за исключени-
ем целенаправленно изменяемых исследователем.
3 Эксперимент может следовать и более сложной, но укладывающейся в рамки
описанной идеологии, схеме например, характеристики контрольных и экспе-
риментальных групп могут измеряться и сравниваться неоднократно, в различ-
ные моменты времени.
11
исключая влияние общих для экспериментальной и контрольной
группы условий и воздействий.
Спрашивается, а где же место статистических методов? Роль
их заключается в том, чтобы корректно и достоверно обосновать
совпадение или различие состояний контрольной и эксперимен-
тальной группы. Однако, прежде чем описывать эти методы, да-
вайте рассмотрим, что понимается под "состоянием объекта" и как
это состояние измерять. Проблемами измерений занимается теория
измерений, поэтому приведем минимально необходимые сведения
из этой теории.
3. ЭЛЕМЕНТЫ ТЕОРИИ ИЗМЕРЕНИЙ
Информация, имеющаяся о начальных и конечных состояниях
экспериментальной и контрольной группы, определяется прове-
денными измерениями. Любое измерение производится в той или
иной шкале, и выбранная шкала определяет тип получающихся
данных и множество операций, которые можно с этими данными
осуществлять. Поэтому в настоящем разделе дается краткий обзор
свойств основных шкал измерений, а затем описываются наиболее
распространенные в педагогических исследованиях типы экспери-
ментальных данных и методы их первоначальной обработки (до
применения статистических методов).
3.1. ШКАЛЫ ИЗМЕРЕНИЙ
Состояние объекта оценивается по тем или иным критериям. В
качестве критериев могут выступать: успеваемость учащихся,
эффективность управления образовательным учреждением и т.д.
Оценки измеряются в той или иной шкале. Шкала (условно
говоря, шкала это множество возможных значений оценок по
критериям) числовая система, в которой отношения между раз-
личными свойствами изучаемых явлений, процессов переведены в
свойства того или иного множества, как правило множества
чисел.
Различают несколько типов шкал. Во-первых, можно выде-
лить дискретные шкалы (в которых множество возможных значе-
12
ний оцениваемой величины конечно например, школьная оценка
в баллах "1", "2", "3", "4", "5") и непрерывные шкалы (например,
время, затрачиваемое учащимися на выполнение задания, в мину-
тах). Во-вторых, выделяют шкалы отношений, интервальные
шкалы, порядковые (ранговые) шкалы и номинальные шкалы (шка-
лы наименований) см. рисунок 2, на котором отражена также
мощность шкалто есть их "разрешающая способность".
ШКАЛЫ ИЗМЕРЕНИЙ
Мощность шкалы
Шкала
интервалов
Шкала
отношений
Шкала
наименований
Шкала
рангов
Рис. 2. Классификация шкал измерений
Рассмотрим, следуя, в основном [15, 22], свойства четырех ос-
новных типов шкал, перечисляя их в порядке убывания мощности.
Шкала отношений самая мощная шкала. Она позволяет оце-
нивать, во сколько раз один измеряемый объект больше (меньше)
другого объекта, принимаемого за эталон, единицу. Для шкал
отношений существует естественное начало отсчета (нуль), но нет
естественной единицы измерений.
Шкалами отношений измеряются почти все физические вели-
чины время, линейные размеры, площади, объемы, сила тока,
мощность и т.д. В педагогических измерениях шкала отношений
будет иметь место, например, когда измеряется время выполнения
того или иного задания (в секундах, минутах, часах и т.п.), количе-
ство ошибок или число правильно решенных задач. В отдельных
случаях, в том числе в исследованиях по трудовому и профессио-
нальному обучению, применяются оценки и в мерах физических
величин величина допускаемых ошибок в миллиметрах при,
13
допустим, токарной обработке деталей, величина силы нажатия
учащимся на слесарный инструмент в ньютонах (килограммах),
величина электрической активности мышц в милливольтах и т.п.
Шкала интервалов применяется достаточно редко и характе-
ризуется тем, что для нее не существует ни естественного начала
отсчета, ни естественной единицы измерения. Примером шкалы
интервалов является шкала температур по Цельсию, Реомюру или
Фаренгейту. Шкала Цельсия, как известно, была установлена
следующим образом: за ноль была принята точка замерзания воды,
за 100 градусов точка ее кипения, и, соответственно, интервал
температур между замерзанием и кипением воды поделен на 100
равных частей. Здесь уже утверждение, что температура 300С в три
раза больше, чем 100С, будет неверным. Справедливо говорить
лишь об интервалах температур температура 300С на 200С боль-
ше, чем температура 100С.
Порядковая шкала (шкала рангов) шкала, относительно зна-
чений которой уже нельзя говорить ни о том, во сколько раз изме-
ряемая величина больше (меньше) другой, ни на сколько она
больше (меньше). Такая шкала только упорядочивает объекты,
приписывая им те или иные ранги (результатом измерений являет-
ся нестрогое упорядочение объектов).
Например, так построена шкала твердости минералов Мооса:
взят набор 10 эталонных минералов для определения относитель-
ной твердости методом царапанья. За 1 принят тальк, за 2 – гипс, за
3 кальцит и так далее до 10 – алмаз. Любому минералу соответ-
ственно однозначно может быть приписана определенная твер-
дость. Если исследуемый минерал, допустим, царапает кварц (7),
но не царапает топаз (8) соответственно его твердость будет
равна 7. Аналогично построены шкалы силы ветра Бофорта и
землетрясений Рихтера.
Шкалы порядка широко используются в педагогике, психоло-
гии, медицине и других науках, не столь точных, как, скажем,
физика и химия. В частности, повсеместно распространенная
шкала школьных отметок в баллах (пятибалльная, двенадцати-
балльная и т.д.) может быть отнесена к шкале порядка. В школах
некоторых стран применяется и другая оценка успеваемости уча-
щихся (как итоговая): порядковое место, которое данный ученик
занимает в данном классе (выпуске). Это тоже шкала порядка.
14
Частным случаем порядковой шкалы является дихотомиче-
ская шкала, в которой имеются всего две упорядоченные градации
например, "справился с заданием", "не справился с заданием".
Шкала наименований (номинальная шкала), фактически, уже
не связана с понятием "величина" и используется только с целью
отличить один объект от другого: фамилии учеников, номера
автомобилей, телефонов и т.п.
3.2. ДОПУСТИМЫЕ ПРЕОБРАЗОВАНИЯ
Результаты измерений необходимо анализировать, а для этого
нередко приходится строить на их основании производные показа-
тели, то есть, применять к экспериментальным данным то или иное
преобразование. Используемая шкала определяет множество пре-
образований, которые допустимы для результатов измерений в
этой шкале (подробнее см. публикации [13, 21, 22, 25, 29] по тео-
рии измерений).
Начнем с наиболее слабой шкалы шкалы наименований, ко-
торая выделяет попарно различимые классы объектов. Например, в
шкале наименований измеряются значения признака "пол": "де-
вочки" и "мальчики". Эти классы будут различимы независимо от
того, какие различные термины или знаки для их обозначений
будут использованы: "лица женского пола" и "лица мужского
пола", или "girls" и "boys", или "А" и "Б", или "1" и "2", или "2" и
"3" и т.д. Следовательно, для шкалы наименований применимы
любые взаимно-однозначные преобразования, то есть сохраняю-
щие четкую различимость объектов (таким образом, самая слабая
шкала шкала наименований допускает самый широкий диапа-
зон преобразований).
Отличие порядковой шкалы (шкалы рангов) от шкалы наиме-
нований заключается в том, что в шкале рангов классы (группы)
объектов упорядочены. Поэтому произвольным образом изменять
значения признаков нельзя должна сохраняться упорядоченность
объектов (порядок следования одних объектов за другими). Следо-
вательно для порядковой шкалы допустимым является любое
монотонное преобразование. Например, если ученик Иванов на-
брал 5 балов, а ученик Сидоров 10, то их упорядочение не изме-
нится, если мы число баллов умножим на одинаковое для всех
15
учеников положительное число, или сложим с некоторым одина-
ковым для всех числом, или возведем в квадрат и т.д. (например,
вместо "1", "2", "3", "4", "5" используем соответственно "3", "5",
"9", "17", "102"). При этом изменятся разности и отношения "бал-
лов", но упорядочение сохранится. В некоторых школах, исполь-
зуются ранговые нечисловые шкалы, например, пятерка соответст-
вует букве A или, например, пятиугольнику, четверка букве B
или четырехугольнику, и т.д., и учащиеся знают, что A лучше B, B
лучше C и т.д.
Для шкалы интервалов допустимо уже не любое монотонное
преобразование, а только такое, которое сохраняет отношение
разностей оценок, то есть линейное преобразование умножение
на положительное число и добавление постоянного числа. Напри-
мер, если к значению температуры в градусах Цельсия добавить
минус 2730С, то получим температуру по Кельвину, причем разно-
сти любых двух температур в обоих шкалах буду одинаковы.
И, наконец, в наиболее мощной шкале шкале отношений
возможны лишь преобразования подобия умножение на положи-
тельное число. Содержательно это означает, что, например, отно-
шение масс двух предметов не зависит от того, в каких единицах
измерены массы граммах, килограммах и т.д.
Суммируем сказанное в таблице 1, которая отражает соответ-
ствие между шкалами и допустимыми преобразованиями.
Таблица 1
Шкалы и допустимые преобразования
Шкала Допустимое преобразование
Наименований Взаимно-однозначное
Порядковая Строго монотонное
Интервальная Линейное
Отношений Подобия
Как отмечалось выше, результаты любых измерений относят-
ся, как правило1, к одному из основных (перечисленных выше)
1 Результатами измерений могут быть и более сложные данные ранжировки,
последовательности и т.д., встречающиеся в педагогических исследованиях
чрезвычайно редко, поэтому их рассмотрение выходит за рамки настоящей
работысм., например, [1-4, 13, 22, 33].
16
типов шкал. Однако получение результатов измерений не является
самоцелью эти результаты необходимо анализировать, а для
этого нередко приходится строить на их основании производные
показатели. Эти производные показатели могут измеряться в
других шкалах, нежели чем исходные. Например, можно для оцен-
ки знаний учащихся применять 100-балльную шкалу. Но она
слишком детальна, и ее можно перестроить в пятибалльную ("1"
от "1" до"10"; "2" от "10" до "30" и т.д.), или двухбалльную (на-
пример, положительная оценка все, что выше 50 баллов, отрица-
тельная 50 и меньше). Следовательно, возникает проблема
какие преобразования можно применять к тем или типам исходных
данных. Другими словами, переход от какой шкалы к какой явля-
ется корректным. Эта проблема в теории измерений получила
название проблемы адекватности.
Для решения проблемы адекватности можно воспользоваться
свойствами взаимосвязи шкал и допустимых для них преобразова-
ний, так как отнюдь не любая операция при обработке исходных
данных является допустимой. Так, например, такая распространен-
ная операция, как взятие среднего арифметического, не может
быть использована, если измерения получены в порядковой шкале
[13, 22]. Общий вывод таков всегда возможен переход от более
мощной шкалы к менее мощной, но не наоборот (например, на
основании оценок, полученных в шкале отношений, можно стро-
ить балльные оценки в порядковой шкале, но не наоборот).
Завершая обсуждение шкал измерений, в качестве отступле-
ния отметим, что мы рассматриваем процесс обработки результа-
тов измерений, но вовсе не затрагиваем проблемы, связанные, во-
первых, с процедурой измерений (то есть с тем, каким образом
получается информация об объекте), во-вторых, с тем, какого рода
информация представляет интерес с точки зрения проводимого
педагогического исследования, и, наконец, в-третьих, с тем, что
понимать под "улучшением" или "ухудшением" состояния иссле-
дуемого объекта, то есть, каковы критерии эффективности [12, 15-
17] (подобные содержательные аспекты находятся вне компетен-
ции математики статистические методы позволяют лишь устано-
вить и обосновать сходство или различие объектов, а как их интер-
претироватьвопрос педагогики).
17
Не останавливаясь на том очевидном требовании, что для
сравнения результатов измерений ко всем объектам должны при-
меняться одинаковые процедуры измерений (например, нельзя
сравнивать результаты выполнения двумя различными учениками
двух различных тестов), а также не перечисляя методы измерений,
используемые в педагогике (с ними можно ознакомиться в
[12, 16, 17]), отметим, что отдельной и чрезвычайно интересной
областью исследований является выбор показателей, наиболее
адекватно, и, в то же время, емко отражающих изучаемые свойства
объекта. К этой содержательной области относятся задачи по-
строения тестов, выбора методик оценки знаний и умений и т.д.
Кроме того, необходимо подчеркнуть, что проблема адекватности
возникает не только при переходе от одной шкалы к другой, но и
при выборе шкалы для получения первоначальных оценок непо-
средственной информации об объекте. И здесь опять справедлив
вывод о том, что шкала должна быть адекватна если она слиш-
ком мощная, то возможен большой произвол (например, при изме-
рении качественных характеристик в шкале отношений), если
слишком слабая, то происходят потери информации (например,
при измерении количественных показателей в номинальной шка-
ле). Например, наверное, нецелесообразно, с одной стороны, оце-
нивать результаты решения одной задачи в 100-балльной шкале, а
с другой стороны, результаты решения 100 задач в двухбалльной
шкале.
Теперь, когда мы совершили небольшой экскурс в теорию из-
мерений, рассмотрим вопрос о применении шкал измерений в
педагогических исследованиях.
3.3. ПРИМЕНЕНИЕ ШКАЛ ИЗМЕРЕНИЙ В
ПЕДАГОГИЧЕСКИХ ИССЛЕДОВАНИЯХ
Наиболее распространенная мера педагогических оценок
шкала оценки знаний и умений учащихся в баллах. Школьные
оценки (отметки) удобный аппарат для практики обучения, кото-
рый выполняет не только оценивающие, но и определенные воспи-
тательные функции (стимулирования одних учащихся, "наказания"
других и т.д.).
18
В педагогических исследованиях используются также и дру-
гие шкалы балльных оценок (порядковые шкалы). Например,
выделив какие-либо уровни сформированности у учащихся опре-
деленных качеств личности или овладения той или иной деятель-
ностью, исследователь приписывает этим уровням соответствую-
щие значения баллов: "1", "2", "3" и т.д., или "0", "10", "100", что
принципиально безразлично. Но использование порядковой шкалы
как критерия оценки для педагогических исследований нежела-
тельно, хотя и не исключено. И дело здесь не только в известной
необъективности отметок, о чем уже говорилось, но и в свойствах
самой шкалы порядка. В этой шкале ничего нельзя сказать о рав-
номерности или неравномерности интервалов между соседними
значениями оценок. Мы не вправе, к примеру, сказать о том, что
знания учащегося, оцененные на "5", настолько же отличаются от
знаний, оцененных на "4", как знания, оцененные на "4", отлича-
ются от знаний, оцененных на "3". С тем же успехом можно было
бы приписывать баллам значения не "1", "2", "3", "4", "5", а, допус-
тим "1", "10", "100", "1000", "10000". И поэтому совершенно не-
корректно использование так широко применяемой в диссертациях
по педагогике величины среднего балла (по классу, группе уча-
щихся и т.д.), поскольку усреднение предполагает сложение значе-
ний величины, а операция суммы для порядковых шкал не может
быть корректно определена. Соответственно не могут быть опре-
делены и все остальные арифметические и алгебраические дейст-
вия.
Поэтому, например, утверждение о том, что знания учащихся
в экспериментальных классах в среднем на 0,5 балла выше, чем в
контрольных, будет неправомочным, некорректным. Тем более
при использовании балльных оценок некорректны (даже абсурдны)
утверждения типа: "эффективность экспериментальной методики в
2,6 раза выше контрольной".
Чтобы продемонстрировать, что может получиться с исполь-
зованием "среднего" балла, приведем такой гипотетический при-
мер [15]. Пусть исследовалась сравнительная эффективность двух
каких-либо методик обучения, А и В. В обеих группах учащихся
контрольной и экспериментальной было по 80 человек. Оценки
производились по двум шкалам пятибалльной и десятибалльной.
Предположим, что оценки по десятибалльной шкале могут быть
19
пересчитаны в оценки по шкале пятибалльной: оценки "10" и "9"
будут отнесены к "5", "8" и "7" к "4" и так далее. Пусть оценки по
десятибалльной шкале распределились следующим образом (в
числителе указано количество учащихся, получивших соответст-
вующую оценку в группе, обучавшейся по методике А, в знамена-
теле по методике Б): "10"
0
20 , "9"
30
0, "8"
0
30 , "7"
30
0, "6"
0
20 ,
"5"
20
0, "4"
0
10 , оценки "3", "2", "1" не получил никто.
Соответственно "средний балл" составит 7,50 (методика А) и
7,25 (методика В). Казалось бы, можно сделать вывод, что методи-
ка А лучше методики В. Вычислим оценки по пятибалльной шка-
ле, в том же порядке: "5"
30
20 , "4"
30
30 , "3"
20
20 , "2"
0
10 , "1"
0
0. "Сред-
ний балл" в этом случае составит 3,750 в группе, обучавшейся по
методике А, и 4,125 в группе, обучавшейся по методике В. Таким
образом мы получили как бы противоположный "результат": мето-
дика В лучше методики А.
Заметим, что этот "парадокс" никак не связан со статистиче-
ской достоверностью различий он будет иметь место и при очень
больших выборках данных (числе учащихся). Просто это свойство
слабой шкалы измерений. Сказанное будет относиться и к любым
другим критериям оценки, использующим шкалу порядка.
Внимательный читатель может сказать (и будет прав), что ис-
пользованное в приведенном выше примере преобразование (из
десятибалльной в пятибалльную шкалу) некорректно, так как не
является взаимно-однозначным. Поэтому рассмотрим еще один
пример [22], в котором "парадокс" имеет место при взаимно-
однозначном преобразовании. Предположим для простоты, что и
экспериментальная, и контрольная группы состоят из двух учени-
ков. Ученики в первой группе получили следующие баллы: x1 = 2,
x2 = 5, во второй y1 = 3, y2
= 4. "Средний балл" эксперименталь-
ной группы: 3,5 = (2 + 5) / 2 равен "среднему баллу" контрольной
группы: 3,5 = (3 + 4) / 2. Применим строго монотонное (возрас-
тающее) преобразование: “2” ® 6”, 3® 8, 4® “12”,
“5” ® 15”. Средний балл экспериментальной группы
(10,5 = (6 + 15) / 2) стал строго больше среднего балла контрольной
20
группы (10 = (8 + 12) / 2). Таким образом, несмотря на то, что
строго монотонное преобразование является допустимым для
порядковой шкалы (см. выше), соотношение между «средними»
изменилось. Обусловлено это тем, что операция вычисления
среднего арифметического не является корректной в порядко-
вой шкале.
В принципе, шкалу балльных оценок, также как и другие шка-
лы порядка, можно использовать в педагогических исследованиях,
но в этом случае необходимо применять адекватные методы обра-
ботки данных, не вычисляя "среднего балла". Корректной характе-
ристикой набора балльных оценок является медиана (такое значе-
ние оценки, справа и слева от которого расположено одинаковое
число оценок в их упорядоченной совокупности). Однако, при
порядковых шкалах, имеющих малое число "разрядов" "баллов",
медиана малоинформативна (более подробно методы обработки
результатов измерений в порядковой шкале рассмотрены ниже в
шестом разделе).
По приведенным выше соображениям целесообразно исполь-
зовать такие способы оценки, которые позволяют применить шка-
лу отношений или шкалу интервалов, а не шкалу порядка (шкалы
наименований в педагогических исследованиях практически не
используются). Например, использовать тесты серии коротко и
точно сформулированных вопросов, заданий и т.д., на которые
учащийся должен дать краткие и однозначные ответы, в правиль-
ности (или неправильности) которых нельзя сомневаться. Резуль-
татом измерений будет число правильных ответов, которое уже
может измеряться в шкале отношений. Точно так же могут быть
построены письменные контрольные работы, результаты обработ-
ки анкет (процент учащихся, давших положительные ответы на тот
или иной вопрос) и т.д.
В общем же случае можно выделить следующие характери-
стики, измеряемые в шкале отношений [18]:
- временные (время выполнения действия, операции, время
реакции, время, затрачиваемое на исправление ошибки, и т.д.);
- скоростные (производительность труда, скорость реакции,
движения и т.д. величины, обратные времени);
21
- точностные (величина ошибки в мерах физических величин
(миллиметрах, углах и т.п.), количество ошибок, вероятность
ошибки, вероятность точной реакции, действия и т.д.);
- информационные (объем заучиваемого материала, перераба-
тываемой информации, объем восприятия и т.д.).
Методы обработки величин, измеренных в шкале отношений,
рассмотрены нижев шестом разделе.
В заключение настоящего подраздела приведем некоторые ти-
пичные (то есть, наиболее часто встречающиеся в диссертацион-
ных исследованиях по педагогике, анализ которых приведен ниже
в четвертом разделе) характеристики: уровень (степень) знаний,
усвоения, обучаемости, компетентности, подготовки, адаптируе-
мости, отношения, сформированности, удовлетворенности, про-
фессионализма, самостоятельности, становления, развития и т.д.;
качество обучения; эффективность деятельности (учебной, препо-
давательской, воспитательной, управленческой).
Данные характеристики в диссертационных исследованиях в
большинстве случаев измерялись в порядковой шкале (чаще всего,
в двух-, трех- или пятибалльной), реже в шкале отношений (ко-
личество учащихся, успешно выполнивших задание или набрав-
ших тот или иной балл; объем усвоенного материала; время, затра-
чиваемое на изучение установленного объема учебного материала
и т.д.).
3.4. АГРЕГИРОВАННЫЕ ОЦЕНКИ
Как правило, в любом педагогическом эксперименте имеется
значительное число (десятки, сотни, а иногда и тысячи) участников
учеников, учителей, образовательных учреждений и т.д. В ре-
зультате измерения показателей этих участников получается набор
их индивидуальных оценок. Понятно, что сравнивать между собой
и анализировать одновременно все индивидуальные оценки невоз-
можно, да и нецелесообразно, так как всегда существует их раз-
брос, обусловленный неконтролируемым различием участников
эксперимента (каждый человек неповторим).
Поэтому для того, чтобы, во-первых, получить обозримое чис-
ло характеристик и, во-вторых, для того, чтобы сгладить индиви-
дуальные колебания, используют так называемые агрегированные
22
(коллективные, групповые, производные) оценки. Например, если
имелись индивидуальные оценки успеваемости учеников, то агре-
гированной оценкой будет успеваемость группы.
Получение агрегированных оценок на основании индивиду-
альных является их преобразованием, и преобразование это следу-
ет выполнять корректно (см. обсуждение проблемы адекватности
выше). Приведем некоторые корректные процедуры агрегирования
для наиболее распространенных в педагогических исследованиях
показателей (см. также раздел 6.1 "Описательная статистика").
Для абсолютных величин, измеренных в шкале отношений
(см. их перечисление выше), наиболее типичным является вычис-
ление среднего арифметического по группе. Эта процедура вполне
корректна, и обычно ее реализация не вызывает затруднений.
Наибольшее число ошибок в педагогических исследованиях
возникает при агрегировании показателей, измеренных в порядко-
вых шкалах пресловутый "средний балл" неискореним! Еще раз
повторим не следует складывать, вычитать, умножать или
делить баллы друг на друга, да и на чтобы то ни было все это
абсолютно бессмысленные операции.
Если имеется набор индивидуальных баллов, то единственной
адекватной характеристикой группы будет число ее членов, полу-
чивших тот или иной балл1 (например, 20 человек получили балл
"4"). Аналогичным образом агрегируется и информация о выделе-
нии уровней если введены три уровня (например, уровни знаний:
низкий, средний и высокий) и имеется информация о распределе-
нии всех членов нескольких групп (контрольных или эксперимен-
тальных) по этим уровням, то агрегированной информацией об
объединенной группе будет число ее членов, обладающих тем или
иным уровнем знаний (вычисляемое как сумма по всем группам
числа их членов, обладающих данным уровнем знаний) соответ-
ствующие примеры приводятся ниже.
Если в настоящем разделе речь шла об агрегировании индиви-
дуальных оценок по группе с целью получения характеристик
группы в целом, то в следующем разделе рассматривается пробле-
1 Отметим, что такая агрегированная характеристика группы как число ее
членов (учащихся), получивших данный балл, является величиной, измеренной в
шкале отношений.
23
ма агрегирования показателей, характеризующих один и тот же
объект.
3.5. КОМПЛЕКСНЫЕ ОЦЕНКИ
Нередко встречаются случаи, когда какое-либо изучаемое яв-
ление, процесс характеризуется несколькими показателями
вектором показателей. При этом часто возникает вопрос о воз-
можности однозначной оценки этого явления, процесса или изу-
чаемых их свойств одной величиной комплексной оценкой. Так,
во многих спортивных состязаниях победитель выявляется по
сумме очков, баллов, набранных на отдельных этапах состязания
или в отдельных играх, в многоборье в отдельных видах спорта.
Или же другой пример из образовательной практики аккредита-
ция учебного заведения производится на основании оценки ре-
зультатов его деятельности по фиксированному и утвержденному
Министерством образования РФ набору показателей (квалифика-
ция преподавателей, обеспеченность учащихся методическими
материалами и т.д.).
На практике комплексные оценки встречаются довольно часто
и, очевидно, без них не обойтись, хотя способы их определения
нередко и вызывают множество недоуменных вопросов. Но в
любом случае такие комплексные оценки, применяемые в повсе-
дневной жизни, являются либо результатом определенных общест-
венных соглашений, которые признаются всеми участниками, либо
установлены каким-либо нормативным актом определенного
директивного органа министерства, ведомства и т.д. и в силу
этого также признаются всеми заинтересованными лицами.
Другое дело применение комплексных оценок в научном ис-
следовании. Здесь сразу на первое место встает вопрос о научной,
в том числе математической, строгости применяемой оценки. В
частности, не вызывает сомнений возможность использования
такой векторной оценки, как суммарные затраты времени на вы-
полнение учащимся отдельных заданий, или суммарное количест-
во ошибок, допущенных учащимся при выполнении отдельных
заданий. Здесь суммируются однородные величины, заданные
шкалами отношений.
24
Но, как только начинают суммироваться баллы, выставляемые
одному и тому же учащемуся за выполнение, допустим, разных
заданий исследование сразу выходит за рамки научной строго-
сти. Как уже говорилось, операция суммы для порядковой шкалы
не определена. Если 5 + 2 = 4 + 3, то "5" и "2" балла это не одно и
то же, что "4" и "3" балла!
Между тем суммирование баллов довольно часто встречается
в диссертациях по педагогике. Так, в одной работе диссертант для
оценки деятельности учителей использовал большое количество
показателей, оцениваемых по пятибалльной шкале [15]:
- структура знаний учителя (общенаучные, специальные);
- педагогические умения (проективные, конструктивные, ор-
ганизаторские, коммуникативные, гностические);
- нравственно-психологическая направленность педагога
(внимательность к людям, справедливость, гуманизм, увлечен-
ность делом, ответственность, самоорганизованность);
- общая одаренность (качества ума, качества речи, качества
воли, характера, эмоциональные и другие качества личности) и так
далее.
Общая же оценка учителю в этой работе давалась по сумме
набранных баллов. Но в данном случае диссертант должен был бы
задаться большой серией вопросов. Во-первых, любой учитель
личность, он осуществляет сложнейшую деятельность, и насколько
правомерно оценивать его однозначно каким-то числом баллов и
утверждать, что учитель Иванов, допустим, хуже учителя Петрова
на 11 баллов?! Во-вторых, насколько выделенные качества равно-
значны, что, к примеру, специальные знания "стоят" сколько же,
сколько гуманизм?! Кроме того, вычисление суммы подразумевает
взаимозаменяемость критериев1, то есть, снижение общей одарен-
ности на один балл может быть компенсировано таким же увели-
чением оценки педагогических умений?! И так далее, эту череду
недоуменных вопросов можно было бы продолжать долго. И если
бы диссертант над ними задумался, вряд ли бы он так легко вводил
подобные "оценки".
В педагогических диссертациях, к сожалению, встречаются и
другие, самые разнообразные неудачные попытки введения ком-
1 Данное замечание справедливо и для величин, измеряемых в шкалах отношений.
25
плексных оценок, вплоть до полных курьезов. Так, для оценки
эффективности деловой игры в одной из диссертационных работ
была использована следующая "формула": Р = 50 К (В 40),
где Р "комплексная" оценка в баллах, 50 максимально возмож-
ное количество баллов, К количество замечаний, сделанных
ведущим, В время в минутах. Как видим, здесь уж, что называет-
ся, "смешались в кучу кони, люди...". Под знак суммы (разности)
поставлены совершенно разнородные величины: баллы, количест-
во замечаний, время. Кроме того, в некоторых работах предметом
"исследования" является построение подобных комплексных оце-
нок, и на полном серьезе приводятся "обоснования", чем предла-
гаемая автором оценка лучше других ей подобных.
В некоторое оправдание подобным неверным построениям
комплексных оценок следует отметить, что проблема агрегирова-
ния векторных оценок на сегодняшний день исследована не полно-
стью, а существующие результаты, даже для их применения на
практике, зачастую требуют хорошего знания высшей математики.
Достаточно простым и интуитивно понятным (но, в то же время,
корректным) методом агрегирования балльных оценок является
использование так называемых матриц свертки [7, 19], элементы
которых содержат значения агрегированного показателя, а агреги-
руемые баллы задают номер строки и столбца. Например, если с
целью получения оценки знаний по естественнонаучным предме-
там агрегируются баллы, полученные по физике и по химии, то
матрица свертки будет содержать баллы1, соответствующие всем
возможным комбинациям исходных оценок можно условно
считать, что, если по физике набраны 4 балла, а по химии 3, то
агрегированная оценка равна, допустим, трем баллам, если по
физике набраны 3 балла, а по химии 4, то агрегированная оценка
равна четырем баллам (при этом приоритет явно отдается химии) и
т.д.
Для тех, кто глубже заинтересуется проблемой комплексных
оценок и принятия решений при многих критериях, можно реко-
1 Как отмечалось выше, общим свойством порядковых шкал является то, что
сравниваемые результаты их преобразований должны быть измеримы в исход-
ной шкале например, если используется пятибалльная шкала (1, 2, 3, 4 и 5), то
результат агрегирования набора измерений может принимать только одно из
этих пяти значений.
26
мендовать ознакомиться с соответствующими публикациями [20,
24, 31]. Но в любом случае при построении комплексных оценок
нужно быть предельно внимательным и осторожным. Кстати,
нередко можно обойтись и без них. Если получены количествен-
ные результаты по отдельным показателям, то можно ограничиться
их качественной интерпретацией, не "загоняя под общий знамена-
тель", проанализировать и сравнить исследуемые объекты отдель-
но по каждому из показателей. И пусть по каким-то показателям
результаты экспериментальных групп будут лучше контрольных, а
по каким-то хуже от этого исследование только обогатится,
станет достовернее [15].
4. АНАЛИЗ ИСПОЛЬЗОВАНИЯ СТАТИСТИЧЕСКИХ
МЕТОДОВ В ДИССЕРТАЦИОННЫХ ИССЛЕДОВАНИЯХ
ПО ПЕДАГОГИКЕ
Для анализа применяемых в педагогических исследованиях
статистических методов были использованы 118 успешно защи-
щенных в различных диссертационных советах и утвержденных
ВАК кандидатских и докторских диссертаций.
Корректность применения статистических методов. К со-
жалению, в 65 диссертациях (55% от общего числа!) нет никаких
упоминаний об измерении и обработке экспериментальных данных
(за редким исключением описания констатирующих эксперимен-
тов), поэтому анализировать их мы не будем.
В 16 из 53 оставшихся (53 = 11865) диссертационных работ1
отсутствует сравнение начальных состояний контрольной и экспе-
риментальной групп (при этом в 12 из упомянутых 16 работ кон-
трольные группы отсутствовали вообще, то есть рассматривалась
только динамика состояния "экспериментальной" группы см.
второй раздел выше).
1 Эти 53 работы распределились по специальностям следующим образом:
13.00.01 – "Общая педагогика, история педагогики и образования" 29 диссерта-
ций, 13.00.08 "Теория и методика профессионального образования" 17 дис-
сертаций, 13.00.02 "Теория и методика обучения и воспитания" 7 диссерта-
ций.
27
Если продолжить последовательно вычленять группу диссер-
тационных исследований, в которых корректно использовались
статистические методы, то получится следующая картина (см.
также рисунок 3).
Еще в 7 из 37 оставшихся (37 = 5316) использовался "сред-
ний балл" (см. выше).
В 14 из 30 оставшихся (30 = 377) работах упоминались ме-
тоды, используемые при обработке данных (надо признать, что в
большинстве (39 = 53 – 14) работ о методах нет ни слова, а, если и
есть, то стандартные ни о чем не говорящие выражения, например:
"выявлены статистические значимые различия исследуемых пара-
метров в пользу экспериментальных групп"). И, в большинстве
случаев, упоминались они "зря", так как в 8 работах (из 14!) ис-
пользовались неадекватные методы.
Остаются 22 работы (22 = 308). Мы не задавались целью
самостоятельного определения уровня значимости (он упоминает-
ся только в 5 работах) всех полученных результатов, но сам по
себе тот факт, что в такой считающейся экспериментальной науке,
как педагогика, из 118 диссертаций лишь в 22, то есть менее чем в
каждой пятой, применялись адекватные статистические методы
(при этом мы не утверждаем, что они применялись правильно и
сделанные выводы были ими, действительно, обоснованы), более
чем огорчителен.
отсутствует
сравнение с
контрольной
группой
13,6%
применяется
адекватный
метод
18,6%
применяется
неадекватный
метод
12,7%
эксперимен-
тальные
данные либо
отсутствуют,
либо не
обрабатыва-
ются
55,1%
Рис. 3. Корректность и адекватность применения статистиче-
ских методов в диссертационных исследованиях по педагогике
28
Типовые задачи (случаи). Помимо неутешительных выводов
(см. рисунок 3), анализ диссертационных работ по педагогике
позволил выделить типовые задачи анализа данных.
1. Описание данных. В части работ, не использующих стати-
стические методы в смысле структуры педагогического экспери-
мента, описанной выше во втором разделе, в иллюстративных
целях применялись лишь некоторые производные показатели
среднее, медиана и т.д. Краткое рассмотрение описательной ста-
тистики, то есть описание результатов эксперимента с помощью
различных агрегированных показателей и графиков, приведено в
разделе 6.1 ниже.
2. Величины, измеренные в шкале отношений. В данном клас-
се задач результатом "измерений" являлись значения физических
величинвремя, затрачиваемое на выполнение упражнения; объем
материала, усваиваемый в единицу времени; число и процент
правильно выполненных заданий. Такие ситуации встречались в 5
диссертационных работах, что составляет около 10% от общего
числа (53) работ, использующих статистические методы. Описание
соответствующих статистических методов и примеры приведены
ниже в разделе 6.3.
3. Величины, измеренные в порядковой шкале. В данном клас-
се задач результатом "измерений" являлись значения таких вели-
чин, как успеваемость, удовлетворенность, заинтересованность,
качество и т.д. Измерялись они в баллах, уровнях1, рейтингах,
вербальных шкалах и других порядковых величинах (см. выше).
Такие ситуации встречались в 43 диссертационных работах,
что составляет более 80% от общего числа (53) работ, использую-
щих статистические методы (см. рисунок 4).
Описание соответствующих статистических методов и приме-
ры приведены ниже в разделе 6.4.
1 Простейший случай два уровня (справились с заданием, не справились)
дихотомическая шкала.
29
"Сложные"
данные
9%
Измерения
в порядко-
вой шкале
82%
Измерения
в шкале
отношений
9%
Рис. 4. Статистические методы в педагогических исследованиях
4. Задачи, требующие использования "продвинутых" стати-
стических методов. К задачам данного класса (обработки "слож-
ных" данных) можно отнести:
- задачи обработки результатов опросов с закрытыми вопро-
сами, в которых респонденты могли отмечать одновременно два
или более ответа на один и тот же вопрос (одна диссертационная
работа) например: "Какие факторы влияют на эффективность
обучения: содержание, методы, средства, подготовленность уча-
щихся?";
- задачи анализа ранжировок, в которых исходными данными
являются упорядочения объектов (две диссертационные работы)
например, упорядочение факторов, определяющих эффективность
обучения, в порядке убывания их важности (с точки зрения участ-
ников проведенного опроса);
- задачи, требующие использования факторного и регрессион-
ного анализа (две диссертационные работы).
Так как данный класс задач (5 диссертационных работ) со-
ставляет менее 10% (5/53) от объема нашей выборки, то описывать
соответствующие методы мы не будем, отослав заинтересованного
читателя к многочисленным публикациям по теории и практике
применения статистических методов в различных областях [1-5, 8-
13, 21-23, 26-28, 30-33].
30
Динамика и многокритериальность. Отдельно следует от-
метить, что данные, отражающие:
- динамику учебно-воспитательного процесса (динамика учи-
тывается последовательностью измерений1), встречались в 10
случаях из 53 (19 %);
- многокритериальность (каждый объект оценивается одно-
временно по нескольким критериям см. раздел "Комплексные
оценки" выше), встречались в 23 случаях из 53 (43 %);
- и динамику, и многокритериальность, встречались в 6 случа-
ях из 53 (11 %)
Следовательно, помимо попарных однократных сравнений
экспериментальной и контрольной группы по одному из критери-
ев, возникают задачи их сравнения в динамике, а также по сово-
купности критериев. Обсуждение методов решения этого класса
задач содержится в следующем (пятом) разделе.
Завершив анализ использования статистических методов в
диссертационных исследованиях по педагогике, и выделив типо-
вые задачи, перейдем к формализации последних.
5. ТИПОВЫЕ ЗАДАЧИ АНАЛИЗА ДАННЫХ В
ПЕДАГОГИЧЕСКИХ ИССЛЕДОВАНИЯХ
Предположим, что имеется экспериментальная группа, со-
стоящая из N человек, и контрольная группа, состоящая из M
человек (где N и M целые положительные числа, например,
N = 25, M = 30). Допустим, что в результате измерения одного и
того же показателя с помощью одной и той же процедуры измере-
ний были получены следующие данные:
x = (x1, x2, …, xN) – выборка2 для экспериментальной группы
и
y = (y1, y2, …, yM) – выборка для контрольной группы,
1 Под "динамическими" данными подразумеваются данные, содержащие более
двух измерений состояний экспериментальной и контрольной группы (см. рисунок
1), то есть, помимо начального и конечного моментов времени, рассматривались
и промежуточные.
2 Выборка совокупность значений одного и того же признака у наблюдаемых
объектов. В рассматриваемом примере выборка представляет собой набор
чисел, соответствующих количеству решенных учащимися задач.
31
где xi элемент выборки значение исследуемого показателя
(признака1) у i-го члена экспериментальной группы, i = 1, 2, , N,
а yj значение исследуемого показателя у j-го члена контрольной
группы, j = 1, 2, …, M. Число элементов выборки называется ее
объемом например, объем выборки x равен N, а объем выборки y
равен M.
В зависимости от того, в какой шкале шкале отношений или
порядковой шкале производились измерения, получаем следую-
щие два случая.
Шкала отношений. Если измерения производились в шкале
отношений (время, число и т.д.), то {xi} и {yj} положительные, в
том числе натуральные, числа, для которых имеют смысл все
арифметические операции.
Рассмотрим пример2. Пусть имеется экспериментальная груп-
па, состоящая из 25 человек (N = 25), и контрольная группа, со-
стоящая из 30 человек (M = 30), и измерение заключается в опре-
делении уровня знаний путем проведения теста, включающего 20
задач. Примем, что характеристикой учащегося (признаком) явля-
ется число правильно решенных им задач. Результаты измерений
уровня знаний в контрольной и экспериментальной группах до и
после эксперимента приведены в таблице 2, строки которой соот-
ветствуют членам групп (отдельным учащимся). Например, пер-
вый учащийся контрольной группы до начала эксперимента пра-
вильно решил 15 задач, а третий участник экспериментальной
группы после окончания эксперимента правильно решил 12 задач,
и т.д.
1 Признак свойство (характеристика) наблюдаемого объекта. В рассматри-
ваемом примере признаком являются решенные задачи.
2 Данный пример рассматривается на протяжении всего настоящего и после-
дующего разделов. Все таблицы, диаграммы и графики экспортированы из
компьютерной программы Microsoft Excel для Windows.
32
Таблица 2
Результаты измерений уровня знаний в контрольной
и экспериментальной группах до и после эксперимента
Контрольная
группа (число
правильно
решенных задач
до начала экспе-
римента)
Эксперимен-
тальная группа
(число правиль-
но решенных
задач до начала
эксперимента)
Контрольная
группа (число
правильно
решенных задач
после окончания
эксперимента)
Эксперимен-
тальная группа
(число правиль-
но решенных
задач после
окончания
эксперимента)
15121615
13111218
11151412
18171720
10181116
86911
2081513
71087
816614
12121317
15151719
16141916
13191512
14131115
1419919
19121918
711814
816613
1112918
1281213
15131113
1671715
13151018
5889
119814
19 20
18 19
96
614
15 10
33
Результаты эксперимента могут быть получены и в порядко-
вой шкале (или переведены из шкалы отношений в порядковую),
поэтому рассмотрим представление данных в порядковой шкале.
Порядковая шкала. Если использовалась порядковая шкала
(шкала рангов) с L градациям (например, в пятибалльной школь-
ной шкале L = 5), то будем считать, что {xi} и {yj} натуральные
числа, принимающие одно из L значений. Для простоты можно
считать, что множество значений (баллов) есть множество чисел от
единицы до L. Тогда характеристикой группы будет число ее
членов, набравших заданный балл (см. раздел "Агрегированные
оценки" выше). То есть, для экспериментальной группы вектор
баллов есть
n = (n1, n2, …, nL),
где nk число членов экспериментальной группы, получивших k-
ый балл, k = 1, 2, …, L. Для контрольной группы вектор баллов
есть
m = (m1, m2, …, mL),
где mkчисло членов контрольной группы, получивших k-ый балл,
k = 1, 2, …, L. Очевидно, что
n1 + n2 + … + nL = N, m1 + m2 + + mL = M.
Пусть в рассматриваемом примере (в котором (N = 25, M = 30)
выделены три уровня знаний (L = 3): низкий (число решенных
задач меньше либо равно 10), средний (число решенных задач
строго больше 10, но меньше либо равно 15) и высокий (число
решенных задач строго больше 15). Сформируем в компьютерной
программе Microsoft Excel для Windows таблицу 3, в которой
указаны верхние границы диапазонов.
Таблица 3
Переход от шкалы отношений к порядковой шкале
Уровень знаний
Максимальное
число правильно
решенных задач
Низкий 10
Средний 15
Высокий 20
34
Поставим в соответствие уровням знаний (низкому, среднему
и высокому) баллы 1, 2 и 3 (эта операция является корректной
для порядковой шкалы см. раздел "Допустимые преобразования"
выше). Вычислим на основании данных таблицы 2, например,
сначала для контрольной группы до начала эксперимента число ее
членов, получивших балл, принадлежащий тому или иному диапа-
зону: m1 = 9 (то есть, 9 членов контрольной группы до начала
эксперимента продемонстрировали низкий уровень знаний),
m2 = 14, m3 = 7. Результаты1 занесем в таблицу 4.
Таблица 4
Уровни знаний членов контрольной группы до эксперимента
Уровень знаний Частота
(число человек)
Низкий (1 балл) 9
Средний (2 балла) 14
Высокий (3 балла) 7
Для каждого из столбцов таблицы 2 по аналогии с таблицей 4
определяем распределение членов экспериментальной и контроль-
ной групп по уровням знаний и получаем таблицу 5.
Таблица 5
Результаты измерений уровня знаний в контрольной
и экспериментальной группах до и после эксперимента
Уровень
знаний
Контроль-
ная группа
до начала
экспери-
мента
(чел.)
Экспери-
ментальная
группа до
начала
экспери-
мента (чел.)
Контрольная
группа после
окончания
эксперимента
(чел.)
Эксперимен-
тальная
группа после
окончания
эксперимен-
та (чел.)
Низкий 97122
Средний 14121013
Высокий 76810
1 В компьютерной программе Microsoft Excel для Windows таблица 4 получается
из таблиц 2 и 3 применением инструмента анализа данных "Гистограмма"
(Меню/Сервис/Анализ данных/Гистограмма).
35
Таблица 5 построена по таблице 2 введением диапазонов зна-
чений числа правильно решенных задач, попадание в которые
считалось соответствующим уровням знаний. Отметим, что при
подобном переходе от шкалы отношений к порядковой шкале
часть информации теряется в рассматриваемом примере одному
и тому же уровню знаний соответствуют несколько различных
чисел правильно решенных задач. Следовательно, труднее стано-
вится устанавливать совпадения и различия характеристик иссле-
дуемых объектов. Поэтому, рекомендуется использовать всю
имеющуюся информацию, то есть, если при измерениях использо-
валась шкала отношений, то и обрабатывать данные следует в этой
шкале.
Однако, во многих случаях на практике измерения производят
в порядковой шкале (например, оценивают знания в баллах), и
результаты эксперимента сразу имеют вид таблицы типа таблицы
5. Поэтому для задач анализа результатов измерений, произведен-
ных в шкале отношений, будем считать, что данные эксперимента
имеют вид таблицы 2, а для задач анализа результатов измерений,
произведенных в шкале порядка, будем считать, что данные экспе-
римента имеют вид таблицы 5.
Типовые задачи анализа данных. Завершив описание ис-
пользуемых в качестве примера исходных данных, отметим, что с
точки зрения их анализа можно выделить три типа задач:
- описание данных (компактное и информативное отражение
результатов измерений характеристик исследуемых объектов);
- установление совпадения характеристик двух групп (напри-
мер, экспериментальной и контрольной см. сравнение I на рисун-
ке 1));
- установление различия характеристик двух групп (например,
экспериментальной и контрольнойсм., сравнение II на рисунке 1,
или экспериментальной группы в различные моменты времени
см., сравнение III на рисунке 1 и т.д.).
Два типа шкал (отношений и порядка) и три перечисленные
типа задач анализа данных позволяют выделить шесть базовых
(типовых) задач, приведенных в таблице 6 и условно обозначенных
"задача 1.1" "задача 2.3". Например, задача 1.1 заключается в
описании данных, измеренных в шкале отношений и т.д.
36
Таблица 6
Типовые задачи анализа данных
1. Шкала
отношений
2. Шкала
порядка
1. Описание данных Задача 1.1 Задача 2.1
2. Установление совпадения
характеристик двух групп Задача 1.2 Задача 2.2
3. Установление различия
двух групп Задача 1.3 Задача 2.3
Введенная классификация типовых задач анализа данных в
педагогических исследованиях определяет структуру дальнейшего
изложения:
- описание данных заключается в создании описательной
статистики, которая рассмотрена далее для обоих типов шкал
(задачи 1.1 и 2.1) в разделе 6.1;
- задачи установления совпадений и/или различий характери-
стик двух групп для данных, измеренных в шкале отношений
(задачи 1.2 и 1.3), рассматриваются в разделе 6.3;
- задачи установления совпадений и/или различий характери-
стик двух групп для данных, измеренных в шкале порядка1 (задачи
2.2 и 2.3), рассматриваются в разделе 6.4.
Перечисленные шесть задач являются базовыми по следую-
щим причинам. Во-первых, они включают большинство (90 %
см. четвертый раздел) задач анализа данных, встречающихся в
экспериментальных исследованиях по педагогическим наукам. Во-
вторых, они сформулированы для простейшей схемы организации
педагогического эксперимента (см. второй раздел) когда состоя-
ние исследуемых объектов описывается одним показателем и
измеряется два раза до начала и после завершения воздействия.
Сделаем пояснение для других случаев.
Если возникает многокритериальность (объекты описываются
одновременно по нескольким критериям см. раздел "Комплекс-
ные оценки" выше), то описание и сравнение экспериментальной и
1 Отдельно рассматриваются методы обработки измерений, произведенных в
дихотомической шкалесм. раздел 6.5.
37
контрольной групп1 по каждому из критериев может производить-
ся независимо в рамках одной из базовых задач.
Аналогично, если возникает динамика (то есть, состояния
объектов измеряются более, чем два раза), то описание и сравнение
групп может производиться несколько раз независимо (в каждый
момент времени) в рамках одной из базовых задач 1.1-2.3 (см.
таблицу 6).
Если же у исследователя имеется желание сразу анализиро-
вать одновременно несколько групп (в динамике) и/или несколько
показателей, то необходимо применение статистических методов
многомерного анализа. Их описание выходит за рамки настоящей
работы, ознакомится с ними можно в публикациях [2, 22, 28, 32].
Рассмотрим методы решения типовых для педагогических ис-
следований задач анализа данных.
6. МЕТОДЫ ОБРАБОТКИ ДАННЫХ И ПРИМЕРЫ
Настоящий раздел содержит методики анализа данных для
выделенных выше шести типовых задач (см. таблицу 6): описа-
тельная статистика, анализ совпадений и различий характеристик
экспериментальной и контрольной групп на основании измерений,
проведенных в порядковой шкале или шкале отношений. В качест-
ве иллюстрации рассматривается реализация этих методик для
числового примера (см. таблицы 2 и 5).
6.1. ОПИСАТЕЛЬНАЯ СТАТИСТИКА
В практических задачах обычно имеется совокупность наблю-
дений (десятки, сотни, а иногда тысячи результатов измерений
индивидуальных характеристик), поэтому возникает задача ком-
пактного описания имеющихся данных. Для этого используют
методы описательной статистики описания результатов с
помощью различных агрегированных показателей и графиков.
1 Встречаются случаи, когда имеется несколько экспериментальных или несколь-
ко контрольных групп. При этом попарное их сравнение все равно является одной
из базовых задач.
38
Кроме того, некоторые показатели описательной статистики ис-
пользуются в статистических критериях (см. разделы 6.3 и 6.4) при
определении достоверности совпадений и/или различий характе-
ристик экспериментальной и контрольной группы.
Для результатов измерений в шкале отношений (задача 1.1
см. таблицу 6) показатели описательной статистики можно разбить
на несколько групп [32]:
- показатели положения описывают положение эксперимен-
тальных данных на числовой оси. Примеры таких данных макси-
мальный и минимальный элементы выборки, среднее значение1,
медиана2, мода3 и др.;
- показатели разброса описывают степень разброса данных
относительно своего центра (среднего значения). К ним относятся:
выборочная дисперсия4, разность между минимальным и макси-
мальным элементами (размах, интервал выборки) и др.
- показатели асимметрии: положение медианы относительно
среднего и др.
- гистограмма5 и др.
Данные показатели используются для наглядного представле-
ния и первичного ("визуального") анализа результатов измерений
характеристик экспериментальной и контрольной группы.
1 Имеется в виду среднее арифметическое значение.
2 Медианой называется значение исследуемого признака, справа и слева от
которого находится одинаковое число элементов выборки.
3 Модой называется такое значение измеренного признака, которым обладает
максимальное число элементов выборки, то есть значение, которое встречается
в выборке наиболее часто. Например, если исследовалось число правильно решен-
ных учащимися задач, то модой будет такое число задач, для которого число
учащихся, правильно решивших именно это число задач, максимально.
4 Выборочная дисперсия рассчитывается как средняя сумма квадратов разно-
стей между элементами выборки и средним значением. Дисперсия характеризу-
ет разброс элементов выборки вокруг среднего значения.
5 Гистограммой называется графическое изображение зависимости частоты
попадания элементов выборки от соответствующего интервала группировки
(диапазона значений показателя).
39
Приведем формулы расчета основных показателей. Среднее
арифметическое
x
выборки {xi}i = 1…N (выборочное среднее) рас-
считывается следующим образом1:
(1)
x
=
N
1 (x1 + x2 + x3 + … + xn-1 + xn) = å
=
N
i
i
x
N1
1,
а выборочная дисперсия Dx:
(2) Dx = å
=
-
-
N
i
ixx
N1
2
)(
1
1.
В компьютерной программе Microsoft Excel для Windows опи-
сательная статистика получается применением инструмента анали-
за данных "Описательная статистика" (Сервис/Анализ дан-
ных/Описательная статистика). Описательная статистика для
первого столбца таблицы 2 (числа правильно решенных задач в
контрольной группе до начала эксперимента) приведена в таблице
7.
Таблица 7
Описательная статистика числа правильно решенных задач
в контрольной группе до начала эксперимента
(см. первый столбец таблицы 2)
Среднее 12,6
Стандартная ошибка 0,76
Медиана 13
Мода 15
Стандартное отклонение 4,16
Дисперсия выборки 17,28
Эксцесс -0,89
Асимметричность -0,03
Интервал (размах) 15
Минимум 5
Максимум 20
Сумма 378
Счет (объем выборки) 30
1 Символ å
=
n
i
i
x
1
здесь и далее обозначает сумму элементов {xi} по индексу i,
пробегающему последовательно все значения от единицы до n: x1 + x2 + + xn.
40
Целый ряд приведенных в таблице 7 показателей описатель-
ной статистики педагогу-исследователю не понадобятся (далее
используются только среднее (формула (1), первая строка таблицы
7), дисперсия (формула (2), шестая строка таблицы 7) и "счет"
последняя строка таблицы 7). Тем не менее, мы приводим все
показатели, которые автоматически выводит "Описательная стати-
стика" в компьютерной программе Microsoft Excel для Windows
(таблица 7 экспортирована из Excel), чтобы уважаемый читатель не
терялся перед экраном компьютера.
Гистограмма в Excel получается применением инструмента
анализа данных "Гистограмма" (Сервис/Анализ дан-
ных/Гистограмма). Гистограмма числа правильно решенных задач
в контрольной группе до начала эксперимента (первый столбец
таблицы 2) представлена на рисунке 5.
Гистограмма
0
2
4
6
8
5
8
11
14
17
20
Карман
Частота
Рис. 5. Гистограмма числа правильно решенных задач в контроль-
ной группе до начала эксперимента ("частота" – число элементов
выборки, попавших в заданный диапазон, называемый в Excel
"карманом")
Рассмотрим теперь показатели описательной статистики для
данных, измеренных в порядковой шкале.
Для результатов измерений в порядковой шкале (задача 2.1
см. таблицу 6) при небольшом числе градаций единственным
информативным показателем описательной статистики является
гистограмма1.
1 Если число градаций (различных значений) велико, то информативными также
являются мода и медиана.
41
Для визуального (качественного) сравнения эксперименталь-
ной и контрольной групп удобно строить для них совместные
гистограммы. Например, по результатам таблицы 5 (см. выше)
можно построить несколько парных гистограмм, на которых отло-
жены одновременно частоты для двух групп (например, контроль-
ной и экспериментальной). На рисунках 7 и 8 приведены две из
них позволяющие сравнивать контрольную и эксперименталь-
ную группу до начала и после окончания эксперимента (на самом
деле визуальный анализ не дает возможности сказать, значимо ли
различаются данные выборки для этого необходимо использо-
вать статистические методы см. ниже раздел 6). Для их построе-
ния сначала перейдем от таблицы 5 к таблице 8, отличающейся от
первой тем, что в ее ячейках стоят не абсолютное число членов той
или иной группы, набравших соответствующий балл, а доля1 (в
процентах) членов группы, получивших данный балл, так как
подобное преобразование (деление на одно и то же число коли-
чество членов в данной группе) позволяет качественно сравнивать
группы разных размеров (например, разного количества учащих-
ся). Затем строим гистограммы в компьютерной программе Micro-
soft Excel для Windows (Меню/Вставка/Диаграмма) см. рисунки 6
и 7, на которых по вертикали отложен процент членов той или
иной группы, набравших соответствующий балл.
Таблица 8
Результаты измерений уровня знаний в контрольной
и экспериментальной группах до и после эксперимента
Уровень
знаний
Контроль-
ная группа
до начала
экспери-
мента (%)
Экспери-
ментальная
группа до
начала
экспери-
мента (%)
Контрольная
группа после
окончания
эксперимента
(%)
Эксперимен-
тальная
группа после
окончания
эксперимен-
та (%)
Низкий 30,0028,0040,008,00
Средний 46,6748,0033,3352,00
Высокий 23,3324,0026,6740,00
1 Доля принимает значения от нуля до единицы. Для перехода к процентам
следует долю умножить на 100%.
42
0,00
10,00
20,00
30,00
40,00
50,00
60,00
Низкий
Контрольная группа до начала эксперимента (%)
Экспериментальная группа до начала эксперимента (%)
Средний Высокий
Рис. 6. Гистограммы контрольной и экспериментальной групп
до начала эксперимента
0,00
10,00
20,00
30,00
40,00
50,00
60,00
Контрольная группа после окончания эксперимента (%)
Экспериментальная группа после окончания эксперимента (%)
Высокий
СреднийНизкий
Рис. 7. Гистограммы контрольной и экспериментальной групп
после окончания эксперимента
43
Таким образом, описательная статистика, во-первых, позволя-
ет представить результаты педагогического эксперимента в ком-
пактном и информативном виде, что дает возможность проводить
качественный анализ исследуемых объектов1. Во-вторых, ряд
показателей описательной статистики используется в количествен-
ном анализе (при применении статистических критериев см.
разделы 6.3 и 6.4).
Завершив рассмотрение показателей описательной статистики,
перейдем к общей методике определения степени достоверности
совпадений и различий (следующий раздел), а затем опишем ее
применение сначала для данных, измеренных в шкале отношений
(раздел 6.3), а затемдля данных, измеренных в порядковой шкале
(раздел 6.4).
6.2. ОБЩИЕ ПОДХОДЫ К ОПРЕДЕЛЕНИЮ
ДОСТОВЕРНОСТИ СОВПАДЕНИЙ И РАЗЛИЧИЙ
В настоящем разделе рассмотрены общие подходы к опреде-
лению достоверности совпадений и различий характеристик ис-
следуемых объектов. Правило принятия решений относительно
того, какой конкретный статистический критерий (метод обработ-
ки экспериментальных данных) следует использовать в том или
ином случае, описано ниже в разделе 6.5 "Алгоритм выбора стати-
стического критерия".
Как отмечалось выше, типовой задачей анализа данных в пе-
дагогических исследованиях является установление совпадений
или различий характеристик экспериментальной и контрольной
группы. Для этого формулируются статистические гипотезы:
- гипотеза об отсутствии различий (так называемая нулевая ги-
потеза);
- гипотеза о значимости различий (так называемая альтерна-
тивная гипотеза).
Для принятия решений о том, какую из гипотез (нулевую или
альтернативную) следует принять, используют решающие правила
1 Показатели описательной статистики (объем выборки, среднее, гистограммы
и т.д.) обычно приводятся в тексте диссертационных работ и авторефератов
по педагогике.
44
статистические критерии1. То есть, на основании информации
о результатах наблюдений (характеристиках членов эксперимен-
тальной и контрольной группы) вычисляется число, называемое
эмпирическим значением критерия. Это число сравнивается с
известным (например, заданным таблично) эталонным числом,
называемым критическим значением критерия.
Критические значения приводятся, как правило, для несколь-
ких уровней значимости. Уровнем значимости называется вероят-
ность ошибки, заключающейся в отклонении (не принятии) нуле-
вой гипотезы, то есть вероятность того, что различия сочтены
существенными, а они на самом деле случайны. Обычно исполь-
зуют уровни значимости (обозначаемые
a
), равные 0,05, 0,01 и
0,001. В педагогических исследованиях обычно ограничиваются
значением 0,05, то есть, грубо говоря, допускается не более чем 5%
возможность ошибки.
Если полученное исследователем эмпирическое значение кри-
терия оказывается меньше или равно критическому, то принимает-
ся нулевая гипотеза считается, что на заданном уровне значимо-
сти (то есть при том значении
a
, для которого рассчитано
критическое значение критерия) характеристики эксперименталь-
ной и контрольной групп совпадают. В противном случае, если
эмпирическое значение критерия оказывается строго больше кри-
тического, то нулевая гипотеза отвергается и принимается альтер-
нативная гипотеза характеристики экспериментальной и кон-
трольной группы считаются различными с достоверностью
различий 1 –
a
. Например, если
a
= 0,05 и принята альтернативная
гипотеза, то достоверность различий равна 0,95 или 95%.
Другими словами, чем меньше эмпирическое значение крите-
рия (чем левее оно находится от критического значения), тем
больше степень совпадения характеристик сравниваемых объек-
тов. И наоборот, чем больше эмпирическое значение критерия (чем
правее оно находится от критического значения), тем сильнее
различаются характеристики сравниваемых объектов.
1 Заметим, что в математической статистике исторически сложилось назы-
вать статистическими критериями не только решающие правила, но и методы
расчета определенного числа (используемого в решающих правилах), а также
само это число.
45
В дальнейшем мы ограничимся уровнем значимости
a
= 0,05,
поэтому, если эмпирическое значение критерия оказывается
меньше или равно критическому, то можно сделать вывод, что
"характеристики экспериментальной и контрольной групп
совпадают с уровнем значимости 0,05". Если эмпирическое
значение критерия оказывается строго больше критического,
то можно сделать вывод, что "достоверность различий харак-
теристик экспериментальной и контрольной групп равна
95%".
Опишем методики расчета эмпирических значений критериев
для двух типовых задач анализа данных сравнения выборок,
содержащих данные, измеренные в шкале отношений (раздел 6.3)
и порядковой шкале (раздел 6.4).
6.3. МЕТОДИКА ОПРЕДЕЛЕНИЯ ДОСТОВЕРНОСТИ
СОВПАДЕНИЙ И РАЗЛИЧИЙ ДЛЯ
ЭКСПЕРИМЕНТАЛЬНЫХ ДАННЫХ, ИЗМЕРЕННЫХ В
ШКАЛЕ ОТНОШЕНИЙ
Рассмотрим случай (см. описание исходных данных выше в
пятом разделе), когда для измерений используется шкала отноше-
ний. Предположим, что имеется экспериментальная группа, со-
стоящая из N человек, и контрольная группа, состоящая из M
человек. Допустим, что в результате измерения одного и того же
показателя с помощью одной и той же процедуры измерений были
получены следующие данные: x = (x1, x2, …, xN) выборка для
экспериментальной группы и y = (y1, y2, , yM) выборка для
контрольной группы, где xi элемент выборки значение иссле-
дуемого показателя у i-го члена экспериментальной группы,
i = 1, 2, …, N, а yj значение исследуемого показателя у j-го члена
контрольной группы, j = 1, 2, …, M. Так как измерения производи-
лись в шкале отношений, то {xi} и {yj} положительные, в том
числе, возможно целые, числа, для которых имеют смысл все
арифметические операции. В качестве примера будем рассматри-
вать результаты измерений уровня знаний в контрольной и экспе-
риментальной группах до и после эксперимента (см. таблицу 2)
количество правильно решенных задач.
46
Для данных, измеренных в шкале отношений, для проверки
гипотезы о совпадении характеристик двух групп целесообразно1
использование либо критерия2 Крамера-Уэлча [11, 22], либо кри-
терия Вилкоксона-Манна-Уитни [2, 22, 32]. Критерий Крамера-
Уэлча предназначен для проверки гипотезы о равенстве средних
(строго говоря математических ожиданий) двух выборок, крите-
рий Вилкоксона-Манна-Уитни3 является более "тонким" (но и
более трудоемким) он позволяет проверять гипотезу о том, что
две выборки "одинаковы" (в том числе, что совпадают их средние,
дисперсии и все другие показатели4).
Критерий Крамера-Уэлча. Эмпирическое значение данного
критерия рассчитывается на основании информации об объемах N
и М выборок x и y, выборочных средних
x
и
y
и выборочных
дисперсиях Dx и Dy сравниваемых выборок (эти значения могут
быть вычислены вручную по формулам (1)-(2) или с помощью
инструмента "Описательная статистика" в компьютерной про-
грамме Microsoft Excel для Windows см. раздел 6.1) по следую-
щей формуле:
(3) Tэмп =
yx DNDM
yxNM
×+×
-× || .
Алгоритм определения достоверности совпадений и различий
характеристик сравниваемых выборок для экспериментальных
данных, измеренных в шкале отношений, с помощью критерия
Крамера-Уэлча заключается в следующем:
1 Выбор критериев достаточно широк, в чем можно убедиться, ознакомившись с
приведенными в списке литературы публикациями. Однако, нашей целью являет-
ся описание статистических критериев, адекватных типовым для педагогиче-
ских исследований задачам анализа данных.
2 Критерий Крамера-Уэлча является более эффективным "заменителем" такого
известного в физике и технике критерия как t-критерий (критерий Стьюдента)
[22].
3 Критерий Вилкоксона-Манна-Уитни плохо применим в условиях, когда число
отличающихся друг от друга значений в выборках малосм. ниже раздел 6.5.
4 Две выборки могут иметь одинаковые средние (то есть, критерий Крамера-
Уэлча установит совпадение средних), но различаться, например, разбросом. Те
различия, которые не выявит критерий Крамера-Уэлча, могут быть выявлены
критерием Вилкоксона-Манна-Уитни.
47
1. Вычислить для сравниваемых выборок Tэмп эмпириче-
ское значение критерия Крамера-Уэлча по формуле (3).
2. Сравнить это значение с критическим значением
T0.05 = 1,96: если Tэмп
£
1,96, то сделать вывод: "характери-
стики сравниваемых выборок совпадают на уровне значи-
мости 0,05"; если Tэмп > 1,96, то сделать вывод "достовер-
ность различий характеристик сравниваемых выборок
составляет1 95%".
В качестве примера применим алгоритм для данных из табли-
цы 2.
Для этого сравним сначала числа правильно решенных задач в
контрольной и экспериментальной группе до начала эксперимента.
Вычисляем2 по формуле (3) значение Tэмп = 0,04 £ 1,96. Следова-
тельно гипотеза о совпадении характеристик контрольной и экспе-
риментальной групп до начала эксперимента принимается на
уровне значимости 0,05.
Теперь сравним характеристики контрольной и эксперимен-
тальной групп после окончания эксперимента. Вычисляем по
формуле (3) значение Tэмп = 2,42 > 1,96. Следовательно, достовер-
ность различий характеристик контрольной и экспериментальной
групп после окончания эксперимента составляет 95%.
Итак, начальные (до начала эксперимента) состояния экспе-
риментальной и контрольной групп совпадают, а конечные (после
окончания эксперимента) различаются. Следовательно, можно
сделать вывод, что эффект изменений обусловлен именно приме-
нением экспериментальной методики обучения.
Отметим, что мы не рассматриваем вопрос о том, "в какую
сторону" экспериментальная группа отличается от контроль-
ной, то есть, улучшились или ухудшились (с содержательной
точки зрения, не имеющей отношения к статистическим мето-
дам и являющейся прерогативой педагогики) исследуемые
характеристики.
1 Корректнее говорить, что достоверность различий составляет не менее 95%,
однако, так мы условились считать достаточной 95%-ую достоверность
различий, то будем говорить, что достоверность различий составляет 95%.
2 Для сокращения ручных расчетов средние и дисперсии могут быть вычислены в
рамках описательной статистики в компьютерной программе Microsoft Excel
для Windows – см. выше таблицу 7.
48
Критерий Вилкоксона-Манна-Уитни1. Данный критерий
оперирует не с абсолютными значениями элементов двух выборок,
а с результатами их парных сравнений. Например, существенно,
что учащийся Петров решил больше задач, чем учащийся Иванов,
а на сколько большене важно.
Возьмем две выборки2: {x
i
}
i = 1…N и {yj}j=1…M и для каждого
элемента первой3 выборки xi, i = 1…N, определим число ai элемен-
тов второй выборки, которые превосходят его по своему значению
(то есть число таких yj, что yj > xi). Сумма a1 + a2 + …+ aN = å
=
N
i
i
a
1
этих чисел по всем N членам первой выборки называется эмпири-
ческим значением критерия Манна-Уитни и обозначается U= å
=
N
i
i
a
1
.
Определим эмпирическое значение критерия Вилкоксона:
(4) Wэмп =
12
)1(
|
2
|
++××
-
×
MNMN
U
MN
.
Алгоритм определения достоверности совпадений и различий
для экспериментальных данных, измеренных в шкале отношений, с
помощью критерия Вилкоксона-Манна-Уитни заключается в сле-
дующем:
1. Вычислить для сравниваемых выборок Wэмп эмпириче-
ское значение критерия Вилкоксона по формуле (4).
2. Сравнить это значение с критическим значением
W0.05 = 1,96: если Wэмп
£
1,96, то сделать вывод: "характе-
ристики сравниваемых выборок совпадают с уровнем зна-
чимости 0,05"; если Wэмп > 1,96, то сделать вывод "досто-
верность различий характеристик сравниваемых выборок
составляет 95%".
1 Существуют два критерия Вилкоксона и Манна-Уитни, однако, так как они
однозначно связаны между собой, будем говорить об одном критерии Вилкоксо-
на-Манна-Уитни [22].
2 Ограничение на использование критерия Вилкоксона-Манна-Уитни следующее:
каждая выборка должна содержать не менее трех элементов, если же в одной
из выборок всего два элемента, то во второй их должно быть не менее пяти.
3 Какую выборку считать первой, а какую второй, не имеет значения, хотя при
вычислениях удобнее первой считать ту выборку, в которой меньше членов.
49
В качестве примера применим алгоритм для данных из табли-
цы 2.
Для этого сравним сначала числа правильно решенных задач в
контрольной и экспериментальной группе до начала эксперимента.
В таблице 9 приведены результаты экспериментальной группы
(второй столбец), и контрольной группы (пятый столбец), а также
для каждого члена экспериментальной группы подсчитано число
членов контрольной группы, решивших строго большее (чем он)
число задач (третий столбец). Например, в таблице 9 серым цветом
в пятом столбце помечены члены контрольной группы, правильно
решившие строго большее число задач, чем первый член (то есть
i = 1) экспериментальной группы, который правильно решил 12
задач. Значит x1 = 12 и число таких yj, что yj > x1 (то есть число
затененных ячеек) равно 16. Следовательно, a1 = 16. Аналогично
заполняются остальные строки третьего столбца.
Таблица 9
Пример вычисления эмпирического значения
критерия Манна-Уитни
Номер члена
эксперимен-
тальной
группы
i
Число задач,
правильно
решенных i-
ым членом
эксперимен-
тальной
группы до
начала экспе-
римента
xi
Число членов
контрольной
группы,
правильно
решивших
строго боль-
шее число
задач, чем i-
ый член
эксперимен-
тальной
группы
ai
Номер члена
контрольной
группы
j
Число задач,
правильно
решенных j-
ым членом
контрольной
группы до
начала экспе-
римента
yj
112 16 1 15
211 18 2 13
315 7311
417 54 18
518 3510
66
30 68
78
25 7 20
810 21 87
50
Номер члена
эксперимен-
тальной
группы
i
Число задач,
правильно
решенных i-
ым членом
эксперимен-
тальной
группы до
начала экспе-
римента
xi
Число членов
контрольной
группы,
правильно
решивших
строго боль-
шее число
задач, чем i-
ый член
эксперимен-
тальной
группы
ai
Номер члена
контрольной
группы
j
Число задач,
правильно
решенных j-
ым членом
контрольной
группы до
начала экспе-
римента
yj
916 598
1012 16 1012
1115 811 15
1214 11 12 16
1319 113 13
1413 13 14 14
1519 115 14
1612 16 16 19
1711 18 177
1816 5188
1912 16 1911
20825 2012
2113 13 21 15
22726 22 16
2315 723 13
24823 245
25922 2511
–– 26 19
–– 27 18
–– 289
–– 296
–– 30 15
Сумма всех 25 чисел в третьем столбце дает эмпирическое
значение критерия Манна-Уитни U = 351. Вычисляем по формуле
51
(4) значение Wэмп = 0,41 £ 1,96. Следовательно, гипотеза о том, что
сравниваемые выборки совпадают, принимается на уровне значи-
мости 0,05.
Теперь аналогичным образом (построив таблицу, аналогичную
таблице 9, и вычислив эмпирическое значение критерия Вилкоксо-
на) сравним числа правильно решенных задач в контрольной и
экспериментальной группе после окончания эксперимента. Эмпи-
рическое значение критерия Манна-Уитни в этом случае равно
223. Вычисляем по формуле (4) значение Wэмп = 2,57 > 1,96. Следо-
вательно, достоверность различий сравниваемых выборок состав-
ляет 95%.
Итак, начальные (до начала эксперимента) состояния экспе-
риментальной и контрольной групп совпадают, а конечные (после
окончания эксперимента) различаются. Следовательно, можно
сделать вывод, что эффект изменений обусловлен именно приме-
нением экспериментальной методики обучения.
6.4. МЕТОДИКА ОПРЕДЕЛЕНИЯ ДОСТОВЕРНОСТИ
СОВПАДЕНИЙ И РАЗЛИЧИЙ ДЛЯ
ЭКСПЕРИМЕНТАЛЬНЫХ ДАННЫХ, ИЗМЕРЕННЫХ В
ПОРЯДКОВОЙ ШКАЛЕ
Рассмотрим случай, когда используется порядковая шкала с L
различным баллами. Характеристикой группы будет число ее
членов, набравших тот или иной балл. Для экспериментальной
группы вектор баллов есть n = (n1, n2, , nL), где nk число членов
экспериментальной группы, получивших k-ый балл, k = 1, 2, , L.
Для контрольной группы вектор баллов есть m = (m1, m2, , mL),
где mkчисло членов контрольной группы, получивших k-ый балл,
k = 1, 2, …, L. Для рассматриваемого нами числового примера
(L = 3 "низкий", "средний" или "высокий" уровень знаний) дан-
ные приведены в таблице 5.
Для данных, измеренных в порядковой шкале (см., например,
таблицу 5), целесообразно использование критерия однородности
c2 ("хи" буква греческого алфавита, название критерия читается:
52
"хи-квадрат") [27], эмпирическое значение 2
эмп
c
которого вычис-
ляется по следующей формуле1 (пример расчета приведен ниже):
(5) 2
эмп
c
= N
×
M
×
å
=+
-
L
iii
ii
mn
M
m
N
n
1
2
)(
.
Критические значения 2
05.0
c
критерия c2 для уровня значимо-
сти 0,05 приведены в таблице 10 (статистические таблицы крити-
ческих значений статистических критериев для различных уровней
значимости и различных в том числе больших 10 градаций
шкалы отношений можно найти, практически, в любом учебнике
по статистическим методам, или в специальных статистических
таблицах [6]).
Таблица 10
Критические значения критерия c2 для уровня значимости
a
= 0.05
L–1 123456789
2
05.0
c
3,845,997,829,4911,0712,5914,0715,5216,92
Алгоритм определения достоверности совпадений и различий
для экспериментальных данных, измеренных в порядковой шкале,
заключается в следующем:
1. Вычислить для сравниваемых выборок 2
эмп
c
эмпириче-
ское значение критерия c2 по формуле (5).
2. Сравнить это значение с критическим значением 2
05.0
c
,
взятым из таблицы 10: если 2
эмп
c
£
2
05.0
c
, то сделать вы-
вод: "характеристик сравниваемых выборок совпадают с
уровнем значимости 0,05"; если 2
эмп
c
> 2
05.0
c
, то сделать
вывод "достоверность различий характеристик сравнивае-
мых выборок составляет 95%".
1 Критерий хи-квадрат применим при условии, что для любого значения балла в
любой из сравниваемых выборок не менее пяти ее членов получили данный балл,
то есть: n
i
³
5, mi
³
5, i = 1, 2, …, L. Кроме того, желательно, чтобы число
градаций L было не менее трех. Если L = 2, то есть используется дихотомиче-
ская шкала ("да" "нет", "решил" "не решил" и т.д.), то можно применять
критерий Фишерасм. ниже настоящий раздел.
53
Применим алгоритм для данных из таблицы 5. Сначала вы-
числяем по формуле (5) эмпирические значения критерия c2. Для
примера приведем расчет. Параметры экспериментальной группы
(N = 25) после окончания эксперимента: n1 = 2, n2 = 13, n3 = 10 (то
есть 2 учащихся продемонстрировали "низкий" уровень знаний, 13
"средний" и 10 "высокий" см. выше таблицу 5), контрольной
группы (M = 30): m1 = 12, m
2
= 10, m
3
= 8. Подставляя в формулу
(5), получаем:
2
эмп
c
= 25
×
30
×
[(
25
2
30
12 )2 / (2 + 12) + (
25
13
30
10 )2 / (13 + 10) +
+ (
25
10
30
8)2 / (10 + 8)] = 7,36.
Аналогичным образом вычисляются все оставшиеся из 16
возможных результатов парных сравнений групп (эксперимен-
тальная и контрольная группы, до начала и после окончания экспе-
римента). Результаты вычислений приведены в таблице 11. Ячейки
таблицы 11 содержат эмпирические значения критерия c2 для
сравниваемых групп, соответствующих строке и столбцу. Жирным
шрифтом выделены результаты сравнения характеристик экспери-
ментальной и контрольной группы до начала и после окончания
эксперимента (см. сравнения I и II на рисунке 1 "Структура педаго-
гического эксперимента"). Например, эмпирическое значение
критерия c2, получаемое при сравнении характеристик контроль-
ной группы до начала эксперимента (вторая строка таблицы 11) и
экспериментальной группы до начала эксперимента (третий стол-
бец таблицы 11), равно 0,03
В рассматриваемом примере L = 3 (выделены три уровня зна-
ний "низкий", "средний" и "высокий"). Следовательно, L 1 = 2.
Из таблицы 10 получаем для L 1 = 2: 2
05.0
c
= 5,99. Тогда из таб-
лицы 11 видно, что все эмпирические значения критерия c2, кроме
результата
c
эмп = 7,36 сравнения экспериментальной и контроль-
ной групп после окончания эксперимента, меньше критического
значения.
54
Таблица 11
Эмпирические значения критерия c2 для данных из таблицы 5
Контрольная
группа до
начала
эксперимента
Эксперимен-
тальная
группа до
начала
эксперимента
Контрольная
группа после
окончания
эксперимента
Эксперимен-
тальная
группа после
окончания
эксперимента
Контрольная
группа до
начала
эксперимента
00,03 1,164,60
Эксперимен-
тальная
группа до
начала
эксперимента
0,0301,343,82
Контрольная
группа после
окончания
эксперимента
1,161,3407,36
Эксперимен-
тальная
группа после
окончания
эксперимента
4,603,827,360
Следовательно "характеристики всех сравниваемых выборок,
кроме экспериментальной и контрольной групп после окончания
эксперимента, совпадают1 с уровнем значимости 0,05".
Так как
c
эмп = 7,36 > 5,99 = 2
05.0
c
, то "достоверность различий
характеристик экспериментальной и контрольной групп после
окончания эксперимента составляет 95%".
Итак, начальные (до начала эксперимента) состояния экспе-
риментальной и контрольной групп совпадают, а конечные (после
окончания эксперимента) различаются. Следовательно, можно
сделать вывод, что эффект изменений обусловлен именно приме-
нением экспериментальной методики обучения.
Дихотомическая шкала. Отдельно рассмотрим случай, когда
используется дихотомическая шкала порядковая шкала с всего
двумя различными упорядоченными баллами "высокий"-
1 Интересно отметить, что характеристики экспериментальной группы до
начала и после окончания эксперимента также совпадают с уровнем значимости
0,05.
55
"низкий", "справился с заданием"-"не справился", "прошел тест"-
"не прошел" и т.д. Характеристикой группы, помимо общего числа
ее членов, будет число членов (или доля, процент от общего чис-
ла), набравших заданный, например максимальный, балл (в
общем случаечисло членов, обладающих заданным признаком).
Для экспериментальной группы, описываемой двумя числами
(n1, n2), где n1 число членов рассматриваемой группы, набравших
низкий балл, n2 набравших высокий балл, n1 + n2 = N, доля p ее
членов, набравших максимальный балл, равна: p = n2 / N. Для
контрольной группы, описываемой двумя числами (m1, m2), где
m1 + m2 = M, доля q ее членов, набравших максимальный балл,
равна: q = m2 / M.
Рассмотрим пример: для каждого из столбцов таблицы 2, счи-
тая, что возможны два уровня знаний "не усвоили материал"
(число правильно решенных задач меньше либо равно 10) и "ус-
пешно усвоили материал" (число правильно решенных задач стро-
го больше 10) определяем распределение членов эксперименталь-
ной и контрольной группы по двум уровням знаний и получаем
таблицу 12 (для экспериментальной группы до начала эксперимен-
та p = 0,72 (или 72%), после окончания эксперимента p = 0,92; для
контрольной группы до начала эксперимента q = 0,70, после окон-
чания эксперимента q = 0,60).
Таблица 12
Результаты дихотомических измерений уровня знаний в контроль-
ной и экспериментальной группах до и после эксперимента
Кон-
троль-
ная
группа
до
начала
экспе-
римента
Экспе-
римен-
тальная
группа
до
начала
экспе-
римента
Кон-
трольная
группа
после
оконча-
ния
экспери-
мента
Экспери-
менталь-
ная группа
после
окончания
экспери-
мента
Доля, которую состав-
ляют учащиеся, не
усвоившие материал
0,300,280,400,08
Доля, которую состав-
ляют учащиеся,
усвоившие материал
0,700,720,600,92
56
Для данных, измеренных в дихотомической шкале целесооб-
разно использование критерия Фишера1, для которого эмпириче-
ское значение
j
эмп вычисляется по следующей формуле (арксинус
может быть вычислен в Excel):
(6)
j
эмп = |2 arcsin(p) – 2 arcsin(q)| NM
NM
+
×.
Критическое значение
j
0.05 критерия Фишера для уровня зна-
чимости 0,05 равно 1,64.
Алгоритм определения достоверности совпадений и различий
для экспериментальных данных, измеренных в дихотомической
шкале, заключается в следующем:
1. Вычислить для сравниваемых выборок
j
эмп эмпириче-
ское значение критерия Фишера по формуле (6).
2. Сравнить это значение с критическим значением
j
0.05 = 1,64: если
j
эмп
£
1,64, то сделать вывод: "характери-
стики сравниваемых выборок совпадают с уровнем значи-
мости 0,05"; если
j
эмп > 1,64, то сделать вывод "достовер-
ность различий характеристик сравниваемых выборок
составляет 95%".
Применим алгоритм для экспериментальных данных из таб-
лицы 12. Сначала вычисляем по формуле (2) эмпирические значе-
ния критерия Фишера. Для примера приведем расчет. Параметры
экспериментальной группы (N = 25) после окончания эксперимен-
та: p = 0,92, контрольной группы (M = 30): q = 0,60 (см. таблицу
12). Подставляя в формулу (6), получаем:
j
эмп = |2 arcsin(92,0 ) – 2 arcsin(6,0 )| 3025
3025
+
× = 2,94.
Аналогичным образом вычисляются все оставшиеся из 16
возможных результатов парных сравнений групп (эксперимен-
тальная и контрольная группы, до начала и после окончания экспе-
римента). Результаты вычислений приведены в таблице 13. Ячейки
таблицы 13 содержат эмпирические значения критерия Фишера
для сравниваемых групп, соответствующих строке и столбцу.
1 В математической статистике существует несколько критериев Фишера. Мы
используем один из них так называемое угловое преобразование, поэтому далее
под критерием Фишера будем понимать именно угловое преобразование Фишера.
57
Жирным шрифтом выделены результаты сравнения характеристик
экспериментальной и контрольной группы до начала и после окон-
чания эксперимента (см. сравнения I и II на рисунке 1 "Структура
педагогического эксперимента").
Например, эмпирическое значение критерия Фишера, полу-
чаемое при сравнении характеристик контрольной группы до
начала эксперимента (вторая строка таблицы 13) и эксперимен-
тальной группы до начала эксперимента (третий столбец таблицы
13), равно 0,16. Следовательно "состояния экспериментальной и
контрольной групп до начала эксперимента совпадают с уровнем
значимости 0,05".
Таблица 13
Эмпирические значения критерия Фишера
для данных из таблицы 12
Контрольная
группа до
начала
эксперимента
Эксперимен-
тальная
группа до
начала
эксперимента
Контрольная
группа после
окончания
эксперимента
Эксперимен-
тальная
группа после
окончания
эксперимента
Контрольная
группа до
начала
эксперимента
00,16 0,812,16
Эксперимен-
тальная
группа до
начала
эксперимента
0,1600,941,92
Контрольная
группа после
окончания
эксперимента
0,810,9402,94
Эксперимен-
тальная
группа после
окончания
эксперимента
2,161,922,940
Теперь аналогичным образом сравним характеристики экспе-
риментальной и контрольной групп после окончания эксперимен-
та. Так как
j
эмп = 2,94 > 1,64 =
j
кр, то "достоверность различий
состояний экспериментальной и контрольной групп после оконча-
ния эксперимента составляет 95%".
58
Итак, начальные (до начала эксперимента) состояния экспе-
риментальной и контрольной групп совпадают, а конечные (после
окончания эксперимента) различаются. Следовательно, можно
сделать вывод, что эффект изменений обусловлен именно приме-
нением экспериментальной методики обучения. Отметим, данный
вывод (один и тот же) был получен при применении к соответст-
вующим экспериментальным данным всех четырех критериев
Крамера-Уэлча, Вилкоксона-Манна-Уитни, c2 и Фишера1.
6.5. АЛГОРИТМ ВЫБОРА СТАТИСТИЧЕСКОГО
КРИТЕРИЯ
Завершив описание методик анализа данных, поясним, как
следует выбирать статистические критерии, то есть приведем
алгоритм выбора статистического критерия процедуру принятия
решения относительно того, какой статистический критерий ис-
пользовать в той или иной ситуации.
В первом приближении этот алгоритм чрезвычайно прост: ес-
ли данные получены в результате измерений в шкале отноше-
ний, то следует использовать критерий Вилкоксона-Манна-
Уитни (ВМУ), если в порядковой шкале, то критерий c2.
Возможные модификации этого правила принятия решений
(учитывающие большее число факторов) приведены на рисунке 8.
1 Перечисленные четыре критерия обладают различной "мощностью" возмож-
ны случаи, когда, например, применение критерия Крамера-Уэлча или критерия
Вилкоксона-Манна-Уитни к данным, измеренным в шкале отношений, свидетель-
ствует о наличии статистически значимых различий, а применение критерия
c
2
к тем же эмпирическим результатам, переведенным в порядковую шкалу, свиде-
тельствует о совпадении характеристик (см. также обсуждение потерь
информации при переходе от шкалы отношений к порядковой шкале выше в
пятом разделе). Поэтому можно рекомендовать максимально использовать всю
полученную в результате педагогического эксперимента информацию если
измерения проводились в шкале отношений, то и обрабатывать данные следует
в этой шкале, переходя к порядковой шкале только в случае крайней необходимо-
сти (см. рисунок 8).
59
Результаты эксперимента
Измерения в
шкале отношений
Измерения в
порядковой шкале
Проверка
совпадения
средних
Проверка
совпадения всех
показателей
Число
градаций L
³
3
Число
градаций L=2
Критерий
Крамера-Уэлча
(раздел 6.3)
Критерий
ВМУ
(раздел 6.3)
Критерий
c2
(раздел 6.4)
Критерий
Фишера
(раздел 6.4)
Число различа-
ющихся значе-
ний велико (³10)
Число различа-
ющихся значе-
ний мало (<10)
Объем
выборки
мал
N,M£50
Объем
выборки
велик
N,M>50
Объем
выборки
велик
N,M>50
Объем
выборки
мал
N,M£50
Рис. 8. Алгоритм выбора статистического критерия
Алгоритм выбора статистического критерия.
Во-первых, необходимо определить какая шкала измерений
используетсяотношений или порядковая.
Для шкалы отношений следует решить, состоит ли решаемая
задача в обнаружении различия средних значений (математических
ожиданий). Если да, то можно использовать критерий Крамера-
Уэлча (раздел 6.3). Если же следует обнаружить произвольные
различия характеристик выборок, то следует использовать крите-
рий Вилкоксона-Манна-Уитни (раздел 6.3) или критерий c2 (раздел
6.4).
60
Если число различающихся между собой значений1 в сравни-
ваемых выборках велико (более десяти), то целесообразно исполь-
зование критерия Вилкоксона-Манна-Уитни.
Если число различающихся между собой значений в сравни-
ваемых выборках мало (менее десяти), то, произведя группировку
результатов измерений (то есть, перейдя от шкалы отношений к
порядковой шкале см. выше пятый раздел), можно использовать
критерий c2.
Далее, аналогично рассуждая, если объем выборок мал2
(N, M £ 50), то следует использовать критерий Вилкоксона-Манна-
Уитни (при малом числе различающихся значений в этом случае
можно использовать и критерий c2).
Если объем выборок велик, то, опять же с помощью группи-
ровки результатов измерений имеет смысл использовать критерий
c2.
Для порядковой шкалы в случае, когда число градаций (раз-
личных баллов) больше либо равно трем, используется критерий
c2, если же применялась дихотомическая шкала, то можно исполь-
зовать либо критерий c2, либо критерий Фишерасм. раздел 6.4.
Использование компьютера при анализе результатов педаго-
гических экспериментов, несомненно, целесообразно. Однако,
использовать статистические критерии, "зашитые" в пакеты про-
грамм следует осторожно. Все четыре описанных выше статисти-
ческих критерия (Крамера-Уэлча, Вилкоксона-Манна-Уитни, c2 и
Фишера) корректно реализованы в профессиональных статистиче-
ских пакетах, среди которых можно выделить и рекомендовать к
использованию такие наиболее распространенные пакеты стати-
стического анализа как: Statistica, StatGraphics и SPSS. Однако,
упомянутые программы, во-первых, являются лицензионными и
стоят достаточно дорого. Во-вторых, они достаточно сложны и
требуют значительных временных затрат для своего освоения.
Наряду с этим, существуют инструменты статистического анализа
1 Например, выборка (1, 2, 2, 2, 1, 1, 2, 1, 1, 1) содержит всего два различных
значения единицу и двойку. В то же время, например, выборка (2, 0, 1, 5, 8, 4, 2,
7, 3, 9) того же объема (десять элементов) содержит десять различных значе-
ний.
2 Понятно, что приводимые границы числа различающихся между собой значений
– 10, и объема выборок – 50, примерны, приблизительны.
61
в электронных таблицах Microsoft Excel, входящих в стандартный
комплект Microsoft Office и установленных, наверное, на любом
современном компьютере. Однако, к сожалению, ни один из четы-
рех рекомендуемых статистических критериев не реализован в
Excel1, поэтому можно посоветовать производить расчет эмпири-
ческих значений критериев вручную2 (все необходимые формулы
приведены выше), используя компьютер или калькулятор для
получения описательной статистики и автоматизации расчетов.
Планирование педагогического эксперимента. В заключе-
ние настоящего раздела отметим, что, несмотря на то, что выше
обсуждалось применение статистических методов к уже получен-
ным в результате проведения педагогического эксперимента дан-
ным, знание этих методов позволяет планировать эксперимент на
стадии его подготовки. Например, формулы (3)-(6), определяющие
эмпирические значения критериев, совместно с фиксированными
критическими их значениями, позволяют заранее (до проведения
эксперимента) оценивать необходимый объем выборки и другие
важные параметры3. Кроме того, если до начала эксперимента
выявлено статистически значимое различие характеристик экспе-
риментальной и контрольной групп по интересующему исследова-
теля критерию (например, по успеваемости), то проводить экспе-
римент не имеет смысла, так как никакие результаты сравнения
характеристик этих групп после окончания эксперимента, не по-
зволят выявить вклада сравниваемого с традиционным педагогиче-
ского воздействия.
1 В компьютерной программе Microsoft Excel для Windows имеется критерий
согласия
c
2, отличающийся от описанного выше критерия однородности
c
2,
поэтому применение первого может привести к неверным результатам.
2 Альтернативой является использование дополнительных статистических
надстроек к Excel Megastat, XLStat, которые можно найти в свободном досту-
пе в Интернете. В этих пакетах хорошо представлены непараметрические
методыкритерий Вилкоксона-Манна-Уитни и другие.
3 Конечно, чем больше объемы выборок, тем в некотором смысле лучше, то есть
тем проще будет обосновать различия, если они есть. Но, с другой стороны,
привлечение к педагогическому эксперименту каждого нового участника требу-
ет от исследователя определенных усилий, поэтому целесообразно заранее
примерно определить требуемый объем выборок.
62
7. ЗАКЛЮЧЕНИЕ
Как отмечалось выше (см. раздел 2 "Структура педагогиче-
ского эксперимента"), целью любого педагогического эксперимен-
та является эмпирическое подтверждение или опровержение гипо-
тезы исследования и/или справедливости теоретических
результатов, то есть обоснование того, что предлагаемое педагоги-
ческое воздействие (например, новые содержание, формы, методы,
средства обучения и т.д.) более эффективно (или, возможно, на-
оборот менее эффективно). Для этого, как минимум, необходимо
показать, что, будучи примененным к тому же объекту (например
к группе учащихся), оно дает другие результаты, чем применение
традиционных педагогических воздействий.
Для этого выделяется экспериментальная группа, которая
сравнивается с контрольной группой. Различие эффектов педаго-
гических воздействий будет обосновано, если две эти группы,
первоначально совпадающие по своим характеристикам, различа-
ются после реализации педагогических воздействий. Следователь-
но, требуется провести два сравнения и показать, что при первом
сравнении (до начала педагогического эксперимента) характери-
стики экспериментальной и контрольной группы совпадают, а при
втором (после окончания эксперимента) – различаются.
Так как объектом педагогического эксперимента, как правило,
являются люди (учащиеся, учителя, сотрудники и руководители
органов управления образованием и т.д.), а каждый человек инди-
видуален, то говорить о совпадении или различии характеристик
экспериментальной и контрольной групп можно лишь в чисто
формальном, статистическом смысле. Для того, чтобы выяснить,
являются ли совпадения или различия случайными, используются
статистические методы, которые позволяют на основании данных,
полученных в результате эксперимента, принять обоснованное
решение о совпадениях или различиях.
Общий алгоритм использования статистических критериев
прост: до начала и после окончания эксперимента на основании
информации о результатах наблюдений (характеристиках членов
экспериментальной и контрольной группы) вычисляется эмпири-
ческое значение критерия (алгоритм выбора статистического кри-
терия приведен выше в разделе 6.5, формулы для вычислений в
63
разделах 6.3 и 6.4). Это число сравнивается с известным (таблич-
ным) числом критическим значением критерия (критические
значения1 для всех рекомендуемых нами критериев приведены
выше в разделах 6.3 и 6.4). Если эмпирическое значение критерия
оказывается меньше или равно критическому, то можно утвер-
ждать, что "характеристики экспериментальной и контрольной
групп совпадают с уровнем значимости 0,05 по статистическо-
му критерию (далее следует название использованного крите-
рия: Крамера-Уэлча, Вилкоксона-Манна-Уитни, хи-квадрат, Фи-
шера)". В противном случае (если эмпирическое значение
критерия оказывается строго больше критического) можно утвер-
ждать, что "достоверность различий характеристик экспери-
ментальной и контрольной групп по статистическому крите-
риюравна 95%".
Следовательно, если характеристики экспериментальной и
контрольной групп до начала эксперимента совпадают с уровнем
значимости 0,05, и, одновременно с этим, достоверность различий
характеристик экспериментальной и контрольной групп после
эксперимента равна 95%, то можно сделать вывод, что2 "примене-
ние предлагаемого педагогического воздействия (например,
новой методики обучения) приводит к статистически значимым
(на уровне 95% по критерию ) отличиям результатов".
Итак, в настоящей работе мы попытались изложить на дос-
тупном уровне "рецепты" применения статистических методов при
решении типовых задач анализа данных в педагогических исследо-
ваниях. В то же время, не следует забывать, что рассмотрены лишь
несколько, хотя и наиболее распространенных, но все-таки доста-
точно простых ситуаций. Арсенал же современных статистических
методов гораздо богаче. Быть может, освоение и применение этого
арсенала подтолкнет исследователей в области педагогических
наук как к расширению соответствующих предметных областей,
так и к повышению уровня обоснованности научных результатов.
1 Напомним, что выше мы решили ограничиться 0,05 уровнем значимости и,
соответственно, 95%-ым уровнем достоверности различий.
2 Понятно, что в каждом конкретном случае общие термины "характеристика
группы", "педагогическое воздействие", "результат" заменяются на конкретные
характеристики, воздействия и результаты.
64
ЛИТЕРАТУРА
1. Айвазян С.А., Енюков И.С., Мешалкин Л.Д. Прикладная
статистика: основы моделирования и первичная обработка данных.
М.: Финансы и статистика, 1983. – 472 с.
2. Айвазян С.А., Мхитарян В.С. Прикладная статистика и ос-
новы эконометрики. М.: ЮНИТИ, 1998. – 1022 с.
3. Айвазян С.А., Мхитарян В.С. Прикладная статистика в за-
дачах и упражнениях. М.: ЮНИТИ, 2001. – 270 с.
4. Анализ нечисловой информации в социологических иссле-
дованиях. М.: Наука, 1985. – 220 с.
5. Артемьева Е.Ю., Мартынов Е.М. Вероятностные методы в
психологии. М.: МГУ, 1975.
6. Большев Л.Н., Смирнов Н.В. Таблицы математической ста-
тистики. М.: Наука, 1983. – 416 с.
7. Бурков В.Н., Новиков Д.А. Как управлять организациями.
М.: Синтег, 2004. – 404 с.
8. Грабарь М.И., Краснянская К.А. Применение математиче-
ской статистики в педагогических исследованиях: Непараметриче-
ские методы. М.: Педагогика, 1977. – 136 с.
9. Гласс Д., Стенли Д. Статистические методы в педагогике и
психологии. М.: Прогресс, 1976. – 495 с.
10. Ительсон Л.Б. Математические и кибернетические методы
в педагогике. М.: Просвещение, 1964. – 268 с.
11. Крамер Г. Математические методы статистики. М.: Мир,
1975. – 648 с.
12. Кыверялг А.А. Методы исследований в профессиональной
педагогике. Таллин: Валгус, 1980. – 334 с.
13. Литвак Б.Г. Экспертная информация: методы получения и
анализа. М.: Радио и связь, 1982. – 184 с.
14. Новиков А.М. Докторская диссертация? М.: Эгвес, 2003.
120 с.
15. Новиков А.М. Как работать над диссертацией. М.: Эгвес,
2003. – 104 с.
16. Новиков А.М. Методология образования. М.: Эгвес, 2002.
320 с.
17. Новиков А.М. Научно-экспериментальная работа в образо-
вательном учреждении. М.: АПО РАО, 1998. – 134 с.
65
18. Новиков Д.А. Закономерности итеративного научения. М.:
ИПУ РАН, 1998 – 96 с.
19. Новиков Д.А. Модели и механизмы управления развитием
региональных образовательных систем. М.: ИПУ РАН, 2001.
83 с.
20. Ногин В.Д. Принятие решений в многокритериальной сре-
де: количественный подход. М.: Физматлит, 2002. – 176 с.
21. Орлов А.И. Устойчивость в социально-экономических мо-
делях. М.: Наука, 1986. 294 с.
22. Орлов А.И. Эконометрика. М.: Экзамен, 2003. – 576 с.
23. Паповян С.С. Математические методы в социальной пси-
хологии. М.: Наука, 1983.
24. Подиновский В.В., Ногин В.Д. Парето-оптимальные реше-
ния многокритериальных задач. М.: Наука, 1982. – 386 с.
25. Пфанцагль И. Теория измерений. М.: Мир, 1976. – 248 с.
26. Сидоренко Е.В. Методы математической обработки в пси-
хологии. СПб.: Речь, 2000. – 350 с.
27. Смирнов Н.В., Дунин-Барковский И.В. Курс теории веро-
ятностей и математической статистики для технических приложе-
ний. М.: Наука, 1969.
28. Справочник по прикладной статистике. М.: Финансы и ста-
тистика. Том 1, 1989. – 510 с., Том 2, 1990. – 526 с.
29. Суппес П., Зинес Д. Основы теории измерений / Психоло-
гические измерения. М.: Мир, 1967. С. 9 – 110.
30. Суходольский Г.В. Основы математической статистики для
психологов. Л.: ЛГУ, 1972. – 428 с.
31. Трахтенгерц Э.А. Компьютерная поддержка принятия ре-
шений. М.: Синтег, 1998. – 376 с.
32. Тюрин Ю.Н., Макаров А.А. Статистический анализ данных
на компьютере. М.: ИНФРА-М, 1998. – 528 с.
33. Тюрин Ю.Н., Литвак Б.Г., Орлов А.И., Сатаров Г.А.,
Шмерлинг Д.С. Анализ нечисловой информации. М.: Научный
совет АН СССР по комплексной проблеме "Кибернетика", 1981.
80 с.
66
Редакционный совет серии "Статистические методы":
Богданов Ю.И.
Вощинин А.П.
Горбачев О.Г.
Горский В.Г.
Кудлаев Э.М.
Натан А.А.
Новиков Д.А.
Орлов А.И. (председатель).
Татарова Г.Г.
Толстова Ю.Н.
Фалько С.Г.
Шведовский В.А.
Уважаемые читатели!
Предлагаемая книга входит в новую серию «Статистические
методы» издательства «МЗ-Пресс». В этой серии будут выпускаться
научные монографии по различным теоретическим и прикладным на-
правлениям статистических методов, учебники и учебные пособия,
написанные ведущими исследователями. Основная цель серии выпуск
научных монографий, являющихся одновременно учебниками и позво-
ляющих студентам и специалистам выйти на передовой фронт современ-
ных исследований.
Книги серии посвящены прикладной статистике и другим стати-
стическим методам обработки и анализа данных, а также применению
статистических методов в технических, социально-экономических, меди-
цинских, исторических и иных исследованиях. Они окажутся полезными
для инженеров, экономистов, менеджеров, социологов, врачей, всех
научных работников и специалистов, чья профессиональная деятельность
связаны с обработкой и анализом данных.
Редакционный совет серии создан Правлением Российской
ассоциации статистических методов (учреждена в 1990 г.). По оценке
Правления, выпуск серии «Статистические методы» позволит заметно
повысить научный уровень и практическую значимость отечественных
научных исследований, прикладных разработок и преподавания в области
статистических методов.
Надеемся, что новая серия привлечет внимание и будет полезна
как студентов и преподавателям, так и профессиональным исследовате-
лям. Желаем всем потенциальным читателям найти что-то полезное для
себя.
67
Дмитрий Александрович НОВИКОВ
СТАТИСТИЧЕСКИЕ МЕТОДЫ
В ПЕДАГОГИЧЕСКИХ ИССЛЕДОВАНИЯХ
(ТИПОВЫЕ СЛУЧАИ)
Подписано в печать 29.01.2004
Формат 69x90/16. Печать офсетная. Бумага офсетная.
Гарнитура "Таймс". Усл. печ. л. 4,25.
Тираж 3000 экз.
Отпечатано с готовых пленок в ДПК
г. Домодедово, Каширское шоссе, д. 4
... Важно отметить некоторые особенности измерения и оценивания, связанные с допустимыми операциями и преобразованиями, применявшимися позднее при анализе. Очевидно, что классическая пятибалльная (фактически -четырехбалльная: неудовлетворительно, удовлетворительно, хорошо и отлично) шкала оценивания, принятая практически повсеместно в отечественной системе образования, является порядковой и не допускает применения различных алгебраических и статистических методов [10]. Чтобы обеспечить более широкий инструментарий, были приняты некоторые меры, приближающие порядковую шкалу к интервальной, равномерной шкале, когда, например, оценка «неудовлетворительно» (2) вдвое хуже, чем хорошо (4). ...
Article
The article presents the results of a study on the influence of students’ personality types on the quality of education, based on the example of the “Public and Municipal Administration” degree program. The study proposed and tested a hypothesis regarding the statistically significant relationship between a student’s professional personality type and their educational outcomes. To assess students’ professional personality types, John Holland’s methodology was employed, which determines a student’s inclination towards one of six professional types. Educational outcomes were evaluated based on the development of general professional competencies during the study of the courses “Introduction to Professional Activity” and “Theory of State and Law,” which are taken in the first year of the “Public and Municipal Administration” program. It is important to note that the study’s conclusions were formulated with the assumption that the ordinal grading scale behaves as an interval scale due to the specific method of assessment based on a point-rating system with a smoothed grading scale (where the “weights” of points are approximately equal). As a result of the study, a linear regression model was proposed, which allows for the prediction of the development of general professional competencies based on a student’s professional personality type.
Article
When teaching foreign students in Russian universities training of qualified specialists requires solving a number of problems associated with teaching special disciplines. In the context of bilingual education, the problem of low level of understanding and assimilation of the content of an English-language chemistry lecture by the medical university foreign students was studied. In the study two groups of foreign students participated: control group and experimental one. During the ascertaining experiment, both groups of foreign students were asked to assess the level of understanding of the content of the oral text of the English-language chemistry lecture and the expression of interest in the subject being studied during the lecture. The level of assimilation of the lecture content was calculated. As a result, the problem of a sharp decrease in the level of understanding of the oral English-language educational material by students during the lesson was discovered. A low level of assimilation of the lecture content was revealed. In order to improve the levels of understanding and assimilation of the content of English-language chemistry lectures by foreign students, the author developed visual aids accompanying the lectures and proposed its use as a tool for solving the problem. The correctness of the hypothesis was confirmed experimentally. It was shown that the use of visual aids increases the levels of understanding and assimilation of the content of an English-language chemistry lecture by foreign students.
Article
Full-text available
Background. The great significance of mastering foreign languages becomes a crucial aspect of the future biology bachelors’ professional training in the context of globalisation and a multilingual educational. In the dynamically changing educational paradigm and the increasing demands of the labor market, future biology bachelors who possess bilingual communication skills and are capable of switching from their native language to a foreign language during both intercultural and professional interactions are more in demand and competitive in the labor market. Purpose. The purpose of this paper is to validate the choice of criteria and to determine the level of bilingual communication skills formation in future biology bachelors. The subject of the research is the criteria and levels of bilingual communication skills formation in future biology bachelors. The object of the study is future biology bachelors. Materials and methods. The research is based on methods of scientific sources theoretical analysis dedicated to the search for adequate criteria to assess the level of bilingual communication skills formation in future biology bachelors, as well as quantitative analysis of the results obtained during the experimental verification. Results. The presented results demonstrate the necessity of systematising and monitoring the educational process in the formation of future biology bachelor’s bilingual communication skills. It was found that the bilingual skills formation can be divided into three levels: elementary-bilingual, operational-bilingual, and active-bilingual. Each of these levels is characterised by the specific indicators that allows to assess more accurate the degree of mastery in bilingual communication. The proposed criteria and assessment levels can be used as tools for monitoring and improving the quality of foreign language education. Further research involves the detailed development of methodologies and practical recommendations for educators aimed at enhancing the effectiveness of bilingual communication training. EDN: NJQZCW
Article
Full-text available
The paperaims to answer the following research questions: What are the opportunities and risks of using ChatGPT for deaf and hard-of-hearing (DHH) students? How different is the user experience with ChatGPT for DHH students? The paper describes and compares the strategiesusedby DHH students to search,analyzeandsynthesizeinformationateachstageofwork when working withChatGPTand search engines. It also justifies therisksto quality learningwhen working withChatGPT.The scientificnoveltyof the studyisthe revealedfeaturesof the userexperiencewhen usingChatGPT forsearching,analyzingandsynthesizinginformationincomparisonwithsearchengines.
Article
Исследователями и практиками выявлено снижение социальной компетентности школьников, рост неконструктивных форм общения и поведения при необходимости разрешения простейших конфликтов. В связи с этим приобретает значимость вопрос создания условий для непосредственного общения и совместной деятельности в малых группах обучающихся 11–15 лет, поскольку такой возраст — это особо сензитивный период для формирования компетенций социального взаимодействия человека с другими людьми и группой. Решение данной проблемы возможно путем поиска новых подходов к организации непосредственного взаимодействия обучающихся в малых группах, которые интегрируют научные достижения социологии, психологии и педагогики. Теоретическую основу исследования составляют подходы гуманистической парадигмы образования; педагогические и социально-психологические групповые теории. В исследовании применены теоретические и эмпирические методы. Результаты исследования заключаются в том, что доказана перспективность идеи о приоритетности групповых форм учебной деятельности в основной школе в формировании компетенции сотрудничества обучающихся; применены социально-психолого-педагогические типологические характеристики обучающихся; изложены положения о необходимости расширения педагогического знания о малой группе, введении дополнительного параметра — уровня развития группового субъекта; раскрыты возможности внутригрупповой среды в формировании компетенции сотрудничества; проведена модернизация применяемого в традиционной образовательной практике подхода к процессу организации взаимодействия обучающихся в малых группах, при этом основаниями для дифференциации служат педагогические академические особенности, социально-психологические характеристики обучающихся и малых групп; разработана и внедрена методика оценки компетенции сотрудничества обучающихся, которая выступает компонентом системы оценивания метапредметных и личностных образовательных результатов, а также критериально-уровневый комплекс оценки развития малых групп; созданы и реализованы дополнительные профессиональные программы повышения квалификации для педагогов, направленные на совершенствование психолого-педагогической и методической компетенции учителей в вопросах организации группового взаимодействия обучающихся. Researchers and practitioners have revealed a decrease in the social competence of schoolchildren, an increase in non-constructive forms of communication and behavior when it is necessary to resolve the simplest conflicts. In this regard, the issue of creating conditions for direct communication and joint activity in small groups of 11–15 years old students, whose age is a particularly sensitive period for the formation of competencies of social interaction of a person with other people and a group, acquires particular importance. The solution to this problem is possible by looking for new approaches to organizing the interaction of students in small groups that integrate the scientific achievements of sociology, psychology and pedagogy. The theoretical basis of the research is formed by the approaches of the humanistic paradigm of education; pedagogical and socio-psychological group theories. The study used theoretical and empirical methods. The results of the study are that the perspective of the idea of the priority of group forms of educational activity in the basic school in the formation of the competence of cooperation of students has been proved; introduced socio-pedagogical typological characteristics of students; the provisions on the need to expand pedagogical knowledge about a small group, the introduction of an additional parameter — the level of development of the group subject; disclosed the possibilities of the intragroup environment in the formation and development of the competence of cooperation; the modernization of the approach used in traditional educational practice to the process of organizing the interaction of students in small groups was carried out, while the grounds for differentiation are academic characteristics, socio-psychological differences of students and the level of development of small groups; developed and implemented a methodology for assessing the competence of students’ cooperation, which is a component of the system for assessing metasubject and personal educational results, as well as a criterion-level complex for assessing the development of small groups; additional professional advanced training programs for teachers were created and implemented, aimed at improving the psychological, pedagogical and methodological competence of teachers in organizing group interaction of students.
Article
В статье анализируется эффективность применения рефлексивно- го подхода в обучении, обосновывается применение информационных технологий для организации рефлексивного обучения информатике. Излагается разработанная модель организации рефлексивного обучения с применением информационных тех- нологий. Обосновывается ее эффективность при формировании цифровых навыков будущих специалистов.
Article
Abstract. Federated learning (FL) is a machine learning approach that allows multiple devices or sys-tems to train a model collaboratively, without exchanging their data. This is particularly useful for autono-mous mobile robots, as it allows them to train models customized to their specific environment and tasks, while keeping the data they collect private. Research Objective to train a model to recognize and classify different types of objects, or to navigate around obstacles in its environment. Materials and me-thods we used FL to train models for a variety of tasks, such as object recognition, obstacle avoidance, lo-calization, and path planning by an autonomous mobile robot operating in a warehouse FL. We equipped the robot with sensors and a processor to collect data and perform machine learning tasks. The robot must communicate with a central server or cloud platform that coordinates the training process and collects model updates from different devices. We trained a neural network (CNN) and used a PID algorithm to generate a control signal that adjusts the position or other variable of the system based on the difference between the desired and actual values, using the relative, integrative and derivative terms to achieve the desired performance. Results through careful design and execution, there are several challenges to im-plementing FL in autonomous mobile robots, including the need to ensure data privacy and security, and the need to manage communications and the computational resources needed to train the model. Conclu-sion. We conclude that FL enables autonomous mobile robots to continuously improve their performance and adapt to changing environments and potentially improve the performance of vision-based obstacle avoidance strategies and enable them to learn and adapt more quickly and effectively, leading to more ro-bust and autonomous systems.
Article
Full-text available
The modern personality-oriented education process, aimed at developing pupils morally and intellectually, is effectively implemented within the framework of problem-based learning. In the case of teaching the comprehensive school physics course, pupils’ enhanced cognitive activity should be organized considering the fundamental scientific method of physics – the experimental method. The research aims to justify the necessity of constructing didactic materials for conducting home experiments as an element of the practical implementation system of problem-based learning in the comprehensive school physics course. The scientific novelty of the research lies in proposing to elevate the status of the didactic technique of enhancing pupils’ cognitive activity, namely “home experimentation”, by incorporating relevant didactic material into the basic general education program of the subject “Physics” (basic level). As a result, changes were made to the basic general education program of the subject “Physics” (basic level), and its new version was published (Андрюшечкин С. М. Программа основного общего образования предмета «Физика» (базовый уровень). Изд-е 2-е, перераб. и доп. М., 2024).
Article
Статья описывает проведённое исследование развития дыхания у детей как с хорошими физическими данными, так и с пульмонологическими отклонениями. Исследование проводилось на базе детских образовательных учреждений с использованием индивидуальной и групповой формы работы с детьми. Были разработаны критерии диагностики развитости дыхания у детей, участвующих в эксперименте. Для понимания целей и итогов обучения проведено анкетирование родителей и преподавателей. Полученные данные проанализированы и показаны в виде диаграмм. В рамках оценки качества развития дыхания у детей при обучении игре на духовых инструментах и положительного влияния на организм в целом было проведено исследование 2010-2022 годы на базе Отделения дополнительного образования детей при Череповецком областном училище искусств и художественных ремёсел им. В. В. Верещагина, Санкт-Петербургской детской школы искусств им. М. А. Балакирева и частной общеобразовательной школы «Таурас». Цель исследования состояла в том, чтобы выяснить подлежит ли процесс дыхания развитию, при каких условиях и как оно связано с систематическими занятиями на духовом инструменте. Эксперимент проводился в течение одного учебного года для каждого участника экспериментальных и контрольных групп.
Book
Full-text available
Предлагаемая работа доктора технических наук Д.А. Новикова посвящена изучению общих для систем живой и неживой природы – человек, группа людей, животные, искусственные системы – количественных закономерностей итеративного научения (понимаемого как многократное повторение обучаемой системой действий, проб, попыток и т.д. для достижения фиксированной цели при постоянных внешних условиях). Основным методом исследования является математическое моделирование. Работа ориентирована на специалистов по педагогике, психологии и физиологии человека и животных, теории управления, а также студентов и аспирантов соответствующих специальностей.
Применение математической статистики в педагогических исследованиях: Непараметрические методы
  • М И Грабарь
  • К А Краснянская
Грабарь М.И., Краснянская К.А. Применение математической статистики в педагогических исследованиях: Непараметрические методы. М.: Педагогика, 1977. -136 с.
Основы теории измерений / Психологические измерения. М.: Мир
  • П Суппес
  • Д Зинес
Суппес П., Зинес Д. Основы теории измерений / Психологические измерения. М.: Мир, 1967. С. 9 – 110.
Экспертная информация: методы получения и анализа. М.: Радио и связь
  • Б Г Литвак
Литвак Б.Г. Экспертная информация: методы получения и анализа. М.: Радио и связь, 1982. -184 с.
Прикладная статистика и основы эконометрики
  • С А Айвазян
  • В С Мхитарян
Айвазян С.А., Мхитарян В.С. Прикладная статистика и основы эконометрики. М.: ЮНИТИ, 1998. -1022 с.
Принятие решений в многокритериальной среде: количественный подход. М.: Физматлит
  • В Д Ногин
Ногин В.Д. Принятие решений в многокритериальной среде: количественный подход. М.: Физматлит, 2002. – 176 с. 21. Орлов А.И. Устойчивость в социально-экономических моделях. М.: Наука, 1986. – 294 с.
Статистический анализ данных на компьютере. М.: ИНФРА-М, 1998. – 528 с. 33
  • Ю Н Тюрин
  • А А Макаров
Тюрин Ю.Н., Макаров А.А. Статистический анализ данных на компьютере. М.: ИНФРА-М, 1998. – 528 с. 33. Тюрин Ю.Н., Литвак Б.Г., Орлов А.И., Сатаров Г.А., Шмерлинг Д.С. Анализ нечисловой информации. М.: Научный совет АН СССР по комплексной проблеме "Кибернетика", 1981. – 80 с.
Мир, 1975. – 648 с. 12. Кыверялг А.А. Методы исследований в профессиональной педагогике
  • Г Крамер
  • М Математические Методы Статистики
Крамер Г. Математические методы статистики. М.: Мир, 1975. – 648 с. 12. Кыверялг А.А. Методы исследований в профессиональной педагогике. Таллин: Валгус, 1980. – 334 с.
Основы математической статистики для психологов. Л.: ЛГУ, 1972. – 428 с. 31
  • Г В Суходольский
Суходольский Г.В. Основы математической статистики для психологов. Л.: ЛГУ, 1972. – 428 с. 31. Трахтенгерц Э.А. Компьютерная поддержка принятия решений. М.: Синтег, 1998. – 376 с.