ArticlePDF Available

The haplomatch program for comparing Y-chromosome STR-haplotypes and its application to the analysis of the origin of Don Cossacks

Authors:

Abstract

STR haplotypes of the Y chromosome are widely used as effective genetic markers in studies of human populations and in forensic DNA analysis. The task often arises to compare the spectrum of haplotypes in individuals or entire populations. Performing this task manually is too laborious and thus unrealistic. We propose an algorithm for counting similarity between STR haplotypes. This algorithm is suitable for massive analyses of samples. It is implemented in the computer program Haplomatch, which makes it possible to find haplotypes that differ from the target haplotype by 0, 1, 2, 3, or more mutational steps. The program may operate in two modes: comparison of individuals and comparison of populations. Flexibility of the program (the possibility of using any external database), its usability (MS Excel spreadsheets are used), and the capability of being applied to other chromosomes and other species could make this software a new useful tool in population genetics and forensic and genealogical studies. The Haplomatch software is freely available on our website www.genofond.ru. The program is applied to studying the gene pool of Cossacks. Experimental analysis of Y-chromosomal diversity in a representative set (N = 131) of Upper Don Cossacks is performed. Analysis of the STR haplotypes detects genetic proximity of Cossacks to East Slavic populations (in particular, to Southern and Central Russians, as well as to Ukrainians), which confirms the hypothesis of the origin of the Cossacks mainly due to immigration from Russia and Ukraine. Also, a small genetic influence of Turkicspeaking Nogais is found, probably caused by their occurrence in the Don Voisko as part of the Tatar layer. No similarities between haplotype spectra of Cossacks and Caucasus populations are found. This case study demonstrates the effectiveness of the Haplomatch software in analyzing large sets of STR haplotypes.
ГЕНЕТИКА, 2016, том 52, № 5, с. 595–604
595
Одним из широко используемых инструмен
тов изучения популяций человека являются STR
маркеры Yхромосомы. Темпы их мутирования
весьма высоки [1–4], и высокий уровень разнооб
разия сделал STRгаплотипы Yхромосомы попу
лярным инструментом в исследованиях генофон
дов – в базе данных PubMed ежегодно фиксирует
ся несколько десятков статей с их использованием.
Не менее важную роль STRмаркеры Yхромосо
мы (YSTR) играют и в судебномедицинской
практике: они являются второй по частоте ис
пользования (после аутосомных STRмаркеров)
системой маркеров при проведении ДНКэкс
пертиз, особенно эффективной при расследова
ниях некоторых тяжких преступлений, при опре
делении возможного этногеографического про
исхождения преступника или идентификации
неопознанных останков. Третьей областью при
менения YSTRмаркеров является генетическая
генеалогия – число клиентов коммерческих ком
ПРОГРАММА HAPLOMATCH ДЛЯ СРАВНЕНИЯ STRГАПЛОТИПОВ
YХРОМОСОМЫ И ЕЕ ПРИМЕНЕНИЕ
К ВОПРОСУ ПРОИСХОЖДЕНИЯ ДОНСКИХ КАЗАКОВ
© 2016 г. М. И. Чухряева
1, 2
, И. О. Иванов
2
, С. А. Фролова
2
, С. М. Кошель
3
, О. М. Утевская
4
,
Р. А . С ха ля хо
1, 2
, А. Т. Агджоян
1, 2
, Ю. В. Богунов
1
, Е. В. Балановская
2
, О. П. Балановский
1, 2
1
Институт общей генетики им. Н.И. Вавилова Российской академии наук, Москва 119991
email: m.chukhryaeva@yandex.ru
2
Медикогенетический научный центр, Москва 115478
3
Московский государственный университет им. М.В. Ломоносова,
кафедра картографии и геоинформатики, Москва 119991
4
Харьковский национальный университет им. В.Н. Каразина,
кафедра генетики и цитологии, Харьков 61022, Украина
Поступила в редакцию 21.09.2015 г.
STRгаплотипы Yхромосомы широко используются как эффективные генетические маркеры при
изучении популяций человека и проведении криминалистических ДНКэкспертиз. При этом часто
возникают задачи сравнения отдельных индивидуумов или целых популяций по спектру гаплоти
пов. Подобные задачи являются мало выполнимыми вручную в силу их большой трудоемкости. На
ми предложен алгоритм определения сходства STRгаплотипов, пригодный для анализа массовых
выборок, и разработана компьютерная программа Haplomatch, позволяющая находить гаплотипы,
отличающиеся от анализируемого гаплотипа на любое число мутационных шагов. Программа мо
жет функционировать в двух режимах: сравнение индивидов и сравнение популяций. Гибкость про
граммы (возможность использования не встроенной, а любой внешней базы данных), удобство ис
пользования (работа происходит с таблицами MS Excel) и возможность распространения на гапло
типы других хромосом и других биологических видов могут сделать ее новым полезным
инструментом в популяционногенетических, криминалистических и генеалогических исследова
ниях. Программа Haplomatch размещена в свободном доступе на нашем сайте www.genofond.ru. Воз
можности программы продемонстрированы на примере исследования генофонда казаков. Прове
ден экспериментальный анализ разнообразия Yхромосомы в репрезентативной выборке (
N
= 131)
верхнедонских казаков. По спектру STRгаплотипов обнаружена генетическая близость казаков с
восточнославянскими популяциями (в частности, с южными русскими, русскими Центральных ре
гионов России и украинцами), что подтверждает гипотезу происхождения казаков преимуществен
но за счет русских и украинских выходцев. Также обнаружено небольшое генетическое влияние но
гайцев, вероятно вызванное их вхождением в Войско Донское в составе “татарской прослойки”.
Сходства с народами Кавказа у донских казаков не обнаружено. Этот пример показывает эффектив
ность применения программы Haplomatch для популяционногенетического анализа больших мас
сивов STRгаплотипов.
Ключевые слова
: Haplomatch, Yхромосома, STRмаркеры, геногеография, криминалистика, дон
ские казаки.
DOI:
10.7868/S0016675816050040
УДК 575.1
ГЕНЕТИКА ЧЕЛОВЕКА
596
ГЕНЕТИКА том 52 № 5 2016
ЧУХРЯЕВА и др.
паний, предлагающих анализ Yхромосомы для
прослеживания мужской генеалогической ли
нии, неуклонно растет и в России, и в мире.
Основными методами обработки данных о
разнообразии гаплотипов Yхромосомы являют
ся: построение филогенетических сетей [5]; под
счет гаплотипического разнообразия с последую
щей оценкой возраста гаплогрупп Yхромосомы
методом молекулярных часов [6]; расчет генети
ческих расстояний
R
ST
и построение на их основе
графиков многомерного шкалирования или про
ведение анализа главных компонент [7]; сравне
ние спектра гаплотипов в разных популяциях или
анализ распространения конкретного гаплотипа в
широком круге популяций [8, 9]. Наше исследова
ние посвящено дальнейшей разработке последне
го из перечисленных методов – анализа совпадаю
щих гаплотипов. Такой подход зарекомендовал се
бя как один из надежных способов выявления
исторических миграций. С его использованием
удалось проследить экспансию финикийцев по
Средиземноморью [10] и миграции крестоносцев
на Ближний Восток [9]. Для проведения судебно
медицинских экспертиз и для определения веро
ятного этногеографического происхождения так
же требуется поиск гаплотипов, совпадающих с
заданным. Однако широкое применение такого
подхода и в популяционной генетике, и в крими
налистике отчасти сдерживается отсутствием чет
кого алгоритма и специализированного про
граммного обеспечения.
В наиболее популярной в популяционногене
тических исследованиях программе Arlequin [7]
возможно проводить поиск только полностью
совпадающих гаплотипов. Поэтому визуально
определить близкие гаплотипы в исследуемой
выборке возможно только по филогенетической
сети, построенной в программе Network [5]. Од
нако для количественного анализа целой выбор
ки гаплотипов такой подход мало применим.
Другой программой, предоставляющей возмож
ность поиска одинаковых гаплотипов, является
онлайн ресурс YHRD http://www.yhrd [11]. Но эта
система, вопервых, работает только со своей
внутренней базой данных, а вовторых, проводит
поиск по отдельному гаплотипу, но не по их сово
купности (популяционной выборке). При работе
с популяционной выборкой в YHRD возможен
лишь расчет
R
ST
расстояний между анализируе
мой выборкой и содержащимися в базе ресурса
популяциями и построение по этим данным гра
фика многомерного шкалирования, но не преду
смотрен анализ гаплотипов, близких или совпада
ющих с анализируемой выборкой. Таким образом,
назрела необходимость разработки алгоритмов и
программного обеспечения, которые позволили
бы автоматизировать процесс сравнения гапло
типов как между отдельным индивидом и обшир
ной базой данных, так и между целыми популя
циями. Результаты разработки и применения та
кой программы приведены в данной работе.
В качестве популяции, на которой апробиро
вана новая программа, выбраны донские казаки.
Вопрос о происхождении донского казачества яв
ляется дискуссионным. Донские казаки ранее ге
нетически не изучались, и в мировой науке нет
сведений о степени вклада различных этносов в
их генофонд. Анализ спектра YSTRгаплотипов
является одним из эффективных инструментов
для решения этого вопроса.
Существуют две основные теории происхож
дения казачества на Дону: автохтонная и мигра
ционная. И несмотря на то, что миграционная
теория поддерживается большинством автори
тетных ученыхисториков, на протяжении всего
существования казачества на Дону вплоть до на
шего времени возникали различные вариации ав
тохтонных теорий, имеющие большой успех в
среде самого казачества. В них осуществлялись
попытки связать происхождение казаков с этно
сами, населявшими донские степи в разные исто
рические эпохи (с аланояссами, бродниками),
либо с народами Кавказа (черкесами) или же со
степными тюркоязычными народами [12].
Сторонники миграционной теории, опираясь
главным образом на русские письменные источ
ники, полагают, что появление казачества на До
ну произошло не ранее XVI в., и основная его
часть была великорусской по происхождению
[13]. Но даже миграционная теория оставляет
много вопросов: в исторических документах за
фиксировано, что миграционный поток в состав
Войска Донского происходил не только из раз
личных регионов России, но также и с террито
рии Украины. Кроме того, в донское казачество
вливались представители других народов: калмы
ки, греки, армяне, грузины, татары, черкесы, по
ляки, литовцы и другие [14]. Так, в войсковом на
селении наряду с преобладающей численно и
культурно русской группой существовали ком
пактные группы казаковмусульман и казаков
буддистов (калмыков). Таким образом, в донское
казачество кроме великорусского и малорусского
вошли и другие этнические элементы, и вопрос
состоит в том, в какой мере они оказали влияние
на генофонд казаков.
МАТЕРИАЛЫ И МЕТОДЫ
Сбор материала проходил в исконно казачьих
станицах и хуторах (Боковский рн: Боковская,
Каргинская; Шолоховский рн: Базковская, Дуб
ровский, Колундаевский, Терновской, Вешен
ская; Верхнедонской рн: Казанская) в ходе экс
педиции, проведенной лабораторией популяци
онной генетики ФГБНУ МГНЦ в 2008 г. при
ГЕНЕТИКА том 52 № 5 2016
ПРОГРАММА HAPLOMATCH ДЛЯ СРАВНЕНИЯ STRГАПЛОТИПОВ 597
поддержке международного проекта The Geno
graphic и гранта РФФИ. Суммарно выборка со
ставила 131 человек. Для каждого обследуемого
составлялась родословная на глубину трех поко
лений и в выборку включались только нерод
ственные между собой индивиды, все предки ко
торых до третьего поколения происходили из об
следуемого региона и принадлежали к донскому
казачеству. Обследование проведено на основе
письменного информированного согласия и под
контролем Этической комиссии ФГБНУ МГНЦ.
Материалом для исследования послужила ге
номная ДНК, выделенная из лимфоцитов цель
ной венозной крови набором для выделения ДНК
Diatom DNA Prep (ООО Научнопроизводствен
ная фирма “Генлаб”). Фрагментный анализ 17 ло
кусов STRмаркеров Yхромосомы проведен с ис
пользованием набора Yfiler PCR Amplification
Kit (Applied Biosystems) на секвенаторе ABI 3130xl
(Applied Biosystems) и последующей обработкой в
программе Gene Mapper. Исследованы следую
щие локусы:
DYS19
,
DYS385 a
,
DYS3 85 b
,
DYS389I
,
DYS389 II
,
DYS390
,
DYS391
,
DYS392
,
DYS393
,
DYS437
,
DYS4 38
,
DYS4 39
,
DYS4 48
,
DYS456
,
DYS458
,
DYS635
,
GATAH4
.
При сравнении с донскими казаками исполь
зовались данные о генофонде популяций, кото
рые по историческим данным имели или могли
иметь отношение к становлению донских каза
ков. Из соображений сопоставимости данных в
анализ брались только народы, по которым име
лись характеристики разнообразия панели из тех
же 17 STRмаркеров, которые были изучены у ка
заков Дона. Сравнение проводилось с 15 популя
циями: абхазами, азовскими греками, армянами,
восточными украинцами, грузинами, западными
украинцами, казанскими татарами, калмыками,
литовцами, ногайцами, северными русскими,
черкесами, русскими из Центральных регионов
России, шапсугами, южными русскими. Данные
по полиморфизму STRлокусов Yхромосомы в
этих популяциях были взяты из работ [8, 15] и не
опубликованных данных нашего коллектива.
Вероятность ошибки (
p
value) при сравнении
указанных популяций рассчитывалась в програм
ме Statistica 6.0.
Гаплотипическое разнообразие и
R
ST
расстоя
ния между популяциями рассчитаны в программе
Arlequin 3.5 [7]. Для расчета
R
ST
расстояний ис
пользуется формула
где
a
xi
– количество микросателлитных повторов
в
i
том локусе [16]. Для расчета гаплотипического
разнообразия используется формула
ST
2
1
(),
L
xi yi
i
Raa
=
=−
где
p
i
– это частота
i
го гаплотипа в популяции
[17].
Картографирование
R
ST
расстояний проведено
в разрабатываемой нашим коллективом програм
ме GeneGeo [8, 18]. Полученные значения
R
ST
расстояний были картографированы методом
средневзвешенной интерполяции при использо
вании следующих параметров: степень весовой
функции бралась равной двум, радиус влияния –
10 тыс. км [8, 18]. В результате была получена
цифровая модель, в которой для каждой точки
карты (узла равномерной сетки) указано интер
полированное значение
R
ST
, прогнозируемое для
населения соответствующей территории. Затем
цифровая модель была визуализирована в шкале
интервалов (разные значения
R
ST
показаны раз
ными градациями серого) и совмещена с карто
графической основой. Весь остальной анализ
проведен в программе Haplomatch.
РЕЗУЛЬТАТЫ
Разработана компьютерная программа Haplo
match, позволяющая проводить поиск совпадаю
щих STRгаплотипов. Программа написана на
языке Pascal, в среде объектноориентированного
программирования Delphi. Алгоритм определе
ния степени сходства гаплотипов основан на сум
ме различий по всем изученным микросателлит
ным локусам, т.е. по числу произошедших мута
ций, разделяющих эти два гаплотипа. А именно, в
базе данных и у отдельного исследуемого гапло
типа программа находит одинаковые локусы,
значения аллелей (число STRповторов) в этих
локусах вычитаются по модулю, и эти разности
суммируются по всем локусам. Если сумма мень
ше или равна заданному максимальному шагу, то
программа считает это совпадение весомым и за
носит в таблицу результатов. Поясним вышеска
занное примером: если у исследуемого нами об
разца и
i
го образца из базы есть отличие по локу
су № 1 в один шаг и локусу № 4 в два шага, а по
остальным локусам между ними нет отличий, то
сумма мутационных шагов между ними равна
трем (отличие в один шаг из первого локуса плюс
отличие в два шага из четвертого локуса).
Программа Haplomatch может функциониро
вать в двух режимах: сравнение индивидов и срав
нение популяций.
В
режиме сравнения индивидов
программа ана
лизирует только один гаплотип, находя в базе
данных гаплотипы, совпадающие с ним полно
стью или частично. База данных является подгру
жаемой, поэтому пользователь может сам сфор
мировать массив данных для поиска. Программа
производит поиск как гаплотипов, полностью
2
1,
i
HD p
598
ГЕНЕТИКА том 52 № 5 2016
ЧУХРЯЕВА и др.
совпадающих с заданным (0 отличий), так и ча
стично совпадающих гаплотипов (отличающихся
на 1, 2 и далее мутационных шагов) с указанием
популяций, из которых они происходят. Этот ре
жим оптимален при определении вероятного ре
гиона происхождения человека, что может ис
пользоваться в криминалистической практике и в
молекулярной генеалогии, а в ряде случаев [9] и в
популяционной генетике.
В режиме сравнения популяций
программа вы
полняет более сложную задачу сравнения с базой
данных не отдельного гаплотипа, а целой выбор
ки гаплотипов (представляющих интересующую
нас популяцию, называемую далее
реперной
). Для
этого программа вычисляет генетические рассто
яния (определяемые как доля сходных гаплоти
пов) между реперной популяцией и всеми прочи
ми популяциями. Поэтому этот режим оптимален
для популяционногенетических исследований.
Программа последовательно проводит сравнение
каждого гаплотипа, представленного в реперной
популяции, с гаплотипами из популяций в под
гружаемой базе данных и потом рассчитывает
суммарные характеристики для всей реперной
выборки в целом (т.е. находит количество совпа
дений между гаплотипами из исследуемой попу
ляции и из каждой популяции базы данных). Как
и в режиме сравнения индивидов, в режиме срав
нения популяций доля общих гаплотипов между
сравниваемыми популяциями определяется с
разбивкой по 0, 1, 2 и далее мутационных шагов.
Выбор числа мутационных шагов, в пределах
которого гаплотипы считаются совпадающими,
определяется целями исследования. Если изуча
ются древние исторические события, то инфор
мативными оказываются и отличия в 1, 2 и 3 му
тационных шага. Но для исследования популяци
онных событий последнего тысячелетия можно
рекомендовать использовать полностью совпада
ющие гаплотипы или отличающиеся не более чем
на один шаг. Эта рекомендация основана на том,
что, согласно “генеалогической” скорости мути
рования, при изучении 17 STRмаркеров разница
в 1 мутационный шаг между двумя индивидами
означает, что их общий предок жил около 500 лет
назад (если использовать “эволюционную” ско
рость, то 1500 лет назад).
При работе, связанной со сравнением целых
популяций, необходимо учитывать неравенство
объемов выборок. Это вызвано большим разно
образием гаплотипов в нерекомбинирующих ге
нетических системах (мтДНК и Yхромосоме),
изза которого спектр обнаруженных гаплотипов
зависит от объема выборки, и насыщение не до
стигается даже при многосотенных выборках [19].
В результате в популяции, представленной боль
шей выборкой, может быть обнаружено большее
число совпадений, и генетическое сходство с этой
популяцией будет завышено. Чтобы избежать
этого, число совпадений должно быть нормиро
вано на объемы выборок. Поэтому среди ряда по
казателей, вычисляемых программой, для оценки
родства генофондов наиболее информативным
является показатель “Отношение точных совпа
дений к размеру выборки”.
Для работы программы Haplomatch требуется
загрузить в нее два исходных файла: базу данных,
содержащую гаплотипы, с которыми будет осу
ществляться сравнение, и файл с анализируемым
гаплотипом (или выборкой гаплотипов). Для
удобства пользователя программа работает с фай
лами в форматах “.xls” и “.csv”. При наличии
ошибок в базе или исходном файле программа
обратит на это внимание пользователя, выделив
их красным цветом.
После загрузки данных необходимо задать
число мутаций, в пределах которого гаплотипы
обрабатываются как сходные. После этого можно
начинать операцию сравнения всех гаплотипов.
По окончании расчетов на экране отобразятся все
гаплотипы из базы данных, отличающиеся от
анализируемого гаплотипа на число мутацион
ных шагов, меньшее или равное заданному поль
зователем. Анализ быстродействия показал высо
кую скорость при обработке одиночных анализи
руемых гаплотипов и удовлетворительную – при
анализе выборок гаплотипов. Объем базы данных
не является фактором, лимитирующим быстро
действие. Что же касается объема файла с анали
зируемыми гаплотипами, то скорость оставалась
оптимальной при одновременной обработке до 50
образцов. При использовании большего количе
ства скорость работы программы значительно
снижается, поэтому крупные выборки, превыша
ющие 50 образцов, рекомендуется загружать в
программу частями и затем суммировать число
найденных совпадений.
Программа HaploMatch размещена в свобод
ном доступе на нашем сайте http://genofond.in
vint.net/genofond.ru в разделе “Базы данных/БД
по Yхромосоме
. Кроме собственно исполняе
мого модуля на сайте представлены примеры за
гружаемых и выгружаемых файлов, инструкция
по работе с программой и контактная информа
ция разработчиков.
Генофонд донских казаков
по STRмаркерам Yхромосомы
Проведено генотипирование 131 образца дон
ских казаков по панели из 17 высокополиморф
ных STRмаркеров Yхромосомы. Данные по раз
нообразию Yхромосомы в казачьих популяциях
(как и вообще данные о генофонде казаков) полу
чены впервые. Из 131 проанализированного гап
лотипа 123 оказались уникальными. Уровень гап
ГЕНЕТИКА том 52 № 5 2016
ПРОГРАММА HAPLOMATCH ДЛЯ СРАВНЕНИЯ STRГАПЛОТИПОВ 599
лотипического разнообразия составил 1.0000
±
±
0.0009, столь высокое разнообразие характерно
для многих европейских популяций. Полученные
экспериментальные данные о генотипах предста
вителей верхнедонских казаков представлены в
Приложении 1 (размещено на сайте http://geno
fond.invint.net/genofond.ru).
Нами были подсчитаны
R
ST
дистанции между
казаками и окружающими популяциями (табл. 1).
На основе полученных значений построена карта
генетических расстояний от популяции донских
казаков до остальных рассматриваемых популя
ций Восточной Европы и Кавказа (рисунок).
Карта демонстрирует, что популяции, генетиче
ски сходные с казаками (светлосерые тона), рас
положены в южных областях России и в Украине,
тогда как степные тюркоязычные популяции де
монстрируют умеренные отличия (темносерый
цвет), а кавказские популяции – выраженные от
личия от генофонда казаков (черный цвет). Полу
ченная картина свидетельствует о близости гено
фонда донского казачества к генофонду восточ
ных славян в целом.
Далее генофонд донских казаков анализиро
вался в программе Haplomatch. Анализ в режиме
сравнения популяций позволил впервые полу
чить четкие данные о паттерне сходства генофон
да казаков и соседних популяций (табл. 2). Обна
ружено, что генофонд казаков несет преобладаю
щее влияние восточнославянских популяций
(южных и русских из Центральных регионов Рос
сии, восточных украинских популяций). Из степ
ных тюркоязычных популяций ощутимый вклад в
генофонд казаков Дона прослеживается только от
ногайцев. Вклад кавказских популяций в гено
фонд донских казаков не обнаружен.
Результаты анализа в программе Haplomatch
в режиме сравнения индивидов
Для проверки эффективности работы про
граммы в режиме индивидов мы проанализирова
ли два произвольно выбранных индивида из вы
борки верхнедонских казаков. Один из выбран
ных индивидов в соответствии с предсказанием
онлайн предиктора В. Урасина (http://predic
tor.ydna.ru) принадлежит к гаплогруппе IP37 (об
разец № 19, см. Приложение, сайт указан выше);
второй к RM198(xM458) (образец № 50, см. При
ложение). Для обоих образцов найдены точные
совпадения: 4 совпадения для носителя гаплогруп
пы IP37 с восточными украинцами и 1 с западным
украинцем, а для носителя RM198(xM458) –
3 совпадения с русскими из Центральных регио
нов России и 2 с южными русскими. Для тех же
образцов донских казаков мы попытались опре
делить регион происхождения с помощью онлайн
ресурса YHRD [11]. Точные совпадения были
найдены, однако по панели Yfiler, состоящей из
17 локусов, в YHRD становится возможным опре
делить происхождение образца географически
очень приблизительно – “Восточная Европа”.
ОБСУЖДЕНИЕ
Анализ происхождения генофонда казаков
в программе Haplomatch
в режиме сравнения популяций
При интерпретации полученных результатов
сравнения гаплотипов верхнедонских казаков с
генофондами окружающих популяций мы опира
лись на показатель “Отношение точных совпаде
ний к размеру популяций”, поскольку формиро
вание донского казачества является недавним по
историческим меркам событием. Хотя следует от
метить, что в целом результаты по всем четырем
градациям, по которым нами проводился анализ
(0, 1, 2, 3 мутационных шага), совпадают.
В результате анализа явно выявляется наи
большее сходство донских казаков с восточносла
вянскими популяциями. Наибольшая доля точных
совпадений с гаплотипами казаков обнаружена в
южнорусских популяциях (8%). Несколько мень
Та бл ица 1.
R
ST
дистанции от донских казаков до анали
зируемых популяций
Популяция
R
ST
Абхазы 0.213
Армяне 0.198
Азовские греки 0.198
Черкесы 0.147
Гр у з и н ы 0 . 2 6 7
Калмыки 0.150
Литовцы 0.076
Ногайцы 0.005
“Центральные русские” 0.002
Северные русские 0.019
Южные русские 0.000
Шапсуги 0.311
Казанские татары 0.065
Восточные украинцы 0.026
Западные украинцы 0.027
600
ГЕНЕТИКА том 52 № 5 2016
ЧУХРЯЕВА и др.
Карта генетических расстояний от донских казаков до окружающих популяций.
Карта показывает степень генетиче
ского сходства населения разных территорий с изучаемой популяцией казаков. Картографированы значения
R
ST
рас
стояний между популяцией донских казаков и окружающими популяциями. Темные тона означают максимальные
расстояния (наименьшее сходство), светлосерые тона – наоборот, минимальные расстояния (наибольшее сходство).
Популяции, от которых рассчитаны
R
ST
расстояния (перечислены в табл. 2), обозначены черными кружками, локали
зация изученной популяции казаков показана на карте звездочкой.
ObObOb
PechoraPechoraPechora
WWW
HHH
III
TTT
EEE
SSS
EEE
AAA
Onega LakeOnega LakeOnega Lake
Ladoga LakeLadoga LakeLadoga Lake
BBB
AAA
LLL
TTT
III
CCC
SSS
EEE
AAA
Northern DvinaNorthern DvinaNorthern Dvina
VyatkaVyatkaVyatka
KamaKamaKama
UralUralUral
VolgaVolgaVolga
DonDonDon
CCC
AAA
SSS
PPP
III
AAA
NNN
SSS
EEE
AAA
BBB
LLL
AAA
CCC
KKK
SSS
EEE
AAA
DanubeDanubeDanube
DnestrDnestrDnestr
BELARUSBELARUSBELARUS
UKRAINEUKRAINEUKRAINE KAZAKHSTANKAZAKHSTANKAZAKHSTAN
TURKEYTURKEYTURKEY
RUSSIARUSSIARUSSIA
ROMANIAROMANIAROMANIA
BULGARIABULGARIABULGARIA
BAKUBAKUBAKU
YEREVANYEREVANYEREVAN
TBILISITBILISITBILISI
ANKARAANKARAANKARA
SOFIASOFIASOFIA
BUCHARESTBUCHARESTBUCHAREST
CHISINAUCHISINAUCHISINAU
KIEVKIEVKIEV
MINSKMINSKMINSK
WARSAWWARSAWWARSAW
VILNIUSVILNIUSVILNIUS
RIGARIGARIGA
TALLINNTALLINNTALLINN
HELSINKIHELSINKIHELSINKI
STOCKHOLMSTOCKHOLMSTOCKHOLM
DneprDneprDnepr
VolgogradVolgogradVolgograd
BelgorodBelgorodBelgorod
VoronezhVoronezhVoronezh
KurskKurskKursk
LipetskLipetskLipetsk SaratovSaratovSaratov
TambovTambovTambov
PenzaPenzaPenza
OryolOryolOryol
BryanskBryanskBryansk TulaTulaTula
RyazanRyazanRyazan
OkaOkaOka
UlyanovskUlyanovskUlyanovsk
SamaraSamaraSamara
KazanKazanKazan
Nizh. NovgorodNizh. NovgorodNizh. Novgorod
VladimirVladimirVladimir
KalugaKalugaKaluga
MOSCOWMOSCOWMOSCOW
IvanovoIvanovoIvanovo
KostromaKostromaKostroma
VologdaVologdaVologda
YaroslavlYaroslavlYaroslavl
TverTverTver
SmolenskSmolenskSmolensk
PskovPskovPskov
Vel. NovgorodVel. NovgorodVel. Novgorod
St-PetersburgSt-PetersburgSt-Petersburg
PetrozavodskPetrozavodskPetrozavodsk
ArkhangelslkArkhangelslkArkhangelslk
SyktyvkarSyktyvkarSyktyvkar
KirovKirovKirov
IzhevskIzhevskIzhevsk
PermPermPerm
UfaUfaUfa
OrenburgOrenburgOrenburg
300 km1500
0.01 0.03 0.04 0.05 0.09 0.13 0.17 0.3
66
°
60
°
54
°
48
°
42
°
32
°
40
°
48
°
ГЕНЕТИКА том 52 № 5 2016
ПРОГРАММА HAPLOMATCH ДЛЯ СРАВНЕНИЯ STRГАПЛОТИПОВ 601
Та бли ц а 2.
Показатели сходства генофонда донских казаков с окружающими популяциями, рассчитанные программой Haplomatch в режиме сравне
ния популяций
Название популяции
N
Число
точных
совпадений
Число
различий
в один шаг
Число
различий
в два шага
Число
различий
в три шага
Отношение
точных
совпадений к
N
Отношение
совпадений
с разницей
в один шаг к
N
Отношение
совпадений
с разницей
в два шага к
N
Отношение
совпадений
с разницей
в три шага к
N
Южные русские 115 9 93 317 605 0.08
±
0.03 0.81 2.76 5.26
Восточные украинцы 397 22 136 485 1129 0.06
±
0.01 0.34 1.22 2.84
“Центральные русские” 442 28 186 702 1662 0.06
±
0.01 0.42 0.58 3.76
Ногайцы 57 3 36 97 221 0.05
±
0.03 0.63 1.70 3.88
Литовцы 298 14 121 423 996 0.05
±
0.01 0.41 1.42 3.34
Западные украинцы 586 22 226 813 1763 0.04
±
0.01 0.39 1.39 3.01
Казанские татары 138 2 33 146 343 0.01
±
0.01 0.24 1.06 2.49
Северные русские 121 4 64 188 352 0.03
±
0.02 0.53 1.55 2.9
Черкесы 129 1 5 35 135 0.01
±
0.01 0.04 0.27 1.05
Калмыки 156 1 6 21 52 0.01
±
0.01 0.04 0.13 0.33
Азовские греки 95 0 7 48 100 0 0.07 0.51 1.05
Грузины 169 0 2 13 47 0 0.01 0.08 0.28
Абхазы 51 0 1 9 32 0 0.02 0.18 0.63
Армяне 168 0 0 2 11 0 0.00 0.01 0.07
Шапсуги 97 0 0 5 10 0 0.00 0.05 0.10
602
ГЕНЕТИКА том 52 № 5 2016
ЧУХРЯЕВА и др.
шее (однако отличие недостоверно) генетическое
сходство донские казаки показывают с русскими
Центральной России (показатель совпадений ра
вен 6%). Подобные результаты хорошо согласу
ются с историческими сведениями об истории за
селения донских степей: наиболее мощный поток
мигрантов шел из южных губерний России (со
временные Воронежская, Курская, Орловская,
Белгородская области). Также значимые мигра
ции в казачество происходили и из Центральной
России – например, в летописях зафиксированы
массовые миграции из Рязани на Верхний Дон.
Полных совпадений гаплотипов казаков с север
ными русскими популяциями обнаружено гораздо
меньше – это свидетельствует о том, что русское
население удаленных от донских земель террито
рий слабо принимало участие в формировании ка
зачества на Дону. Кроме южных русских и рус
ских Центральных регионов России ощутимый
вклад в генофонд казачества внесли и украинцы:
они являются вторым по значимости компонен
том, участвовавшим в формировании генофонда
донского казачества (табл. 2). Достаточно высо
кий показатель сходства с казачьим населением
показали и литовцы – 5%. Мы полагаем, что
сходство с литовцами скорее всего объясняется
их долгим существованием в одном государстве с
украинцами (Великое княжество Литовское,
позднее Речь Посполитая), непосредственные же
массовые миграции из Литвы на Дон представля
ются маловероятными.
Таким образом, на уровне тенденции можно
отметить, что генофонд казаков проявляет боль
ше сходства с южными русскими, чем с остальны
ми четырьмя наиболее сходными популяциями
(восточными украинцами, русскими Центральных
регионов России, ногайцами, литовцами), но эти
различия не достигают порога достоверности, и все
перечисленные популяции в целом высокосходны с
генофондом верхнедонского казачества.
Что касается степных народов, то все они (за
исключением ногайцев) показали невысокое ге
нетическое сходство с донскими казаками. Среди
казачьих станиц на Дону присутствовали и татар
ские станицы, причем термин “донские татары” –
обобщающий и подразумевает не только этниче
ских татар. Консолидация в этой локальной груп
пе происходила на основе ислама, близости обы
чаев, языка, а также принадлежности к казачьему
сословию. Предположительно в этой группе пре
обладали ногайцы. Таким образом, благодаря
столь активным историческим взаимоотношени
ям казаков Дона с ногайцами мы и наблюдаем се
годня 5% совпадающих гаплотипов между их ге
нофондами. Генетическое же сходство донских
казаков с татарами в современном понимании
этого этнонима невелико: показатель сходства с
казанскими татарами равен всего 1%. Вероятно,
это означает, что в группу “донские татары” дей
ствительно преимущественно входили ногайцы, а
не этнические татары. Калмыки также не оказали
на генофонд верхнедонских казаков большого
влияния: наш анализ показал всего 1% общих га
плотипов с ними. И хотя в Войске Донском суще
ствовали отдельные группы казаковкалмыков,
эти сообщества, по всей видимости, были доста
точно замкнуты, и поэтому скольконибудь зна
чимый их генетический вклад в основную группу
казаков не обнаруживается.
Народы Кавказа все оказались генетически да
леки от верхнедонских казаков – за исключением
черкесов, ни в одной из кавказских популяций
вообще не обнаружено полных совпадений гап
лотипов с казачьими. Ненулевое (1%) сходство с
черкесами может быть сформировано и общим
потоком генов между Восточной Европой и Кав
казом, не обязательно связанным с прямыми ми
грациями между сравниваемыми популяциями.
Отметим, что результаты, полученные при
сравнении спектра гаплотипов в новой програм
ме Haplomatch (табл. 2), хорошо согласуются с за
ключениями, сделанными на основании тради
ционного метода
R
ST
дистанций (рисунок).
Таким образом, генофонд казаков Верхнего
Дона (по данным о STRмаркерах Yхромосомы)
сформировался преимущественно за счет восточ
нославянского компонента, из степных популя
ций заметное влияние оказали только ногайцы, а
влияние народов Кавказа не прослеживается. Эти
генетические результаты находятся в соответ
ствии с миграционной теорией происхождения
казачества, хотя не отрицают и возможность
ограниченного влияния степных популяций в ли
це ногайцев.
Анализ работы программы Haplomatch
в режиме сравнения индивидов
Для всех случайно отобранных образцов дон
ских казаков, с использованием программы Hap
lomatch в режиме индивидов, оказалось возмож
ным достаточно точно определить место вероят
ного происхождения прямого предка по мужской
линии, что может представлять интерес для гене
тикогенеалогических исследований, а также при
определении вероятного этногеографического
происхождения при решении криминалистиче
ских задач [20].
В онлайн ресурсе YHRD [11], как уже говори
лось выше, точные совпадения по 17 STRмарке
рам были найдены для тех же двух образцов, но
происхождение образца географически описыва
ГЕНЕТИКА том 52 № 5 2016
ПРОГРАММА HAPLOMATCH ДЛЯ СРАВНЕНИЯ STRГАПЛОТИПОВ 603
ется в нем только приблизительно. К тому же в
YHRD данные по обнаруженным совпадениям
невозможно получить в виде таблицы, где были
бы указаны конкретные регионы происхождения
образцов. Таким образом, единственный сходный
по задачам ресурс YHRD не может рассматри
ваться в качестве замены разработанной нами
программы. Например, Haplomatch позволяет
пользователю подгружать любую базу данных, то
гда как YHRD работает только со встроенной, за
крытой для пользователей базой данных. Для
криминалистики очень важна возможность ис
пользования в Haplomatch своей базы данных –
для нужд отечественных экспертов актуально ис
пользование баз данных, в которых широко пред
ставлены различные субъекты РФ и страны быв
шего СССР, тогда как в YHRD на момент подго
товки этой статьи по панели Yfiler для России
имеется 1729 гаплотипов, для Украины только
154, а Грузия и Армения вообще не представлены.
Таким образом, использование программы
Haplomatch в режиме сравнения индивидов пока
зало ее информативность и для определения ре
гиона возможного происхождения индивида,
превышающую информативность единственного
близкого по задачам ресурса www.yhrd.org. Поэто
му программа Haplomatch может эффективно ис
пользоваться как в популяционногенетических
исследованиях генофондов (что показано нами
на примере исследования генофонда донских ка
заков), так и при решении практических задач су
дебномедицинской экспертизы, а также в инте
ресах генетической генеалогии.
Работа выполнена при финансовой поддержке
Российского научного фонда, грант 141400827.
STRгаплотипы ногайцев получены при финан
совой поддержке гранта РФФИ 140631331.
СПИСОК ЛИТЕРАТУРЫ
1.
Gusmao L., SanchezDiz P., Calafell F. et al.
Mutation
rates at Y chromosome specific microsatellites // Hum.
Mutat. 2005. V. 26. P. 520–528. DOI: 10.1002/hu
mu.20254
2.
Ge J., Budowle B., Aranda X.G. et al.
Mutation rates at
Y chromosome short tandem repeats in Texas popula
tions // Forensic Sci. Int. Genet. 2009. V. 3. P. 179–
184. DOI: 10.1016/j.fsigen.2009.01.007
3.
SanchezDiz P., Alves C., Carvalho E. et al.
Popula tio n
and segregation data on 17 YSTRs: results of a GEP
ISFG collaborative study // Int. J. Legal. Med. 2008.
V. 122. P. 529–533. DOI: 10.1007/s004140080265z
4.
Zhivotovsky L.A., Underhill P.A ., Cinni oglu C . et al.
The
effective mutation rate at Y chromosome short tandem
repeats, with application to human populationdiver
gence time // Am. J. Hum. Genet. 2004. V. 74. P. 50–
61.
5.
Bandelt H.J., Forster P., Sykes B.C. et al.
Mitochondrial
portraits of human populations using median networks
//
Genetics. 1995. V. 141. P. 743–753.
6.
Myres N.M., Rootsi S., Lin A.A. et al.
A major Ychro
mosome haplogroup R1b Holocene era founder effect
in Central and Western Europe // Europ. J. Human
Genet. 2011. V. 19. № 1. P. 95–101. DOI: 10.1038/
ejhg.2010
7.
Schneider S., Roessli D., Excoffier L.
Arlequin vers.
2.000: a software for population genetics data analysis.
Genetics and Biometry Laboratory, Department of An
thropology and Ecology. Univ. of Geneva. Geneva,
Switzerland, 2000.
8.
Balanovsky O., Dibirova K., Dybo A. et al.
Parallel evo
lution of genes and languages in the Caucasus region //
Mol. Biol. Evol. 2011. V. 28(10). P. 2905–2920. DOI:
10.1093/molbev/msr126
9.
Zalloua P.A., Xue Y., Khalife J. et al.
Ychromosomal
diversity in Lebanon is structured by recent historical
events // Amer. J. Human Genet. 2008. V. 82. P. 873–
882. DOI: 10.1016/j.ajhg.2008.01.020
10.
Zalloua P.A., Platt D.E., El Sibai M. et al.
Identifying
genetic traces of historical expansions: Phoenician
footprints in the Mediterranean // Amer. J. Human
Genet. 2008. V. 83. P. 633–642. DOI: 10.1016/j.ajhg.
2008.10.012
11.
Willuweit S., Roewer L
. Y chromosome haplotype refer
ence database (YHRD): update // Forensic Sci. Int.
Genet. 2015. V. 15. P. 43–48. DOI: 10.1016/j.fsi
gen.2014.11.024
12.
Астапенко М.П.
История донского казачества в
повествованиях и рассказах. В 5 т. Ростовн/Д:
Терра, 2000. Т. 1. 700 с.
13.
Волков Ю.Г.
Донские казаки в прошлом и настоя
щем. Ростовн/Д: ГинГо, 1998. 540 с.
14.
Проценко Б.Н.
Оппозиция “свой–чужой” и мента
литет донских казаков // История и культура наро
дов степного Предкавказья и Северного Кавказа:
проблемы межэтнических отношений: Сб. научн.
статей. РостовнаДону, 1999. С. 211–221.
15.
Roewer L., Willuweit S., Kruger C. et al.
Analysis of Y
chromosome STR haplotypes in the European part of
Russia reveals high diversities but nonsignificant ge
netic distances between populations // Int. J. Legal
Med. 2008. V. 122(3). P. 219–223. DOI: 10.1007/
s0041400702222
16.
Slatkin M.
A measure of population subdivision based
on microsatellite allele frequencies // Genetics. 1995.
V. 139(1). P. 457–462.
17.
Nei M.
Molecular Evolutionary Genetics. N.Y.: Co
lumbia Univ. Press, 1987. 512 p.
18.
Кошель С.М.
Геоинформационные технологии в ге
ногеографии // Современная географическая кар
тография / Под ред. Лурье И.К. и Кравцовой В.И.
Москва: Дата+, 2012. С. 158–166.
19.
Pfeiffer H., Brinkmann B., Huhne J. et al.
Expanding the
forensic German mitochondrial DNA control region
database: genetic diversity as a function of sample size
and microgeography // Int. J. Legal Med. 1999.
V. 112(5). P. 291–298.
20.
Тету шкин Е. Я
. Генетическая генеалогия: история и
методология // Генетика. 2011. Т. 47. № 5. С. 581–
596.
604
ГЕНЕТИКА том 52 № 5 2016
ЧУХРЯЕВА и др.
The Haplomatch Program for Comparing YChromosome STRHaplotypes
and Its Application to the Analysis of the Origin of Don Cossacks
M. I. Chukhryaeva
a, b
, I. O. Ivanov
b
, S. A. Frolova
b
, S. M. Koshel
c
, O. M. Utevska
d
,
R. A. Skhalyakho
a, b
, A. T. Agdzhoyan
a, b
, Yu. V. Bogunov
a
, E. V. Balanovska
b
, and O. P. Balanovsky
a, b
a
Vavilov Institute of General Genetics, Russian Academy of Sciences, Moscow, 119991 Russia
email: m.chukhryaeva@yandex.ru
b
Research Centre for Medical Genetics, Moscow, 115478 Russia
c
Department of Cartography and Geoinformatics, Lomonosov Moscow State University, Moscow, 119991 Russia
d
Department of Genetics and Cytology, Kazarin Kharkiv National University, Kharkiv, 61022 Ukraine
STR haplotypes of the Y chromosome are widely used as effective genetic markers in studies of human pop
ulations and in forensic DNA analysis. The task often arises to compare the spectrum of haplotypes in indi
viduals or entire populations. Performing this task manually is too laborious and thus unrealistic. We propose
an algorithm for counting similarity between STR haplotypes. This algorithm is suitable for massive analyses
of samples. It is implemented in the computer program Haplomatch, which makes it possible to find haplo
types that differ from the target haplotype by 0, 1, 2, 3, or more mutational steps. The program may operate
in two modes: comparison of individuals and comparison of populations. Flexibility of the program (the pos
sibility of using any external database), its usability (MS Excel spreadsheets are used), and the capability of
being applied to other chromosomes and other species could make this software a new useful tool in popula
tion genetics and forensic and genealogical studies. The Haplomatch software is freely available on our web
site www.genofond.ru. The program is applied to studying the gene pool of Cossacks. Experimental analysis
of Ychromosomal diversity in a representative set (
N
= 131) of Upper Don Cossacks is performed. Analysis
of the STR haplotypes detects genetic proximity of Cossacks to East Slavic populations (in particular, to
Southern and Central Russians, as well as to Ukrainians), which confirms the hypothesis of the origin of the
Cossacks mainly due to immigration from Russia and Ukraine. Also, a small genetic influence of Turkic
speaking Nogais is found, probably caused by their occurrence in the Don Voisko as part of the Tatar layer.
No similarities between haplotype spectra of Cossacks and Caucasus populations are found. This case study
demonstrates the effectiveness of the Haplomatch software in analyzing large sets of STR haplotypes.
Keywords
: Haplomatch, Y chromosome, STR markers, gene geography, forensic investigation, Don Cos
sacks.
... (Fluxus Technology Ltd., http://www.fluxus-engineering.com) and Network Publisher (Fluxus Engineering, Clare, United Kingdom) on the basis of the reduced median algorithm. Networks were constructed using the data from [44,45]. Search for matching haplotypes was carried out in the program Haplomatch [44]. ...
... Networks were constructed using the data from [44,45]. Search for matching haplotypes was carried out in the program Haplomatch [44]. ...
... Another feature of the gene pool of Sitskari, which is the presence of haplogroup J-P58 (6.7%) atypical of the Russian population, is a relatively recent inclusion of Sitskari migrants from the south in the gene pool: two haplotypes J-P58 found among all of the studied samples of Yaroslavl oblast are the same (Sitskari and Russian), while the third (Sitskari) differs from them by only one mutational step. Search for similar haplotypes using the program Haplomatch [44] for all the data set available in the literature revealed matching with distinction of three mutational steps with representatives of Azeri, Iranians, and Italians. ...
Article
The Upper Volga region was an area of contacts of Finno-Ugric, Slavic, and Scandinavian speaking populations in the 8th–10th centuries AD. However, their role in the formation of the contemporary gene pool of the Russian population of the region is largely unknown. To answer this question, we studied four populations of Yaroslavl oblast (N = 132) by a wide panel of STR and SNP markers of the Y-chromosome. Two of the studied populations appear to be genetically similar: the indigenous Russian population of Yaroslavl oblast and population of Katskari are characterized by the same major haplogroup, R-M198 (xM458). Haplogroup R-M458 composes more than half of Sitskari’s gene pool. The major haplogroup in the gene pool of the population of the ancient town of Mologa is N-M178. Subtyping N-M178 by newest “genomeera” Y-SNP markers showed different pathways of entering this haplogroup into the gene pools of Yaroslavl Volga region populations. The majority of Russian populations have subvariant N3a3-CTS10760; the regular sample of Yaroslavl oblast is equally represented by subvariants N3a3-CTS10760 and N3a4-Z1936, while subvariant N3a4-Z1936 predominates in the gene pool of population of Mologa. This N3a4-Z1936 haplogroup is common among the population of the north of Eastern Europe and the Volga-Ural region. The obtained results indicate preservation of the Finno-Ugric component in the gene pool of population of Mologa and a contribution of Slavic colonization in the formation of the gene pool of the Yaroslavl Volga region populations and make it possible to hypothesize the genetic contribution of the “downstream” (Rostov- Suzdal) rather than “upstream” (Novgorod) Slavic migration wave.
... Five mutations -considering 15 Y-STRs and mutation rate 0.0021 per locus per generation -might occur within roughly two thousand years, which covers the time interval important for our analysis. The search for related haplotypes was performed in a database of 4495 Y-STR Asian haplotypes using the Haplomatch software 38 . This methodology is similar to that applied by Balaresque and colleagues 30 in their search for Asian primary descent clusters. ...
... software. The search for related haplotypes was conducted using the Haplomatch software 38 . Phylogenetic analysis was conducted using the Reduced-Median method 61 in Network 5 software 62 (http://www. ...
Article
Full-text available
We have analyzed Y-chromosomal variation in populations from Transoxiana, a historical region covering the southwestern part of Central Asia. We studied 780 samples from 10 regional populations of Kazakhs, Uzbeks, Turkmens, Dungans, and Karakalpaks using 35 SNP and 17 STR markers. Analysis of haplogroup frequencies using multidimensional scaling and principal component plots, supported by an analysis of molecular variance, showed that the geographic landscape of Transoxiana, despite its distinctiveness and diversity (deserts, fertile river basins, foothills and plains) had no strong influence on the genetic landscape. The main factor structuring the gene pool was the mode of subsistence: settled agriculture or nomadic pastoralism. Investigation of STR-based clusters of haplotypes and their ages revealed that cultural and demic expansions of Transoxiana were not closely connected with each other. The Arab cultural expansion introduced Islam to the region but did not leave a significant mark on the pool of paternal lineages. The Mongol expansion, in contrast, had enormous demic success, but did not impact cultural elements like language and religion. The genealogy of Muslim missionaries within the settled agricultural communities of Transoxiana was based on spiritual succession passed from teacher to disciple. However, among Transoxianan nomads, spiritual and biological succession became merged.
... Potential matrilineal and patrilineal genetic continuity of the Pazyryk culture population was investigated based on already available archaeogenetic data for two individuals exhumed from the Ak-Alakha-1 Pazyryk burial site (Pilipenko et al. 2015). Y-STR haplotypes matching with or having only a few allelic variations from that observed in the two Scythians from Ak-Alakha-1 were compiled through searches at the Y-Chromosome STR Haplotype Reference Database (YHRD), Y-Search Utility of the Laboratory of Human Population Genetics, Research Centre of Medical Genetics, Moscow, and literature (Willuweit and Roewer 2015;Chukhryaeva et al. 2016). In cases where the Y-chromosomal SNP based haplogroup assignments were not available, the online 21-haplogroup version of the Whit Athey haplogroup assignment algorithm was used instead (Athey 2006). ...
Article
Full-text available
In this study, geographic and linguistic distributions of contemporary and ancient matches with the paternal and maternal lineages of two individuals exhumed from the exemplary Pazyryk culture burial site of Ak-Alakha-1 mound 1 were investigated. Using the shared paternal and maternal haplotypes observed in both ancient individuals, extensive database and literature searches were conducted revealing numerous full matches among contemporary Eurasians, majority of whom speak Altaic Languages. Despite the current focus on the two Pazyryk individuals, a rare glimpse into the ancient migrations was gained through the discovery of paternal and maternal haplotype matches across an immense geography that spans from Yakutia to Turkey. In addition to a vast array of archaeological findings in such Scythian “frozen graves” across Central Asia, accumulating archaeogenetic data are expected to shed light on the anthropology of these otherwise mysterious people.
... Genogeographical atlases of Y chromosome and mtDNA [33] help to identify the likely region of origin for the paternal (Fig. 4) and maternal lines. This is complemented by analysis of the STR haplotype using the Russian program Haplomatch [83]: the program specifies in which populations the identical and similar haplotypes were found. This information is retrieved from the database, most of the haplotypes of which refer to the samples of the Biobank of Northern Eurasia. ...
Article
Population biobanks are collections of thoroughly annotated biological material stored for many years. Population biobanks are a valuable resource for both basic science and applied research and are essential for extensive analysis of gene pools. Population biobanks make it possible to carry out fundamental studies of the genetic structure of populations, explore their genetic processes, and reconstruct their genetic history. The importance of biobanks for applied research is no less significant: they are essential for development of personalized medicine and genetic ecological monitoring of populations and are in high demand in forensic science. Establishment of an efficient and representative biobank requires strict observance of the principles of sample selection in populations, protocols of DNA extraction, quality control, and storage and documentation of biological materials. We reviewed regional biobanks and presented the organizational model of population biobank establishment based on the Biobank of Indigenous Population of Northern Eurasia created under supervision of E.V. Balanovska and O.P. Balanovsky. The results obtained using the biobanks in transdisciplinary research and prospective applications for the purposes of genogeography, genomic medicine, and forensic science are presented.
Article
Full-text available
The review surveys the development and the current state of genetic genealogy, a branch of science dealing with the history of individuals, families, and kins using molecular genetic methods. The main milestones in the development of genetic genealogy are established: the appearance of essential prerequisites (development of DNA genotyping and forensic techniques of evaluating biological kinship); the first publications on the topic in the late 1990s; the establishment of commercial companies, periodicals, and noncommercial organizations dealing with this subject. The theory and practical applications of dating individuals back to the most recent common ancestors on the basis of Y-chromosomal amd mitochondrial DNA data are briefly considered.
Article
Full-text available
We analyzed 40 single nucleotide polymorphism and 19 short tandem repeat Y-chromosomal markers in a large sample of 1,525 indigenous individuals from 14 populations in the Caucasus and 254 additional individuals representing potential source populations. We also employed a lexicostatistical approach to reconstruct the history of the languages of the North Caucasian family spoken by the Caucasus populations. We found a different major haplogroup to be prevalent in each of four sets of populations that occupy distinct geographic regions and belong to different linguistic branches. The haplogroup frequencies correlated with geography and, even more strongly, with language. Within haplogroups, a number of haplotype clusters were shown to be specific to individual populations and languages. The data suggested a direct origin of Caucasus male lineages from the Near East, followed by high levels of isolation, differentiation, and genetic drift in situ. Comparison of genetic and linguistic reconstructions covering the last few millennia showed striking correspondences between the topology and dates of the respective gene and language trees and with documented historical events. Overall, in the Caucasus region, unmatched levels of gene-language coevolution occurred within geographically isolated populations, probably due to its mountainous terrain.
Article
Full-text available
The phylogenetic relationships of numerous branches within the core Y-chromosome haplogroup R-M207 support a West Asian origin of haplogroup R1b, its initial differentiation there followed by a rapid spread of one of its sub-clades carrying the M269 mutation to Europe. Here, we present phylogeographically resolved data for 2043 M269-derived Y-chromosomes from 118 West Asian and European populations assessed for the M412 SNP that largely separates the majority of Central and West European R1b lineages from those observed in Eastern Europe, the Circum-Uralic region, the Near East, the Caucasus and Pakistan. Within the M412 dichotomy, the major S116 sub-clade shows a frequency peak in the upper Danube basin and Paris area with declining frequency toward Italy, Iberia, Southern France and British Isles. Although this frequency pattern closely approximates the spread of the Linearbandkeramik (LBK), Neolithic culture, an advent leading to a number of pre-historic cultural developments during the past ≤10 thousand years, more complex pre-Neolithic scenarios remain possible for the L23(xM412) components in Southeast Europe and elsewhere.
Book
Spectacular progress has been made recently in the study of evolution at the molecular level, primarily due to new biochemical techniques such as gene cloning and DNA sequencing. In this book, the author summarizes new developments and seeks to unify studies of evolutionary histories of organisms and the mechanisms of evolution into a single science - molecular evolutionary genetics.
Article
A collaborative work was carried out by the Spanish and Portuguese International Society for Forensic Genetics Working Group in order to extend the existing data on Y-short tandem repeat (STR) mutations at the 17 Y chromosome STR loci included in the AmpFlSTR YFiler kit (Applied Biosystems): DYS19, DYS385, DYS389I, DYS389II, DYS390, DYS391, DYS392, DYS393, DYS437, DYS438, DYS439, DYS448, DYS456, DYS458, DYS635, and GATA H4.1. In a sample of 701 father/son pairs, 26 mutations were observed among 11,917 allele transfers across the 17 loci. After summing previously reported mutation data with our sample, mutation rates varied between 4.25 x 10(-4) (95% CI 0.05 x 10(-3)-1.53 x 10(-3)) at DYS438 and 6.36 x 10(-3) (95% CI 2.75 x 10(-3)-12.49 x 10(-3)) at DYS458. All mutations were single step, and mutations in the same father/son pair were found twice.
Article
Father-son pairs from three populations (African American, Caucasian, and Hispanic) of Texas were typed for the 17 Y STR markers DYS19, DYS385, DYS389I, DYS389II, DYS390, DYS391, DYS392, DYS393, DYS437, DYS438, DYS439, DYS456, DYS458, DYS635, DYS448, and Y GATA H4 using the AmpFlSTR YfilerTM kit. With 49,578 allele transfers, 102 mutations were detected. One three-step and four two-step mutations were found, and all others (95.1%) were one-step mutations. The number of gains (48) and losses (54) of repeats were nearly similar. The average mutation rate in the total population is 2.1 x 10(-3) per locus (95% CI (1.7-2.5)x10(-3)). African Americans showed a higher mutation rate (3.0 x 10(-3); 95% CI (2.4-4.0)x10(-3)) than the Caucasians (1.7 x 10(-3); 95% CI (1.1-2.5)x10(-3)) and Hispanics (1.5 x 10(-3); 95% CI (1.0-2.2)x10(-3)), but grouped by repeat-lengths, such differences were not significant. Mutation is correlated with relative length of alleles, i.e., longer alleles are more likely to mutate compared with the shorter ones at the same locus. Mutation rates are also correlated with the absolute number of repeats, namely, alleles with higher number of repeats are more likely to mutate than the shorter ones (p-value=0.030). Finally, occurrences of none, one, and two mutations over the father-son transmission of alleles were consistent with the assumption of independence of mutation rates across loci.