PreprintPDF Available

Дендрограмма 15 современных тюркских языков с разделением дивергенции и конвергенции

Authors:
Preprints and early-stage research may not have been peer reviewed yet.

Abstract

В статье произведена оценка глоттохронологическим методом времен разделения 15 современных тюркских языков, а также оценка возможной степени заимствования отделявшимися языками слов иного языка в составе списка базисной лексики. Метод построения генеалогических дерев (дендрограмм) на основе полной лингвостатистической матрицы с коэффициентами совпадения между всеми возможными парами языков был предложен нами ранее в 2003 году. В настоящее время метод модифицирован исходя из возможной неточности сопоставления списков базовой лексики и вносимой каждой коэффициентом совпадения неточности учетом его «веса». * The article evaluates the separation times of 15 modern Turkic languages using the glottochronological method, as well as an assessment of the possible degree of word borrowings by the separated languages. Earlier in 2003 we proposed a method for constructing family trees (dendrograms) based on a complete linguostatistical matrix with percent of cognates between all possible pairs of languages. Currently, the method has been modified based on the possible inaccuracy of comparing lists of basic vocabulary and the inaccuracy introduced by each percent of cognates, taking into account its “weight”.
1
Дендрограмма 15 современных тюркских языков с
разделением дивергенции и конвергенции
В.В. Кромер (Новосибирск)
Цель настоящей статьи – оценка глоттохронологическим методом времен
разделения 15 современных тюркских языков, а также оценка возможной
степени заимствования отделявшимися языками слов иного языка в составе
списка базисной лексики.
Метод построения генеалогических дерев (дендрограмм) на основе полной
лингвостатистической матрицы с коэффициентами совпадения между всеми
возможными парами языков был предложен нами в 2003 году [1].
В настоящее время метод модифицирован исходя из возможной (и, как
правило, неизбежной) неточности сопоставления списков базовой лексики и
вносимой каждой коэффициентом совпадения неточности с учетом его «веса».
Построение дендрограммы тюркских языков
Метод поясняется на примере составления дендрограммы тюркских языков на
матрице тюркских языков из [2]. Матрица с коэффициентами совпадений C
процентах) приведена ниже в таблице.
Язык
1
2
3
4
5
6
7
8
9
10
11
13
14
15
1
Чувашский
100,0
51,9
49,3
52,8
50,9
57,9
58,2
61,1
59,2
57,5
58,3
55,6
55,6
54,9
2
Якутский
51,9
100,0
57,0
61,3
55,9
59,6
59,4
57,8
59,0
60,8
59,4
55,0
51,8
52,0
3
Тувинский
49,3
57,0
100,0
71,9
69,3
63,3
61,6
58,2
61,7
58,7
59,9
54,7
51,8
50,0
4
Хакасский
52,8
61,3
71,9
100,0
75,6
70,3
68,1
65,3
65,7
65,1
67,1
61,2
56,4
53,8
5
Алтайский
литературный
50,9
55,9
69,3
75,6
100,0
74,6
69,9
66,3
70,2
65,2
69,0
59,5
58,4
54,4
6
Киргизский
57,9
59,6
63,3
70,3
74,6
100,0
92,0
82,9
83,8
77,8
82,0
71,2
66,9
64,9
7
Казахский
58,2
59,4
61,6
68,1
69,9
92,0
100,0
82,8
81,9
78,3
79,9
71,9
67,8
64,8
8
Узбекский
61,1
57,8
58,2
65,3
66,3
82,9
82,8
100,0
86,3
74,6
76,1
75,9
70,0
67,2
9
Уйгурский
59,2
59,0
61,7
65,7
70,2
83,8
81,9
86,3
100,0
77,1
78,5
71,7
68,8
66,7
10
Карачаево-
балкарский
57,5
60,8
58,7
65,1
65,2
77,8
78,3
74,6
77,1
100,0
77,4
69,2
66,9
64,2
11
Башкирский
58,3
59,4
59,9
67,1
69,0
82,0
79,9
76,1
78,5
77,4
100,0
71,9
66,0
62,8
12
Татарский
59,4
60,7
60,2
68,2
70,1
83,9
82,1
78,0
79,6
79,2
94,9
69,8
68,4
65,6
13
Туркменский
55,6
55,0
54,7
61,2
59,5
71,2
71,9
75,9
71,7
69,2
71,9
100,0
78,2
73,6
14
Азербайджанский
55,6
51,8
51,8
56,4
58,4
66,9
67,8
70,0
68,8
66,9
66,0
78,2
100,0
86,0
15
Турецкий
54,9
52,0
50,0
53,8
54,4
64,9
64,8
67,2
66,7
64,2
62,8
73,6
86,0
100,0
Метод не предполагает сравнения списков с исключением заимствований, все
коэффициенты совпадений приведены с включением заимствований. По
значениям коэффициентов совпадений рассчитываются расстояния между
языками A и B (в условных единицах, названных сводешами, Св [1]), по
формуле
100
ln100ln100 C
cLAB
, где c коэффициент совпадений в
относительных единицах,
cC 100
- коэффициент совпадений в процентах.
Матрица расстояний (в сводешах) приведена ниже.
2
Язык
1
2
3
4
5
6
7
8
9
10
11
13
14
15
1
Чувашский
0,00
65,59
70,72
63,87
67,53
54,65
54,13
49,27
52,42
55,34
53,96
58,70
58,70
59,97
2
Якутский
65,59
0,00
56,21
48,94
58,16
51,75
52,09
54,82
52,76
49,76
52,09
59,78
65,78
65,39
3
Тувинский
70,72
56,21
0,00
32,99
36,67
45,73
48,45
54,13
48,29
53,27
51,25
60,33
65,78
69,31
4
Хакасский
63,87
48,94
32,99
0,00
27,97
35,24
38,42
42,62
42,01
42,92
39,90
49,10
57,27
61,99
5
Алтайский
литературный
67,53
58,16
36,67
27,97
0,00
29,30
35,81
41,10
35,38
42,77
37,11
51,92
53,79
60,88
6
Киргизский
54,65
51,75
45,73
35,24
29,30
0,00
8,34
18,75
17,67
25,10
19,85
33,97
40,20
43,23
7
Казахский
54,13
52,09
48,45
38,42
35,81
8,34
0,00
18,87
19,97
24,46
22,44
32,99
38,86
43,39
8
Узбекский
49,27
54,82
54,13
42,62
41,10
18,75
18,87
0,00
14,73
29,30
27,31
27,58
35,67
39,75
9
Уйгурский
52,42
52,76
48,29
42,01
35,38
17,67
19,97
14,73
0,00
26,01
24,21
33,27
37,40
40,50
10
Карачаево-
балкарский
55,34
49,76
53,27
42,92
42,77
25,10
24,46
29,30
26,01
0,00
25,62
36,82
40,20
44,32
11
Башкирский
53,96
52,09
51,25
39,90
37,11
19,85
22,44
27,31
24,21
25,62
0,00
32,99
41,55
46,52
12
Татарский
52,09
49,92
50,75
38,27
35,52
17,55
19,72
24,85
22,82
23,32
5,23
35,95
37,98
42,16
13
Туркменский
58,70
59,78
60,33
49,10
51,92
33,97
32,99
27,58
33,27
36,82
32,99
0,00
24,59
30,65
14
Азербайджанский
58,70
65,78
65,78
57,27
53,79
40,20
38,86
35,67
37,40
40,20
41,55
24,59
0,00
15,08
15
Турецкий
59,97
65,39
69,31
61,99
60,88
43,23
43,39
39,75
40,50
44,32
46,52
30,65
15,08
0,00
Вначале по методу «ближайших соседей» находится наиболее близкая пара
языков (что можно сделать функцией MS Excel «НАИМЕНЬШИЙ». Ниже на рис. 1
пример загруженной в программу матрицы тюркских языков.
Рис. 1. Загруженная в программу матрица тюркских языков
Для вычисления горизонтального расстояния Lгор между языками
(включающего в себя конвергенцию и неточности сопоставления списков) для
повышения точности необходимо определить среднее расстояние SA от языка A
до других языков системы, исключая расстояния до другого языка пары B и
ранее выявленных языков, производных от A и B (которые выявляются
методом «ближайших соседей») . После нахождения аналогичного расстояния
SB горизонтальное расстояние между языками A и B найдется как
BAгор SSL
.
При условии полного доверия к данным языковой матрицы
n
L
SA
, где n
число учитываемых языков, а L расстояния до учитываемых языков.
3
Однако при подобном (в отдельных случаях позволяющем создавать вполне
работоспособные дендрограммы) случае в расчет не принимается разная
достоверность данных матрицы.
Компаративисты работают со 100- и 200-словными «списками Сводеша». При
самой тщательной работе точность сопоставления списков – 1 слово, т.е. 1%
или 0,5% числа слов в списке. По факту, компаративисты оговаривают
возможность ошибки в 2-3 слова.
Отсюда возникает необходимость, при подсчете «средних» расстояний SA и SB
рассчитывать не среднее арифметическое значение, а средневзвешенное с
учетом «весов» отдельных расстояний. Рассчитаем вес расстояния между
языками в зависимости от его значения.
При расстоянии L (в сводешах) коэффициент совпадения (в относительных
единицах) составляет
100
L
ec
. При нормальном распределении ошибки и ее
значении d при сопоставлении списков измеренное значение коэффициента
совпадения составит
)( dc
, откуда вычисляется значение расстояния
)ln(100 dcL
взамен истинного
cL ln100
.
Ошибка оценки расстояния составит
c
d
c
dc
cdcLL 1ln100ln100)ln100()ln(100
, а при
малости d в сравнении с c можно написать приближенное равенство
c
d
100
. Тем самым, среднеквадратичное отклонение оценки расстояния между
языками σ обратно пропорционально c, т.е. чем дальше языки друг от друга,
тем грубее оценка расстояния между ними.
При средневзвешенном усреднении данных вес каждого значения обратно
пропорционален его дисперсии, которая равна σ2, и принимается за
50
2
100
2LL
eec
.
Отсюда оценки
50
50
L
L
e
Le
S
, где L расстояние от данного языка до прочих
языков, исключая языки рассматриваемой пары, и языки, производные от
языков пары.
Горизонтальное расстояние между языками A и B вычисляется как
BAгор SSL
, а вертикальное
2
горAB
верт
LL
L
. Язык с наибольшим
средневзвешенным расстоянием от прочих языков исключается из матрицы, и
4
расчет производится аналогично для сокращенной матрицы с уменьшенным на
1 числом языков, и т.д. вплоть до полного исчерпания матрицы.
При обработке матрицы 15 тюркских языков на 1-м этапе выявляется пара
«ближайших соседей», языки 11 (башкирский) и 12 (татарский).
Соответствующая частичная дендрограмма отображена на рис. 2. Шкала
масштаба в сводешах приведена правее дендрограммы.
Рис. 2. Частичная дендрограмма языковой пары 11-12
Язык 11 удаляется из матрицы, выявляется следующая пара языков: языки 6
(киргизский) и 7 (казахский) и т.д.
На 13-м этапе расчета определяется пара языков 2 (якутский) и 6 (киргизский).
После удаления якутского языка остаются 2 неопределимых в исходной
системе (без учета внешних связей, которые не привлекались) языки 1
(чувашский) и 6 (киргизский), с расстоянием между ними 62,923 Св. С учетом
максимально достигнутой глубины времени (на паре 2-6) в 20,578 Св,
выделение чувашского языка из системы тюркских происходит ранее или на
уровне 20,578 Св назад, что позволяет оценить горизонтальное смещение
чувашского языка при его отделении от праязыка как
172,21
2
578,20923,62
Св или менее (при более раннем, чем 20,578 Св назад отделении).
Физически нереализуемое звено дендрограммы
Ввиду того, что значения коэффициентов совпадения в лексикостатистической
матрице изначально не соответствуют никакой модели и являются
результатами измерения с некоторой погрешностью, при обработке данных
могут появляться физически не реализуемые и не имеющие смысла звенья.
Число этих звеньев характеризует адекватность исходных данных и валидность
используемой модели.
В дендрограмме тюркских языков 14 звеньев, одно звено оказалось
нереализуемым (рис. 3а), с составом алтайского (5) и хакасского языков (4),
последовательно отделившихся от киргизского (6). Для всех остальных звеньев
5
дендрограмма составлена на основе частичных дендрограмм, данное звено
нуждается в коррекции без нарушения измеренных расстояний между языками
768,28
45 L
,
745,31
56 L
,
106,37
46 L
. Составим и решим систему линейных
уравнений для гипотетического звена 3б.
106,372
745,312
768,282
32146
3156
2145
xxxL
xxL
xxL
.
Решение дает:
704,11
1x
,
361,5
2x
,
338,8
3x
. Скорректированное звено
отображено на рис. 3в.
Рис. 3. Нереализизуемое звено и скорректированное
Калибровка дендрограммы
После построения дендрограммы тюркских языков на основе 14 частичных
дендрограмм, с оценкой вертикальных и горизонтальных смещений в
сводешах, необходимо оценить «стоимость» 1 сводеша в годах, произведя
калибровку дендрограммы на основе лингвистических событий с известной
датировкой на основе работы [2] и выбором соответствующих событий по
дендрограмме.
Событие согласно [2]
Событие на
дендрограмме
Год
Отстояние
от 2012
года, лет
Lверт по
дендрограмме,
Св
Древний народ дубо (туба,
туво) упоминается в
китайских источниках еще с
V века
Отделение
тувинского языка
(3) от киргизского
(6)
500
1512
19,748
Разделение туркмен и
сельджуков до около 980
года.
Отделение
туркменского
языка (13) от
киргизского (6)
950
1062
12,783
Разделение Турции и
Азербайджана после битвы
Отделение
турецкого языка
1165
847
8,356
6
при Манзикерте (1071 г.), а
затем распада империи
сельджуков (1194 год), далее
монгольского нашествия
(1260 год).
(15) от
азербайджанского
(14)
Узбекско-уйгурское
разделение после раздела
Чагатайского улуса (1370
год).
Отделение
узбекского языка
(8) от уйгурского
(9)
1370
642
8,654
Киргизско-казахское
разделение.
Отделение
казахского языка
(7) от киргизского
(6)
1450
562
4,071
Данные из таблицы нанесены на график. Поскольку калибровочная кривая
должна проходить через начало координат, ее наклон находится из условия
равенства 0 алгебраической суммы расстояний 5 калибровочных точек от
калибровочной кривой. Наклон калибровочной кривой задает стоимость 1
сводеша в 86,27 года, исходя из чего по вертикали дендрограммы
откладываются датировки лингвистических событий.
Для проверки правомерности проведения калибровочной прямой 1-го порядка
через начало координат, средствами MS Excel через 5 точек проведена
полиномиальная кривая тренда 2-го порядка. Незначительная кривизна линии,
прохождение ее при 0 оси абсцисс через точку 63 года оси ординат (что
находится на уровне погрешности метода) и близость к проведенной
калибровочной кривой являются подтверждением независимости скорости
распада языков от времени. Соответствующий график ниже, рис. 3.
7
Рис. 3. Калибровка дендрограммы и оценка 1 сводеша в годах
Дендрограмма 15 тюркских языков приведена в Приложении. Ниже в таблице
приведены оцененные по вышеописанной методике вертикальные и
горизонтальные смещения языков в языковых парах.
Пара
Ветвь
Вертик.
Гориз.
Пара
Ветвь
Вертик.
Гориз.
11-12
12
2,275
1,638
6-10
6
11,954
6,068
6-7
6
4,071
1,729
5-6
6
11,704
8,338
8-9
9
8,654
1,686
13-14
13
12,120
8,057
6-12
6
9,402
3,760
6-13
6
12,783
11,396
14-15
14
8,356
5,978
3-6
6
19,748
12,760
6-9
6
9,625
5,340
2-6
6
20,578
19,175
4-5
5
11,704
5,361
1-6
6
62,923
Коэффициент корреляции Пирсона между значениями вертикального и
горизонтального смещениями равен 0,903, что свидетельствует о высокой
корреляции.
Проверка совпадения сконструированной дендрограммы с
данными лексикостатической матрицы
y = -1,05x2+ 93,28x + 62,70
0
300
600
900
1200
1500
1800
0 5 10 15 20
Датировка, лет назад
Датировка, сводешей назад
Точки калибровки
Калибровочная прямая
Полиномиальная ( Точки калибровки)
8
По дендрограмме просчитаны расстояния между языками, расстояния
пересчитаны в проценты совпадения, и вычисленные значения сравниваются со
значениями из лексикостатистической матрицы. Среднее отклонение в
процентах совпадения составило -0,2% при среднеквадратичном отклонении
3,3%.
Наибольшую погрешность при сопоставлении данных по дендрограмме с
исходными данными внесли тувинский, хакасский и алтайский языки. При
исключении этих языков среднее отклонение составляет -0,8% при
среднеквадратичном отклонении 2,1%.
Достоверность значений дивергенции и конвергенции
Если вертикальные расстояния по дендрограмме – это время отстояния
лингвистического события (разделения языков, как правило связанного с
миграцией популяции или значимым историческим событием) от
современности, то при идеальном соответствии положенной в основу
денгдрограммы математической модели действительности и абсолютной
достоверности данных лингвостатистической матрицы, горизонтальные
смещения должны представлять собой оценку числа заимствований в основном
списке, в отличие от закономерных замен на основе внутреннего развития
языка (вертикальных смещений, дивергенции).
В таком случае, обработка по методике списков с удаленными
заимствованиями (по методу С.А. Старостина) должна привести к аналогичной
дендрограмме, но с нулевыми горизонтальными смещениями. В работе [2]
приведена подобная матрица, в которой для схожих пар коэффициенты
совпадений выше, чем для пар без исключения заимствований.
Подобная обработка произведена, выявлены те же самые языковые пары, а
неопределимым языком также оказывается язык 1 (чувашский).
Но горизонтальные смещения при обработке матрицы с исключенными
заимствованиями остаются. Ниже в таблице приведены горизонтальные
смещения для 12 схожих пар 2 разных матриц.
Пара
С
заимствованиями
Без
заимствований
Разница
Пара
С
заимствованиями
Без
заимствований
Разница
11-12
1,638
1,853
0,215
6-10
6,068
4,213
-1,855
6-7
1,729
1,374
-0,355
5-6
8,383
7,269
-1,114
8-9
1,686
0,808
-0,878
13-14
8,057
5,120
-2,937
6-12
3,760
2,010
-1,750
6-13
11,396
9,012
-2,384
14-15
5,978
4,043
-1,905
3-6
12,760
9,731
-3,029
6-9
5,340
1,131
-4,209
2-6
19,175
10,490
-8,685
4-5
5,361
5,937
0,576
Из колонки с разницей значений следует, что горизонтальные смещения с
исключением заимствований значимо ниже значений без исключения
9
заимствований, но обработка матриц с исключением заимствований не сводит к
0 горизонтальные смещения.
Причина как в возможном остаточном несоответствии модели
действительности (таково свойство любой модели), так и в неточности
выявления заимствований в списках и неточности оценки коэффициентов
совпадений слов основных списков.
Ошибка в 1 слово при близком к 1 коэффициенту совпадения в 200-словном
списке приводит к ошибке в расстоянии между языками в 0,5 Св; при близком к
44% коэффициенте совпадения (наименьшее значение в матрице тюркских
языков) дает ошибку в 1,1 Св. Сопоставление значений дивергенции после
нормализации ввиду разности масштабов (при калибровке данных с
исключением заимствований 1 сводеш равен 112,25 года), дает среднюю
ошибку по разным подходам к сопоставлению списков 101 год и
среднеквадратичную ошибку 193 года, а в процентах 14%.
Самая большая по модулю ошибка между 2 подходами - в определении
времени отделения якутского языка: 240 год н.э. по матрице с заимствованиями
и 280 год до н.э. по матрице с исключением заимствований. Без учета этого
выпадающего значения средняя ошибка по разным подходам к сопоставлению
списков составляет 66 лет при среднеквадратичной ошибке 154 года, а в
процентах 13%.
К достоинствам метода относится то, что погрешности сопоставления списков
«сбрасываются» на горизонтальные смещения, выдавая в качестве
вертикальных смещений очищенные от случайных погрешностей значения
дивергенций. При вычислении значений SA и SB и нахождении их разности
погрешности отдельных значений коэффициентов совпадения суммируются (с
частичной компенсацией по законам математической статистики).
Тем самым горизонтальные смещения на дендрограмме следует трактовать как
конвергенцию отделившегося языка в результате языковых контактов плюс
случайная погрешность, за счет отклонения модели от действительности и
несовершенства оценки коэффициентов совпадения. В «чистом осадке»
остаются вертикальные смещения, отражающие время лингвистического
события.
Коэффициент корреляции Пирсона значений дивергенции по методам с учетом
и без учета заимствований составляет 0,937, для значений горизонтальных
смещений соответственно 0,914. Соответствующие коэффициенты
детерминации R2 составляют 0,878 и 0,835, что еще раз поясняет высокое
соответствие оцененных по модели значений дивергенции вне зависимости от
метода сопоставления списков, и композитный характер горизонтальных
смещений как суммы достоверных значений конвергенции и случайных
факторов.
Краткое описание дендрограммы 15 тюркских языков
10
Центральным языком дендрограммы является киргизский язык. Другие
методики построения дендрограммы (с равенством весов и с исключением
заимствований) выявляют в качестве центрального также киргизский язык.
Хакасские (киргизские) языки – это группа восточнотюркских языков,
сложившихся на основе древнекиргизского (енисейско-киргизского) языка.
Под центральным языком понимается не сам названный современный язык как
таковой, а его далекий предок, выступающий в роли праязыка данной
ограниченной 15 тюркскими языками сообщности.
Положение чувашского языка на дендрограмме не определено, поскольку звено
с его участием определено последним. В любом случае, от ствола чувашский
отделяется первым, ряд исследователей считает его наследником хуннского
языка, который также считается тюркоязычным.
Ниже на рис. 4 отображена хронологическая последовательность образования
тюркских языков, начиная с якутского языка до башкирского.
Якутский язык отделяется от ствола вторым по счету в 240 году н.э.
(общепринятая датировка отделения языка), тем самым чувашский не мог
отделиться позднее. Общепринято отнесение зарождения чувашского языка к
30-56 годам до н.э.
Относительно якутского языка принято считать, что он отделился от
пратюркского языка в хуннскую эпоху. Хунны населяли степи Китая с 220 года
до н.э. по 2-й век н.э.
В 310 году от центрального ствола отделяется тувинский язык.
Далее, на протяжении 10-го века следует ряд лингвистических событий, все
датировки по дендрограмме:
отделение от общетюркского ствола туркменского языка (910 год);
отделение от туркменского языка азербайджанского (970 год);
отделение карачаево-балкарского языка от общетюркского ствола (980
год);
отделение алтайского языка от общетюркского ствола и хакасского языка
от алтайского (1000 год).
11
Рис. 4. Хронологическая последовательность образования тюркских языков
Наличие данной цепи событий с вовлечением 6 языков позволяет считать
тюркские языки диалектным континуумом.
Киргизы упоминаются в древних китайских источниках со 2-го века н.э.
Предки киргизов (кыпчаки) жили в верховьях Иртыша в 8-9 веках.
Распад туркмено-азербайджанского языка относят примерно к 1180 году, на
дендрограмме туркменский язык возникает в 910 году, азербайджанский
отделяется от него в 970 году.
Происхождение азербайджанского от восточной ветви огузско-тюркского языка
на дендрограмме отражено вхождением в одну цепь с началом от киргизского
языка (также восточнокыпчакского). Азербайджанский язык возникает во
время средневековых тюркских миграций, происходивших между 4 и 11
веками, на дендрограмме это событие отнесено к 970 году. Распад раннего
кыпчакского языка на западную и восточную ветви относится к 9 веку.
Положение алтайского языка среди тюркских языков окончательно не
определено, по дендрограмме язык отделяется от центрального ствола в 1000
году. Принято считать, что история хакасского языка продолжается не менее
1200 лет, с тех пор как путем контакта тюркской речи с местными нетюркскими
языками возник раннесредневековый тюркский язык, давший начало
современному хакасскому языку. По дендрограмме хакасскому языку 1000 лет.
0
2
4
6
8
10
12
14
200 400 600 800 1000 1200 1400 1600 1800 2000
Номер события
Год
12
Следующая череда образования новых тюркских языков проходит на
протяжении одной сотни лет на протяжении 13 века. Практически в одно время
происходят события:
от центрального ствола отделяется уйгурский язык (1180 год), в 1270 году
от него отделяется узбекский;
татарский язык отделяется от киргизского (1200 год);
турецкий язык отделяется от азербайджанского (1290 год).
Уйгурский и узбекский языки относятся к карлукско-хорезмийской подгруппе
тюркских языков. На дендрограмме хорошо видно, что эта подгруппа является
отличной от огузской ветви тюркских языков (к которой относятся
азербайджанский и турецкий языки).
Уйгурский язык является историческим и генетическим продолжением
караханидско-уйгурского языка, разработанного в 11-м веке во время
среднетюркского периода при Кара-Ханидском ханстве.
Принято считать, что уйгурский и узбекский языки составляли одну общность
до времен Тамерлана (вторая половина 14-го века). Но одно из исследований на
основе китайских источников фиксирует существование уйгуров в 9-11-13
веках, что укладывается в нашу датировку. На дендрограмме эта ветвь
выделяется как самостоятельная в конце 12-го века, с выделением в начале 13-
го века как самостоятельного узбекского языка.
Принято считать, что татарский язык, относящийся к кыпчакской ветви
тюркских языков, начал складываться после 14-го века. Но ныне мертвый
кыпчакский язык функционировал в 8-9 веках. Дендрограмма на основе
сходства и различия татарского языка с прочими тюркскими языками выводит
самостоятельное существование татарского языка с начала 13-го века.
Современный турецкий язык восходит к языку огузо-сельджуков тюркских
племен, заселивших к 11-13 векам Малую Азию. Начало формирования
литературного турецкого языка относится к рубежу 15-16 веков. Дендрограмма
фиксирует образование размазанного во времени процесса образования
турецкого языка в самом конце 13-го века.
Самые последние лингвистические события в системе рассматриваемых 15
тюркских языков – отделение казахского языка от киргизского (1660 год) и
башкирского от татарского (1820 год). Казахский язык формировался на
протяжении 14-17 веков, и окончательно отделился от прочих языков
кыпчакско-ногайской подгруппы в середине 17-го века – это 1660 год по
дендрограмме.
Современные татарский и башкирский принято считать диалектным
континуумом, языки входят в кыпчакско-булгурскую подгруппу кыпчакских
языков. Литературный башкирский был создан в 1920-е годы на основе далеких
от татарского языка диалектов, тем не менее, сохранив близость (94%
совпадения лексики основного списка с учетом заимствований), что принято
13
считать различием на уровне диалектов. Существующие отличия относят
образование башкирского языка условно на 1820 год.
Литература
1. Кромер В.В. Глоттохронология и проблемы праязыковой реконструкции //
Когнитивное моделирование в лингвистике: сб. докл. / под ред. В.Д.
Соловьева и В.Н. Полякова. М.: МИСиС, 2003. С. 238–252.
https://www.arxiv.org/pdf/cs.CL/0303007
https://www.researchgate.net/publication/336684292_Glottohronologia_i_problemy_
praazykovoj_rekonstrukcii
2. The Lexicostatistics and Glottochronology of Turkic Languages. Version 3.01.
http://chuvashlar.blogspot.com/2012/10/the-lexicostatistics-and_7.html
Приложение
Дендрограмма 15 современных тюркских языков
14
ResearchGate has not been able to resolve any citations for this publication.
Глоттохронология и проблемы праязыковой реконструкции // Когнитивное моделирование в лингвистике: сб. докл. / под ред
  • В В Кромер
Кромер В.В. Глоттохронология и проблемы праязыковой реконструкции // Когнитивное моделирование в лингвистике: сб. докл. / под ред. В.Д. Соловьева и В.Н. Полякова. М.: МИСиС, 2003. С. 238-252.