ArticlePDF Available

Automatic Morphological Analysis for Russian: Application-Oriented Survey

Authors:
  • IPS RAS, Russia
391
"Программная инженерия" Том 10, № 9—10, 2019
УДК 81’322.2:004.912 DOI: 10.17587/prin.10.391-399
И. В. Трофимов, ст. науч. сотр., e-mail: itrofi mov@gmail.com,
Институт программных систем им. А. К. Айламазяна РАН, г. Переславль-Залесский
Морфологический анализ русского языка:
обзор прикладного характера
Прошедшее в 2017 г. соревнование MorphoRuEval позволило получить представление об эф-
фективности современных алгоритмов морфологического анализа. В то же время открытым
остался вопрос качества морфологического анализа в общедоступных комплексных аналити-
ческих ко нвейерах д ля рус ског о яз ыка. В нас тоящ ей рабо те п редс тав лены резул ьта ты о цен ки
двух таких систем.
Ключевые слова: обработка естественного языка, морфологический анализ, MorphoRuEval,
TreeTagger, UDPipe, rnnmorph, морфологическая нотация, лемматизация
Введение
Исследователи, занимающиеся высокоуровневы-
ми задачами анализа естественного языка, а также
разработчики прикладных систем обработки текста,
как правило, используют готовые технические ре-
шения для низкоуровневых подзадач: токенизации,
определения границ предложений, морфологическо-
го и синтаксического ана лиза. Многие используют
аналитические конвейеры "из коробки", охватываю-
щие весь нижний уровень и не требующие усилий по
настройке (обучению моделей, конфигурированию).
Для русского языка, в частности, известны конвей-
еры Шарова—Нивре [1] и UDPipe [2, 3].
Появление более совершенных подходов в низ-
коуровневом анализе ставит вопрос возможности
и целесообразности встраивания этих новых реше-
ний в уже используемый аналитический конвей-
ер. Сложность этого вопроса для морфологического
уровня обусловлена, в первую очередь, разнообра-
зием используемых морфологических описаний
(тегсетов) и подходов к нормализации1 словоформ.
Алгоритмы, решающие задачи верхнего уровня, так
или иначе опираются на какую-то определенную
морфологическую нотацию. Поэтому замена ана-
литического модуля на более современный может
быть сопряжена с необходимостью его адаптации
к стандарту конвейера. Т акая адаптация может све-
сти на нет преимущества нового модуля или даже
привести к ухудшению работы высокоуровневой
системы в целом. Кроме того, прежде чем предпри-
нимать усилия по встраиванию более совершенно-
го алгоритма в конвейер, целесообразно оценить
эффективность конвейера в условиях, максималь-
но приближенных к тем, в которых испытывался
новый алгоритм. Может оказаться, что при такой
постановке задачи морфологический анализатор
в составе конвейера продемонстрирует результаты,
1 В лит ературе также используют терми н лемматизация.
сопоставимые с результатами потенциально более
совершенного алгоритма.
Результаты прошедшего в 2017 г. мероприятия по
оценке морфологических анализаторов для русско-
го языка MorphoRuEval [4] показали, что алгоритм
на базе рекуррентной нейронной сети [5, 6] суще-
ственно превосходит другие подходы. В то же вре-
мя технический уровень упомянутых выше готовых
конвейеров в рамках этих соревнований не оценива-
ли. В настоящей работе приведены результаты сопо-
ставления эффективностей современной реализации
нейросетевого алгоритма-лидера (rnnmorph) и мор-
фологических анализаторов из конвейеров Шаро-
ва—Нивре и UDPipe. Для исследования использова-
лась оценочная инфраструктура, созданная в рамках
MorphoRuEval—2017. Таким образом, конвейеры ис-
следуются в условиях, приближенных к тем, в кото-
рых был оценен победитель соревнований.
Дальнейший материал структурирован следующим
образом. Сначала приведено краткое описание иссле-
дуемых морфологических анализаторов с акцентом
на различиях в используемых системах признаков.
Затем изложены методология сопоставления анализа-
торов и результаты оценки. В зак лючение дана автор-
ская интерпретация результатов, а также замечания
о встраивании rnnmorph в готовые конвейеры.
Объекты исследования
Дадим краткую характеристику каждой из срав-
ниваемых систем.
Конвейер Шарова—Нивре был представлен
в 2 011 г. в ра б оте [1]. Впоследст в и и конвей ер п р одо л-
жал развиваться; современная его версия доступна
онлайн2. В данном исследовании оценивалась версия
конца 2018 г.
Конвейер состоит из простого модуля раз-
биения текста на предложения и слова, а также
2 http://corpus.leeds.ac.uk/mocky/
392
"Программная инженерия" Том 10, № 9—10, 2019
морфологического и синтаксического анализато-
ров. Для морфологического анализа предлагается
исп ользова т ь одно и з трех и нструме н т а ль н ы х сред с т в:
TreeTagger [7], TnT [8] или SVMTool [9]. Первые два
средства методологически опираются на скрытую
марковскую модель второго порядка, последнее сред-
ство — на SVM-классификатор. Для исследования,
результаты которого представлены в статье, был вы-
бран TreeTagger.
В TreeTagger множество состояний марковской мо-
дели состоит из всех возможных тегов (допустимых
наборов граммем) используемого тегсета. Например,
если в используемом тегсете существительные могут
характеризоваться только падежом, числом и родом,
то множество тегов включает четверки <cуществ.,
им., ед., му ж.>, <су ществ., род., ед., муж.> и т. д. Для
других частей речи строятся собственные аналогич-
ные кортежи. Все такие кортежи формируют множе-
ство состояний марковской модели.
Алфавитом скрытой марковской модели служат
словоформы. Задача морфологического анализа ста-
вится следующим образом. Даны марковская модель
и последовательность словоформ отдельного пред-
ложения текста: w1, ..., wN, где N — число слов в пред-
ложении. Требуется отыскать такую последователь-
ность тегов t1, ..., tN, которая наилучшим образом
соответствует наблюдаемой последовательности сло-
воформ. Формально для марковской модели второго
порядка имеем
()()
1
12
... 1
arg max , ,
N
N
ii i ii
tt i
Ptt t Pwt
−−
=
⎡⎤
⎢⎥
⎢⎥
⎣⎦
где P(ti|ti – 1, ti – 2) — вероятность перехода в состояние
ti; P(wi|ti) — вероятность словоформы wi при усло-
вии, что ей ставится в соответствие тег ti. Наиболее
вероятная последовательность тегов вычисляется
алгоритмом Витерби.
Опустим частные вопросы расчета и представле-
ния вероятностей, а также вопрос моделировани я
вероятностей словоформ, не вошедших в обучающее
множество. Отметим ключевые характеристики ме-
тода, реализованного в TreeTagger.
При анализе отыскивается наилучший вариант
морфологического разбора для всего предложения.
Контекст для принятия локального решения —
текущая словоформа и два предшествующих тега.
Используется единственная марковская модель
(для "прочтения" предложения слева направо).
Сведений о том, каким образом TreeTagger осу-
ществляет построение нормальной формы, обнару-
жить в литературе не удалось. Приводимые в данной
работе оценки качества нормализации характеризуют
именно TreeTagger и построенную для него русско-
язычную модель, хотя авторы конвейера рекомен-
дуют дополнительно использовать CST lemmatiser3.
В рамках настоящего исследования оценива лась
готовая модель, доступная пользователю онлайн4.
3 https://github.com/kuhumcst/cstlemma,
https://cst.dk/download/cstlemma/russian/ [10].
4 http://corpus.leeds.ac.uk/mocky/russian.par.gz
Модель обучена на данных Национа льного корпуса
русского языка [11, 12]. Результирующая морфологи-
ческая нотация — MULTEXT-East (ru) [13].
Предварительные эксперименты показали,
что использование данной модели часто приво-
дит к некорректным результатам при обработке
слов, содержащих дефис, в том числе довольно ча-
стотных (из-за, какой-то и др.). Имеется систем-
ная ошибка с видом глагола (инверсия граммем
"совершенный"/"несовершенный"). Для значитель-
ной доли словоформ не предсказывается нормальная
форма.
Конвейер UDPipe создавался усилиями Мила-
на Страки и Яны Страковой. Он включает в себя
развитый модуль разбиения текста на предложения
и слова, морфологический и синтаксический ана-
лизаторы. Актуа льная версия конвейера доступна
онлайн5; в настоящем исследовании использовалась
версия начала 2019 г.
Реализация морфологического анализа в UDPipe
уходит корнями к работам Ратнапаркхи [14] и Кол-
линза [15]. Общая идея подхода состоит в следующем.
Вводится понятие контекста i-й словоформы пред-
ложения (у Коллинза это кортеж ci = <i, ti – 1, ti – 2,
w1, ..., wN>). Контекст служит для определения при-
знаков, потенциально полезных для предсказания
тега. Формально признаки представляются в виде
бинарных функций, аргументами которых являют-
ся тег-кандидат для рассматриваемой словоформы
и контекст. Например, функция-признак
()
()
1
1, если окончание '-ый'
, и сущ., им., ед., муж.
0, в противном случае
i
ii i
w
tc t
=
φ==
принимает значение 1, когда предыдущая словофор-
ма заканчивается на -ый, а в качестве тега-кандидата
для рассматриваемой (i-й) словоформы выбран кор-
теж <сущ., им., ед., муж.>. Также функции-призна-
ки могут апеллировать к порядк у следования тегов.
Например, так:
()
2
1
1, если предлог ,
прилаг., дат., мн. ,
,сущ., дат., мн., муж.
0, в противном случае.
i
i
ii
i
t
t
tc t
⎧=
=
φ=
=
В общем случае функция-признак может опери-
ровать произвольным набором информации, пред-
ставленной в контексте, и обязательно содержит
ограничение, затрагивающее ti.
Аппарат функций-признаков используется для
формулирования задачи морфологического анализа
предложения в следующем виде:
()
1... 1
arg max , ,
N
N
ff i i
tt ifF
atc
=∈
⎡⎤
φ
⎢⎥
⎢⎥
⎣⎦
∑∑
где F — множество признаков; af — значимость (вес)
признака f. Наиболее вероятная последовательность
5 http://ufal.mff.cuni.cz/udpipe
393
"Программная инженерия" Том 10, № 9—10, 2019
тегов вычисляется алгоритмом Витерби. Вопрос
оценки коэффициентов af на базе обучающего мно-
жества описан в работе [15]; в настоящей статье он
не рассматривается.
Успешность морфологического анализа в такой
формулировке определяется выбранной системой
признаков. В UDPipe множество признаков авто-
матически порождается по обу чающему множеству
с помощью шаблонов, разработанных экспертами.
Например, шаблон [wi + 1 = X & ti = T] по каждому
токену аннотированного текста порождает функ-
цию-признак вида
()
1
1, ес ли и
,0, в противном случае,
ii
ii
wXtT
tc +==
φ=
где X — следующая словоформа; T — тег, припи-
санный текущей словоформе. Таким образом, число
признаков довольно велико: для чешского языка на
корпусе объемом 1,5 млн токенов с помощью 63 шаб-
лонов извлекаются 8,4 млн признаков [16].
В идеа ле система шаблонов должна учитывать
специфику конкретного языка. В UDPipe исполь-
зуется система шаблонов, созданная для чешского
языка, в предположении, что она достаточно уни-
версальна и пригодна для всех поддерживаемых кон-
вейером языков.
Описанная выше общая методология ана лиза
в UDPipe была дополнена еще одним важным элемен-
том — алгоритмом порождения гипотез (morphological
guesser). Его задача — для рассматриваемой слово-
формы (опираясь на ее окончание длиной до че-
тырех символов) породить небольшое число гипотез
относительно тега, что повышает скорость анализа.
Алгоритм порождения гипотез опирается на стати-
стику, извлекаемую из аннотированного корпуса.
Нормализация в UDPipe опирается, в первую
очередь, на словарь, построенный по обучающему
множеству. Для слов, не вошедших в словарь, вновь
используется алгоритм порож дения гипотез, в кото-
ром окончаниям словоформ ставятся в соответствие
теги и правила порождения нормальной формы6.
Нормализация осуществляется независимо от про-
цесса тегирования.
Отметим ключевые характеристики метода, реа-
лизованного в UDPipe.
При анализе отыскивается наилучший вариант
морфологического разбора для всего предложения.
Контекст для принятия локального решения —
два предшествующих тега, текущая словоформа, две
предыдущие и две последующие словоформы, пре-
фиксы и суффиксы текущей словоформы, признаки
наличия заглавных букв, дефиса, цифр и др.
Однонаправленный поиск пути Витерби (слева
направо).
В настоящем исследовании использова лась го-
товая модель версии 181115, доступная онлайн [17].
Модель обу чена на корпусе СинTагРус [18, 19], приве-
денном к нотации UD [20]. Результирующая морфо-
6 В терминах "удалить определенный суффикс или пре-
фикс", "добавить суффикс/префикс".
логическая нотация модели — UniversalDependencies
v 2.3 [21].
Предварительные исследования показа ли, что
модель часто допускает ошибки при нормализации
глаголов в результате некорректных операций с пре-
фиксами и суффиксами. Системные недоработки
имеются с глаголами повелительного наклонения.
Морфологический анализатор rnnmorph описан
в работах [5, 6]. Эта система не решает самостоя-
тельно задачи токенизации и определения границ
предложения (в качестве входных данных ожидает
последовательность токенов предложения). В настоя-
щей работе исследовалась версия rnnmorph, извле-
ченная из репозитория7 в мае 2019 г.
Задача морфологического анализа в rnnmorph рас-
сматривается как задача пословной к лассификации
ег соответствует классу). Алгоритм опирается на
двунаправленный LSTM-классификатор [22]. Перед
подачей на вход классификатора слова предложе-
ния представляются в виде вектора, являющегося
конкатенацией перечисленных далее составляющих.
Вектор граммем для данной словоформы.
Элементы этого вектора соответствуют граммемам
тегсета. Значение элемента определяется как вероят-
ность данной словоформы быть охарактеризованной
данной граммемой. Вероятности вычисляются на
обучающем множестве.
Вектор тегов для данной словоформы. Его
элементы соответствуют тегам тегсета. Значение
элемента — вероятность данной словоформы быть
охарактеризованной данным тегом.
Вектор пунктуационных признаков в окрест-
ности словоформы. Элементы вектора кодируют
наличие определенных знаков препинания в опре-
деленных позициях относительно словоформы. Зна-
чения бинарны.
Вектор графематических признаков словофор-
мы. Элементы кодируют типовые комбинации реги-
стра символов (нижний, верхний, первая заглавная).
Значения бинарны.
Вектор суффиксных признаков для данной
словоформы. Элементы кодируют наиболее частот-
ные суффиксы длиной до трех символов (около 3 тыс.
суффиксов). Значения бинарны (имеется ли у слово-
формы данный суффикс).
Эмбеддинг словоформы. Обычно эмбеддинг
моделирует степень общности контекстов у пред-
ставленных в таком виде словоформ. Иными сло-
вами, слова, встречающиеся в схожих контекстах,
будут иметь схожие эмбеддинги. В работе [5] эм-
беддинги служили лишь для представления самих
словоформ (были инициализированы случайными
числами); всего использовалось 25 тыс. 250-мерных
эмбеддингов для наиболее частотных словоформ.
В дальнейшем [6] они были заменены на символь-
ные эмбеддинги (character-level representation), ис-
пользуемые системой так, чтобы в конечном счете
моделировать общность контекстов, а кроме того,
обеспечить устойчивость к опечаткам и возможность
работы с несловарными словоформами.
7 https://github.com/IlyaGusev/rnnmorph/
394
"Программная инженерия" Том 10, № 9—10, 2019
К ключевым характеристикам метода, реализо-
ванного в rnnmorph, отнесем следующее.
Классификатор учитывает весь предшествую-
щий контекст и принятые решения в рамках пред-
ложения (в силу архитектуры LSTM).
Контекст для принятия локального решения —
текущая словоформа виде эмбеддинга), суффиксы те-
кущей словоформы, ее графематические характеристи-
ки и пунктуационное окружение, оценки вероятности
тегов и отдельных граммем для текущей словоформы.
Двунаправленная оптимизация в рамках пред-
ложения.
Нейросеть обучена авторами алгоритма на дан-
ных8 из корпуса ГИКРЯ [23], подготовленных для
участников MorphoRuEval.
Таким образом, среди сопоставляемых систем
TreeTagger опирается на наиболее бедную систему
признаков, но обучен на самом объемном обучающем
множестве. Теоретическим преимуществом rnnmorph
над UDPipe являются двунаправленная оптимиза-
ция и возможность учитывать при классификации
признаки, находящиеся за пределами ближайшего
контекста анализируемого слова (за счет LSTM). Вме-
сте с тем UDPipe может учитывать левый и правый
лексические контексты непосредственно при при-
нятии локального решения.
Метод исследования
Для сопоставления морфологических анализато-
ров были использованы оценочный инструментарий
и дейтасеты
9
, разработанные в рамках MorphoRuEval—
2017
10
. В основе методологии оценки лежат следующие
положения. Исходными данными служат предложения,
записанные в форме последовательности токенов (гра-
ницы предложений и токенов известны). Задача оце-
ниваемого анализатора — приписать каждому токену
единственный вариант морфологического разбора (тег
и нормальную форму). Ответы анализатора затем сопо-
ставляются с эталонной разметкой, выполненной (или
проверенной) экспертами-людьми, для вычисления ко-
личественной меры качества анализа (точности). Под-
робнее процедура тестирования изложена в работе [4].
Оригинальная утилита вычисления показате-
лей точности морфологического анализа реализу-
ет стратегию выборочной оценки. Она охватывает
семь частей речи: существительные, глаголы, при-
лагательные, местоимения, наречия, числительные
и детерминанты11. Для каждой части речи определен
8 https://github.com/dialogue-evaluation/morphoRuEval—2017/
blob/master/GIKRYA_texts_new.zip
9 Дейтасет представляет собой множество аннотирован-
ных предложений, где каждому слову приписаны морфоло-
гический тег и нормальная форма. Такие множества сл ужат
для обучения и тестирования а лгоритмов. Морфолог ическая
информаци я в дейтасетах MorphoRuEval порождена высоко-
точными инструментальными средствами и верифицирова-
на людьми (полностью или в значительной степени).
10 https://github.com/dialogue-evaluation/morphoRuEval—2017,
https://drive.google.com/drive/folders/0B600DBw1ZmZASDFRVkJ V
d0pqNXM
11 Закрытое множество слов, состоящее из определитель-
ных местоимений.
собственный набор грамматических категорий, под-
лежащих оценке. В интересах исследования ориги-
нальный инструментарий был доработан так, чтобы
имелась возможность получать оценк и по отдельным
частям речи, а также по нормализации словоформ
независимо от успешности определения граммем.
Чтобы убедиться в устойчивости демонстриру-
емых системами результатов, в качестве тестовых
множеств были задействованы несколько дейтасетов.
Несмотря на то, что некоторые из этих множеств ис-
пользовались при обучении моделейакие результа-
ты далее будут помечены звездочкой), их включение
в исследование дает более полную картину в парных
сравнениях. В итоге были выбраны следующие.
— Тестовое множество MorphoRuEval—2017. Оно
состоит из трех частей, выделенных на жанровой
основе (новостные сообщения, художественная ли-
тература, сообщения из соцсетей). Их объединение
условимся в дальнейшем называть 3-in-1. Множество
содержит чуть более 1,3 тыс. предложений. Разметка
тщательно проверена организаторами соревнований.
— Дейтасеты gikrya_train и syntagrus_train. Эти
аннотированные корпуса выступали в качестве обу-
чающих множеств MorphoRuEval. Они значительно
больше по объему — около 62 тыс. и 37 тыс. пред-
ложений соответственно.
Все дейтасеты размечены в единой морфологи-
ческой нотации, выработанной для MorphoRuEval.
Из трех систем, включенных в исследование, лишь
rnnmorph выдает результат в данной нотации. Для
оценки остальных систем потребовалась разработка
средств конвертации.
Для приведения морфологической нотации иссле-
дуемой русскоязычной модели для TreeTagger к но-
тации тестовых множеств выполнялись следующие
действия.
Шаг 1. Техническое преобразование формата
MULTEXT в UD.
Шаг 2. Использование атрибута "синтаксиче-
ская роль" местоимений для разделения MULTEXT-
местоимений на детерминанты, наречия и местои-
мения в нотации MorphoRuEval.
Шаг 3. Приведение порядковых числительных
к прилагательным.
Шаг 4. Представление в явном виде полож итель-
ной степени сравнения для наречий.
Шаг 5. Приведение причастий к прилагательным.
Для получения нормальной формы применялся по-
иск в морфологическом словаре проекта АОТ12 [24].
Шаг 6. Приведение превосходной степени срав-
нения прилагательных к положительной.
Шаг 7. Немногочисленные "точечные" эвристи-
ческие преобразования. В качестве примеров можно
привести переквалификацию местоимений сам/са-
мый из детерминантов в прилагательные, нормали-
зацию местоимений она/оно/они к форме он и т. п.
Кроме того, выполнялась временная замена ё на е,
различных форм кавычек на прямые, различных
форм тире на дефис в целях устранения известных
ошибок модели, связанных с этими факторами.
12 http://aot.ru
395
"Программная инженерия" Том 10, № 9—10, 2019
Для адаптации выходных данных UDPipe к тре-
бованиям MorphoRuEval потребовались лишь шаги
5—7 из вышеприведенного списка.
Результаты
В рамках MorphoRuEval—2017 оценивались сле-
дующие два показателя:
— доля слов (%) с корректно определенными мор-
фологическими атрибутами;
— доля предложений, не содержащих ошибок
морфологического разбора.
Ограничимся рассмотрением только первого из
них. В качестве результата будем приводить пару
величин: точность (accuracy) определения граммем
и точность полного разбора. В последнем случае оце-
нивается корректность не только набора граммем,
но и нормальной формы.
В табл. 1 приведена оценка систем оригинальной
утилитой, использовавшейся в ходе MorphoRuEval.
Полученные результаты показывают весомое превос-
ходство rnnmorph; в дальнейшем уточним, из чего
оно складывается.
Интересно отметить следующее наблюдение. Для
оценки современного уровня (baseline) морфологи-
ческого анализа организаторы MorphoRuEval ис-
пользовали TreeTagger. Модели для него строились,
в том числе, на обучающих множествах gikrya_train
и syntagrus_train [4], т. е. не требовали адаптации
тегсета при тестировании. В зависимости от выби-
раемых обучающих и тестовых данных TreeTagger де-
монстрировал точность определения граммем в диа-
пазоне 72,10...79,49 %, что значительно ниже полу-
ченных в ходе настоящего исследования результатов
с готовой моделью и конверсией тегсета. В качестве
причин такого расхож дения можно предположить
недостаточность данных для обучения алгоритма
TreeTagger на указанных обучающих множествах,
неудачный выбор параметров обучения авторами
эксперимента. Согласно работе [25] TreeTagger мо-
жет достигать даже более высокой планки — 92,56 %.
Точность определения частей речи (из числа под-
лежащих оценке по условиям MorphoRuEval) при-
ведена в табл. 2.
Более детальный анализ ошибок показал следую-
щее. На дейтасете 3-in-1 системы UDPipe и TreeTagger
недобирают точности преимущественно по причине
различий в теоретической трактовке. В частности,
это проявляется в выборе между наречием и части-
цей (только, тоже и т. п.), кратким прилагательным
и наречием13 (нужно, тихо и т. п.). Результат rnnmorph
на syntagrus_train ниже чем на 3-in-1 также по интер-
претационной причине. В целом можно отметить:
— довольно высокий общий уровень в определе-
нии части речи у всех трех систем;
— отсу тствие возможности точного сопоставле-
ния по этому показателю14.
Далее приведем детализацию оценок по отдель-
ным частям речи. В корпусе 3-in-1 подлежащие оцен-
ке части речи представлены в следующих пропор-
циях (см. рисунок).
Результаты оценки для существительных приве-
дены в табл. 3, 4.
13 Особенности MorphoRuEval: предикативы, омонимич-
ные кратким при лагательным, размечаются как краткие
прилагательные; омонимия кратких прилагательных и наре-
чий разрешена следующим образом: прилагательное обязано
быть частью сказуемого.
14 Последующие оценки дл я прилагательных и наречий
так же будут нет очны.
Таблица 1
Сравнение систем по правилам MorphoRuEval
(точность определения граммем/точность полного разбора, %)
Система
Дейтасет
3-in-1 gikrya_train syntagrus_train
TreeTagger 89,88/85,18 89,69/85,12 88,97/82,98
UDPipe 89,01/84,28 88,90/83,83 94,68/92,36*
rnnmorph 96,28/92,30 98,08/94,99* 93,17/89,71
* Система тестировалась на обу чающем множестве или
его фрагменте (здесь и далее)
Таблица 2
Точность определения части речи, %
Система
Дейтасет
3-in-1 gikrya_train syntagrus_train
TreeTagger 96,15 95,83 96,08
UDPipe 95,81 95,74 97,08*
rnnmorph 98,78 99,41* 96,87
Таблица 3
Точность обнаружения существительных, %
Система
Дейтасет
3-in-1 gikrya_train syntagrus_train
TreeTagger 98,85 98,92 98,9
UDPipe 97,93 98,23 99,77*
rnnmorph 99,04 99,48* 98,79
Таблица 4
Точность определения граммем/точность
полного разбора существительных, %
Система
Дейтасет
3-in-1 gikrya_train syntagrus_train
TreeTagger 90,07/85,97 89,87/85,55 89,55/83,43
UDPipe 88,90/87,04 88,49/86,06 97,29/96,61*
rnnmorph 95,69/91,82 97,56/96,35* 93,04/91,34
396
"Программная инженерия" Том 10, № 9—10, 2019
По качеству обнаружения существительных (см
.
табл. 3) системы демонстрируют сопоставимые резуль-
таты. Снижение точности rnnmorph на syntagrus_train
связано, в частности, с регулярной ошибкой при обра-
ботке инициалов
15
(распознаются как знак пунктуации).
В определении граммем (см. табл. 4) rnnmorph лучше
других; наиболее распространенные ошибки для каждой
из систем сведены в табл. 5 (в столбце "ошибка" указаны
только ошибочно определенные граммемы из набора
в столбце "эталон").
Результаты оценки для глаголов приведены
в табл. 6, 7.
Здесь можно отметить существенное отставание
UDPipe и TreeTagger от rnnmorph по точности по-
строения нормальных форм.
Для остальных частей речи приведем оценку только
на дейтасете 3-in-1 (табл. 8).
Кроме того, в ходе исследования были выполнены
оценка точности восстановления нормальных форм,
независимо от корректности определения граммем
(табл. 9), и измерение скорости анализа (табл. 10).
Скорость замерялась на наиболее крупном дейтасете
15 Ак центируем на этом вни мание, так как в прик ладных
системах это может быть весьма существенным.
gikrya_train, чтобы снизить влияние фактора загруз-
ки модели на оценку скорости обработки.
Исследованная реализация rnnmorph уступила
другим системам по скорости анализа. В табл. 10 при-
ведено время, затрачиваемое rnnmorph при обработке
дейтасета пакетами по 100 предложений с tensorflow
1.12, оптимизированным под CPU (с поддержкой
AVX2). Можно ожидать, что применение GPU по-
зволит добиться лучшей производительности.
Соотношение подлежащих оценке частей речи в корпусе 3-in-1
Таблица 5
Число типичных ошибок определения граммем
для существительных на дейтасете 3-in-1
Эталон Ошибка Система
UDpipe TreeTagger rnnmorph
вин., ед., муж. им. 35 54 16
им., ед., муж. вин. 22 45 13
вин., ед., ср. им. 13 28 4
им., ед., ср. вин. 6 14 3
им., мн., жен. род., ед. 6 12 5
им., мн., жен. вин. 11 9 3
им., ед., жен. вин. 8 8 5
им., мн., ср. род., ед. 6 6 7
Таблица 7
Точность определения граммем/точность
полного разбора глаголов, %
Система
Дейтасет
3-in-1 gikrya_train syntagrus_train
TreeTagger 98,02/92,72 98,36/93,29 98,29/93,97
UDPipe 98,22/84,50 98,23/84,58 99,80/91,13*
rn nmor ph 9 9,15/99,03 99,4 4/9 8,95* 99,71/99,09
Таблица 8
Точность определения граммем/точность
полного разбора на дейтасете 3-in-1, %
Часть речи
Система
TreeTagger UDPipe rnnmorph
Прилагательное 82,09/71,55 88,02/83,19 95,62/91,63
Мест ои мение 89,78/89,78 82,47/82,11 9 5,42/89,60
Наречение 84,60/81,61 87,70/83,68 98,28/90,69
Детерминант 85,24/84,47 71,84/69,56 91,48/78,54
Числител ьное 92,68/86,76 86,76/86,41 94,08/93,73
Таблица 9
Точность восстановления нормальной формы
(независимо от граммем), %
Система
Дейтасет
3-in-1 gikrya_train syntagrus_train
TreeTagger 92 ,56 92,22 9 0,68
UDPipe 93,36 93,03 96,65*
rnnmorph 95,28 96,46* 94,79
Таблица 6
Точность обнаружения глаголов, %
Система
Дейтасет
3-in-1 gikrya_train syntagrus_train
TreeTagger 98,79 99,09 98,92
UDPipe 98,83 98,95 99,86*
rn nmor ph 99,72 99,89 * 99,9
397
"Программная инженерия" Том 10, № 9—10, 2019
Анализ результатов
Результаты эмпирической оценки показали, что
при условии следования морфологической нотации
MorphoRuEval анализатор rnnmorph имеет бесспор-
ное преимущество над анализаторами из конвейеров
Шарова—Нивре и UDPipe по следующим показа-
телям:
— точность определения граммем существитель-
ных и местоимений;
— точность определения нормальной формы.
По точности для числительных и глаголов
rnnmorph имеет небольшое преимущество. Для
прилагательных, наречий и детерминантов точное
сравнение затруднительно в силу различий морфо-
логических нотаций, которые не были нивелированы
конвертированием. Тем не менее эксперименты по-
казали, что rnnmorph с высокой точностью опреде-
ляет граммемы и для этих частей речи.
В то же время с прикладной точки зрения не-
обходимо отметить следующее. Во-первых, время,
затрачиваемое rnnmorph на анализ, существенно
больше, чем у современных конвейерных решений.
Во-вторых, неоцененными остались способности
систем в выявлении других практически важных
атрибутов, таких как одушевленность, вид, залог,
принадлежность имени собственному. За кадром
также оказались служебные части речи, успешное
распознавание которых важно по крайней мере для
синтаксического анализа. В-третьих, неисследован-
ным осталось поведение rnnmorph в "нелаборатор-
ных" условиях, когда входными данными являются
автоматически выявленные предложения и токены.
Отметим также, что высокая точность определе-
ния нормальных форм может быть достигнута ме-
нее затратным (по времени анализа) путем. В рамках
проведенного исследования было создано простое
гибридное решение на базе TreeTagger и словарей
АОТ, задачами которого было:
— устранить ошибки TreeTagger при обработке
слов, содержащих дефис;
— использовать словарный вариант нормализации
(если он единственный).
Дефект с дефисами устранялся эвристически
с учетом специфики русского языка. Например,
существительные (вирус-вымогатель, красавица-дочь)
разбивались на составляющие и выполнялась сло-
варная нормализация каждой из частей с последую-
щим объединением через дефис. Для ряда слов (таких
как из-за, все-таки) составлялся словарь. За счет
таких приемов удалось добиться точности нормали-
зации, превышающей показатели rnnmorph (табл. 11).
При этом время анализа на дейтасете gikrya_train
составило 3 мин.
В качестве краткого резюме отметим следующее.
Встраивание rnnmorph в исследованные конвейеры
оправдано при условии, что "скоростные" характе-
ристики rnnmorph удовлетворяют условиям при-
кладной задачи. С учетом всех факторов наиболее
безопасным (без дополнительных исследований)
видится следующий сценарий встраивания: парал-
лельный запуск конвейерного морфологического
анализатора и rnnmorph с последующим уточнением
результатов конвейерного разбора. Нецелесообразно
пересматривать результаты конвейерного анализатора
в определении частей речи, так как на них опирают-
ся синтаксический и более высокие уровни анализа.
При совпадении предсказанных конвейерным анали-
затором и rnnmorph частей речи (из списка тех, что
были верифицированы в рамках данного исследова-
ния) следует предпочесть граммемы и норма льную
форму, выданную rnnmorph. Таким образом, не будут
пересмотрены подходы к аннотированию причастий
и порядковых числительных, а также сохранится мор-
фологическая информация, не вошедшая в стандарт
MorphoRuEval (одушевленность, залог и др.).
В будущем представляется целесообразным про-
вести следующие исследования:
— обучить rnnmorph на дейтасетах, использовав-
шихся при обучении конвейерных морфологических
анализаторов, а затем оценить его эффективность
етодом кроссвалидации) и влияние на точность
синтаксического разбора;
— количественно исследовать влияние на синтак-
сический разбор предложенной схемы встраивания
rnnmorph в конвейеры.
Отметим также, что все три анализатора допуска-
ют значительное число ошибок при обработке много-
значных слов (уже, банках, судами, гвоздики и т. п.),
что обусловлено, вероятно, не методологическими
недостатками, а неполнотой обучающих множеств.
Было бы интересно оценить возможности систем от-
дельно по задаче разрешени я неоднозначности.
Заключение
В ходе описанного исследования был верифици-
рован и подтвержден технический уровень моду-
ля морфологического анализа для русского языка
rnnmorph. Реабилитирован модуль TreeTagger, что не-
Таблица 11
Точность восстановления нормальной формы
(независимо от граммем) — TreeTagger + AOT, %
Система
Дейтасет
3-in-1 gikrya_train syntagrus_train
TreeTagger + АОТ 97,19 96,95 95,35
rnnmorph 95,28 96,46* 94,79
Таблица 10
Время анализа дейтасета gikrya_train
Система Время анализа gikrya_train
TreeTagger 1 мин 4 4 с
UDPipe 2 мин 39 с
rnn morph 10 мин 40 с
398
"Программная инженерия" Том 10, № 9—10, 2019
маловажно для тех, кто уже использует его в своих
программных продуктах. Получена оценка точности
системы UDPipe на наиболее современном дейтасете
для русскоязычных морфологических анализаторов.
Разработка средств конвертации в целях приведения
результатов сравниваемых модулей к единому тегсету
позволила осуществить более точное сопоставление,
а детальный анализ показал, в какой мере rnnmorph
превосходит конвейерные анализаторы по отдельным
частям речи и в подзадаче нормализации словоформ.
Полученные результаты и приведенные аналитиче-
ские выкладки помогут прикладным разработчикам
принять решение о встраивании морфологического
анализатора rnnmorph в свои программные системы.
Исследование выполнено при финансовой поддерж-
ке Р Ф ФИ в рамках н а у ч н ого п р о е кта № 19-07- 0 0 779.
Автор выражает искреннюю признательность
Н. А. Власовой, Ю. П. Сердюку и Е. А. Сулеймановой за
помощь в проведении исследования и работе над статьей.
Список литературы
1. Sharoff S., Nivre J. The proper place of men and machines in
language technology: Processing Russian without any linguistic knowledge
// Computational Li nguistics and Intellectual Technologies: Proceedings
of the International Conference "Dia log 2011". M.: RGGU, 2011. Issue 10.
P. 5 91— 6 05.
2. Straka M., Hajič J., Straková J. UDPipe: Trai nable Pipel ine
for
Proces sing CoNLL-U Files Performin g Tokenization, Morphological
Analysis, POS Tagging and Parsing // Proceedings of the Tenth International
Con fer ence on L an gu age Res our ces and Evaluation (LREC 2016). European
Lang uage Resources Association (ELRA), 2016. P. 4290—4297.
3. Straka M., Straková J. Tokenizing, POS Tagging, Lemmatizing
and Parsing UD 2.0 with UDPipe // Proceedings of the CoNLL
2017 Shared Task: Multi ling ual Parsing from R aw Text to Universal
Dependencies. Association for Computational Linguistics, 2017. P. 88—99.
4. Sorokin A., Shavr ina T., Lyashevskaya O. et al. MorphoRuEval-2017:
an Evaluation Track for the Automatic Morphological Analysis Methods
for Russian // Computational Li nguistics and Intellectual Technologies.
Proceedings of the International Conference "Dialogue 2017". M.: RGGU,
2017. Vol. 1, Issue 16. P. 297—313.
5. Anastasyev D. G., Andrianov A. I., Indenbom E. M. Part-of-
speech tagging with rich language description // Computational Linguistics
and Intellectual Technologies. Proceedings of the International Conference
"Dialogue 2017". M.: RGGU, 2017. Vol. 1, Issue 16. P. 2—13.
6. Anastasyev D., Gusev I., Indenbom E. Improving part-of-speech
tagg ing via multi-task learning and character-level word representations //
Computational Linguistics and Intellectual Technologies. Proceedings of the
International Conference "Dialogue 2018". M.: RGGU, 2018. Issue 17. P. 14—27.
7. Schmid H. Probabilistic Part-of-Speech Tagging Usi ng Decision
Trees // Proceedi ngs of Inter national Conference on New Methods in
Lang uage Processin g. 1994. Vol. 12. P. 44—49.
8. Brants T. TnT: a statistical part-of-speech tagger // Proceedings of
the sixth conference on A pplied natural language processin g. Association
for Computational Linguistics, 2000. P. 224—231.
9. Giménez J., Màrquez L. SV MTool: A General POS Tagger
Generator Based on Suppor t Vector Machines // Proceedin gs of the Fourth
International Conference on Language Resources and Evaluation (LR EC’04).
European Language Resources Association (ELRA), 2004. P. 43—46.
10. Jongejan B., Dalianis H. Automatic training of lemmatization
rules that handle morphological changes in pre-, in- and suf fixes alike //
Proceedings of the 47th Annual Meeting of the ACL and the 4th International
Joint Confe rence on Nat ural Langu age Processing of the A FNLP. Association
for Computational Linguistics, 2009. P. 145—153.
11. Плунгян В. А. Зачем нужен Национальный корпус рус-
ского языка? Неформальное введен ие // Национальный корпус
русского языка: 2003—2005. Результаты и перспективы. М.: Ин-
дрик, 2005. С. 6—20.
12. Ляшевская О. Н., Пл унг ян В. А., Си чинава Д. В. О мор-
фологическом стандарте Национального корп уса русского языка
// Национальный корпус русского языка: 2003—2005. Результаты
и перспективы. М.: Индрик, 2005. С. 111—135.
13. Sharof f S., Kopotev M., Erjavec T., Feldman A., Divjak D.
Designing and evaluating Russian tagsets // Proceedings of the 6th
International Conference on Language Resources and Evaluation (LREC
2008). 2008. P. 279—285.
14. Ratnaparkhi A. A Maxi mum Entropy Model for Part-Of-Speech
Tagging // Proceedings of the Conference on Empirical Methods in
Natura l Language Processing. 1996. P. 133—142.
15. Collins M. Discriminative Training Methods for H idden
Markov Models: T heory and Experiments with Perceptron Algorithms
// Proceedings of the Conference on Empirical Methods in Natural
Lang uage Processin g. 2002. P. 1—8.
16. Spoustová D., Hajič J., Raab J., Spousta M. Semi-Supervised
Training for the Averaged Perceptron POS Tagger // Proceedings of the 12th
Conference of the European Chapter of the ACL (EACL 2009). Association
for Computational Linguistics, 2009. P. 763—771.
17. Straka M., Straková J. Universal Dependencies 2.3 Models for
UDPipe (2018-11-15), LINDAT/CLAR IN digital library at the Institute
of Formal and Applied Linguistics (ÚFAL), Faculty of Mathematics and
Physics, Charles University. 2018. URL: http://hdl.handle.net/11234/1-2898.
18. А пресян Ю. Д., Бог уславский И. М., Иомдин Б. Л. и др.
Синтаксически и семантически аннотированный корпус русского
языка: современное состояние и перспективы // Национальный
корпус русского языка: 2003—2005. Результаты и перспективы.
М.:Инд рик, 2005. С. 193—214.
19. Boguslavsky I. SynTagRus — a Deeply Annotated Corpus of
Russian // Les émotions dans le discours — Emotions in Discourse/
Eds. P. Blumenthal, I. Novakova, D. Siepmann. Ger many, Frankfurt
am Mine: Peter Lang, 2014. P. 367—380.
20. Droganova K ., Lyashevskaya O., Zeman D. Data Conversion
and Consistency of Monolingual Corpora: Russian UD Treebanks.
// Proceedin gs of the 17th International Workshop on Treebanks and
Li ng uistic Th eor ies (T LT 2018). Li nk öping Un iversity E lectronic Pr ess,
2018. No. 155. P. 52—65.
21. Nivre J., Abrams M., Agić Ž. et al. Universal Dependencies
2.3, LINDAT/CLARIN digital library at the Institute of Formal and
Applied Linguistics (ÚFAL), Faculty of Mathematics and Physics, Charles
University. 2018. URL: http://hdl.handle.net/11234/1-2895.
22. Hochreiter S., Schmidhuber J. Long Short-Term Memory //
Neural Computation. 1997. Vol. 9, Issue 8. P. 1735—1780.
23. Belikov V., Kopylov N., Piperski A ., Selegey V., Sharoff S.
Cor pu s as languag e: from s calability to re gi ste r variation. // Computation al
Ling uistics and Intellectual Technologies. Proceedings of the International
Conference "Dialogue 2013". M.: RGGU, 2013. Issue 12. P. 83—95.
24. Сокирко А. В. Морфолог ические мод ули на сайт е www.aot.ru
// Труды меж д. конф. "Диа лог-200 4". М.: Наука, 2004. С. 559—564.
25. Dereza O., Kayutenko D., Fenogenova A. Automatic
morphological analysis for Russian: A comparative study // Proceedings
of the International Conference Dialogue 2016. Computational linguistics
and intellectual technologies. Student session (online publication). 2016.
URL: http://www.dialog-21.ru/media/3473/dereza.pdf
Automatic Morphological Analysis for Russian:
Application-Oriented Survey
I. V. Trofi mov, itrofi mov@gmail.com, Ailamazyan Program Systems Institute of RAS,
Pereslavl-Zalessky, 152020, Russian Federation
Corresponding author:
Trofimov Igor’ V., Senior Researcher, Ailamazyan Program Systems Institute of RAS, Pereslavl-Zalessky,
152020, Russian Federation
E-mail: itrofimov@gmail.com
399
"Программная инженерия" Том 10, № 9—10, 2019
Received on July 22, 2019
Accepted on August 06, 2019
Researchers who focus on higher-level NLP tasks, and NLP application developers often rely on off-the-shelf solutions for
lower-level subtasks like tokenization, sentence segmentation, lemmatizing, morphological tagging, and dependency parsing.
The paper presents an accuracy evaluation of two morphological modules for the Russian language: the one used within
the Sharoff&Nivre’s pipeline, and UDPipe. Their performance is compared against rnnmorph neural algorithm that showed
the b es t r es ul ts at the Morp hoRuEval- 20 17 c omp et it ion. For evaluation purp os es we used its implementati on as of May 2 019.
The study uses the datasets from MorphoRuEval and follows its evaluation framework. The experiments have revealed
in which respects and to what extent rnnmorph outperforms the state-of-the-art pipeline solutions. Specifi cally, rnnmorph
proves to be highly accurate (> .95) in identifying grammemes of nouns and pronouns, which is relevant for syntactic
analysis of Russian. It is worth mentioning that rnnmorph was trained using fi ve times less training data than TreeTagger,
the morphological analyzer in the Sharoff’s and Nivre’s pipeline. At the same time, rnnmorph is fairly slow, and the trained
model at hand fails to generate a number of key morphological features.
The comparativ e study d ata and s up po rting ana lyses pr esented in the paper will be of he lp for sof twar e designers c ha l-
lenged with the choice of a morphological analyzer to build into their applications.
Keywords: natural language processing, morphological analysis, MorphoRuEval, TreeTagger, UDPipe, rnnmorph,
morphological tagsets, lemmatization, Russian language
Acknowledgements: The reported study was funded by RFBR according to the research project No. 19-07-00779.
For citation:
Trof imov I. V. Automatic Morphological A nalysis for Russian: Application-Oriented Survey, Programmnaya Ingeneria,
2019, vol. 10, no. 9—10, pp. 391—399.
DOI: 10.17587/prin.10.391-399
References
1. Sharoff S., Nivre J. The proper place of men and machines in
language technology: Processing Russian without any linguistic knowl-
edge, Computational Linguistics and Intellectual Technologies: Proc. In-
ternational Conference "Dialog 2011", Moscow, RGGU, 2011, issue 10,
pp. 591—605.
2. Straka M., Hajič J., Straková J. UDPipe: Trainable Pipeline
for Processing CoNLL-U Files Per forming Tokenization, Morphological
Analysis, POS Tagging and Parsing, Proc. Tenth International Confer-
ence on Language Resources and Evaluation (LREC 2016), European
Lang uage Resources Association (ELRA), 2016, pp. 4290—4297.
3. Straka M., Straková J. Tokenizi ng, POS Tagging, Lemmatiz-
ing and Parsing UD 2.0 with UDPipe, Proc. CoNLL 2017 Shared Task:
Multilingual Parsing from Raw Text to Universal Dependencies, Association
for Computational Linguistics, 2017, pp. 88—99.
4. Sorokin A., Shavrina T., Lyashevskaya O., Bocharov V.,
Alexeeva S., Droganova K., Fenogenova A., Granovsky D. Morpho-
RuEval-2017: an Evaluation Track for the Automatic Morpholog ical
Analysis Methods for Russian, Computational Linguistics and Intellectual
Technologies. Proc. International Conference "Dialogue 2017", Moscow,
RGGU, 2017, vol. 1, issue 16, pp. 297—313.
5. Anastasyev D. G., Andrianov A. I., Indenbom E. M. Part-of-
speech tagging with rich language description, Computational Linguistics
and Intellectual Technologies. Proc. International Conference "Dialogue
2017", Moscow, RGGU, 2017, vol. 1, issue 16, pp. 2—13.
6. Anastasyev D., Gusev I., Indenbom E. Improving part-of-speech
tagg ing via multi-task learning and character-level word representations,
Computational Linguistics and Intellectual Technologies. Proc. International
Conference "Dialogue 2018", Moscow, RGGU, 2018, issue 17, pp. 14—27.
7. Schmid H. Probabilistic Part-of-Speech Tagging Usi ng Deci-
sion Trees, Proc. International Conference on New Methods in Language
Processing, 1994, vol. 12, pp. 44—49.
8. Brants T. TnT: a statistical part-of-speech tagger, Proc. Sixth
conference on applied natural language processing, Association for Com-
putational Linguistics, 2000, pp. 224 —231.
9. Giménez J., Màrquez L. SVMTool: A General POS Tagger
Generator Based on Suppor t Vector Machines, Proc. Fourth International
Conference on Language Resources and Evaluation (LR EC’04), European
Lang uage Resources Association (ELRA), 20 04, pp. 43—46.
10. Jongejan B., Dalianis H. Automatic training of lemmatization
rules that handle morphological changes in pre-, in- and suf fixes alike,
Proc. 47th Annual Meeting of the ACL and the 4th International Joint
Conference on Natural Language Processing of the AFNLP, Association
for Computational Linguistics, 2009, pp. 145—153.
11. Plungyan V. A. What do we need R us sia n National Cor pus for?
An informal introduction, Natsionalnyi korpus russkogo yazyka: 2003
2005. Rezul’taty i perspektivy, Мoscow, Indrik, pp. 6—20 (in Russian).
12. Lyashevskaya O. N., P lun gyan V. A ., Sich ina va D. V. Morpho-
logical standard of the Russian National Cor pus, Natsionalnyi korpus
russkogo yazyka: 2003—2005. Rezul’taty i perspektivy, Мoscow, Indrik,
pp. 111—135 (in Russian).
13. Sharof f S., Kopotev M., Erjavec T., Feldman A., Divjak D. De-
signing and evalu ating Russian tagsets, Proc. 6th International Conference
on Language Resources and Evaluation (LREC 2008), 2008, pp. 279—285.
14. Ratnaparkhi A. A Maxi mum Entropy Model for Part-Of-Speech
Tag gi ng, Proc. Conference on Empirical Methods in Natural Language
Processing, 1996, pp. 133—142.
15. Collins M. Discriminative Training Methods for H idden Markov
Models: Theory and Experiments with Perceptron A lgorithms, Proc.
Conference on Empirical Methods in Natural Language Processing, 2002.
pp. 1—8.
16. Spoustová D., Hajič J., R aab J., Spoust a M. Semi-Supervised
Training for the Averaged Perceptron POS Tagger, Proc. 12th Confer-
ence of the European Chapter of the ACL (E ACL 2009), Association for
Computational Linguistics, 2009, pp. 763—771.
17. Straka M., Straková J. Universal Dependencies 2.3 Models for
UDPipe (2018-11-15), LINDAT/CLARIN digital library at the Institute of
Formal and A pplied Linguistics (ÚFAL), Faculty of Mathematics and Physics,
Charles University, 2018. available at: http://hdl.handle.net/11234/1-2898.
18. Apresyan Yu. D., Boguslavsky I. M., Iomdin B. L. et al. Syn-
tactical ly a nd S ema nti cal ly An not ate d Corpus of Russi an: State-of- the -
Art and Prospects, Natsionalnyi korpus russkogo yazyka: 2003—2005.
Rezul’taty i perspektivy, Мoscow, Indrik, 2005, pp. 193—214 (in Russian).
19. Boguslavsky I. SynTagRus — a Deeply Annotated Corpus of
Russian, Les émotions dans le discours — Emotions in Discourse / Eds
P. Blumenthal, I. Novakova, D. Siepmann, Germany, Frank furt am
Mine, Peter L ang, 2014, pp. 367—380.
20. Droganova K., Lyashevskaya O., Zeman D. Data Conversion and
Consistency of Monolingual Corpora: Russian UD Treebanks, Proc. of
the 17th International Workshop on Treebanks and Linguistic Theories (TLT
2018), Linköping University Electronic Press, 2018, no. 155, pp. 52—65.
21. Nivre J., Abrams M., Agić Ž. et al. Universal Dependencies 2.3,
LINDAT/CLAR IN digital library at the Institute of Formal and Applied
Linguistics (ÚFAL), Faculty of Mathematics and Physics, Charles University,
2018, available at: http://hdl.handle.net/11234/1-2895.
22. Hochreiter S., Schmidhuber J. Lo ng Shor t-Term Memor y, Neu-
ral Computation, 1997, vol. 9, issue 8, pp. 1735—1780.
23. Belikov V., Kopylov N., Piperski A., Selegey V., Sharoff S.
Cor pu s as languag e: from s calability to re gi ste r variation. Computational
Linguistics and Intellectual Technologies. Proc. International Conference
"Dialogue 2013" , Moscow, RGGU, 2013, Issue 12, pp. 83—95.
24. Sokirko A. V. Morphological Modules on www.aot.r u Website,
Computational Linguistics and Intellectual Technologies. Proc. International
Conference (Dialogue’2004), Moscow, 2004, pp. 559—564 (in Russian).
25. Dereza O., Kayutenko D., Fenogenova A. Automatic morpho-
logical analysis for Russian: A comparative study, Proc. International
Conference Dialogue 2016. Computational linguistics and intellectual tech-
nologies. Student session (online publication), 2016. available at: http://
www.dialog-21.ru/media/3473/dereza.pdf
Article
Full-text available
In this article we present a new annotated Russian language corpus named PaRuS (Parsed Russian Sentences). The corpus containing over 2.5 billion tokens is intended for use in computer linguistics tasks involving machine learning methods. PaRuS is a collection of annotated literary Russian sentences. Our linguistic annotation includes morphological features in MULTEXT-East format, and syntactic information in SynTagRus notation. We consider the methodology of corpus creation and describe PaRuS_pipe, a hybrid linguistic pipe developed for sentence annotation. We also discuss the quality of linguistic annotation in PaRuS and provide an assessment of the PaRuS_pipe morphological analyzer, according to the MorphoRuEval-2017 competition methodology.
Article
Full-text available
In this paper, we explore the ways to improve POS-tagging using various types of auxiliary losses and different word representations. As a baseline, we utilized a BiLSTM tagger, which is able to achieve state-of-the-art results on the sequence labelling tasks. We developed a new method for character-level word representation using feedforward neural network. Such representation gave us better results in terms of speed and performance of the model. We also applied a novel technique of pretraining such word representations with existing word vectors. Finally, we designed a new variant of auxiliary loss for sequence labelling tasks: an additional prediction of the neighbour labels. Such loss forces a model to learn the dependencies inside a sequence of labels and accelerates the process of training. We test these methods on English and Russian languages.
Conference Paper
Full-text available
This paper describes POS tagging exper- iments with semi-supervised training as an extension to the (supervised) averaged perceptron algorithm, first introduced for this task by (Collins, 2002). Experiments with an iterative training on standard-sized supervised (manually annotated) dataset (106 tokens) combined with a relatively modest (in the order of 108 tokens) un- supervised (plain) data in a bagging-like fashion showed significant improvement of the POS classification task on typo- logically different languages, yielding bet- ter than state-of-the-art results for English and Czech (4.12 % and 4.86 % relative er- ror reduction, respectively; absolute accu- racies being 97.44 % and 95.89 %).
Conference Paper
Full-text available
We propose a method to automatically train lemmatization rules that handle prefix, infix and suffix changes to generate the lemma from the full form of a word. We explain how the lemmatization rules are created and how the lemmatizer works. We trained this lemmatizer on Danish, Dutch, English, German, Greek, Icelandic, Norwegian, Polish, Slovene and Swedish full form-lemma pairs respectively. We obtained significant improvements of 24 percent for Polish, 2.3 percent for Dutch, 1.5 percent for English, 1.2 percent for German and 1.0 percent for Swedish compared to plain suffix lemmatization using a suffix-only lem- matizer. Icelandic deteriorated with 1.9 per- cent. We also made an observation regarding the number of produced lemmatization rules as a function of the number of training pairs.
Conference Paper
Full-text available
This paper reports the principles behind designing a tagset to cover Russian morphosyntactic phenomena, modifications of the core tagset, and its evaluation. The tagset and associated morphosyntactic specifications are based on the MULTEXT-East fra mework, while the decisions in designing it were aimed at achieving a balance between parameters important for linguists and the possi bility to detect and disambiguate them automatically. The final tagset conta ins about 500? tags and achieves about 95% accuracy on the disambiguated portion of the Russian National Corpus. We have also produced a test set of tagging models and corpora that can be shared with other researchers.
Conference Paper
Automatic natural language processing of large texts often presents recurring challenges in multiple languages: even for most advanced tasks, the texts are first processed by basic processing steps – from tokenization to parsing. We present an extremely simple-to-use tool consisting of one binary and one model (per language), which performs these tasks for multiple languages without the need for any other external data. UDPipe, a pipeline processing CoNLL-U-formatted files, performs tokenization, morphological analysis, part-of-speech tagging, lemmatization and dependency parsing for nearly all treebanks of Universal Dependencies 1.2 (namely, the whole pipeline is currently available for 32 out of 37 treebanks). In addition, the pipeline is easily trainable with training data in CoNLL-U format (and in some cases also with additional raw corpora) and requires minimal linguistic knowledge on the users’ part. The training code is also released.
The proper place of men and machines in language technology: Processing Russian without any linguistic knowledge
  • S Sharoff
  • J Nivre
Sharoff S., Nivre J. The proper place of men and machines in language technology: Processing Russian without any linguistic knowledge, Computational Linguistics and Intellectual Technologies: Proc. International Conference "Dialog 2011", Moscow, RGGU, 2011, issue 10, pp. 591-605.
Shared Task: Multilingual Parsing from Raw Text to Universal Dependencies
  • M Straka
  • J Straková
  • Tokenizing
  • Tagging
Straka M., Straková J. Tokenizing, POS Tagging, Lemmatizing and Parsing UD 2.0 with UDPipe, Proc. CoNLL 2017 Shared Task: Multilingual Parsing from Raw Text to Universal Dependencies, Association for Computational Linguistics, 2017, pp. 88-99.
Morpho-RuEval-2017: an Evaluation Track for the Automatic Morphological Analysis Methods for Russian, Computational Linguistics and Intellectual Technologies
  • A Sorokin
  • T Shavrina
  • O Lyashevskaya
  • V Bocharov
  • S Alexeeva
  • K Droganova
  • A Fenogenova
  • D Granovsky
Sorokin A., Shavrina T., Lyashevskaya O., Bocharov V., Alexeeva S., Droganova K., Fenogenova A., Granovsky D. Morpho-RuEval-2017: an Evaluation Track for the Automatic Morphological Analysis Methods for Russian, Computational Linguistics and Intellectual Technologies. Proc. International Conference "Dialogue 2017", Moscow, RGGU, 2017, vol. 1, issue 16, pp. 297-313.