Conference PaperPDF Available

НАДКОРПУСНЫЕ БАЗЫ ДАННЫХ КАК ЛИНГВИСТИЧЕСКИЙ РЕСУРС SUPRACORPORA DATABASES AS LINGUISTIC RESOURCE

Authors:

Abstract

This article presents information resources used in contrastive linguistic studies, based on parallel corpora, i.e. collections of original texts in the languages aligned with their translations into other compared language(s). A new type of linguistic resources, which are termed here as supracorpora databases, is introduced. Features of such databases are outlined and the necessity for creating them is justified.
1
Анна А. Зализняк, И.М. Зацман, О.Ю. Инькова, М.Г. Кружков
O. Inkova, M. Kruzhkov, Anna A. Zalizniak, I. Zatsman
НАДКОРПУСНЫЕ БАЗЫ ДАННЫХ КАК
ЛИНГВИСТИЧЕСКИЙ РЕСУРС1
SUPRACORPORA DATABASES AS LINGUISTIC RESOURCE
Аннотация. Рассматриваются используемые в контрастивных
лингвистических исследованиях информационные ресурсы, построенные
на базе параллельных корпусов, содержащих тексты на русском языке и
их переводы на какой-либо другой язык, выровненные по предложениям.
Определяется новый тип лингвистических ресурсов: надкорпусные базы
данных. Дается описание таких баз данных и обосновывается
необходимость их формирования.
Ключевые слова. Контрастивная лингвистика, параллельные
корпуса, надкорпусные базы данных, русский язык.
Abstract. This article presents information resources used in
contrastive linguistic studies, based on parallel corpora, i.e. collections of
original texts in the languages aligned with their translations into other
compared language(s). A new type of linguistic resources, which are termed
here as supracorpora databases, is introduced. Features of such databases are
outlined and the necessity for creating them is justified.
Keywords. Contrastive linguistics, parallel texts, supracorpora
databases, Russian language.
1. «Надкорпусные» базы данных
Одним из распространенных лингвистических ресурсов
сегодня являются специализированные типологические базы
1 Работа выполнена в Институте проблем информатики ФИЦ ИУ
РАН по грантам РФФИ ( 13-06-00403) и РГНФ ( 15-04-00507).
2
данных (ТБД), позволяющие сохранять структурированную
информацию о реализации того или иного языкового явления;
при этом ТБД не позволяют делать статистически
подтвержденные выводы, поскольку они формируются в
результате целенаправленной выборки отдельных интересующих
исследователей примеров (см. в частности [Brown et al. 2009],
[Кружков 2015]). Это оправдано, когда поставлена задача
проиллюстрировать те или иные языковые явления примерами.
Однако часто требуется не только найти примеры, но и оценить
уровень частотности определенных языковых явлений в
некоторой совокупности текстов корпуса или в корпусе в целом.
В такой ситуации возникает необходимость в разработке
технологии, позволяющей обрабатывать полностью тексты
корпуса и фиксировать в базе данных каждое появление
исследуемого языкового явления. Такая база данных является в
некотором смысле «продолжением» корпуса или «надстройкой»
над ним; в работе [Кружков 2015] такие базы данных (БД) было
предложено называть надкорпусными. Далее будут рассмотрены
первые опыты по их созданию.
В работе по исследованию глагольных форм русского языка
в зеркале их переводов на французский язык (см. [Loiseau et.al.
2013]) мы пришли к необходимости создания надкорпусной БД,
расширяющей функции, доступные в параллельных корпусах.
Логическим элементом этой БД является переводное
соответствие, то есть двухместный кортеж, включающий
глагольную форму оригинала и ее функционально эквивалентный
фрагмент в тексте перевода2. При этом каждая глагольная форма
получает двухступенчатую характеристику: она соотносится с
некоторым «базовым видом» из типологии (системы)
видовременных форм глагола в русском языке и, кроме того,
2 В работе [Loiseau et.al. 2013] для обозначения описанного
переводного соответствия как единицы БД был введен термин
«моноэквиваленция».
3
может специфицироваться рядом «дополнительных признаков»
(см. подробнее [Kruzhkov et al. 2014]).
БД русских глагольных форм и их французских
эквивалентов включает в себя около 5 тыс. переводных
соответствий и оснащена двуязычным лексико-грамматическим
поисковым интерфейсом, который позволяет искать соответствия
интересующих пользователя форм, задавая различные сочетания
грамматических признаков и/или лексики для русских
глагольных конструкций и соответствующих им функционально
эквивалентных фрагментов на французском языке, а также
получать информацию о частотности этих соответствий (см.
http://a179.ipi.ac.ru/corpora_dynasty/main.aspx).
В стадии заполнения находятся еще две надкорпусные БД,
созданные при участии авторов статьи: база данных
лингвоспецифичных единиц русского языка, а также база данных
коннекторов русского и французского языков.
2. Надкорпусная БД лингвоспецифичных единиц
русского языка
База данных лингвоспецифичных единиц русского языка
(БД-ЛСЕ) была спроектирована в ходе выполнения проекта
«Контрастивное корпусное исследование специфических черт
семантической системы русского языка» на базе параллельного
русско-французского подкорпуса Национального корпуса
русского языка (НКРЯ), который был создан, в значительной
степени, силами коллектива данного проекта в ходе
предшествующих этапов работы [Kruzhkov et al. 2014]) и в
настоящий момент входит в качестве подкорпуса в НКРЯ.
Входом этой БД является моноэквиваленция вида
«некоторый релевантный фрагмент текста, содержащий
лингвоспецифичную единицуфункционально-эквивалентный
фрагмент текста перевода». Множество тестируемых
лингвоспецифичных единиц было сформировано на основе
4
Указателя лексем к книге [Зализняк и др. 2012]. БД-ЛСЕ является
эффективным инструментом лингвистического анализа, так как
позволяет оценить реальные отношения переводной
эквивалентности лингвоспецифичных слов и получить их
статистическую оценку, оценить меру лингвоспецифичности
языковой единицы на основании квантитативного анализа (см.
подробнее [Зализняк 2015]).
В нашем исследовании применяется унидирекциональный
метод контрастивного анализа. Он основан на том, что перевод
некоторой лексической единицы русского языка рассматривается
как источник сведений о его семантике. Причем в этих целях
используется как прямой, так и обратный перевод:
соответственно, условия появления интересующего нас слова в
переводе на русский язык рассматриваются в качестве
свидетельства о семантике анализируемой единицы русского
языка. Тем самым сопоставление двух языков является не целью,
а лишь инструментом анализа одного из них.
3. Надкорпусная БД коннекторов
Сопоставительное описание системы коннекторов, т.е.
языковых единиц, выполняющих связующую функцию, русского
и французского языков на основе надкорпусной БД также
является более эффективным, чем исследование, проведенное на
основе выборки отдельных примеров, как это было сделано в
работе [Инькова-Манзотти 2001]. Первые данные, полученные в
результате разработки такой БД, уже позволяют уточнить
некоторые положения, сформулированные в предыдущих
исследованиях. Так, например, поиск по сочетаемости
коннектороввозможность, которую предоставляет
разрабатываемая БД, – позволяет заметить, что некоторые
сочетания коннекторов особенно частотны в русском языке,
причем статус таких многокомпонентных единиц в системе
русского языка не вполне ясен. Статистические данные, которые
5
предоставляет надкорпусная БД, а также анализ функционально
эквивалентных коннекторов или их сочетаний во французском
языке должны позволить решить эту теоретическую проблему.
Кроме того, статистические данные, полученные в результате
последовательной обработки всей совокупности текстов, станут
основой для уточнения эквивалентности в группах
синонимичных коннекторов обоих языков, например, для
русских но, однако, тем не менее, которым во французском
языке соответствуют mais, cependant, toutefois, néanmoins. На
нынешнем этапе исследования, опираясь на данные словарей и
изолированные примеры из параллельных корпусов, в частности
НКРЯ, можно лишь констатировать, что эти коннекторы
выражают один и тот же тип отношения и что они могут служить
друг для друга переводными эквивалентами. Таковы лишь
некоторые из преимуществ надкорпусной БД коннекторов по
сравнению с другими информационными ресурсами, которые
могут лежать в основе описания этих языковых единиц.
4. Заключение
Итак, надкорпусные БД представляют собой надстройки над
инфраструктурой параллельных корпусов. При обработке данных
параллельных корпусов они позволяют сохранять информацию о
результатах контрастивного лингвистического анализа в виде
формализованных описаний соответствий конструкций
оригинального текста их функционально эквивалентным
фрагментам в одном или нескольких переводных текстах,
формируемых лингвистами-экспертами в результате
последовательной обработки текстов параллельных корпусов.
В тех случаях, когда задачей обработки корпуса
одновременно занимается несколько экспертов-лингвистов, что
неизбежно при проведении масштабных проектов, надкорпусные
БД обеспечивают возможность интегрировать плоды их
совместной работы, не говоря уже о возможности предоставить
6
другим исследователям доступ и к полученных результатам, и ко
всем использованным исходным данным, что значительно
упрощает процессы верификации полученных результатов и
позволяет использовать созданный информационный ресурс в
дальнейших исследованиях.
Литература
1. Зализняк Анна А. (2015), Лингвоспецифичные единицы
русского языка в свете контрастивного корпусного анализа (По
материалам ежегодной Международной конференции «Диалог-
2015»), Vol. 14(21) (в печати).
2. Зализняк Анна А., Левонтина И.Б., Шмелев А.Д. (2012),
Константы и переменные русской языковой картины мира, М.
3. Инькова-Манзотти О.Ю. (2001), Коннекторы
противопоставления во французском и русском языках:
сопоставительное исследование, М.
4. Кружков М.Г. (2015), Информационные ресурсы
контрастивных лингвистических исследований: типологические
базы данных, Системы и средства информатики, Том 25(1) (в
печати).
5. Brown D.P., Tiberius C., Chumakina M., Corbett G.G.,
Krasovitsky A. (2009), Databases designed for investigating specific
phenomena, in The Use of Databases in Cross-Linguistic Studies.
Empirical Approaches to Language Typology, Vol. 41, Mouton De
Gruyter, Berlin/New York, pp. 117-154.
6. Kruzhkov M.G., Buntman N.V., Loshchilova E.Ju.,
Sitchinava D.V., Zalizniak Anna A., Zatsman I.M. (2014), A database
of Russian verbal forms and their French translation equivalents,
Компьютерная лингвистика и интеллектуальные технологии (По
материалам ежегодной Международной конференции «Диалог-
2014»), Том 13(20), с. 284-297.
7. Loiseau S., Sitchinava D.V., Zalizniak Anna A., Zatsman I.M.
(2013), Information technologies for creating the database of
7
equivalent verbal forms in the Russian-French multivariant parallel
corpus, Информатика и ее применения, Том 7(2), с. 100-109.
References
1. Brown D.P., Tiberius C., Chumakina M., Corbett G.G.,
Krasovitsky A. (2009), Databases designed for investigating specific
phenomena, in The Use of Databases in Cross-Linguistic Studies.
Empirical Approaches to Language Typology, Vol. 41, Mouton De
Gruyter, Berlin/New York, pp. 117-154.
2. Inkova-Manzotti О. (2001), Konnektory protivopostavlenija vo
frantsuzskom i russkom jazykah : sopostavitel’noe issledovanie
[Connectives of opposition in French and in Russian: a contrastive
study], Мoscow.
2. Kruzhkov M.G. (2015), Informatsionnye resursy
kontrastivnykh lingvisticheskikh issledovaniy: tipologicheskie bazy
dannykh [Information recourses for contrastive studies: Typological
Databases], Sistemy i Sredstva Informatiki [Systems and Means of
Informatics], Vol. 25(1) (in print).
4. Kruzhkov M.G., Buntman N.V., Loshchilova E.Ju.,
Sitchinava D.V., Zalizniak Anna A., Zatsman I.M. (2014), A database
of Russian verbal forms and their French translation equivalents,
Кomp'juternaja lingvistika i intellektual'nye tehnologii: Тrudy
mezhdunarodnoj konferentsii «Dialog–2014» [Computational
Linguistics and Intellectual Technologies. Proceedings of
International Conference «Dialog–2014»], Vol. 13(20), pp. 284-297.
5. Zalizniak Anna A., Levontina I.B., Shmelev A.D. (2012),
Konstatnty i peremennye russkoj jazykovoj kartiny mira [Constants
and variables of the Russian linguistic model of the world], Moscow.
6. Zalizniak Anna A. Lingvospecifichnye edinicy russkogo
jazyka v svete kontrastivnogo korpusnogo analiza [Russian language-
specific words in light of the contrastive corpus analysis],
Кomp'juternaja lingvistika i intellektual'nye tehnologii: Тrudy
mezhdunarodnoj konferentsii «Dialog–2015» [Computational
8
Linguistics and Intellectual Technologies. Proceedings of
International Conference «Dialog–2015»], Vol. 14(21) (in print).
7. Loiseau S., Sitchinava D.V., Zalizniak Anna A., Zatsman I.M.
(2013), Information technologies for creating the database of
equivalent verbal forms in the Russian-French multivariant parallel
corpus, Informatika i ee primeneniya [Informatics and its
Applications], Vol. 7(2), pp. 100-109.
______________________________
Зализняк Анна Андреевна
Институт языкознания РАН, Институт проблем
информатики ФИЦ ИУ РАН
Zalizniak Anna
Insitute of Linguistics RAS, Institute of Informatics Problems of
the FRC CSC RAS
E-mail: anna.zalizniak@googlemail.com
Зацман Игорь Моисеевич
Институт проблем информатики ФИЦ ИУ РАН
Zatsman Igor
Institute of Informatics Problems of the FRC CSC RAS
E-mail: izatsman@yandex.ru
Инькова Ольга Юрьевна
Женевский университет (Швейцария)
Inkova Olga
University of Geneva (Switzerland)
E-mail: Olga.Inkova@unige.ch
Кружков Михаил Григорьевич
Институт проблем информатики ФИЦ ИУ РАН
Kruzhkov Mikhail
Institute of Informatics Problems of the FRC CSC RAS
E-mail: magnit75@yandex.ru
ResearchGate has not been able to resolve any citations for this publication.
Константы и переменные русской языковой картины мира
  • Зализняк Анна
  • А Левонтина
  • И Б Шмелев
Зализняк Анна А., Левонтина И.Б., Шмелев А.Д. (2012), Константы и переменные русской языковой картины мира, М. 3. Инькова-Манзотти О.Ю. (2001), Коннекторы противопоставления во французском и русском языках: сопоставительное исследование, М. 4. Кружков М.Г. (2015), Информационные ресурсы контрастивных лингвистических исследований: типологические базы данных, Системы и средства информатики, Том 25(1) (в печати).
A database of Russian verbal forms and their French translation equivalents
  • D V Sitchinava
  • Zalizniak Anna
  • A Zatsman
Sitchinava D.V., Zalizniak Anna A., Zatsman I.M. (2014), A database of Russian verbal forms and their French translation equivalents, Компьютерная лингвистика и интеллектуальные технологии (По материалам ежегодной Международной конференции «Диалог2014»), Том 13(20), с. 284-297.
Information technologies for creating the database of References 1
  • S Loiseau
  • D V Sitchinava
  • Zalizniak Anna
  • A Zatsman
  • I M Brown
  • D P Tiberius
  • C Chumakina
  • M Corbett
  • G G Krasovitsky
Loiseau S., Sitchinava D.V., Zalizniak Anna A., Zatsman I.M. (2013), Information technologies for creating the database of References 1. Brown D.P., Tiberius C., Chumakina M., Corbett G.G., Krasovitsky A. (2009), Databases designed for investigating specific phenomena, in The Use of Databases in Cross-Linguistic Studies. Empirical Approaches to Language Typology, Vol. 41, Mouton De Gruyter, Berlin/New York, pp. 117-154.
Konnektory protivopostavlenija vo frantsuzskom i russkom jazykah : sopostavitel'noe issledovanie [Connectives of opposition in French and in Russian: a contrastive study
  • О Inkova-Manzotti
Inkova-Manzotti О. (2001), Konnektory protivopostavlenija vo frantsuzskom i russkom jazykah : sopostavitel'noe issledovanie [Connectives of opposition in French and in Russian: a contrastive study], Мoscow.
A database of Russian verbal forms and their French translation equivalents, Кomp'juternaja lingvistika i intellektual'nye tehnologii: Тrudy mezhdunarodnoj konferentsii «Dialog-2014» [Computational Linguistics and Intellectual Technologies
  • D V Sitchinava
  • Anna A Zalizniak
  • I M Zatsman
Sitchinava D.V., Zalizniak Anna A., Zatsman I.M. (2014), A database of Russian verbal forms and their French translation equivalents, Кomp'juternaja lingvistika i intellektual'nye tehnologii: Тrudy mezhdunarodnoj konferentsii «Dialog-2014» [Computational Linguistics and Intellectual Technologies. Proceedings of International Conference «Dialog-2014»], Vol. 13(20), pp. 284-297.
Lingvospecifichnye edinicy russkogo jazyka v svete kontrastivnogo korpusnogo analiza
  • Zalizniak Anna
Zalizniak Anna A. Lingvospecifichnye edinicy russkogo jazyka v svete kontrastivnogo korpusnogo analiza [Russian languagespecific words in light of the contrastive corpus analysis], Кomp'juternaja lingvistika i intellektual'nye tehnologii: Тrudy mezhdunarodnoj konferentsii «Dialog-2015» [Computational
Кomp'juternaja lingvistika i intellektual'nye tehnologii: Тrudy mezhdunarodnoj konferentsii «Dialog-2015» [Computational Linguistics and Intellectual Technologies
  • Zalizniak Anna
Zalizniak Anna A. Lingvospecifichnye edinicy russkogo jazyka v svete kontrastivnogo korpusnogo analiza [Russian languagespecific words in light of the contrastive corpus analysis], Кomp'juternaja lingvistika i intellektual'nye tehnologii: Тrudy mezhdunarodnoj konferentsii «Dialog-2015» [Computational Linguistics and Intellectual Technologies. Proceedings of International Conference «Dialog-2015»], Vol. 14(21) (in print).