Content uploaded by Inna Petrova
Author content
All content in this area was uploaded by Inna Petrova on Jun 06, 2023
Content may be subject to copyright.
УДК811.1
UDC811.1
ПетроваИннаМихайловна
Московскийгородскойпедагогическийуниверситет
г.Москва,РоссийскаяФедерация
InnaM.Petrova
MoscowCityUniversity
Moscow,RussianFederation
miinna@yandex.ru
ПОТЕНЦИАЛПОИСКОВОЙСИСТЕМЫGOOGLE
ПРИПРОВЕДЕНИИИССЛЕДОВАНИЙВРАМКАХ
КОГНИТИВНОЙКОРПУСНОЙЛИНГВИСТИКИ
THEPOTENTIALOFGOOGLESEARCHFORSTUDIES
INCOGNITIVECORPUSLINGUISTICS
Аннотация
СтатьяпосвященаиспользованиюпоисковойсистемыGoogleвкачествеаналогакорпу
сатекстовприпроведениикогнитивныхисследованийязыка.Цельстатьи–определить
значимостьстатистическихданных,доступныхврезультатеиспользованияразныхопе
раторовифильтровпоисковойсистемы,приизучениикогнитивныхмеханизмоврепре
зентации языковой действительности в речи. В статье проводится сравнение
результатовконкурирующихзапросоввGoogleи Национальномкорпусерусскогоязы
ка(НКРЯ), сформированныхнаоснове вариативностикомбинаторики биноминальных
фраз.Проведённыйэкспериментпоказал,чтообъёмиразнообразиеязыковогоматериа
лауказываютнабóльшуюэффективностьиспользованияGoogleдляисследованияком
бинаторики и вариативности фразы, что позволяет сделать вывод относительно
обоснованности применения этих данных в качестве лингвистического материала для
дальнейшейинтерпретациивкогнитивныхисследованияхязыка.
Abstract
Thepaperinvestigatesthepossibilityto employtheGooglesearch systemasananalogue of
thecorpusof textsforpotentialusein furthercognitiveresearchof alanguage.Thepurpose
of the article is to elucidate the significance of statistical data available due to the use of
differentoperatorsand filters of thesearch system in the study of cognitivemechanisms of
representation of linguistic reality in speech. Experimental observations have been made to
comparethe results of competingqueries in Google andRussian National Corpus based on
thewordordervariabilityof binomial phrases.Theresultsobtainedshowedthatthe volume
and variety of language data justifies the employment of Google for these purposes. This
leadstotheconclusionthatthesedatacanbeconsideredvalidaslinguisticmaterialforfurther
interpretationincognitivelanguageresearch.
Ключевые слова: корпусная когнитивная лингвистика, алгоритм поисковой системы,
комбинаторикафразы,биноминальныеконструкции,поисковыйзапрос.
Теоретическаяиприкладнаялингвистика,2019,5(3),127‒142 127
Keywords: corpus cognitive linguistics, search engine algorithm, phrase combinatorics,
binominalphrases,searchquery.
doi:10.22250/24107190_2019_5_3_127_142
1. Введение
Всовременнойлингвистикевсёбольшеибольшеисследованийпро
водится с использованием корпусов текстов [Бурыкин, 2015 ; Манерко,
2018;Сулейманова,Демченко,2018идр.].Этообусловленотем,чтоуско
реннаякомпьютернаяобработкамассивовтекстов(корпусов),согласноза
даннымпараметрам,предоставляетобширныйлингвистическийматериал,
позволяющийполучатьновыезнанияоязыке.Перспективыиспользования
этих технологий активно обсуждаются в научном сообществе [Голубкова,
2017 ; Рахилина, 2017 ; Чумарина, 2017 и др.]. Отмечая положительные и
отрицательные стороны использования корпусных методик при изучении
языковыхявлений,практическивсеисследователиконстатируютнеизбеж
ность обращения к данному инструментарию. Постоянно растущий ин
терес к возможностям поисковых систем типа Google и недостаточная
изученность применения инструментария, предоставляемого современны
митехнологиями,влингвистическихи,вчастности,вкогнитивныхиссле
дованияхопределяютактуальностьданнойработы.
Приизучениикогнитивныхпроцессовчрезвычайноважнымиоказы
ваютсястатистические параметры,учёткоторыхпозволяет интерпретиро
ватьэтипроцессынадругомуровне.К. Фишероднимизпервыхпоставил
перед лингвистамикогнитологами вопрос о том, как можно при помощи
количественных методов исследовать значение в когнитивной семантике
[Fischer,2010,с. 44].Врезультатевозникцелыйрядколичественныхмето
дов,которые активноиспользуютсяв когнитивнойсемантике.В их число
входят,например,методматематической модели, кластерный анализ, кор
реляционный анализ, логистическая регрессия и другие (подробнее об
этомсм.[Fischer,2010]).Объединениестатистическойобработкиданныхс
результатами применения других экспериментальных методик становится
важным элементом исследования в когнитивной науке. Анализ эмпириче
скихданныхиихинтерпретацияпозволяютчётчеформулироватьгипотезу
и выявлять противоречия между теоретическим и практическим исследо
ваниемявления,особенно втомслучае, когда «первичнаягипотеза, полу
ченная в ходе интроспективного анализа, противоречит результатам
статистических данных корпуса; интерпретируя результаты, мы можем
прийти либо к формулированию более точной гипотезы и постановке но
выхвопросов, которыевпоследующем могут статьосновой для экспери
ментальных проверок данной гипотезы, либо к новым противоречиям с
результатами корпусных данных и т. д.» [Tummers, 2005, с. 233]. Другими
словами, анализ статистики корпусных данных выступает таким инстру
ментомисследования,восновекоторогозаложензначительныйпотенциал
Петрова Н. М./ТиПЛ,2019,5(3),127‒142
128
дляинтерпретации определённоголингвистическогоявленияи коррекции
наших воззрений на данное явление с учётом объективных факторов. Та
ким образом, новизна настоящего исследования заключается в том, что в
нёмпредпринятапопыткавыявлениявозможностейсовременногоинстру
ментариядляизученияязыковойдействительностиспозицийкогнитивной
науки.
Цель настоящей работы – установить, насколько репрезентативен и
релевантенязыковой материал,полученныйнаоснове поисковойсистемы
Google,для когнитивныхисследованийязыка.Для достиженияуказанной
целипланировалосьрешитьследующиезадачи:
1) выявитьролькорпусныхданныхприпроведениикогнитивныхис
следованийязыка;
2) выяснить и описать особенности обработки языкового материала
поисковойсистемой;
3) сравнить результаты поисковых запросов, полученных на основе
Национальногокорпусарусскогоязыка(далее–НКРЯ)иGoogle,иустано
вить обоснованность применения Google данных как аналога языкового
корпуса.
В данной статье мы рассматриваем потенциал поисковой системы
Googleкакбазыкорпусныхданныхприпроведениикогнитивныхисследо
ванийязыка.Языковойкорпустекстоввыступаеткак«большой,представ
ленный в электронном виде, унифицированный, структурированный,
размеченный, филологически компетентный массив языковых данных,
предназначенный длярешения конкретныхлингвистических задач»[Заха
ров,Богданов,2011,с. 7].Подробноеописаниелингвистическогокорпусаи
еговидовможнонайти,например,вработеН. В. Козловой[Козлова,2013].
Однако наряду с существующими языковыми корпусами активно исполь
зуетсяи сетьИнтернет, посколькуонаобладаетмногими характеристика
ми данного инструментария. Дискуссия о «вебе как корпусе» становится
всёболеепопулярнойуисследователейи,несмотряна то,чтовеботлича
ется спонтанностью и специфической репрезентативностью, а также от
сутствием лингвистического замысла, А. Ю. Мордовин полагает, что
лёгкаядоступностьивысокаяобъективностьданныхввидуотсутствияав
торскогоколлективавзначительнойстепеникомпенсируютэтинедостатки
и функционально приравнивают веб к корпусу, что требует переосмысле
ния онтологического определения последнего. При этом он отмечает, что
веб «успешно применяется для решения исследовательских задач корпус
нымиметодами,и воспроизводит многие существенные признаки корпуса
текстов: аутентичность текстов, их машиночитаемый формат и средства
навигации по материалу, репрезентативность материала (в соответствии с
идеологией мониторного типа корпуса), а также более чем достаточный
размер»[Мордовин,2015,с. 171].Этопозволяетговоритьотом,чтонеоб
ходимо корректировать современные воззрения о классическом корпусе
текстов.Настоящаястатьяпредставляетсобойпопыткурассмотренияэто
говопросавопределённомключе,аименно,вконтекстеиспользованията
кихданныхвкогнитивныхисследованияхязыка.
129
Петрова Н. М./ТиПЛ,2019,5(3),127‒142
2. Информационная поисковая система как база корпусных
данныхвлингвистическихисследованиях
Многие исследователи уже используют веб как источник аутентич
ных, естественных, контекстуализированных языковых моделей (конкор
дансов, устойчивых словосочетаний, лексических комбинаций, фраз,
идиомидр.)[Сулейманова,Демченко,2018 ;Квашина,Ажель,2017 ;Мор
довин, 2015 ; Gatto, 2014 ; Geluso, 2013 и др.]. Благодаря неисчерпаемому
объёмуВсемирнаясетьявляетсяуникальнымресурсомдляанализачасто
тыиспользованиятехилииныхязыковых моделей,а значит,естественно
го, «живого» языка. Наиболее востребованной поисковой системой
является система Google благодаря своей простоте и быстроте, функцио
нальностипоискаинформации,атакжерепрезентативности.Результатра
боты Google можно сравнить с интернеткаталогом, отобранным с
помощьюрейтинговойсистемынаосновеалгоритмов.Болееконкретноал
горитм поиска можно описать как «нахождение элемента с заданными
свойствамисредисписка элементов».В современномобучениииностран
ному языку эта система используется в качестве инструмента, позволяю
щего проанализировать частоту употребления и значение той или иной
языковоймодели[Panah,2013 ;Квашина,Ажель,2017].
Информационнаяпоисковаясистема(далее–ИПС)строитсянаосо
бом алгоритме обработки языковой информации. При вводе документа в
базуданныхИПСегоиндексируют(поэтомусамубазупоисковойсистемы
частоназываютиндексом). Процесс индексированиясвязансопределени
емивыборкойключевыхсловобрабатываемыхдокументовивыражением
ихформальноввидепоисковогообраза.Так,базаданныхИПСсостоитиз
множества индексных поисковых образов. Непосредственно при поиске
производитсясопоставлениесделанногозапроса,тоестьтого,чтоуказано
взапросе,споисковымобразом,тоестьстем,чтохранитсявиндексе.
Ключевыми характеристиками информационного поиска, релевант
нымидляобоснованностинадежностиGoogleданных,служаттакиепока
затели, как: полнота выдачи информации и точность её выдачи; но при
этомимеютместопотериинформациииинформационныйшум.
Отношениеколичествавыданныхрелевантныхдокументовкобщему
числурелевантных документов, содержащихсяв базе информационнопо
исковой системы, определяетполнотупоиска. Точностьпоискаопределя
ется количеством выданных системой релевантных документов к общему
числудокументовв выдаче.Понятие «релевантность» выступаеткакфун
даментальное понятие теории информационного поиска. Документ, цен
тральный предмет или тема которого в целом соответствует смысловому
содержанию информационного запроса, называется релевантным, а свой
ство смысловой близости между документом и информационным запро
сом–релевантностью.
Важное место в системе представления информации в ИПС играют
поисковые тезаурусы (одноязычные или многоязычные). Они представ
ляютсобойспециальные словаридляинформационногопоискапо масси
вам естественноязыковых документов, организованные по принципу
130 Петрова Н. М./ТиПЛ,2019,5(3),127‒142
сопоставлениясловсихпонятиями.Ихструктураиразработкачастостан
дартизируются(см.,напр.,ГОСТ7.252001).Такойдескрипторныйсловарь
используется как средство лексического контроля (напр., снятия омони
мии, синонимии единиц) при индексировании документов и запросов.
Например,прииндексированиивсесинонимызапросаипоисковогообраза
представляютсяоднойитойжелексическойединицей–дескриптором(ср.
лингвистика–языкознаниеязыковедение,наукаоязыке).
Какправило,тезаурусыотносятсякклассусемантическихсловарей.
Пример организации семантической информации в поисковом тезаурусе
можно продемонстрировать на примере «Русского семантического слова
ря»подредакциейН. Ю. Шведовой[Шведова, 1998].Так,вразделе«Фор
мы и сущностные характеристики реалий и явлений действительности»
представлена следующая семантическая структура организации лексиче
ской информации: в вершине древа лежат четыре исходных множества:
1) «Время; его ход, периоды и моменты его течения»; 2) «Пространство:
егоосновныехарактеристики;мерапространства,еговеличины»;3) «Дви
жение, изменение местоположения в пространстве» и 4) «Количество.
Счёт. Масса (вес), её мера. Степень, предел, граница». Каждое из этих
четырёхмножестввключает своисобственныеподмножества,членящиеся
каждоепопринципусуженияиконкретизацииобщегозначенияинисходя
щие,разветвляясьдоконечныхлексикосемантическихрядов,далееразби
ваемых только на отдельные лексические единицы или их мельчайшие
объединения.Например,лексическоемножество«Время:егоход,периоды
и моменты его течения» существует в двух подмножествах: «Время, его
основные характеристики» и «Отрезки, периоды времени, соотносимые с
какимнибудь состоянием, событием, деятельностью, действием». В пер
вомизнихисходныйсмысл‘время’далееконкретизируетсяпопризнакам,
организующим предконечные и конечные группировки словозначений;
а) ход, течение времени (напр., давность, длительность, продолжитель
ность), б) способы, системы исчисления времени (напр., летосчисление,
календарь, стиль), в) виды сегментации и единицы исчисления времени
(напр.,интервал,момент,период;век,год,месяц,день,час).Второеизна
званныхвышеподмножеств–«Отрезки,периодывремени,соотносимыес
какимнибудь состоянием, событием, деятельностью, действием» – вклю
чает такие единицы, которые, наряду со смыслом ‘время’ заключают в
своёмзначениилибообобщённоеуказаниенасоциальныеилифизические
явления,соотносимыес определённым временнымпериодом(напр., буду
щее,настоящее,прошлое/человечества/,времена,годы/юности/,полоса,
сезон/дождей/), либоконкретнуюхарактеристику такогоявления,состоя
ния(например,сеанс,антракт,отпуск,стаж;рассвет,закат;зима,вес
на, лето; молодость, старость; неолит, палеолит). Соотношение этих
элементовзначениявсловеопределяетсобоюпоследующеечленениедан
ногоподмножества.
Таким образом, у поисковых систем Интернета имеются свои алго
ритмы поиска и выдачи информации, которые разработаны на основе
компьютернойсемантики.Дляуправленияииспользованиягибкогопоиска
131
Петрова Н. М./ТиПЛ,2019,5(3),127‒142
в языке поисковых запросов используются, так называемые, операторы –
этосимволыи команды,позволяющиенастраиватьусловияпоисказапро
са. Сам язык запросов максимально упрощён, чтобы любой пользователь
могснимсправитьсяивыбратьнеобходимыйдляегослучаяоператор.По
дробнееязыкзапросовизначенияоператоровможноизучить,задавпоиск
вбраузерепоисковойсистемы.Важнойособенностьюоператоровявляется
возможность их комбинирования. За счёт комбинаций операторов можно
выстроить сложные запросы. Например, оператор «» фиксирует порядок
слов и слова идут именно в этом порядке: «пламень и лёд». В результате
запросвыдает8,660результатов,вкоторыхименнотакойпорядокследова
ния компонентов. Комбинирование операторов позволяет максимально
гибконастроитьпоиск.
Вхождение ключевогослова – этоорганично вписанныйв текст по
исковыйзапрос. Вхожденияключевыхслов в текстбываютпрямые ираз
бавленные.Кпервомутипуотносятся фразы,вписанные втексткакесть,
безизменений,аковторому–всеостальные.Прямыеиточныевхождения
ключевыхсловвстречаются не так часто, потомучто оставить все слово
формыбезизмененийпочтиникогданеполучается.Чащевсегоонивысту
паюттекстоманкорадляссылок,используютсявконтекстнойрекламеили
вметатегах.Разбавочныевхожденияключевыхслов–этовхождения,вко
торых фразы изменяются разнообразным способом, например, введение
дополнительных слов, изменение словоформы, порядка слов. Ключевой
запрос:«семантическийсловарь»выдаётследующиеразбавочныевхожде
ния:«Русскийсемантическийсловарь»,«семантическиесловари»,«семан
тическийсловарьрусскогоязыка»,«семантические и понятийные словари
русского языка» и прочее. Выделяют семь видов вхождения ключей: пря
мое, разбавленное, морфологическое, прямое вхождение с разбавлением
знакамипрепинания,ключисошибками,вхождениена англоязычнойрас
кладке,обратныевхождения1.Пологикероботовпоисковиковформальное
прямое вхождение на 100% соответствуют пользовательскому запросу, а
значитивсястраницарелевантнее.Стоитотметить,чтодляпоисковыхро
ботовразницамеждупрямымиразбавочнымвхождениемключевогослова
неочевидна.Словавключевыхфразахмогутбытьзамененысинонимами,
роботыпоисковикитакжеучитываютэтивхождения.
Такимобразом,частотавхожденийвпоисковойсистемеотражаетре
левантность сайта запросу пользователя. Чем точнее сформулирован
запрос, тем точнее получается результат поиска. Другими словами, пред
ставление информации по результатам запроса будет отражать некий ас
пект общей системы знаний через призму компьютерной семантики.
Компьютерная семантика является элементом интеллектной системы и
косвенным образом коррелирует с интеллектуальной системой индивида.
Соответственно, результаты исследования семантических явлений через
призмуинтеллектнойсистемыдаютвозможностьопосредованноисследо
ватьсемантикуинтеллектуальнойсистемычеловека.
132
1Подробнееобэтомсм.http://kopiraitery.ru/seokopirajting/7vidovvxozhdeniyaklyuchej.htm
Петрова Н. М./ТиПЛ,2019,5(3),127‒142
2.1. Сравнение результатов запросов в НКРЯ и Google при
изменениикомбинаторикифразы
Для обоснованности использования поисковой системы в когнитив
ныхисследованияхмы обращаемсякмеханизмамрепрезентациидействи
тельности в языке посредством биноминальных конструкций, хотя для
этихцелеймогутбытьиспользованыидругиеязыковыеструктуры,напри
мер, атрибутивные конструкции (см., напр., работу О. А. Сулеймановой и
И. М. Петровой[Сулейманова,Петрова,2018].
Биноминальные конструкции представляют собой парные образова
ния существительных, объединённых либо антонимическими отношения
ми, например, добро и зло, либо синонимическими тепло и свет и тому
подобные.Исследованиекомбинаторикитакойфразыилипорядкаоргани
зации подобной синтаксической структуры можно рассматривать как
способ указания на распределение значимой для говорящего информации
во фразе, то есть актуализации того элемента высказывания, который вы
ступаетведущимвданнойпаре.Соответственно,изменениеэтогопорядка
отражает изменение в ментальной модели репрезентации этих компонен
тов информации, что сопряжено с индивидуальной интерпретацией дан
ныхэлементовфразы. Так,еслимыговоримсветитьма,доброи зло,то
очевидно,чтовтакойрепрезентациипонятийпервыйкомпонентиграетве
дущуюрольвданнойдуальной паре. Изменениекомбинаторикифразына
тьма и свет демонстрирует смещение акцента и актуализацию понятия
тьмавпрагматическомаспектефразы[Петрова2018,2019].
Рассмотрим потенциал Google для когнитивного исследования на
примере предоставления эмпирических данных при изучения данного во
проса более подробно. Для этой цели сравним результаты поисковых
запросов в НКРЯ и Google на предмет потенциальных возможностей для
изучения комбинаторики биноминальных фраз. Возьмём некоторые базо
вые понятия, выраженные биноминальной фразой, и произведём измене
ние комбинаторики этой фразы, например, мужчина и женщина (1) и
женщинаимужчина(2);светитьма(3)итьмаисвет(4).Врамкахдан
ногоэкспериментаформированиепоисковогозапросавGoogleстроилосьс
помощьюдвухоператоров:(1)фиксирующегопорядокслов[] и(2) отме
чающего порядок слов «». Для проведения этого эксперимента мы не ис
пользовали фильтры расширенного поиска намеренно, поскольку на
данномэтапеоснованнаязадача,стоящаяпереднами,состоялавустанов
лении репрезентативности и релевантности отобранного материала в
контекстекорпусногоподхода.
Каквидноиз представленной таблицы(табл. 1), количествовхожде
ний, определённых оператором «», устанавливающим точный порядок
слов, ниже, чем оператором, фиксирующим порядок слов. Это говорит в
пользу того, что запрос, оформленный оператором «» представляет реле
вантную по структуре фразы информацию. Поскольку вхождения фразы
могутбытьпрямымииразбавочными,приведёмпримерытакогопредстав
ленияинформации.
133
Петрова Н. М./ТиПЛ,2019,5(3),127‒142
Т а б л и ц а 1.РезультатыпоисковогозапросавGoogle,
оформленногооператорами[]и«»
Примечаниектаблице1 :Датаобращения18.11.2018.
1. Примерыпрямоговхожденияфразы:
– Мужчина и женщина: в чем отличия (http://russian7.ru/post/7
razlichijjmezhdumuzhchinamiizhenshhinami/);
– Женщина и мужчина–отношения сквозь века (https://foma.ru/
zhenshhinaimuzhchinaotnosheniyaskvozveka.html);
– Thecreationandseparationoflightanddarkcomesupinthemythsof
creationorcosmogony—fromkosmos,meaning“order,”andgenesis,meaning
“birth.” (https://www.psychologytoday.com/us/blog/myththemind/201805/
mythslightanddark)
Данные примеры содержат заданные формы биномов. В основном
онибылиполученыврезультатеиспользованияоператора«».
2. Примерыразбавочноговхожденияфразы:
– A ManAndAWoman by U2 song meaning, lyric interpretation, video
and chart position. (https://www.songfacts.com/facts/u2/amanandawoman). –
Вданнойфразевведёнартикль«а».
– Jun 5, 2018 – Showrunner Joe Pokaski and director Gina Prince
Bythewood weigh in onthe darkness and lightparallels of Freeform’s new
show (https://www.tvguide.com/news/cloakdaggerpreviewbehinddarkness
lightmetaphors/).Вэтомпримереимеетместовведениеновыхэлементовв
результатезапроса, вчастностиартикльthe и словоparallels, которые до
полняютструктуру.
134 Петрова Н. М./ТиПЛ,2019,5(3),127‒142
Приведённые примеры по большей части представляют собой тек
сты,выполняющиеноминативнуюфункцию.Очевидно,чтовыданныепо
исковым роботом данные гораздо разнообразнее. Мы представили
указанныепримерыисходяизихотносительнойкраткостиивозможности
продемонстрировать сохранение порядка следования компонентов бино
мов.Врезультатеанализаэкспериментальногоматериаламыпришликвы
воду, что оператор «» представляет более точную выборку материала,
посколькупроцентразбавочныхвхожденийфразвэтомслучаениже.
Проанализируем полученные данные на предмет процентного соот
ношенияколичествафраз(1)мужчинаиженщинаи(3)тьмаисвет,кото
рые показывают максимальное число вхождений в поисковую систему и
представляютсобойтрадиционныйпорядокследованияданныхбиномов,с
фразами(2)женщинаимужчинаи(4)тьмаисвет.Дляанализаиспользу
емданные,полученные с помощьюоператора«»,которыйпродемонстри
ровалболеерелевантнуювыборкуматериала(см.табл. 2).
Т а б л и ц а 2.ЧисловхожденийфразвGoogle,
отобранныхспомощьюоператора«»
Примечаниектаблице2 :Датаобращения18.11.2018.
Расчёт процентного соотношения производился нами на основании
пропорции,вкоторойколичествовхожденийфраз(1)и(3)приравнивалось
к100%.Цельпроведенияданныхрасчётов–установитьсколькопроцентов
составляют инвертированные фразы от объёма традиционных фраз. Дан
ныйпроцент нагляднодемонстрируетчастотностьупотребленияинверти
рованной фразы пользователями интернета в конкретный временной
период.Витогебылиполученырезультаты,представленныевтаблице3.
Т а б л и ц а 3.ПроцентноесоотношениечиславхожденийфразвGoogle
135
Петрова Н. М./ТиПЛ,2019,5(3),127‒142
Каквидно изполученных данных, для англоязычных пользователей
процентинвертированнойфразы(2)женщинаимужчина/womanandman
напорядоквыше,чемдлярусскоязычныхпользователей.Этоможетсвиде
тельствоватьотом,чтозначениекомпонентабиномаженщинаврепрезен
тации действительности в англоязычной среде Интернета выше по
сравнениюсрусскимязыком.
Соотношениефраз(3)светитьма/lightanddarknessи(4) тьма и
свет / darkness and light показывает достаточно высокую частотность ин
вертированныхфразвобоихязыках,нованглийскомязыкемынаблюдаем
очень высокий показатель – 84%. Это означает, что компоненты, состав
ляющие этот бином, не представляют существенной разницы для англо
язычной среды Интернета, в то время, как для русскоязычной среды эта
разницасущественна.
Такимобразом,проведённыйэкспериментдемонстрируетвозможно
стипоисковойсистемыGoogleпри исследовании вопросовотраженияре
альной действительности в языке посредством статистических данных.
Разумеется,подобныйподходнезаменяетдругихметодовлингвистическо
го исследования, но, безусловно, обогащает наше представление о языко
войреальности.
Теперь рассмотрим, как представлен результат исследования комби
наторикифразыспомощьюНКРЯ2.ПоискпоНКРЯстроитсяпопринципу
поискаточныхформ.
Т а б л и ц а 4.Результатыпоисковогозапроса(НКРЯ)
Примечаниектаблице4 :Датаобращения28.11.2018.
Согласно этим результатам, процентное соотношение фраз (1) муж
чинаиженщинаи(2)женщинаимужчинасоставляет0,4%,афраз(3)свет
итьмаи(4)тьмаисветсоответственно35,1%.Можноотметить,чтотруд
нообнаружитькорреляциювсоотношенияхфраз(1)и(2)междуданными
НКРЯ и Google, поскольку мы имеем 0,4% в НКРЯ и практически 10% в
Google. Корреляция соотношения фраз (3) и (4) выглядит следующим об
разом:35,1%вНКРЯи31,68%вGoogle, чтодостаточноблизко.Изэтого
136
2Длясравнения,в«Библиотекелексикографа»(которая,ксожалению,носитпринципиальнооффлайно
выйхарактер)А.А.Бурыкина[Бурыкин,2015]этосоотношениевыглядитследующимобразом:(1)«мужчина
иженщина»–19530документов;(2)«женщинаимужчина»–4177документов;(3)«светитьма»–1298до
кументов;(4)«тьмаисвет»–428документов.Этицифрытакжедемонстрируютзначительноболеевысокую
частотностьпервойбиноминальнойфразыпосравнениюсовторойитретьейпосравнениюсчетвёртой.
Петрова Н. М./ТиПЛ,2019,5(3),127‒142
следует,что,хотяобъёманализируемогоматериалавНКРЯнесопоставимо
меньше, чем в Google, определённая корреляция между данными про сле
живается,чтосвидетельствуетобихрелевантности.
Приведём несколько примеров из НКРЯ по результатам поискового
запроса,чтобыполучитьпредставлениео том,какогородаязыковоймате
риалподвергалсяобработке.
Примеркфразе(1)мужчинаиженщина:
В этот самый момент к нашему столу подошли двое, мужчина и
женщина, и уселись на свободные места [Булат Окуджава. Искусство
кройкиижитья.М.,1985].
Примеркфразе(2)женщинаимужчина:
Вдруг трое – мужчина, женщина, старик, толькочтоспокойнос
ним разговаривавшие, – кто чтото объясняет, кто советы дает, как
пройти,–увиделихлебикактодернулись,словнобыбросилисьмгновенно
итутжесдержались[ТатьянаТолстая.Сомнамбулавтумане.М.,1989].
Примеркфразе(3)светитьма:
Светитьмаведином,вОгне–этоиестьМакиавелли[ЮрийАза
ров.Подозреваемый.М.,2002].
Примеркфразе(4)тьмаисвет:
Поэтомумнекажется,вкаждомизнасестьтьмаисвет,просто
не всегда у нас в жизни есть возможность воспитать в себе хорошее
[ЮлияИдлис.Красота–этомы,люди//«Русскийрепортер».№ 22(200),9
июня2011].
Анализ приведённых примеров показывает, что языковой материал
НКРЯ нуждается втщательноманализе,поскольку,хотязапрос ивыдал 1
документсфразой(2)женщинаимужчина,фактически,впредставленном
примере порядок следования компонентов бинома был другим (см. выше
примеркфразе2).Темнеменее,ивGoogle,ивНКРЯимеетместостати
стическое отражение изменённой комбинаторики фразы, в частности, ко
личество вхождений фраз (2) женщина и мужчина и (4) тьма и свет
значительно ниже по показателям обоих баз данных. Количество приме
ров,представленныхGoogle,гораздобольше,чемвНКРЯ.
В результате проведённого исследования можно отметить ряд осо
бенностей рассматриваемых корпусных систем обработки языковых дан
ных,которыемыпредставляемвтаблице5.
Такимобразом,поставленная перед намизадачаотносительноуста
новленияправомерностииспользованияGoogleданныхвкачествеаналога
корпусной базы данных представляется решённой. Очевидно, что в про
ведённомэкспериментерелевантностьпримеровотносительнокомбинато
рики фразы требует внимательного рассмотрения, поскольку в поисковой
системеможет иметь место разбавочноевхождение,ав НКРЯ, например,
изменениесинтаксическойорганизациифразы. Однакоприменениеопции
расширенногопоискавGoogleоткрываетпереднамивозможностьполуче
ния данных, ограниченных рядом параметров, например, точной структу
ройфразы,типомтекста,странойупотребленияитакдалее.
137
Петрова Н. М./ТиПЛ,2019,5(3),127‒142
Т а б л и ц а 5.СравнениеНКРЯиGoogleвконтексте
лингвистическихисследований
Полученныерезультатымогутслужитьматериаломдлядальнейшего
болееподробногоизучениявопросовкомбинаторикиивариативностифра
зывкогнитивномключе.
Необходимо отметить, что данная поисковая система предоставляет
возможность решать задачи не только относительно биноминальных
конструкций,но и другихсинтаксическихструктур,например,атрибутив
ных групп, типа большой красивый дом/красивый большой дом. Анализ
статистических данных вариативностиподобныхфраз в контекстетеории
классовпозволяетделатьважныевыводыобизменениикогнитивногофо
куса высказывания. Кроме того, инструментарий Google представляется
полезным и при проведении лингвистических экспериментов, например,
на вариативность предикаций, выраженных фразами с фазовыми глаголь
ными биномами такими, как решил начать учиться/учиться решил на
чать. Анализ вариативности таких структур даёт возможность
внимательно рассмотреть механизм распределения информации в когни
тивномполечерез призму категорий Интенция– Фаза–Действие. Таким
образом, спектр задач с использованием рассматриваемого эксперимен
тальногоинструментарияможетбытьдостаточношироким.
Вместестемнеобходимо подчеркнуть,чтоязыкзапросовGoogleне
поднимается на более высокий уровень абстракции. Это не позволяет ра
ботатьсчастямиречи,синтаксическими единицами,модальностями и то
му подобными вещами, а только с конкретными лексемами (и
ограниченно–сформамиэтихлексем:числами,падежами,родамиит.п.;
а также ограниченно – с опечатками и синонимами (благодаря специаль
138 Петрова Н. М./ТиПЛ,2019,5(3),127‒142
нойсистемесинонимов,работанадкоторойвеласьразработчикамиGoogle
5 лет)). Это означает, что исследователи, использующие Google и другие
поисковые системы в сети Интернет, не должны питать иллюзий относи
тельно их аналитических возможностей на уровне языковых абстракций.
Эффективноепланированиепоисковыхзапросов,систематизацияполучен
ныхданныхииханализпопрежнемуостаютсянаплечахлингвистов.Од
нако грамотное использование сети с ясным пониманием её
ограниченности, несомненно, поможет нарастить объёмы данных, что, в
сочетаниис традиционнымиметодамилингвистическогоанализа, сделает
исследованиеболееобъективнымидостоверным.
3. Заключение
Проведённое исследование показывает, что статистические данные,
полученныенаосновекорпусовтекстов и поисковыхсистем, могутвысту
патьвкачествематериалаисследованияприизучениекогнитивныхаспектов
языковойдействительности. В ходе когнитивных исследованийязыка с по
мощьюкорпусныхбазданныхважнымпредставляетсяправильностьформу
лировки исследовательской задачи, позволяющая интерпретировать
полученные данные в контексте заданного подхода. Объёмный статистиче
скийматериалможетслужитьосновойдляверификациивыдвигаемыхгипо
тез.ПоисковаясистемаGoogleможетвыступатьвкачествеаналогакорпуса
текстов при исследовании тех языковых явлений, которые находят отраже
ниевстатистическихрезультатах.Данныйинструментарийособенноэффек
тивен при изучении комбинаторики и вариативности фразы, поскольку
позволяет собрать достаточный по объёму и разнообразию эмпирический
материал,которыйневсегдадоступентрадиционнымкорпусам.
Списоклитературы
1. Бурыкин, А. А.Электронныйресурс для исследованийвобластирусскойлек
сикологии и лексикографии «Библиотека лексикографа»: опыт работы, пер
спективы пополнения, возможности использования [Текст] / А. А. Бурыкин //
Теоретическаяиприкладнаялингвистика.–2015.–Вып. 1.–№ 4.–С. 5–28.
2. Голубкова, Е. Е. Возможности использования корпусов в целях лингвистиче
ского исследования [Текст] / Е. Е. Голубкова. // Магия ИННО: новые измере
ния в лингвистике и дидактике / [oтв. ред. Д. Н. Новиков]. – Т. 1. – M. :
МГИМО–Университет,2017.–С. 394–400.
3. Захаров, В. П. Корпусная лингвистика : учебник [Текст] / В. П. Захаров,
С. Ю. Богданов.–Иркутск :ИГЛУ,2011.–161 с.
4. Квашина, О. С.ИспользованиеGoogleкаксистемыпоискаязыковыхданныхв
вебкорпусе: обучение англоязычной письменной речи [Текст] / О. С. Кваши
на, Ю. П. Ажель // Alma mater (Вестник высшей школы). – 2017. – № 6. –
С. 106–109.
5. Козлова, Н. В.Лингвистическиекорпуса:определениеосновныхпонятийити
пология [Текст] / Н. В. Козлова // Вестник НГУ. Серия : Лингвистика и меж
культурнаякоммуникация.–2013.–Том11.–Вып. 1.–С. 79–88.
139
Петрова Н. М./ТиПЛ,2019,5(3),127‒142
6. Национальный корпус русского языка [Электронный ресурс]. – URL : http://
ruscorpora.ru/(датаобращения:28.11.2018).
7. Манерко, Л. А.Методологическиеосновы использованиякорпусныхданных в
исследованиях по когнитивной лингвистике [Текст] /Л. А. Манерко // Когни
тивныеисследованияязыка.–2018.–№ 33.–С. 70–78.
8. Мордовин, А. Ю. «Веб как корпус» или «корпус как веб»: новая реальность
корпуснойлингвистики[Текст] / А. Ю. Мордовин//ВестникМГЛУ.–2015.–
№ 3 (714) : Языкознание и литературоведение. Когнитивные аспекты языка и
речи.–С. 163–172.
9. Петрова, И. М. Когнитивный аспект комбинаторики сочинительных парных
словосочетаний в английском и русском языках [Текст] / И. М. Петрова //
Современнаянаука:актуальныепроблемытеорииипрактики.–2018.–№ 9.–
С. 151–156.
10. Петрова, И. М.Комбинаторикабиноминальныхконструкцийкакотражениепро
цесса иконической репрезентации объектов действительности [Текст] /
И. М. Петрова//Когнитивныеисследованияязыка.–2019.–№ 37.–С. 621–625.
11. Рахилина, Е. В. Экспериментальная и корпусная лингвистика: рецензия на
сборникстатейкюбилеюО. А. Сулеймановой«Контенсивныеаспектыязыка:
константностьивариативность»[Текст]/Е. В. Рахилина./ отв.ред.Т. Д. Ша
банова.–М. :Флинта,2016//ВестникМоск.город.пед.унта.Сер. :Филоло
гия.Теорияязыка.Языковоеобразование.–2017.–№ 3 (27).–С. 119–128.
12. Сулейманова, О. А. Использование BIGDATA в экспериментальных лингво
когнитивных исследованиях: анализ семантической структуры глагола
shudder [Текст] / О. А. Сулейманова, В. В. Демченко // Когнитивные исследо
ванияязыка.–2018.–№ 33.–С. 466–472.
13. Сулейманова, О. А. Экспланаторный потенциал теории классов для лингви
стическогоисследования:порядокследованияопределений[Текст]/О. А. Су
лейманова, И. М. Петрова // Филология: научные исследования. – 2018. –
№ 3.–С. 52–64.
14. Чумарина, Г. Р.Ресурсыиарсеналэлектронныхкорпусоввсовременнойлек
сикографии[Текст]/Г. Р. Чумарина//Филологическиенауки.Вопросытеории
ипрактики.–2017.–№ 3–1 (69).–С. 173–175.
15. Fischer, K. Quantitative Methods in Cognitive Semantics. Introduction to the
volume[Text]/ K. Fisher // Quantitative methods in cognitive semantics: corpus
drivenapproaches/D. Glynn,K. Fischer(eds).–Berlin / N.Y. :WalterdeGruyter,
2010.–P. 43–59.
16. Gatto, M. The Web as Corpus: Theory and practice [Text]/ M. G atto.– London,
NewYork :BloomsburyAcademic.–2014.–256 р.
17. Geluso, J.Phraseology and frequency ofoccurrence on the web:native speakers’
perceptions of Google–informed second language writing [Text] / J. Geluso //
ComputerAssistedLanguageLearning.–2013.–№ 26:2.–Р. 144–157.
18. Panah, E. Googleinformed patternhunting and patterndefining: Implication for
language pedagogy [Text] / E. Panah, M. Yunus, M. A. Embi // Asian Social
Science.–2013.–№ 9 (3).–Р. 229–238.
140 Петрова Н. М./ТиПЛ,2019,5(3),127‒142
19. Tummers, J.UsagebasedapproachesinCognitiveLinguistics:Atechnicalstateof
the art [Text] / J. Tummers, K. Heylen, D. Geeraerts // Corpus Linguistics and
LinguisticTheory.–2005.–№ 1(2).–Р. 225–261.
References
1. Burykin, A. A. (2015). Elektronnyy resurs dlya issledovaniy v oblasti russkoy
leksikologii i leksikografii «biblioteka leksikografa»: opyt raboty, perspektivy
popolneniya, vozmozhnosti ispol [Electronic resource for studies in the field of
Russian lexicology and lexicography «Lexicographer's library»: Experience,
outlook for enlarging, possibilities of using]. Teoreticheskaya i prikladnaya
lingvistika[TheoreticalandAppliedLinguistics], 1 (4), 5–28.
2. Golubkova, Е. Е. (2017). Vozmozhnosti ispol'zovaniya korpusov v celyah
lingvisticheskogoissledovaniya[Corporainlinguisticresearch].InD. N. Novikov,
Magiya INNO: novye izmereniya v lingvistike i didaktike [The magic of INNO:
New dimensions in linguistics and didactics] (Vol. 1, pp. 394–400). Moscow :
MGIMOUniversityPress.
3. Zaharov, V. P.,Bogdanova, S. Yu.(2011).Korpusnayalingvistika:uchebnik[Corpus
linguistics:Acoursebook].Irkutsk :IrkutskStateLinguisticUniversity.
4. Kvashina, O. S., Azhel', Yu. P. (2017). Ispol'zovanie Google kak sistemy poiska
yazykovyh dannyh v vebkorpuse: obuchenie angloyazychnoy pis'mennoy rechi
[UsingGoogleasthesystemof searchoflanguagedatainWebcorpus:trainingin
English writing pedagogy]. Alma mater (Vestnik Vysshey Shkoly) [Alma Mater
(HigherSchoolHerald)],6,106–109.
5. Kozlova, N. V. (2013). Lingvisticheskie korpusa: opredelenie osnovnyh ponyatij i
tipologiya [Linguistic corpus: Typology and terms]. NSU Vestnik. Series :
Linguisticsandinterculturalcommunication,11(1),79–88.
6.Russian National Corpus [Digital resource]. Retrieved November 28, 2018 from
<http://ruscorpora.ru/>.
7. Manerko, L. A. (2018). Metodologicheskie osnovy ispol'zovaniya korpusnyh
dannyhvissledovaniyahpokognitivnojlingvistike[Methodologicalfoundationsof
corpus data usage in cognitive linguistics research]. Kognitivnye issledovaniya
yazyka[Cognitivestudiesoflanguage],33,70–78.
8. Mordovin, A. Yu.(2015).«Vebkakkorpus»ili«korpuskakveb»:novayareal'nost'
korpusnoj lingvistiki [«Web as corpus» or «corpus as web»: The new reality of
corpus linguistics]. Vestnik MGLU. Series : Yazykoznanie i literaturovedenie.
Kognitivnyeaspektyyazykairechi[VestnikofMoscowStateLinguisticUniversity.
Linguistics and Literary Studies. Cognitive Aspects of Language and Speech],
3 (714),163–172.
9. Petrova, I. M. (2018). Kognitivnyj aspekt kombinatoriki sochinitel'nyh parnyh
slovosochetanijvanglijskomirusskomyazykah[Cognitiveaspectofcombinatorics
of compositional paired phrases in English and Russian]. Sovremennaya nauka:
aktual'nye problemy teorii i praktiki [Modern science: actual problems of theory
andpractice],9,151–156.
10. Petrova, I. M. (2019). Kombinatorika binominal'nyh konstrukysiy kak otrazhenie
protsessa ikonicheskoy reprezentatsii ob"ektov deystvitel'nosti [Combinatorics of
141
Петрова Н. М./ТиПЛ,2019,5(3),127‒142
binomialphrasesasareflectionoftheprocessoficonicrepresentationofobjects
ofreality].Kognitivnyeissledovaniyayazyka[Cognitivestudiesoflanguage],37,
621–625.
11. Rahilina, Е. V. (2017). Eksperimental'naya i korpusnaya lingvistika: retsenziya na
sbornik statey k yubileyu O. A. Suleymanovoy «Kontensivnye aspekty yazyka:
konstantnost' i variativnost'» [Experimental and corpus linguistics: Review of the
collectionofarticlesfortheanniversaryofO. A. Suleymanova«Contentaspectsof
language: constancy and variability»]. Vestnik Mosk. gorod. ped. unta. Ser:
Filologiya. Teoriya yazyka. Yazykovoe obrazovanie [Vestnik of Moscow City
University. Series : Philology. Theory of language. Language education], 3 (27),
119–128.
12. Souleimanova, O. A., Demchenko, V. V. (2018). Ispol'zovanie BIGDATA v
eksperimental'nyh lingvokognitivnyh issledovaniyah: analiz semanticheskoj
strukturyglagolashudder[Usingbigdatainexperimentallinguocognitivestudies:
Analysisofthesemanticstructure oftheverb shudder].Kognitivnyeissledovaniya
yazyka[Cognitivestudiesoflanguage],33,466–472.
13. Souleimanova, O. A.,Petrova, I. M.(2018).Eksplanatornyjpotencialteoriiklassov
dlya lingvisticheskogo issledovaniya: poryadok sledovaniya opredelenij
[Explanatorypotentialofthe theory of classes forlinguisticresearch:Wordorder
in attributive group]. Filologiya: nauchnye issledovaniya [Philology: Scientific
researches],3,52–64.
14. Chumarina, G. R. (2017). Resursy i arsenal elektronnyh korpusov v sovremennoj
leksikografii [Resources and arsenal of electronic corpora in contemporary
lexicography]. Filologicheskie nauki. Voprosy teorii i praktiki [Philological
Sciences.IssuesofTheoryandPractice],3–1 (69),173–175.
15. Fischer, K. (2010). Quantitative Methods in CognitiveS emantics. Introduction to
the volume. In D. Glynn, K. Fischer (Eds.), Quantitative methods in cognitive
semantics: corpusdriven approaches (pp. 43–59). Berlin / N. Y. : Walter de
Gruyter.
16. Gatto, M.(2014).TheWeb as Corpus: Theoryandpractice.London,NewYork :
BloomsburyAcademic.
17. Geluso, J. (2013). Phraseology and frequency of occurrence on the web: native
speakers’ perceptions of Googleinformed second language writing. Computer
AssistedLanguageLearning,26 (2),144–157.
18. Panah, E., Yunus, M., Embi, M. A. (2013). Googleinformed patternhunting and
patterndefining: Implication for language pedagogy. Asian Social Science, 9 (3),
229–238.
19. Tummers, J., Heylen, K., Geeraerts, D. (2005). Usagebased approaches in
Cognitive Linguistics: A technical state of the art. Corpus Linguistics and
LinguisticTheory,1 (2),225–261.
142 Петрова Н. М./ТиПЛ,2019,5(3),127‒142