Квантитативное исследование морфосинтаксических параметров и отношений на материале больших языковых корпусов тема диссертации и автореферата по ВАК РФ 00.00.00, доктор наук Клышинский Эдуард Станиславович
- Специальность ВАК РФ00.00.00
- Количество страниц 333
Оглавление диссертации доктор наук Клышинский Эдуард Станиславович
Введение
1. Исследование грамматической неоднозначности в текстах различных языков
1.1. Обзор работ в области исследования грамматической неоднозначности
1.2. Метод анализа неоднозначной лексики
1.3. Использованные данные
1.4. Результаты исследования грамматической неоднозначности
1.5. Результаты исследования грамматической неоднозначности для наиболее частотных слов
1.6. Обсуждение результатов
2. Исследование частотности и симметричности синтаксических зависимостей в различных языках
2.1. Обзор работ в области количественных исследований синтаксиса
2.2. Метод оценки симметричности синтаксического ветвления в языке
2.3. Выбор использованных данных
2.4. Оценка взаимосвязи степени сходства двух коллекций с рассчитанными значениями корреляций
2.5. Оценка сходства синтаксически связанных пар и троек для мировых языков
2.6. Оценка симметричности синтаксического ветвления в мировых языках
2.7. Обсуждение результатов
3. Методика автоматического извлечения статистики синтаксической сочетаемости слов в русском языке
3.1. Разделение валентностей на актанты и сирконстанты, их обязательность в тексте
3.2. Анализ возможности использования существующих словарей и корпусов
3.3. Извлечение сочетаемости слов из текстов на русском языке методом частичного синтаксического анализа
3.4. Извлечение сочетаемости слов из текстов на русском языке при помощи автоматического синтаксического анализа
3.5. Автоматическое выделение словаря предложного управления
3.6. Автоматическое выделение глагольного управления из синтаксически размеченных текстов
3.7. Автоматическое выделение наиболее частотных валентностей в структуре русских глаголов
3.8. Обсуждение результатов
4. Исследование некоторых свойств векторных пространств для решения задачи семантической группировки слов
4.1. История развития векторных моделей
4.2. Решение задачи аналогии в векторных пространствах W2V и BERT
4.3. Интерпретируемость векторного пространства нейросетевых моделей
4.5. Синтаксический пробинг контекстуализированных моделей
4.6. Пробинг грамматических и некоторых семантических параметров контекстуализированных моделей
4.7. Обсуждение результатов
5. Исследование актантной структуры русских глаголов
5.1. Обзор методов выделения сообществ в графах
5.2. Метод кластеризации семантически связанных слов по их синтаксическим связям
5.3. Выделение семантически связанных групп слов с использованием предложенного алгоритма
5.4. Автоматическое выделение актантной структуры глагола с учетом семантической группировки актантов
5.5. Обсуждение результатов
6. Заключение
Список литературы
Приложение А. Сходство синтаксических конструкций в зависимости от размеров подкорпуса
Приложение Б. Сравнение статистики употребления наиболее частотных
синтаксических пар
Приложение В. Списки наиболее частотных синтаксически связанных пар слов для
исследованных языков
Приложение Г. Списки синтаксически связанных пар слов с наибольшей степенью
синтаксической свободы для исследованных языков
Приложение Д. Статистические словари предложного управления для глаголов, существительных и прилагательных (частота нормирована на частоту встречаемости
предлога)
Приложение Е. Статистические словари предложного управления для глаголов, существительных и прилагательных (частота в ipm)
В данной работе бы хотел сказать «спасибо» многим людям.
Моему отцу, научившему меня читать.
Маме и бабушке, привившим любовь к словарям.
Дедушке за любовь к историям.
Дочери Алисе, показавшей, как учится человек.
Жене Татьяне, идущей со мной с защиты кандидатской.
И. В. Солодовникову, моему научному руководителю и учителю.
Студентам и аспирантам, чей труд положен в основу данной работы, и тем,
с кем мы двигались к горизонтам науки. Школе лингвистики — где бы я был без вашей помощи? Е. В. Рахилиной за терпение и настойчивость.
Спасибо!
Рекомендованный список диссертаций по специальности «Другие cпециальности», 00.00.00 шифр ВАК
Валентность глаголов перемещения в английском, русском и даргинском языках (в религиозном дискурсе)2016 год, кандидат наук Омарова Эльвира Исламалиевна
Конструкции глагола как маркер литературных формул2023 год, кандидат наук Буйлова Надежда Николаевна
Синтаксические дериваты от глаголов движения: Семантико-синтаксический аспект1999 год, кандидат филологических наук Лиу Канг-Йи
Функционирование ментальных глаголов в художественном тексте романов Ф. М. Достоевского2002 год, кандидат филологических наук Токина, Анна Ивановна
Семантика глаголов купли-продажи в современном китайском языке и их функционирование в тексте2024 год, кандидат наук Тимчишена Елена Александровна
Введение диссертации (часть автореферата) на тему «Квантитативное исследование морфосинтаксических параметров и отношений на материале больших языковых корпусов»
Введение
Под влиянием развития компьютерной техники и методов сбора больших объемов информации, в лингвистике наблюдается тренд от описательных (качественных, квалитативных) исследований в сторону усиления роли количественных (квантитативных) исследований. Качественные методы формируют основу для описания новых языков и их системного и эффективного сравнения с другими языками, про которые собрано гораздо больше информации и дана устойчивая классификация имеющихся в них явлений. Качественные исследования служат для выявления новых, ранее не описанные эффектов и явлений, позволяют
« ТЛ " _
описывать их свойства на основе анализа имеющегося материала. В такой ситуации очень важны языковая интуиция и аналитические способности, проявляющие себя при анализе материала под новым углом зрения. Квантитативные (количественные) исследования обычно идут следом и позволяют дать явлению числовую оценку. В отличие от качественной, количественная оценка позволяет не просто выявить языковое явление и установить его место в языке, но и оценить достоверность и точность предсказаний, которые даёт новая теория. Именно квантитативные методы позволяют оценить место и важность явления в языке, а также проводить статистические сравнения присутствия явления в элементах языка, его предпочтительности другим явлениям и его представительности в коллекции или корпусе. В связи с этим квантитативные методы всё чаще занимают место кваликативных.
При этом квантитативные исследования можно разделить на несколько больших направлений. Корпусные исследования позволяют собрать числовые данные из размеченных и неразмеченных корпусов. К плюсам этого направления можно отнести широту охвата явлений, не зависящую от конкретных гипотез исследователя. Так как вычисление значений может проводиться сразу по всем возможным параметрам, появляется возможность определить место конкретного явления среди всех возможных явлений, присутствующих в данной коллекции, их взаимосвязь. С другой стороны, результаты будут зависеть от конкретных текстов, попавших в фокус
исследования. В противовес корпусным, исследования «полевых» данных, такие как анкеты, результаты опросов или интервью, обычно ограничиваются лишь теми параметрами, которые легли в основу исследовательского вопроса, и зачастую рассматриваются в отрыве от других параметров. При таком подходе обычно достигается большая глубина исследования конкретного вопроса, но теряется место явления в языке в целом.
Заметим, что при описываемом разделении направлений сложно говорить об охвате исследования. Такие проекты как WALS [155] или GramBank [264] показывают на своём материале очень широкий охват языков (более 2 600 и более 2 400, соответственно) со значительным количеством параметров (93 и 156, соответственно). Подобные объемы сопоставимы с количеством параметров, описываемых, например, в проекте Universal Dependencies [227], содержащем корпусы для более чем 150 языков. Существенными представляются различия в подходах к определению значений этих параметров. WALS или GramBank соотносят с параметрами ограниченное количество значений. Например, для языка указывается преимущественный порядок следования объекта и глагола, эргативность-номинатитвность, использование определенных или неопределенных артиклей. Статистические исследования на материале корпусов Universal Dependencies позволяют получить качественно иную информацию - континуум, который показывает степень присущности подобных явлений языку или отдельным текстам на данном языке, сгруппированным по таким параметрам как стиль, жанр, регистр, предметная область и проч. Подобный подход позволяет более тонко различать разницу между языками и текстами. В связи с этим исследования в области грамматики всё чаще переходят в количественное русло.1
Среди прочего, аналогичный тренд наблюдается в такой области грамматики как изучение валентностей глаголов. С одной стороны, здесь традиционно хорошо проработаны теоретические вопросы классификации валентностей, их видов,
1 Разница в подходах имеет свои причины. Если для того, чтобы показать наличие признака в языке, достаточно нескольких примеров, то для его количественной оценки требуется коллекция текстов. Размер коллекции здесь будет определять возможный охват явлений, достоверность результатов и, как следствие, глубину исследования.
применения в разных языках. С другой стороны, очевиден недостаток теоретически проработанных количественных оценок употребления валентностей и программных средств для автоматизации их вычисления: имеется мало исследований, дающих количественные оценки употребления валентностей в текстах разных стилей, жанров, авторов; отсутствуют частотные списки для валентностей, отсутствуют формальные определения актантов и сирконстантов, основанные на частотных характеристиках. При этом существует целый ряд работ, описывающих валентности предикатов и предикативных слов для конкретных языков (см., например, проект Walenty [ 176, 247] для польского языка или словарь УаПех [221] для чешского) или их наборов (см. проекты Вгуа1Тур [258] или Уа1Ра1 [179]). Здесь также можно наблюдать противопоставление качественного и количественного подходов. В проектах Walenty и УаПех приводится информация о 15 000 и 4 700 глаголах для одного конкретного языка, но частотной информации для сочетаемости этих глаголов не приводится. В проекте В^а1Тур приводятся актанты всего для 130 бивалентных глаголов, но для почти 140 языков (статистика употреблений также не приводится). Здесь можно увидеть противопоставление широты охвата лексики языка и возможности проводить сравнения большого количества языков по узкому набору тщательно подобранных параметров.
Квантитативные методы изучения валентностей оказываются весьма полезны при решении целого спектра задач. Перечислим здесь некоторые из областей, где они позволяют получить новые знания.
При изучении русского языка как иностранного необходимо составить обоснованную позицию о количестве и составе изучаемых валентностей для каждого глагола, исходящую из частоты его сочетаемости с зависимыми словами. Подобная статистика будет особенно полезна, если представить её разделённой на две части: частотный список конкретных зависимых слов и частотный список предлогов и падежей, с которыми встречаются зависимые слова. Она поможет выбирать примеры употребления глаголов, а также составлять эти примеры исходя из наиболее распространённых конструкций.
При создании систем автоматического анализа текстов информация о сочетаемости глаголов может быть полезна в качестве дополнительного блока при проверке точности синтаксического анализа, обучении нейронных сетей и решении других задач. Так, информация о сочетаемости может позволить оценить корректность построенного дерева зависимостей. Однако применение подобных баз данных при анализе текстов накладывает серьёзные ограничения на полноту используемого словаря и количество хранимых в нём сочетаний. При малом объеме словаря мы не сможем делать корректных выводов о том, является ли сочетание разрешенным в языке, так как его отсутствие в базе будет указанием либо на неполноту словаря, либо на отсутствие употреблений обозначенной связи.
Разделение зависимых слов на актанты и сирконстанты является важным и, например, для психолингвистики. Здесь считается, что так как актанты определяются конкретными грамматическими параметрами глагола и существительного, а сирконстанты больше зависят от семантических свойств зависимых слов, то они являются триггерами для разных когнитивных процессов [279]. Яркость реакции на сочетание здесь, среди прочего, может быть обусловлена высокой частотностью встречаемости отдельных лексем или совместной встречаемости сочетания. Аналогично, важным является и изучение вероятности отклонения в порядке слов, например, при изучении иностранного языка [265].
Несмотря на очевидную полезность подобных данных, до сих пор не было разработано частотного словаря валентностей или синтаксической сочетаемости глаголов и/или существительных. Силами специалистов, работающих в области теоретической лингвистики, в этой области созданы такие труды, как «Активный словарь русского языка» [2-6], «Словарь-справочник синтаксической сочетаемости глаголов» [65] и многие другие, однако их объём недостаточен для широкого применения в автоматической обработке текстов, так как они содержат в себе недостаточное количество лексики, лишь наиболее частотные связи, и скорее предназначены для чтения человеком. Существующие частотные словари, такие как [73], анализируют лексику, а не синтаксические связи. В научных статьях встречается информация о распределении частот падежей [61], но не синтаксических связей,
сочетаний синтаксически связанных слов или валентностей. Между тем, развитие современных нейросетевых инструментов синтаксического анализа позволяет получать подобные результаты с высоким качеством.
Существующие подходы к составлению словарей валентностей глаголов (или других слов) требуют существенного ручного труда, заключающегося, среди прочего, в применении методов проверки того, является ли зависимая группа актантом или сирконстантом, наподобие <^о бо» [248] или элипсиса [249]. Они не позволяют автоматизировать проверку различий и нуждаются в мнении экспертов (которое зачастую может расходиться). Как отмечается в [187, с. 19], «Автоматическая обработка текстов вынуждена иметь возможность сказать что-то определенное относительно различия актантов и сирконстантов, так как у машин нет интуиции, на которую они могли бы положиться». В области автоматической обработки текстов имеется настоятельная необходимость в создании больших словарей и баз данных, охватывающих значительную часть лексики, полно описывающих её сочетаемость, хранящих информацию о частотности таких сочетаний, позволяющих делать выводы об обязательности подобных связей. Эта необходимость диктуется переходом от бинарного описания сочетаний (да/нет, возможно/невозможно) к количественной оценке возможности такого сочетания (очень частотно/частотно/редко/исчезающе редко). Существующие методы полагаются на экспертное составление подобных словарей с минимальной автоматизацией труда, что не позволяет решить поставленную задачу. Также задача осложняется тем, что одни и те же зависимые группы при разных глаголах выполняют попеременно то функцию актанта, то сирконстанта в зависимости от конкретного глагола и его смысла (см., например, [150]), то есть требуется разметка для синтаксических и семантических характеристик как главного, так и зависимого слова.
В связи с этим можно сформулировать следующую научную проблему: на данный момент требуются новые подходы к количественному анализу морфосинтаксической информации и их применение к разработке автоматизированных средств для создания частотных словарей и баз данных,
содержащих в себе информацию о синтаксических связях слов и их валентностях, с учётом разделения последних на актанты и сирконстанты.
Процесс выделения актантов проходит такие этапы, как выделение управления глагола (то есть грамматических свойств подчинённых ему слов и групп), выделение валентностей (то есть соотнесение грамматических свойств с семантическими, а также определение поверхностно-семантической роли слова в предложении), определение обязательности валентности и отнесение её к классу актантов или сирконстантов. То есть мы можем утверждать, что актанты выводятся из сочетаемостных свойств глаголов. Развитие корпусных методов компьютерной лингвистики позволяет нам развить это положение и поставить несколько вопросов, связанных с возможностями использования корпусов для сбора и обобщения данных о глаголах.
• Возможно ли автоматизировать процесс извлечения модели управления глаголов (то есть процесс составления словаря глагольного управления большого объема) за счёт разработки новой методики анализа неразмеченных текстов?
• Возможно ли автоматизировать процесс построения валентностной структуры глагола, используя словарь глагольного управления, полученный на предыдущем этапе (то есть автоматизировать процесс составления словаря валентностей для глаголов)?
• Возможна ли автоматизация процесса выделения актантов с использованием статистической информации об употреблении валентностей глаголов (то есть существует ли формальный статистический критерий отделения актантов и сирконстантов)?
• Возможна ли автоматизация этих процессов для любых языков? Если нет, какие налагаются требования на свойства рассматриваемого языка?
Цели создания указанных выше словарей могут быть различны. Так, например, упоминавшийся уже здесь «Активный словарь русского языка» создается в качестве справочника для людей, хорошо знающих русский язык и желающих проверить
некоторые гипотезы. Его может быть сложно применять людям, недавно начавшим изучать русский язык: трактовки требуют довольно тонкого знания языка, информация избыточна, лексика не всегда подбирается из частотного словаря и скорее отражает общепринятую норму, чем узус. С другой стороны, для решения задач компьютерной лингвистики этого словаря может быть недостаточно. В ряде случаев нам нужна полная информация о всех возможных лингвистических явлениях или сочетаемости конкретного слова. В противном случае пропуск может означать как запрет на применение подобного сочетания, так и указывать на неполноту словаря. Помимо этого, использование для задач автоматической обработки текста предполагает, что словарь должен содержать в себе количественные оценки частоты явлений, которые не всегда нужны человеку (но и не исключают подобного использования).
Итак, при создании словарей (а в ряде случаев и баз данных) следует иметь в виду возможное применение этих словарей, а также специфику запросов их пользователей. Машинный словарь должен корректно отображать статистику совместной встречаемости связанных слов во всей полноте. Человекочитаемый словарь валентностей (или, в частности, актантов и сирконстантов) должен давать лишь наиболее частотные сочетания, предоставляя читателю возможность самому вывести общее правило. При этом он должен полно описывать актанты, давая лишь наиболее частотные примеры сирконстантов. Подобный словарь будет хорош для преподавателя, уже хорошо владеющего языком, но не для студента, который ещё не выработал языковую интуицию и пытается понять границы возможного. Также подобный словарь не всегда хорош для лингвиста, который должен видеть материал во всей полноте для обоснования своих выводов и проверки их корректности.
Заметим, что количественная оценка валентностей требует проведения предварительных исследований некоторых морфологических и синтаксических параметров текстов. Подобные исследования позволят ответить на вопросы о подборе материалов для проведения исследований и об общности предлагаемых методов автоматического или автоматизированного составления словарей. Таким образом, в ходе предварительных исследований необходимо предложить метод или набор
методов, позволяющих сравнивать между собой тексты на разных языках, то есть пригодных для квантитативного сравнительного языкознания. Заметим, что подобные методы могут иметь самостоятельную научную ценность.
Из рассуждений, приведённых выше, вытекает структура диссертационной работы. В целом работа делится на две части. В первой части рассматриваются особенности морфосинтаксических параметров и синтаксических отношений, влияющих на сбор и анализ материала. Во второй части рассматриваются особенности автоматического составления словаря глагольной сочетаемости, словаря синтаксических валентностей, некоторые подходы к современной векторной семантике, а также особенности анализа актантов с использованием автоматических методов. Обе части имеют самостоятельную ценность, при этом первая часть позволит нам обосновать выбор русского языка для второй части.
К первой части относятся Главы 1 и 2. В первой главе рассмотрены особенности грамматической неоднозначности, а также проведён сравнительный анализ грамматической неоднозначности для двенадцати европейских языков (различных индоевропейских языков с добавлением турецкого). Здесь же показано, что грамматическая неоднозначность наиболее частотных слов отличается от неоднозначности для менее частотных слов. Во второй главе рассмотрены наиболее частотные синтаксические конструкции в 65 языках, а также свобода их синтаксического ветвления. В главе показывается, что статистика синтаксических связей зависит от стиля текста. Анализ данных по синтаксическому ветвлению позволил провести ранжирование языков по степени строгости синтаксического ветвления. На основе материала первых двух глав будет сделан вывод, что составление словарей глагольной сочетаемости и валентностей будет проводиться на материале русского языка, так как русский язык выделяется среди прочих по совокупности двух признаков - относительно высокой доли слов, однозначных по части речи, и высокого процента конструкций с однозначно трактуемой синтаксической конструкцией. Данная работа ставит целью скорее провести исследование на объёмном материале для отдельного языка, чем эмпирическое исследование свойств большого числа языков.
Ко второй части относятся главы с третьей по пятую. В третьей главе сравниваются результаты частичного и полного автоматического синтаксического анализа, делается выбор в пользу последнего. На материале больших корпусов с автоматической разметкой собраны данные для составления словарей предложного
« ТЛ ^
управления, глагольной сочетаемости и глагольного управления. В четвертой главе рассматриваются некоторые свойства векторных семантических пространств,
и ТЛ и
связанные с анализом семантики валентностей. В пятой главе проводится анализ актантной структуры глаголов, показывается, что не все валентности глаголов могут быть автоматически извлечены и сгруппированы. Это связано с тем, что некоторые валентности оказываются размыты как грамматически, так и семантически.
Основным вопросом диссертационной работы является исследование на материале русского языка возможности автоматического или автоматизированного создания баз данных, содержащих в себе статистическую информацию о синтаксической сочетаемости слова с другими словами, управлении в подобных сочетаниях, а также об образовании валентностей - полученных при помощи анализа морфосинтаксических отношений между словами в больших корпусах текстов. Для выделения валентностей будет использоваться векторное представление семантики слова. В качестве материала будут использоваться неразмеченные коллекции текстов разного объема (от 50 000 до 1010 словоупотреблений в зависимости от конкретной задачи), разметка которых будет проводиться исходя из поставленной задачи.
В итоге нами была получена информация о синтаксических связях более чем 32 000 глаголов с более чем 90 000 существительными, предлогах, беспредложных конструкциях и падежах, обрамляющих данные связи. Для более чем 15 000 глаголов было собрано достаточно статистической информации для того, чтобы построить словарь их управления (аналогичная работа была проделана и для существительных, но её рассмотрение вынесено за рамки данного исследования).
В связи с тем, что валентности глаголов определяются не только за счёт параметров управления, но и с учётом семантики главного и зависимого слов, мы продолжили эксперименты в области семантики таких связей. В качестве основного метода в ходе исследований было выбрано статическое векторное представление. Для
смысловой группировки слов в работе предлагается новый метод выделения сообществ на графах и метод конструирования такого графа на основе информации о сочетаемости слов. В итоге делается вывод о том, что для успешной группировки слов по валентностям необходимо решить такую задачу, как разделение отдельных лексико-семантических вариантов слов.
Целью работы являются систематизация и каталогизация информации о моделях управления глаголов русского языка, основывающиеся на выявлении новых свойств русского языка методами сопоставительного анализа статистических данных для таких явлений, как грамматическая неоднозначность, синтаксическое ветвление и статистика синтаксических связей, полученных на материале больших языковых корпусов.
Для достижения общей цели работы необходимо выполнить следующие частные задачи:
• создание новых подходов к квантитативному сопоставительному исследованию таких явлений, как грамматическая неоднозначность, синтаксическое ветвление и статистика синтаксических связей с использованием больших языковых корпусов, ориентированное на автоматизацию сбора информации о глагольном управлении;
• разработка нового метода оценки статистики распределения слов по типам грамматической неоднозначности в тексте;
• проведение расчётов количественных показателей грамматической неоднозначности в текстах на различных языках, их сопоставительный анализ на материале языков с доступными большими морфологическими словарями в электронном виде;
• разработка новой методики сопоставительного анализа синтаксических конструкций в текстах на различных языках, отличающейся от существующих методов учётом статистики употребления наиболее частотных синтаксических конструкций и вариантов ветвления;
• проведение расчётов количественных показателей в соответствии с разработанной методикой оценки сходства синтаксических конструкций в текстах на различных языках и сопоставительный анализ рассчитанных показателей для большого числа языков;
• разработка новой методики автоматизированного составления словарей синтаксической сочетаемости слов и глагольного управления на основе корпуса неразмеченных текстов большого объема, отличающейся большим охватом анализируемой лексики;
• проведение расчётов частот синтаксической сочетаемости слов и глагольного управления в соответствии с разработанной методикой на материале русского языка, составление базы данных глагольного управления русского языка.
Положения, выносимые на защиту.
• Метод количественной оценки грамматической неоднозначности текстов на нескольких языках в зависимости от типа неоднозначности.
• Методика сравнительного анализа синтаксических конструкций в текстах на разных языках, основанная на сравнении наиболее частотных синтаксических конструкций, а также сравнении соотношения правого и левого ветвления в их употреблении.
• Методика автоматического формирования словаря синтаксической сочетаемости для слов русского языка с использованием сверхбольшого корпуса текстов, а также полученные на её основе автоматически составленные словари предложного и глагольного управления, глагольной сочетаемости слов, полученные на материале больших языковых корпусов.
Научная новизна работы.
• Произведена сравнительная количественная оценка грамматической неоднозначности текстов на нескольких языках, основанная на новом методе оценки подобной неоднозначности.
• Разработана новая методика сравнительного анализа синтаксических конструкций в текстах на разных языках, основанная на сравнении статистики
наиболее частотных синтаксических конструкций и направления их синтаксического ветвления; рассчитаны количественные показатели для текстов на 65 языках.
• Впервые показаны особенности русского языка, позволяющие проще проводить частичный синтаксический анализ предложений по сравнению с другими крупными мировыми языками.
• Впервые на материале большого корпуса произведена количественная оценка частоты встречаемости для 130 предлогов русского языка с существительными в определенном падеже.
• Предложена новая методика автоматического формирования частотного словаря синтаксической сочетаемости для слов русского языка с использованием сверхбольшого корпуса текстов.
• Предложена новая методика автоматического формирования частотного словаря глагольного управления для слов русского языка с использованием сверхбольшого корпуса текстов.
• При помощи количественных методов показано наличие в русском языке глаголов без выраженной актантной структуры.
• Предложен новый алгоритм выделения сообществ на графах, показывающий улучшение точности выделения сообществ на собранном частотном материале синтаксических особенностей управления и связей между словами.
Объектом исследования является распределение неоднозначности грамматических параметров, получаемых в ходе морфологического анализа текстов на разных языках; синтаксические связи в текстах, статистика их распределения, полученная на материале разных языков, статистика правого и левого ветвления для синтаксических связей в рамках выбранных корпусов; статистика синтаксических связей глаголов русского языка с зависимыми существительными с учётом падежа, в котором находится существительное, а также предлога, связывающего глагол и существительное (включая пустой предлог для беспредложной связи). Анализ указанных данных позволяет сделать вывод о возможности автоматизации процесса создания словарей глагольной сочетаемости, предложного и глагольного управления. Для глаголов с выраженной актантной структурой показывается
Похожие диссертационные работы по специальности «Другие cпециальности», 00.00.00 шифр ВАК
Сочетаемость приставочных глаголов движения в современном русском языке: корпусное и экспериментальное изучение2010 год, кандидат филологических наук Ванюгина, Марина Сергеевна
Валентностные характеристики глаголов движения в лезгинском и английском языках2009 год, кандидат филологических наук Шерифова, Эльвира Мамедовна
Избыточность текста, редукция и эллипсис (на материале русского языка)2008 год, доктор филологических наук Грудева, Елена Валерьевна
Функции глаголов со значением ощущения и эмоционального процесса в художественном тексте: На материале романа Е. Замятина "Мы"2000 год, кандидат филологических наук Рыжков, Игорь Анатольевич
Конструкции с сентенциальными актантами в русском языке: семантика, синтаксис, сочетаемость2020 год, доктор наук Летучий Александр Борисович
Список литературы диссертационного исследования доктор наук Клышинский Эдуард Станиславович, 2025 год
литература
Духовное Общест- Развле- Наука Книжное Повсед- Книжное Повсед-
венное чения невное невное
Таблица 30 - Схема разделения модели на основе Ага^ит Russicum
Люди, социальное регулирование Организация, технология, правовые
отношения
Абстрактное Конкретное Технологии Управление и
производства производство
Оскорб- Духовный Димину- Природа Химия и Физика, Эконо- Политика
ления мир тивы, биология автомат мика и
имена изация общество
Таблица 31 - Схема разделения модели на основе научных статей
бытовой дискурс научный дискурс
абстрактное предметы научные термины места и люди
общество книги и спец. бытовые внеш. внутр. фамилии места и и духовный термины предметы научное научное и имена организ
политика мир учёных ации
Таким образом, можно сделать вывод о том, что по меньшей мере крайние значения пространства Word2Vec могут быть проинтерпретированы по принадлежности к определенным тематикам.
Ещё одним важным выводом является тот факт, что пространство признаков носит фрактальный характер. Подобный результат достаточно легко объяснить. На первом этапе разделения первой модели мы выделили абстрактные и конкретные значения; те же параметры разделения встретились на втором уровне тематики «социальное регулирование» во второй модели. После нескольких уровней разделения мы выходим на предметные имена нарицательные, которые должны обладать массой, габаритами, цветом и другими характеристиками предметов мира вещей. Заметим, что все перечисленные характеристики не относятся к абстрактным понятиям. Таким образом, представляется логичным тот факт, что после сдвига по некотором направлению мы должны найти некоторые иные характеристики, чем если бы двигались в противоположную сторону. То есть состав интерпретируемых направлений должен зависеть от того, в какую именно сторону мы движемся.
Результаты этого и предыдущего параграфа можно интерпретировать следующим образом. В семантическом пространстве векторных моделей отсутствуют глобальные направления, соответствующие смене значений каждого из параметров. В результате не следует ожидать от векторного пространства, что параметры в нём будут подчиняться некоторой логике евклидового пространства. Скорее, в семантическом пространстве будет наблюдаться несколько глобальных направлений, соответствующих некоторому разделению этого пространства по значениям параметров с высоким уровнем абстракции. Выбор самих параметров будет зависеть от текстов, на которых строилась дистрибутивная модель. По мере сдвига по этим направлениям набор оставшихся параметров будет меняться, эти новые параметры будут зависеть от выбранного направления движения. Группировка слов или понятий будет проводиться по значениям этих новых параметров. Пространство будет скорее иметь фрактальную структуру, подобную несимметричной снежинке, в которой направления набора лучей будут определяться выбранным направлением движения. Набор этих параметров не обязательно будет сходен в разных местах пространства.
Приведем простой пример. Разделим все понятия на «вещественные» и «абстрактные» и расположим их вдоль некоторой шкалы, приписав им некоторое значение вещественности или абстрактности. Для понятий, означающих
вещественные объекты, мы сможем ввести параметры габаритов, массы, цвета и проч. Все эти параметры будут нерелевантны для абстрактных понятий. То есть в зависимости от того, в каком месте шкалы «вещественное - абстрактное» мы находимся, будут зависеть и то, какие параметры могут быть приписаны объектам, то есть будут различаться сам набор шкал, по которым будет проводиться ранжирование или сравнение. Перейдя к новому набору шкал на более низком, конкретном, уровне абстракции, мы получим ту же картину. Электронные приборы могут быть отранжированы, среди прочего по признаку наличия в них микропроцессора, тогда как продукты питания этим признаком не обладают. Подобное поведение позволяет нам говорить о фрактальности пространства, то есть повторе выбора набора признаков в зависимости от дальнейшего движения по пространству.
Подобное устройство пространства может служить объяснением работоспособности методов, основанных на введении большой размерности семантического пространства (несколько десятков тысяч параметров). При малой размерности пространства модель вынуждена выбирать одни и те же измерения для параметров с разной семантикой. При большом количестве параметров модель может назначить разные параметры более низкого уровня в зависимости от комбинаций параметров более высокого уровня. В итоге будет получено евклидово пространство, обладающее фрактальной структурой на уровне выбора набора параметров. Заметим, что данная гипотеза нуждается в отдельной самостоятельной проработке и не будет проверяться в данной диссертационной работе.
Убедившись в локальной интерпретируемости статических моделей рассмотрим некоторые свойства, связанные с интерпретацией семантики синтаксических связей.
4.5. Синтаксический пробинг контекстуализированных моделей
Одним из результатов применения пробинга к моделям BERT стало понимание, что контекстуализированное векторное пространство отвечает не только за хранение семантических признаков. Так, Хьюитт и Мэннинг [182] показали, что BERT чувствителен к изменению синтаксической структуры текста. В качестве практического приложения подобных свойств модели в работе [222] было предложено использовать векторные представления BERT для сегментации текста на предложения и параграфы65. Указанные исследования позволяют предположить, что векторные представления слов для контекстуализированных моделей дают возможность проводить различия не только семантических, но и грамматических и синтаксических признаков66.
Задачей данной части исследования было найти зависимость между контекстуализированными векторными представления слов и синтаксической структурой предложения, а именно изменения векторных представлений на границах синтаксических групп. Предложение в наших экспериментах анализировалось в формате дерева зависимостей, записанного в виде скобочной записи. При такой записи скобки будут показывать границы между синтаксическими группами, причем чем больше будет скобок, тем дальше приходится подниматься или опускаться по синтаксическому дереву. Например, для предложения Это связано с тем, что работа каких-то инструкций алгоритма может быть зависима от других инструкций или результатов их работы будет получена следующая запись (уровни вложенности дополнительно показаны с использованием градаций серого):
65 Заметим, что данную работу предваряла магистерская диссертация, выполненная в политехническом
университете Милана [254].
66 Исследование грамматических признаков проводилось, например, в работах [138, 183].
198
Эксперименты проводились на синтаксически размеченном корпусе СинТагРус67. Из корпуса бралась синтаксическая разметка, предложение векторизовалось с использованием модели, для каждого словного токена считалось среднее для векторов его буквенных токенов. Для каждого слова брались его соседи справа на расстоянии от 1 до 4 слов. Скобки между словами конкатенировались. Для векторных представлений слов рассчитывалась косинусная мера сходства. Некоторые результаты показаны на Рис. 33 и 34.
После этого было принято решение проанализировать количество закончившихся и начавшихся составляющих по отдельности. Для этого был использован другой способ визуализации результатов: по оси абсцисс откладывалось количество начавшихся составляющих, по оси ординат — завершившихся. Некоторые результаты показаны на Рис. 35 и 20.
Из рисунков становится очевидно, что косинусное расстояние падает с ростом количества начавшихся или закончившихся составляющих, то есть расстояния, пройденного по дереву вверх или вниз. При этом количество завершившихся составляющих влияет несколько сильнее, чем количество открывшихся. Аналогичная ситуация наблюдается и для минимального и максимального значений косинуса: с увеличением расстояния по дереву и увеличением линейного расстояния минимальный косинус с некоторыми колебаниями растет. Максимальное значение практически не изменяется с изменением линейного расстояния, но немного падает с ростом расстояния по дереву (колебания в районе 0,01). Заметим, что среднее значение косинусного расстояния для трех произвольных пар слов в каждом предложении примерно равно 0,9586.
Проведение экспериментов и обработка результатов проведены В. Васильевой. Автором диссертации проведены постановка задачи и теоретическая проработка экспериментов.
199
Рисунок 33 - Диаграмма размаха для значений косинусной меры сходства для слов на линейном расстоянии 1 в зависимости от пересечения границ синтаксических групп
Распредление косинусов, расстояние между словами = 4
[
т
]]ü
Рисунок 34 - Диаграмма размаха для значений косинусной меры сходства для слов на линейном расстоянии 4 в зависимости от пересечения границ синтаксических групп
Рисунок 35 - Зависимость среднего косинусного расстояния и его дисперсии в зависимости от количества переходов по дереву зависимостей, линейное расстояние между словами = 1
7 -6 -5 -
з4Ч
QJ
£ 3
2 -
1 -
О
• • *
* • •
• •
• * *
• * *
* • •
• * • *
* * *
■
cos_avg 0.936 0.942 0.94S 0.954 0.960 0.966 cos_5td 0.020 0.024 0.02& 0.032
2 3
bracket left
Рисунок 36 - Зависимость среднего косинусного расстояния и его дисперсии в зависимости от количества переходов по дереву зависимостей, линейное расстояние между словами = 4
Поведение косинусного расстояния для BERT кардинально отличается от аналогичного для Word2Vec. Так, среднее значение косинусной меры колеблется между 0,15 и 0,25, причём оно растёт по мере увеличения количества начавшихся составляющих и уменьшается с количеством завершившихся при линейном расстоянии больше 2. Получается, что в случае Word2Vec слова, непосредственно связанные с данным, относятся к немного другой области (что логично, так как они описывают характеристики данного слова или участников действия, а не слова, близкие главному). С ростом расстояния по дереву (при спуске вниз) вновь начинают
появляться слова из той же предметной области. Окончание составляющей означает смену описания одной области и начало следующей.
Итак, из рисунков видно, что модель BERT генерирует очень сходные векторы (среднее косинусное расстояние от 0,95) для словоупотреблений в рамках одного текста. При генерации вектора для токена модель учитывает соседние токены, выступающие в роли контекста. Влияние токенов является взаимным, поэтому происходит усреднение векторов68. Это оказывается удобным для различения контекстов слов - взаимное влияние разных соседних токенов дает хорошо отличающиеся векторные представления для различающихся контекстов. Однако отличия между соседними словами требуют более тонкого анализа.
С другой стороны, из Рис. 33 и 34 видно, что с ростом расстояния по синтаксическому дереву, определяемому как длина пути от одной вершины к другой, среднее значение косинусного расстояния снижается. Оно подвержено значительному смещению вниз, как это видно по несимметричности распределения на рисунках, но большая часть векторов оказываются рядом. При этом закрывающиеся составляющие оказывают большее влияние, чем открывающиеся (см. Рис. 35 и 20 на которых разница значений по вертикали превосходит разницу значений по горизонтали). Следовательно, модель BERT учитывает на внутренних слоях синтаксические зависимости между соседними словами.
Также нами была проведена серия экспериментов, исследующих точность проведения синтаксического анализа на промежуточных слоях сети BERT69. Для проведения синтаксического анализа был реализован биафинный анализатор [148], получающий на вход векторное представление текста. Мы воспользовались тем фактом, что как статические векторные представления, так и выходные и
68 Данный процесс очень условно можно назвать усреднением, на самом деле он значительно сложнее (см.
[148]). Однако в результате этого процесса проходит размытие векторных представлений. Векторы соседних токенов сближаются друг с другом, как это происходит при усреднении. Поэтому мы считаем корректным подобное сравнение.
69 Идея эксперимента и его проработка принадлежит В. Зыковой. Автору диссертации принадлежит постановка
задачи и теоретическая проработка вопроса.
промежуточные векторные представления имеют одну и ту же размерность. В связи с этим векторные представления с разных слоёв нейронной сети, включая статические вектора, полученные после токенизации, подавались на вход анализатора для получения деревьев зависимости. Построенное дерево оценивалось по метрикам LAS (Labeled Attachment Score), UAS (Unlabeled Attachment Score) и LS (Labeled Score).
Наша гипотеза состояла в том, что модель BERT последовательно обрабатывает векторные представления и на каком-то слое подключает информацию о синтаксическом анализе. На этом слое должно резко увеличиваться качество синтаксического анализа.
Эксперименты проводились на корпусе СинТагРус [153], размеченном с использованием Universal Dependencies [227], и модели RuBert от DeepPavlov [206]. Результаты экспериментов показаны на Рис. 37.
Мы видим, что даже статические векторные представления позволяют получить точность установления синтаксических связей на уровне около 50%. Это связано с относительно простыми правилами формирования связей для глаголов,
70
существительных и прилагательных, а также точностью определения части речи . Наибольший рост точности происходит к третьему скрытому слою модели.
Также наши эксперименты показали, что точность разделения статических векторных представлений BERT на основные части речи при помощи линейного классификатора превышает 99%.
Заметим, что максимум точности для синтаксического анализа приходится на седьмой уровень. Далее, судя по всему, модель BERT уделяет больше внимания семантическому анализу, что ухудшает точность.
70 Полученные результаты находятся в соответствии со статистическими данными, полученными в Главе 2.
203
1.0
Рисунок 37 - Точность синтаксического анализа в метрике LAS в зависимости от номера слоя в сети Bert
В целом для модели BERT складывается следующая картина установления синтаксических связей. Нейросеть BERT обладает достоверной информацией о части речи слова (вернее, токена, являющегося частью слова) уже на уровне статических векторных представлений (векторы слов с разной частью речи показываю линейную разделимость с высоким уровнем точности). Далее, к третьему слою сеть накапливает информацию о синтаксических составляющих нижнего уровня (или нескольких нижних уровней). Эта информация в дальнейшем используется для уточнения как синтаксической, так и семантической картины. Максимальное значение точности синтаксического анализа достигается на седьмом уровне (для модели RuBERT). Далее уточнение семантических особенностей текста понижает точность синтаксического анализа, однако приближает его к требованиям функции потерь.
Заметим, что наши результаты соответствуют предыдущим исследованиям для английского языка [141], показавшим повышение точности синтаксического анализа на слоях с 4 по 8.
4.6. Пробинг грамматических и некоторых семантических параметров контекстуализированных моделей
Убедившись в линейной разделимости грамматических параметров токенов, исследуем влияние жанра текста на поведение моделей семейства BERT. Разберем такое глубоко семантическое свойство текста, как выражение юмора71.
Современная общая теория вербального юмора была разработана Раскиным и Аттардо в конце XX века [115, 252, 253]. Они утверждали, что юмор основан на противопоставлении противоречивых концепций, то есть смешным нам представляется некий семантический слом в повествовании, когда понятия, введенные в начале шутки, сталкиваются с противоречиями в её завершении (вне зависимости от причин такого нарушения: наличия фонетического сходства, логического несоответствия, строгой структуры шутки и проч.).
т-ч и и
В последнее время развивается альтернативный подход, основанный на применении методов машинного обучения. Задача детекции юмора сводится к задаче классификации текстов или оценки степени комичности текста (см., например, [127, 282]). Это сближает задачу детекции юмора с такими задачами, как определение тональности текста [284] или поиска оскорблений [271], так как в них могут использоваться общие методы, различающиеся лишь разметкой фрагментов. Развитие нейронных сетей породило здесь целый ряд новых решений, в том числе и основанных на архитектуре трансформеров [137].
При этом можно увидеть, что большинство решений являются частными. В работе [119] было показано, что нейронные сети, обученные на детекцию юмора на одних корпусах, плохо работают на других. Это приводит к мысли о том, что важную роль в семантическом представлении юмористического текста играет используемая лексика. При этом работ, посвященных исследованию влияния используемой лексики на точность определения шутки крайне мало, так как подавляющее большинство усилий сосредоточено на сборе новых корпусов и тренировке усовершенствованных
71 Результаты данного раздела получены Е. М. Заковоротной. Автору диссертации принадлежит идея эксперимента и элементы теоретической постановки задачи.
205
нейронных сетей (см., например, обзорную работу [255]). На общем фоне выделяется дипломная работа [8] в которой особое внимание уделено созданию контрастивного корпуса юмора, противопоставленного текстам с минимальными изменениями. Использование подобного подхода позволяет отказаться от исследования влияния существенно различающихся фрагментов текстов и сосредоточиться на минимальной разнице, делающей текст неюмористическим. Однако, данное исследование находится пока в начальной фазе.
В своей работе мы сосредоточились на последнем подходе - исследование минимальных изменений, которые необходимо внести в текст, чтобы он перестал быть юмористическим. Для этих целей была обучена нейронная сеть, детектирующая юмористические тексты и возвращающая свою степень уверенности в том, что текст является юмористическим. Для обучения и проверки модели была собрана коллекция из 38 000 шуток на английском языке и такого же размера коллекция новостей и беллетристики. Особое внимание уделялось сходству суммарной лексики в двух коллекциях (но не сходству лексики внутри текстов разных жанров). Вектор текста рассчитывался как среднее значение по векторам, полученным для всех токенов текста. Результаты векторизации текстов для трех моделей показаны на Рис. 38 и 39. Всего эксперименты проводились для пяти моделей, в итоге чего были получены сходные результаты.
Заметим, что получаемые векторы юмористических и неюмористических текстов оказались разделимы при помощи линейного классификатора с точностью выше 0,95. Нами была высказана гипотеза о том, что может быть обнаружен единый вектор аналогии, который переводит неюмористический текст в область юмора. Эксперименты показали, что это не так. То есть мы можем легко убедиться, что в результате преобразований, которым подвергаются статические векторы токенов юмористических текстов, генерируемые начальным модулем модели BERT, векторное представление текста смещается в некую линейно отделимую зону, не определяемую единым вектором переноса.
Простыми словами, шутка определяется совокупностью векторных представлений входящих в неё слов, но не некоторым переносом смысла текста в единую и связную область юмористического.
Рисунок 38 - Векторы юмористических (красные) и неюмористических (зеленые) текстов
для моделей BERT, ALBERT, DistilBERT
Рисунок 39 - Векторы представления слов в неюмористическом (зеленый) и юмористическом контекстах для полисемичных (красные) и неполисемичных (синие) слов
Так как в соответствии с теорией Раскина и Атардо основой юмора является семантический сдвиг, мы предположили, что влияние полисемичных слов на формирование юмора должно быть выше, чем у однозначных слов. В связи с этим мы рассмотрели отдельные векторы слов, встречающихся в юмористических и
ТЛ " и
неюмористических текстах. В соответствии с нашей гипотезой, исследовались векторные представления полисемичных и однозначных слов в юмористических и неюмористических текстах. Результаты представлены на Рис. 39.
Как видно из рисунка, векторные представления, поступающие на выход модели BERT позволяют хорошо различать юмористический и не-юмористический контекст употребления слова. Классификатор на основе линейной регрессии, обученный на таких представлениях, позволяет получить точность на уровне 94%. При этом употребления слов в юмористическом контексте за редким исключением собираются в плотное ядро.
Итак, мы можем сделать вывод о том, что влияние контекста при векторизации текстов с помощью моделей семейства BERT приводит к тому, что векторы слов юмористических и не-юмористических текстов смещаются в разные области. Смещение происходит последовательно на разных слоях нейронной сети BERT. То есть мы можем предположить, что слова контекста разводят смыслы отдельного слова, выраженные в виде семантических векторов, достаточно далеко друг от друга, но в некоторые связанные зоны. То есть влияние токенов контекста велико для определения не только синтаксических, но и семантических характеристик текста.
Во многом подобное поведение объясняется свойствами пространств высокой размерности. Среди прочего здесь можно сослаться на тот факт, что с увеличением размерности пространства увеличивается вероятность того, что два вектора будут близки к ортогональности.
Среди токенов встречаются как словообразующие, так и формообразующие флексии в языке. В связи с этим для того, чтобы проверить поведение модели при анализе формообразующих токенов, мы провели ещё ряд экспериментов по грамматическому пробингу. Нами была проведена серия экспериментов, которые показывают, что модели семейства Bert имеют возможность представлять данные о феноменах, на которых они не были явно обучены за счет векторных преобразований
72
дополнительных токенов контекста .
Для этого к текстам на русском языке добавлялся грамматический параметр полиперсональности. Под полиперсональностью понимается свойство языка, при наличии которого к слову добавляется показатель, согласующийся с лицом объекта
72 Данные эксперименты были разработаны и проведены коллективом студентов: С. Кудряшовым, В. Зыковой, А. Степановой и Я. Раскиндом. Автору диссертации принадлежит постановка задачи и фрагменты теоретического решения.
[46, 78]. На вход модели подавался преобразованный текст на русском языке, в который была искусственно добавлена полиперсональность в префиксальной и суффиксальной форме.
Норма: Она слышала каждое слово.
Суффиксальная форма: Она слышалает каждое слово.
Префиксальная форма: Она етслышала каждое слово.
Для выражения полиперсональности специально были выбраны окончания русского языка, так как они должны уже присутствовать в нейросетевой модели, поэтому модель не придется дообучать или переобучать с тем, чтобы она воспринимала новые токены.
Нами были проведены эксперименты, суть которых заключалась в следующем. Бралась предварительно обученная модель BERT. На выход модели добавлялась голова Attention, которая должна была генерировать пропущенное слово.
Эксперименты показали, что простой классификатор с логистической регрессией, использованный после замороженной модели BERT, которая не обучалась на распознавание полиперсональности, позволяет распознавать полиперсональные тексты с точностью выше 94%.
Здесь мы вновь видим, что изменение состава токенов в тексте существенно влияет на векторное представление. Можно усилить это высказывание, сказав, что добавление единственного токена меняет векторизацию текста настолько, что, с одной стороны, векторные представления становятся разделимы при помощи линейного классификатора, а с другой стороны, модель оказывается способна восстановить текст с новыми грамматическими свойствами, которые не были ей предъявлены в ходе обучения.
Также был проведен пробинг внутренних слоев модели. Был натренирован слой, который решал задачу предсказания пропущенного токена. Далее этот слой последовательно присоединялся после каждого внутреннего слоя. В итоге мы наблюдали повышение точности предсказания на девятом слое до примерно 0,3 и на двенадцатом слое до значений выше 0,75. При этом средний ранг правильного ответа на последнем слое был меньше 2, то есть для случаев, когда на первом месте стоял
неправильный ответ, правильный ответ в подавляющем большинстве случаев был на второй позиции.
Из результатов данного раздела можно видеть, что контекстуализированные модели за счёт использования механизма внимания [281] получают возможность выстраивать новое представление текста, перемещённое в новую область пространства. При этом используется не только параллельный перенос (о чём шла речь в Разделе 4.2), но и другие методы преобразования пространства. В целом эти наблюдения полностью совпадают с работой механизма внимания, который осуществляет последовательность поворотов и смещений точек пространства в зависимости от их местоположения. Последовательное применение нескольких преобразований на основе внимания позволяет получить новое представление точек, обладающее линейной разделимостью по заданным признакам.
Мы можем наблюдать часть из этих признаков, однако наблюдения показывают наличие скрытых признаков, обнаруживаемых при помощи методов пробинга. При этом возникает вопрос субъекивности интерпретации, когда наблюдатель пытается найти некоторую закономерность в данных. Модель может пользоваться иным набором латентных параметров, однако последовательное ограничение поисков и применение преобразований позволяет найти нужную нам закономерность.
4.7. Обсуждение результатов
т-ч u
В данной главе мы исследовали некоторые свойства статических и контекстуализированных векторных моделей, которые де-факто стали одним из стандартов при исследовании семантики.
Как следует из наших результатов, задача аналогии решается значительно лучше с использованием контекстуализированных моделей, чем с использованием статических. Заметим, что геометрия пространства этих моделей имеет существенные различия. Для моделей Word2Vec наблюдается распределение слов на поверхности многомерной сферы (это связано с применением на последнем слое слоя SoftMax, который нормализует значения), хотя распределение это неравномерно и является скорее вытянутым. Для моделей семейства BERT это распределение предсавляет собой скорее многомерную трапецию, высота которой существенно превосходит размеры основания. Данная трапеция заполнена кластерами точек, вытянутыми в направлении от начала координат. Эксперименты показывают, что даже самые маленькие значения в выходных векторах важны для модели, так как их отбрасывание приводит к её быстрой деградации [186].
В данной главе было показано, что модели Word2Vec обладают свойством глобальной интерпретируемости, то есть слова, находящиеся на диаметрально противоположных сторонах гиперсферы, составляют тематические группы, которые могут быть противопоставлены друг другу по некоторому признаку. К плюсам подхода можно отнести векторизацию слова целиком. Недостатком модели является её ограниченный словарь, а также зависимость вектора слова от совокупности контекстов, встретившихся в обучающей коллекции (это приводит к уходу вектора от областей, в которых находятся «чистые смыслы» входящих в него лексем, к области суперпозиции этих смыслов).
Для моделей BERT нами было показано, что переход между границами синтаксических групп влияет на косинусное расстояние между соседними словами, удаляя их друг от друга. Помимо этого модели BERT без специального дообучения позволяют разделять тексты по признакам, которые в них изначально не закладывались. Так, например, векторы слова, полученные для различных
юмористических текстов собираются в один или небольшое количество кластеров, тогда как в новостных текстах число таких кластеров значительно выше. Как следствие, векторы юмористических текстов оказываются линейно отделимы от векторов новостей. При этом поведение векторов текстов в целом такое же, как и у отдельных слов.
Мы можем предположить, что обучающая выборка использованной модели, среди прочего, содержала и юмористические тексты. Исследования показывают, что юмористические тексты могут обладать определенной структурой (например, известные шутки «Заходят как-то в бар...», «Поймал царь...» или «Knok-knok») и повторяющимися героями. При обучении модель могла выделить их в отдельный кластер, так как размер шуток обычно ограничен коротким текстом и помещается во входной вектор целиком.
В случае экспериментов с полиперсональной версией русского языка можно предположить регулярное смещение входного вектора на один или несколько дополнительных токенов, что позволяет модели в ходе вывода сместить и выходные векторы токенов.
Как показывает практика, статические и контекстуализированные векторные модели работают за счёт формирования многомерного пространства, в котором слова или их лексико-семантические варианты группируются по семантическим признакам. Это даёт инструмент для удобного выделения слов, относящихся к одной семантической группе. Мы планируем использовать это свойство в следующей главе для выделения валентностей глаголов из словаря глагольной сочетаемости путём объединения существительных при глаголах в семантически связанные группы. Подобный шаг необходим, так как валентности глаголов формируются не только вокруг их моделей управления, но и семантики и прагматики зависимых слов. При этом предлог и падеж, указывающие на одну или несколько валентностей глагола, должны согласовываться с семантикой зависимого слова и глагола.
Заметим, что как статические, так и контекстуализированные модели обладают собственными наборами недостатков. Для статических моделей главным недостатком является отмечавшееся уже «усреднение значений» слова. Известно, что статические
модели опираются на дистрибутивную семантику слов, то есть на статистику их совместного употребления. Если некоторое слово обладает несколькими лексико-семантическими вариантами, то в итоговую статистику войдут контексты для каждого из них (при условии, что они встретились в текстах в этом значении). Итоговый вектор в дистрибутивном пространстве будет зависеть от соотношения этих контекстов. В результате выходной вектор статической модели также будет зависеть от этого соотношения. Как следствие, многозначное слово окажется вне зон, содержащих однозначные слова, близкие к каждому из лексико-семантических вариантов исходного многозначного слова. Более того, оно окажется в некотором относительно случайном месте пространство в окружении случайных соседей.
С другой стороны, если слов, обладающих тем же набором смыслов73, окажется достаточно много, они могут сформировать собственный кластер, хотя и несколько отстоящий от необходимых тематических кластеров. Также здесь помогает многомерность пространства, в котором случайные пересечения кластеров относительно редки (хотя благодаря этому же свойству у слова всегда есть относительно близкие соседи, несмотря на смещение по нескольким параметрам и резкий рост расстояний между точками с увеличением размерности пространства).
Для контекстуализированных моделей проблему представляет работа с обобщённым значением слова, а также несколькими значениями, выведенными из контекста. Обычно для этих целей используют тексты большого объема, по которым генерируется список векторов. Далее векторы кластеризуются, а для кластеров считаются средние векторы. Подобный подход связан с несколькими проблемами. Во-первых, векторизация нескольких миллиардов слов (а именно с такими объемами мы работали в Главе 2) представляет вычислительно сложную задачу, по своему вычислительному объему сопоставимую с синтаксическим анализом текстов, а по объему занимаемой памяти значительно превосходящую его (примерно на полтора порядка). Помимо этого, теоретическую сложность представляет корректное определение числа кластеров и сама кластеризация. Решения «в лоб» обычно
73 См., например, слова, означающие одновременно цвет и материал (бронзовый, медный, стальной, коралловый), политические пристрастия (красные, белые, зеленые) или животных (леопардовый, тигровый).
отличаются невысокой точностью, а тонкий подбор параметров снова требует больших вычислительных мощностей.
Заметим, что обе модели не имеют средств для работы с прагматикой слова, то есть тем, какими свойствами обладает его означаемое, как оно может использоваться на практике, какое место занимает в модели мира. Тематическая группировка слов не означает, что мы можем в явном виде выделить связи между объектами и понятиями. Как следствие, поиск, основанный на запросах, подразумевающих прагматику предметной области, становится в векторных пространствах невозможен.
Взвесив все за и против, а также интерпретационные возможности двух видов моделей, мы приняли решение использовать в дальнейших исследованиях статические модели. Они позволяют быстрее проводить эксперименты и опробовать большее количество вариантов их использования. Более низкая размерность векторных представлений также увеличивает скорость расчётов и предъявляет меньшие требования к оперативной памяти, позволяя проводить векторизацию «на лету» с высокой скоростью. Как это было показано выше, задача аналогии может быть решена и на статических моделях, хотя и с меньшей точностью. Это позволяет надеяться, что группировка слов может быть проведена успешно.
Для реализации поставленных задач нами был разработан новый метод группировки слов, учитывающий особенности статического семантического пространства, который позволил улучшить результаты. Данный метод будет рассмотрен в следующей главе вместе с результатами его применения к полученному ранее словарю глагольной сочетаемости.
5. Исследование актантной структуры русских глаголов
5.1. Обзор методов выделения сообществ в графах
Определение валентностей и актантов включает в себя общность семантических признаков главных и зависимых слов. В связи с этим встаёт вопрос об автоматической группировке слов в семантически связанные кластеры. Для решения этой задачи используются две группы методов: кластеризация и выделение сообществ в графах. Для первой группы методов слова должны располагаться в некотором многомерном евклидовом пространстве, для второй группы методов - представлены в виде графа.
Для представления слов в виде векторов в многомерном пространстве используются рассмотренные выше статические и контекстуализированные представления. Однако, практика показывает, что они не могут быть использованы в явном виде для точного распределения слов по семантически связанным группам. Как было показано выше, статические векторные представления совмещают в одном векторе нескольких лексико-семантических вариантов слова, что вносит шум в результаты кластеризации. Конекстуализированные векторные представления требуют анализа контекста, то есть векторизации большого объема текстов, что является вычислительно сложной задачей. В связи с наличием указанных недостатков, в данной работе предлагается использовать методы выделения сообществ.
Алгоритмы выделения сообществ на графах можно разделить на две большие группы. Агломеративные алгоритмы создают сообщества небольшого размера, после чего увеличивают их размер за счёт присоединения новых вершин или объединения сообществ. Дивизимные алгоритмы изначально предполагают, что в графе имеется лишь одно сообщество, а на дальнейших шагах ищется способ разделения этого сообщества на части, являющиеся самостоятельными сообществами. Выделение сообществ может проводиться на вершинах и на дугах. Последний подход не получил большого распространения, так как чаще всего объекты предметной области обозначаются вершинами; как следствие, обычно исследователей интересует получение сообществ именно объектов, а не связей между ними. В связи с этим будем считать, что объединение или разделение графа может производиться за счёт
добавления или удаления дуг, объединяющих вершины, в зависимости от типа алгоритма.
Авторы обзора [174] выделяют две большие группы алгоритмов выделения сообществ: с пересечениями и без пересечений. В первом случае одна вершина в результате применения алгоритма может быть приписана нескольким сообществам, во втором случае - только одному. Помимо этого, авторы выделяют статические и динамические алгоритмы. Статические алгоритмы применяются один раз для нахождения разделения графа на сообщества. Динамические алгоритмы применяются для графов, меняющихся с течением времени, при этом вычисления для следующего шага проводятся с использованием информации об изменениях, произошедших в графе, а не начинаются вновь с начальной точки.
Считается, что алгоритмы для взвешенных графов могут быть применены к не взвешенным путём присвоения одинаковых весов всем ребрам.
Среди алгоритмов без пересечений следует выделить два наиболее эффективных и наиболее распространённых на сегодняшний день алгоритма: это метод распространения меток и Лувенский алгоритм с различными его модификациями. Для алгоритмов с пересечениями следует упомянуть алгоритмы, основанные на выделении клик, то есть графов, обладающих максимальным возможным количеством рёбер (Clique percolation method, CoreExp algorithm), и методы, основанные на голосовании (LinkLPA algorithm, DEMON algorithm). Кроме того, может использоваться преобразование графа в набор точек в некотором метрическом пространстве с последующим применением алгоритмов кластеризации (чётких или нечётких).
Кратко изложим основы некоторых из перечисленных алгоритмов.
Для Лувенского алгоритма [129] определяется понятие модулярности, позволяющей оценить качество разбиения графа на сообщества:
Q=2-I
2 -и
kikj 4 2 -
5 (
где Aij - это вес ребра между I и у, ki 22 А - сумма весов дуг, инцедентных вершине i,
Ci - сообщество, к которому приписана вершина i, д(и, V) - функция, равная 1, если
- 1 V
и^ и 0 в противном случае, т = 2 2 Ау.
На начальном этапе каждой вершине приписывается собственная метка сообщества. Далее в алгоритме последовательно повторяются два шага. На первом шаге для каждой вершины оценивается выигрыш модулярности в случае её перемещения в другое сообщество. Если выигрыш имеется, вершина перемещается в сообщество, дающее максимальный выигрыш. Первый шаг применяется ко всем вершинам до тех пор, пока может быть получен выигрыш. На втором шаге алгоритма все вершины одного сообщества объединяются в одну вершину. Связи внутри сообщества при этом превращаются в цикл длины 1, связи с другими вершинами сохраняются. Параллельные дуги объединяются в одну, их веса суммируются. Указанные два шага повторяются до тех пор, пока происходит улучшение модулярности.
Фактически Лувенский алгоритм представляет собой алгоритм жадной оптимизации графа по параметру модулярности.
Модификацией Лувенского алгоритма является Лейденский алгоритм [276], вводящий ещё один шаг между первым и вторым: уточнение принадлежности вершин сообществам. На этом шаге после распределения вершин по сообществам для каждой вершины делается несколько попыток перенести её в другое сообщество. Из всех возможных вариантов выбирается тот, что даёт максимальный прирост модулярности графа. Помимо этого, существует несколько вариаций Лувенского алгоритма, позволяющих ускорить его работу за счёт случайного выбора вершин, которые объединяются для получения сообщества. Это, например, Random Neighbor Louvain algorithm, Random Self-adaptive Neighbors Louvain algorithm. Также существует модификация алгоритма, позволяющая получать сообщества с пересечениями: Dynamic Louvain algorithm (DynaMo).
Метод распространения меток [140] основывается на предположении о том, что вершина принадлежит тому сообществу, которому принадлежит большинство её
соседей. На первом шаге алгоритма выбирается несколько случайных вершин, которым присваивается уникальная метка сообщества, все остальные вершины будут не помеченными. Каждой вершине приписывается вектор размерности, равной количеству сообществ; значения вектора будут отражать степень уверенности в принадлежности вершины данному сообществу. Запускается итеративный алгоритм, который обновляет метки вершин. На основе матрицы смежности и матрицы, содержащей на диагонали обратные значения степени вершин, вычисляется переходная матрица (матрица коррекции), на основе которой вычисляются новые значения векторов принадлежности сообществам. Алгоритм работает до сходимости векторов принадлежности с заданной точностью.
Существуют несколько модификаций данного алгоритма (Label Spreading, Label Propagation), отличающихся запретом или разрешением изменения метки начальной вершины.
В целом, данная группа методов отличается относительно невысокими вычислительными затратами и применим к большим графам. Недостатком метода является сложность выбора числа сообществ, а также случайная инициализация графа, приводящая к существенно различающимся результатам.
В нашем случае размер графа связей между словами составляет 25-50 тыс вершин. Это означает, что применяемые для нашей задачи алгоритмы выделения сообществ должны обладать низкой вычислительной сложностью. Широко известный алгоритм Жирвана и Ньюмена заключается в удалении дуг с самым высоким значением betweenness centrality, то есть фактически дуг, соединяющих самые слабо связанные части графа. Метод прост в реализации, однако отличается очень высокой вычислительной сложностью и не может быть применён к графам, получаемым в данной работе. Методы, основанные на поиске клик, также обладают высокой вычислительной сложностью и в данной работе рассматриваться также не будут. Аналогично исключаются из рассмотрения алгоритмы на основе вычисления собственных значений графа, разложения матриц и т. д.
Как это отмечалось выше, методы выделения сообществ можно разделить на методы, находящие непересекающиеся сообщества, и находящие сообщества с
пересечениями. С учётом специфики предметной области, наиболее предпочтительным был бы метод, имеющий возможность найти иерархические сообщества с пересечениями. Иерархия необходима для построения таксономии терминов, пересечения нужны для выделения разных лексико-семантических вариантов одного слова. Однако наш обзор не позволил найти подобного метода. Вероятно, наиболее предпочтительным для наших задач является метод с пересечениями, но мы решили проверить более простой случай, когда пересечения не находятся. Проверку данного случая можно рассматривать в качестве начального подхода, проверяющего работоспособность высказанного предположения о применимости графовых методов. Проверка методов с пересечениями и разработка нового иерархического метода были оставлены для будущих экспериментов.
По итогам обзора можно сказать, что, с учётом вычислительных затрат и необходимости выбора числа сообществ, для дальнейших исследований следует использовать Лувенский алгоритм.
Заметим, что результаты применения алгоритма выделения сообществ существенно зависят от вида графа, к которому применён алгоритм. Вид графа может быть определён, среди прочего, измерением таких характеристик графа, как средняя степень вершины, среднее расстояние между вершинами, характеристики кластерности и, что может быть более существенно, динамика их изменения при изменении размеров графа. Считается, что существует процесс, в котором к имеющемуся графу добавляются новые вершины и рёбра, соединяющие их с уже имеющимися вершинами. Так, в графах Барабаши-Альберта [112] каждая новая вершина присоединяется к ровно т существующим вершинам, при этом вероятность соединения линейно зависит от числа рёбер у вершины74. В итоге средняя длина
- А •• 1п N
кратчайшего пути в графе растёт с увеличением числа вершин примерно как ^ ^ N, а
распределение степеней вершины аппроксимируется обратным кубом числа вершин и средней длины кратчайшего пути между вершинами. Модель малого мира, более точно описывающая социальные сети, вводится моделью Уотса-Строгаца [285]. В ней
74 В модификации алгоритма, принадлежащей Бианкони-Барабаши [124], вероятность зависит от параметра приспособленности, присваиваемого вершине при создании.
219
учитывается наличие плотных кластеров и сегментация графа. Среднее кратчайшее расстояние между вершинами при этом растёт как логарифм от числа вершин. Некоторые модели генерации графов изначально учитывают предпочтения вершин в организации связей с выбранным сообществом [209].
Очевидно, что результаты выделения сообществ будут зависеть от вида графа, который получится в ходе объединения полученных комбинаций. В отличие от рассмотренных выше моделей генерации графов, мы не можем утверждать, что у нас имеется некоторое минимальное количество связей, которым обладают все вершины. Если быть более точным, то в нашем случае число вершин будет натуральным. Очевидно, что более частотные слова будут образовывать большее число синтаксических связей, однако закономерности в образовании семантических связей для слов одной части речи будут неочевидны.
Как будет показано ниже, Лувенский алгоритм плохо применим к решению задачи нахождения семантически связанных групп слов. В связи с этим нами был разработан новый алгоритм, который будет изложен в следующем разделе.
5.2. Метод кластеризации семантически связанных слов по их синтаксическим связям
Для повышения качества выделения сообществ мы предлагаем новый алгоритм классификации. Его основная идея совпадает с алгоритмом Уишарта [286]75: необходимо по некоторым признакам, например, весам на дугах, выделить ядро будущего сообщества, после чего начать присоединять к нему новые вершины. Так как вершина может иметь несколько дуг с максимальным значением весов, необходимо выбрать, к какому из сообществ она будет присоединена. Кроме того, алгоритм предполагает, что сообщества могут стать слишком большими и нуждаться в дальнейшем разделении. Таким образом, алгоритм является агломеративным, без пересечений, он самостоятельно определяет количество выделяемых сообществ.
Пусть дан граф G = (V, Е), где V и Е — множества вершин и дуг, соответственно. Все дуги являются взвешенными.
В таком случае алгоритм определения сообществ связанных слов будет состоять из четырех шагов.
Шаг 1. Выделение дуг. Рассмотрим каждую вершину Vi £ V в графе G. Сформируем множество взвешенных дуг М, = vj, wij>}, найдем максимальный вес дуги в графе G: Wij = тахк Отсортируем это множество по весам дуг: М = {М,}.
Шаг 2. Построение сокращенного графа. Пусть дан пустой граф R = (0, 0). Рассмотрим все М, £ М в порядке убывания весов. Пусть дана дуга е1 = vj, wij> £ М,. Выведем эту дугу из рассмотрения, если обе её вершины уже представлены в графе R, т. е. vi £ R, Vj £ R. В случае, когда обе вершины не принадлежат графу R, то есть V, ^ R, vj £ R, создадим новую компоненту связанности, содержащую обе эти вершины, и добавим её к графу R.
Без потери общности для оставшихся дуг примем, что V, £ R, vj £ R. Для каждой оставшейся дуги е1 добавим в граф R вершину V/ и саму эту дугу. Теперь рассмотрим связанную компоненту S С R: V, £ S. Разделим эту связанную компоненту S на сообщества при помощи Лувенского алгоритма, S = L2 , ... , Lp }. Для вершины v/ посчитаем количество дуг е1 £ М,, соединяющих V/ с сообществом S:
75 Более подробно алгоритм изложен в [173].
N = {п1, П2, ... , Пр}, пи = |<у„ у, WiJ>|, ут £ Ьи. Выберем теперь все дуги, такие что они соединяют у с выбранным сообществом и их вес равен максимальному: {е} = {<у, у, w1J>}■. Ут £ Ьq, щ = тах^). Поместим дуги из {е} в граф R. Все остальные дуги устраняются из рассмотрения.
Иными словами, если у нас есть несколько вариантов того, с каким сообществом соединить данную вершину, мы выберем уже добавленное в граф сообщество, для которого вес ребра для данной вершины максимален.
Шаг 3. Разделение компонент. На практике некоторые вершины могут быть добавлены в компоненту связности по ошибке. Эти вершины могут иметь связь с максимальным весом с одним сообществом, но наибольшее количество связей - с другим сообществом. В таком случае в компоненте связности появится несколько подкомпонет, отделимых от основной компоненты путем удаления небольшого количества дуг. На шаге 3 мы разделяем такие подкомпоненты. Для их удаления мы используем следующий алгоритм.
Посчитаем меру посредничества для всех вершин каждой связанной компоненты S графа R. Выберем все вершины с мерой посредничества большей, чем некоторый порог а; мы использовали значение по умолчанию а = 0,2. Посчитаем меру посредничества для каждой дуги, инцидентной выбранным вершинам. Выберем вершины с мерой посредничества большей, чем некоторый порог в; здесь мы используем значение по умолчанию в = 0,2. Если компонента связанности Б распадается на две несвязанные подкомпоненты после удаления всех выбранных дуг, мы удаляем эти дуги из графа R.
Шаг 4. Объединение компонент. Шаг 3 увеличивает количество компонент связности графа R, освобождая часть из них. Некоторые из этих компонент могут быть соединены друг с другом, так как при построении графа было удалено большое количество их связей, ни одна из которых не обладала максимальным весом. Применим Лувенский алгоритм к полученным компонентам связности графа R■ {Ь1, Ь2, ... , Ьр}. Перенесем структуру сообществ графа R на структуру исходного графа G.
Отфильтруем все вершины с весом меньше, чем пороговое значение у. В таком случае мы сможем посчитать матрицу С = {су}, где су показывает количество дуг между сообществами , и/, а су показывает количество дуг внутри сообщества. Пусть
к= агдтах (с у)
}
Если к, Ф ,, то ,-е сообщество претендует на то, чтобы быть присоединенным к сообществу к,. Это происходит в ситуации, когда сообщество имеет больше связей с другим сообществом, чем между собственными вершинами. Если * / су < 8 (здесь мы используем 8 = 2), то сообщество , претендует на то, чтобы присоединить к себе сообщество /. Другими словами, если между сообществами , и / существует как минимум половина теоретически возможных связей, то меньшее из сообществ может быть присоединено к большему.
Итак, если сообщество , претендует на то, чтобы присоединиться к сообществу /, и наоборот, сообщество / готово присоединить к себе сообщество ,, эти два сообщества объединяются.
Заметим, что следует сперва рассчитать все возможные варианты объединений, а потом предпочесть те, которые дают наибольшие значения.
Рис. 40 иллюстрирует применение алгоритма к гипотетическому графу. Ширина линий показывает веса дуг. Последовательность шагов с уменьшением текущего веса дуги показана сверху вниз, на самом верхнем подрисунке показан исходный граф. Из рисунка видно, что алгоритм образует сообщества при появлении новой пары вершин, обладающих наибольшим весом связи из графа, оставшегося на текущем шаге. Далее к этому сообществу присоединяются новые дуги с меньшими весами. На последних шагах алгоритма, не показанных на рисунке, проводится объединение кластеров, обладающих большим количеством связей и их разделение на сообщества с использованием Лувенского алгоритма.
Алгоритм был применен к свободно распространяемому набору данных «Аэропорты мира» (OpenFlights 201776). Выбранный набор данных содержит в себе информацию о более 6600 аэропортах (вершинах) и 30 000 полётах (дугах) за один день в январе 2017 года. Результат показан на Рис. 17.
76 https://openflights.org/data.php или https://www.kaggle.com/datasets/divyanshrai/openflights-airports-database-2017
Рисунок 40 - Пример применения алгоритма выделения сообществ (ширина линий означает величину веса дуги)
Для набора данных OpenFlights 2017 было проведено сравнение с Лувенским алгоритмом при разных значениях показателя resolution. Из рисунка видно, что Лувенский алгоритм показывает хорошее выделение сообществ при низком значении resolution, выделяя блоки экономически связанных стран. При увеличении данного параметра сообщества становятся значительно меньше и хуже отражают политические и экономические реалии. В то же время, результаты нашего алгоритма, например, показывают наличие трёх авиакомпаний на Аляске или транспортное отделение территории Сибири и Дальнего Востока от европейской части РФ.
Данный пример демонстрирует, что наш алгоритм позволяет получить адекватные результаты. Основным вопросом здесь остаётся оценка результатов пользователем.
* © OpenStreetMap contributors
а) Лувенский алгоритм, resolution = 1
• *
© OpenStreetMap contributors
б) Лувенский алгоритм, resolution = 10
© OpenStreetMap contributors
в) Предложенный алгоритм Рисунок 41 - Сравнение результатов работы предложенного алгоритма и Лувенского
5.3. Выделение семантически связанных групп слов с использованием предложенного алгоритма
Изложим теперь алгоритм выделения семантически связанных групп слов, использующий информацию об их синтаксической связанности.
Входом алгоритма является множество троек wd, где wm - главное слово, wd - зависимое слово, d - параметры зависимого слова (предлог и падеж для связи глагола с существительным или существительного с существительным, пустое значение для связи существительного и прилагательного, глагола или прилагательного и наречия). В такой ситуации можно говорить о группировке зависимых слов по главным. Не нарушая общность изложенного ниже алгоритма, подобные тройки могут быть построены и для обратной ситуации, когда на первой позиции будут находиться
« ТЛ " _
зависимые слова, а на второй соответствующие им главные. В такой ситуации можно говорить о группировке главных слов по их зависимым словам. Ниже рассматривается первая ситуация, и слова в первой позиции называются главными, а во второй позиции - зависимыми.
Общая идея метода заключается в следующем. Кластеризация статических векторных представлений методом к-средних при больших значениях к позволяет нам получить списки близких слов, содержащие в себе некоторый шум, связанный с неточностью определения вектора многозначного слова. Если мы разделим главные слова на компактные кластеры, то сочетаемость и модель управления таких слов может оказаться сходной. Аналогичным образом, зависимые слова, присоединённые к главному слову при помощи одного и того же предлога и союза, могут обладать семантикой, разделимой на семантически однородные группы, или, в случае единственного кластера, общей семантикой. Если взять группу семантически сходных главных слов и посчитать статистику совместной встречаемости зависимых слов, присоединённых к главным при помощи предлогов и падежей, то вероятность найти семантически близкие зависимые слова в результатах кластеризации повысится.
Статистика совместной встречаемости слов может быть использована для построения взвешенного графа, вершинами которого будут слова, а дуги будут помечены частотой совместной встречаемости этих слов. Тогда при помощи
алгоритма выделения сообществ в графах можно будет выделить семантически связанные группы зависимых слов.
Изложим теперь алгоритм семантической группировки более подробно.
Шаг 1. Кластеризация главных слов. Составим список главных слов без повторений. Сопоставим каждому слову из списка статическое векторное представление. Кластеризуем полученные векторные представления с использованием метода к-средних, примем к = |^т| div 10, где - количество уникальных векторных представлений для главных слов. Это означает, что среднее число слов в кластере будет равно 10. В итоге получим Сот - разбиение главных слов на кластеры (список номеров кластеров для главных слов).
Шаг 2. Построение графа связей зависимых слов. Создадим пустой граф G. Отсортируем кластеры в Сот по убыванию числа слов в кластере. Установим текущую позицию в начало списка. Будем последовательно перебирать кластеры в списке, извлекая их оттуда по 10 кластеров начиная с текущей позиции.
Для каждого главного слова, попавшего в текущую группу кластеров, отбираем все зависимые слова с одними и теми же параметрами зависимого слова. Если отобрано менее 10 слов, переходим к следующему главному слову. В противном случае зависимые слова векторизуются и кластеризуются методом к-средних. Число кластеров выбирается как целая часть от деления на 3. Если кластер зависимых слов содержит в себе менее 3 слов, то он отбрасывается из рассмотрения. В противном случае для каждой возможной комбинации из пары слов, попавших в кластер, частота такой комбинации увеличивается на 1. Таким образом, мы подсчитываем, сколько раз слова, присоединённые к сходным главным словам при помощи одинаковых предлогов и падежей, оказались достаточно близко друг от друга в семантическом пространстве, чтобы попасть в один кластер.
Если по результатам обработки группы кластеров главных слов два зависимых слова получили частоту совместной встречаемости ниже 3, то мы отбрасываем подобную пару из рассмотрения. В противном случае проверяем, есть ли в графе G ребро между данными двумя словами. Если ребро отсутствует, создаем его (создавая,
при необходимости, и вершины) и помечаем вес ребра как 1. Если ребро уже существует, увеличиваем его вес на 1.
Шаг 3. Выделение сообществ в графе. Применяем метод выделения сообществ, описанный в Разделе 5.2 к графу G, полученному на шаге 2. Полученные в итоге сообщества и будут результирующим списком семантически связанных групп зависимых слов.
Заметим, что предложенный алгоритм будет выделять группы частотных слов, тогда как слова, входящие в редкие сочетания, будут игнорироваться. Мы осознанно пошли на такое ограничение. Малое количество примеров употребления слова может не позволить выделить все возможные варианты семантики употребления слова (или хотя бы часть из них, не являющихся превалирующими). В связи с этим мы решили на первом этапе исследования выделить наиболее чистые и семантически связанные группы слов с минимально возможным числом ошибок. В дальнейшем алгоритм может быть доработан для добавления низкочастотных слов к уже выделенным группам (либо создания новых групп для таких слов).
Мы сравнили сообщества, выделенные нашим алгоритмом, с сообществами, полученными с использованием Лувенского алгоритма, на материале сгенерированной нами сочетаемости слов. Полученные результаты сравнивались со связями, полученными по онтологии RuWordNet [71]. Так как наш метод предполагает работу только с однословными терминами, мы не рассматривали многословные термины, хранимые в ruWordNet. RuWordNet содержит более 38 000 однословных терминов; в нашем графе их было около 12 000, из них 11 000 содержатся в ruWordNet. В случае ruWordNet мы считали, что два слова из одного сообщества связаны между собой, если между ними имеется связь или они непосредственно соединены с третьим словом, если оно является их гиперонимом.
После выделения сообществ наш граф содержал 27 671 дугу и разделялся на 924 сообщества. 12 009 из этих дуг были найдены как в нашем графе, так и в RuWordNet, 15 662 были найдены только в нашем графе, 62 372 дуги были найдены только в RuWordNet. Лувенский алгоритм с параметром resolution = 10 построил только 176
сообществ (и 110 с параметром resolution = 1); 11 621 дуг были найдены как в нашем графе, так и в RuWordNet, 15 150 были найдены только в сообществах, выделенных Лувенским алгоритмом, 188 115 дуг содержались только в RuWordNet. Сравнимое количество сообществ было достигнуто при параметре resolution = 35: 939 сообществ; 9 078 дуг было найдено одновременно в сообществах, полученных Лувенским алгоритмом, и в RuWordNet; 9 904 дуг было найдено только в сообществах, полученных Лувенским алгоритмом; 107 374 дуг осталось только в графе RuWordNet.
На Рис. 15 приведено сравнение количества вершин для сообществ, предложенных Лувенским алгоритмом, и для нашего алгоритма. Увеличение параметра resolution увеличивает количество сообществ, но также оно увеличивает и количество сообществ, состоящих лишь из одного слова (примерно половина от их общего числа). При этом наш алгоритм дает только связанные сообщества как минимум из двух вершин, не допуская сообщества из одной вершины. Изучение сообществ экспертом показало, что Лувенский алгоритм делает больше ошибок на кластер, чем предложенный алгоритм.
Distribution of clusters' sizes
0 200 400 600 S00
Cluster Index
Рисунок 42 - Сравнение размеров сообществ, полученных в результате работы предложенного алгоритма (синий) и Лувенского (красный).
Ниже приведены примеры кластеров, полученных с использованием
предложенного алгоритма. Из них можно видеть, например, что в один кластер
229
объединяются глаголы говорения и мышления. Также видно, что доля собственно ошибок, то есть глаголов, не имеющих семантических связей с другими глаголами, относительно невелика.
Говорить, сказать, знать, понимать, думать, рассказывать, подумать, помнить, отвечать, объяснять, заговорить, спрашивать, признаваться, узнавать, забывать, рассуждать, осознавать, поговорить, значить, задумываться, судить, поинтересоваться, размышлять, разбираться, пояснять, намекать, догадываться, пообщаться, рассказываться, повествовать, задавать, спорить, побеседовать, разъяснять, твердить, отзываться, расспрашивать, сознавать, припоминать, молчать, задаваться, замолчать, гадать, памятовать, подсказывать, промолчать, вещать, соображать, раздумывать, мыслить, подуматься, вопрошать, выяснять, думаться, поспорить, подумывать, говаривать, обмолвиться, дискутировать, поболтать, повествоваться, обдумывать, поговаривать, рассудить, помалкивать, угадывать, полюбопытствовать, помолчать, допытываться, поразмыслить, замолкать, забываться, побрать, сознаваться, улавливать, выспрашивать, отмалчиваться, ошибаться, поразмышлять, помедлить, умолкать, бездействовать, разглагольствовать, умалчивать, переспрашивать, растолковывать, талдычить, поколебаться, осведомляться, оправдываться, порассуждать, заговаривать, замалчивать, спрашиваться, выпытывать, прикидывать, статься, посудить, заблуждаться, навевать, запамятовать, философствовать, поделать, дебатировать, втолковывать, поспрашивать, посплетничать, размечтаться, потолковать, долдонить, париться, безмолвствовать, припоминаться, посудачить, полемизировать, просчитывать
Пойти, идти, вести, прийти, приходить, ходить, бегать, зайти, заходить, сходить, водить, носиться, гонять, гулять, повести, бродить, прогуливаться, заглядывать, кататься, погулять, блуждать, прокатиться, пройтись, метаться, слоняться, пробежаться, ползать, разгуливать, катать, побродить, рыскать,
покататься, заметаться, шататься, шастать, нагрянуть, шляться, погонять, топать, скитаться, кочевать, поводить, покатать, таскаться, выгуливать, заводить, побегать, прокатить, пасти, пастись, проходиться, напрашиваться, плутать, нагуляться, затопать, повадиться, забредать, шарахаться, порыбачить, топотать, наезжать, заскакивать, прошвырнуться, выпасать, раскатывать, накататься,
Плыть, поплыть, плавать, проплывать, уплывать, дрейфовать, тонуть, плескаться, утопать, купаться, искупаться, грести, загорать, резвиться, отплывать, нежиться, подплывать, затонуть, приплывать, поплавать, плескать, бороздить, швартоваться, причаливать, барахтаться, отчаливать, понежиться, бултыхаться, крейсировать, сплавляться, пришвартовываться, заплывать, ошвартовать, ошвартоваться, переплывать, поплескаться, загребать, позагорать, пиратствовать
Из результатов экспериментов видно, что ruWordNet содержит в себе больше глагольной лексики и большее число связей, однако выделение семантически связанных сообществ из ruWordNet представляется сложной задачей как раз по причине числа связей и отсутствии весов на них. Предложенный нами метод лучше справляется с задачей выделения семантически связанных сообществ, чем Лувенский алгоритм. Это следует из приведённых примеров, результатов оценки сообществ экспертом и формальных показателей.
Как показано в примерах, наш алгоритм добавляет в сообщества небольшое количество слов, не связанных по семантике. Помимо этого, алгоритм может объединить два или несколько семантически сходных сообществ в одно.
Мы сравнили наши результаты, полученные для существительных при их группировке с использованием глаголов, которым они подчиняются, и с разделением слов на классы в Русском Семантическом Словаре (РСС) [94]. Сравнение подтвердило наблюдение о том, что часть классов оказываются объединёнными вместе, тогда как некоторые слова выделяются в отдельные классы. Так, например, в следующей группе
существительных мы видим проявление всех видов ошибок (если считать РСС за «золотой стандарт», к которому мы стремимся).
Аул, весь, вилайет, воеводство, выселок, гегемон, глубинка, глухомань, глушь, город, город-герой, город-спутник, городишко, городок, графство, деревенька, деревушка, заимка, зарубежье, захолустье, зимовье, кантон, квартал, кишлак, коми, кочевье, краешек, край, мегаполис, местечко, микрорайон, муниципалитет, наслег, область, округ, округа, отшиб, параграф, пгт, повет, погост, пос, посад, поселение, починок, предместье, пригород, приселок, провинция, промзона, пункт, пятина, район, райцентр, регион, республика, сверхдержава, селение, сельсовет, сельцо, слобода, слободка, стан, станица, становище, стойбище, столица, страна, субъект, супердержава, табор, уголок, уголочек, улус, фольварк, форштадт, хутор, штат
Здесь мы видим объединение нескольких классов РСС: 3;3 Места, пункты по их расположению, виду, свойству; Страны. Государства: 4;5 Общие обозначения; 4;7 Административно-территориальные единицы и объединения; 4;8 Город; занятые им места; Сельские населённые пункты: 4;11 Сами населённые пункты; 4;13 Негородские места временного жительства или специального назначения и др. С другой стороны, слова деревня и село образовали в нашем случае собственный кластер; аналогично поступили слова княжество, герцогство, княжение, а также губерния, уезд, волость. Помимо этого в рассматриваемое сообщество ошибочно были включены слова весь, гегемон, починок (последнее слово также относится к населённым пунктам - вновь возникающее поселение). С другой стороны, подобных ошибок наблюдается всего три на 78 сгруппированных слов. Помимо этого, в кластер объединились слова близких групп, хотя и разного уровня административного подчинения.
В следующем разделе мы используем предложенный метод для автоматизации получения семантически связанных групп зависимых слов, разделения валентностей глаголов на актанты и сирконстанты.
5.4. Автоматическое выделение актантной структуры глагола с учетом семантической группировки актантов
Как было отмечено выше, актанты и сирконстанты подразумевают семантическую группировку слов, подчиняющихся глаголу. В предыдущих главах была выделена модель управления глагола, описывающая разрешенные комбинации предлогов и падежей с данным глаголом. Заметим, что выделенное глагольное управление не позволяет напрямую выделить семантические роли. Вновь приведём здесь пример выражения различных ролей одинаковыми средствами.
т/- л s получатель длительность
Класть деньги в банк на месяц под
СУЩ, вин ' СУЩ, вин
цель
проценты СУЩ,вин-
Т/- л 1 директив , , директив , Л , директив
Класть деньги в шкаф /на шкаф /под шкаф .
^ СУЩ,вин' ^ СУЩ,вин' ^ СУЩ,вин
Обладая информацией о том, что глагол класть может соединяться с
существительными в винительном через предлоги в, на и под, мы не можем разделить
сочетания, выражающие разные роли, иначе, чем используя семантическую
группировку.
В выделенной нами базе сочетаемости имеются также примеры, казалось бы, нарушения разрешенного управления. Например, известно, что переходные глаголы могут иметь дополнение в роли пациенса, выраженное в винительном падеже с пустым предлогом, а непереходные глаголы таких дополнений иметь не могут. При этом согласно информации, хранящейся в нашей базе сочетаемости, непереходные глаголы могут соединяться с существительными в винительном падеже с пустым предлогом, так как они должны быть помечены иными ролями: ... , но я сильно
obl -л root „
сомневаюсь, что ты хоть разЛТ„ТТЛТ в жизни хандрилаЛ^пГ. . . Таким образом,
^ NOUN,acc ^ VERB,mtr ^ '
наличие винительного падежа при непереходном глаголе само по себе даёт нам мало
новой информации, кроме того, что он может соединяться с некоторыми
сирконстантами. Аналогичная ситуация наблюдается и для возвратных глаголов:
„ root obl s 77
Вернулся„„пг. . как-то разпТ^ТТ1.Т в порт корабль ...
^ J VERB,mtr ^ NOUN,acc ^ ^
Для того, чтобы перейти к семантическому делению актантов на связанные группы, используем результаты описанного в предыдущих главах метода выделения глагольной сочетаемости для разделения существительных на кластеры.
На первом этапе проведём кластеризацию существительных, зависящих от глагола, с использованием онтологии ruWordNet [71]. Для этого будем использовать следующий алгоритм. Выделим все существительные, подчиняющиеся одному глаголу при помощи фиксированных падежа и предлога. Получим все семантические метки, которые могут быть приписаны данному существительному, если двигаться от него по связям типа hyperonym. При этом будем помечать их расстоянием от выбранного существительного с тем, чтобы определить уровень абстрактности полученного понятия. Выберем все понятия, находящиеся не выше заданного порогового уровня расстояния от существительного, и посчитаем число их вхождений, а также суммарную частоту встречаемости существительных, связанных с данным понятием, при выбранном глаголе. Сортировка понятий может проводиться по числу их вхождений или по сумме частот существительных.
Ниже приведены примеры получаемых таким образом семантических групп, которые могут выражать одну и ту же валентность. На первом месте идёт глагол, после предлога и падежа идут группы существительных, для которых указана семантическая метка из ruWordNet, суммарная относительная частота и количество существительных в группе. Из всех существительных выбирались три, чаще всего встретившиеся с глаголом в выделенном варианте подчинения. Сразу после глагола идёт его частота в корпусе и актантная модель, выделенная методом, описанным в Разделе 3.7; для каждого сочетания предлога и падежа указана доля, с которой встретилась данная комбинация. Примеры выбраны из первых 50 сочетаний, обладающих наибольшим количеством слов. Длина пути от существительного к понятию не превышает двух.
77 Заметим, что подобные употребления могут быть отсеяны путём расширения списка квантификаторов.
234
подвергаться 77794 (_ Dat, 0.50680) _ Nom
[проба, лицо, объект], МЕСТО, 0.00703, 26
[представитель, модель, президент], ЧЕЛОВЕК ПО РОЛИ, 0.00345, 17 [часть, система, население], СОСТАВ, 0.00369, 14 [материал, банк, план], ДОКУМЕНТАЦИЯ, 0.00277, 13 [политика, партия, произведение], КАЧЕСТВО, 0.00197, 12 [работа, проект, политика], ДЕЛО, 0.00658, 11, [страна, область, участок], УЧАСТОК МЕСТНОСТИ, 0.00285, 11 _ Dat
[преследование, гонение, обработка], СЛЕДУЮЩЕЕ ИЗМЕНЕНИЕ, 0.00472,21 [обращение, эрозия, деградация], ИЗМЕНЕНИЕ, 0.00205, 14 [удаление,разложение, сжатие], УМЕНЬШЕНИЕ, 0.00237, 10 [гидролиз, коррозия, травление], РЕАКЦИЯ ВЕЩЕСТВА, 0.00411, 8 [эрозия, реакция, метаболизм], ФИЗИОЛОГИЧЕСКАЯ ДЕЯТЕЛЬНОСТЬ, 0.00207, 7
[посягательство, эксперимент, напряжение], МЕТОД ПРОБЫ, 0.00091, 6 [правка, редактирование, редакция], ПОПРАВКА, 0.00133, 6
сопровождаться 82455 ('_ Ins ', 0.56269) _ Nom
[переход, акция, выход], МЕСТО, 0.01037, 26 [рост, переход, развитие], ИЗМЕНЕНИЕ, 0.01927,21 [переход, выступление, выход], ПЕРЕДВИЖЕНИЕ, 0.00645,21 [введение, выпуск, постановка], ПОМЕЩЕНИЕ, 0.00243, 16 [правило, выступление, акция], АКТ, 0.00639, 15 [выход, выпуск, уход], УДАЛЕНИЕ, 0.00159, 12
[выход, падение, возвращение], ИЗМЕНЕНИЕ СОСТОЯНИЯ, 0.00737, 11
_ Ins
[снижение, увеличение, повышение], СЛЕДУЮЩЕЕ ИЗМЕНЕНИЕ, 0.01926, 27
[рост, снижение, увеличение], ИЗМЕНЕНИЕ, 0.03218, 25
[акция, вспышка, образ], МЕСТО, 0.00656, 25
[боль, падение, гроза], ПОЛОЖЕНИЕ, 0.00554, 15
[нарушение, акция, столкновение], АКТ, 0.01624, 15
[введение, перестройка, выпуск], ПОМЕЩЕНИЕ, 0.001808, 15
[музыка, крик, шум], ЗВУК, 0.00897, 15
протянуть 141162 (_ Acc, 0.42064), (_ Dat, 0.20748) _ Nom
[друг, капитан, доктор], ЧЕЛОВЕК ПО РОЛИ, 0.00073, 11 [капитан, полковник, майор], ВОЕННЫЙ ЧИН, 0.00272, 9 [мама, сестра, дочь], РОДСТВЕННИЦА, 0.00073, 7 [король, граф, лорд], ТИТУЛ, 0.00064, 7 [цепь, лента, шнур], ДЕТАЛЬ МЕХАНИЗМА, 0.00027, 6
[доктор, инспектор, помощник], ТРУДЯЩИЙСЯ ЧЕЛОВЕК, 0.00025, 6 [хозяин, хозяйка, секретарь], УЧАСТНИК, 0.00040, 6
_ Acc
[листок, стакан, бокал], ВЕЩИЦА, 0.00259, 16 [ручка, палец, лапка], ДЕТАЛЬ МЕХАНИЗМА, 0.00249, 13 [рука, ручка, палец], ОРГАН ЖИВОГО ОРГАНИЗМА, 0.00288, 11 [карточка, бумага, записка], ДОКУМЕНТАЦИЯ, 0.00568, 11 [кольцо, браслет, медальон], ЮВЕЛИРНОЕ ИЗДЕЛИЕ, 0.00149, 10 [клочок, лента, повод], ЛОМ, 0.00089, 9
[пачка, визитка, платье], ПРИНАДЛЕЖНОСТЬ ОДЕЖДЫ, 0.00059, 9 _ Dat
[друг, капитан, гость], ЧЕЛОВЕК ПО РОЛЬ, 0.00155, 15 [капитан, лейтенант, полковник], ВОЕННЫЙ ЧИН, 0.00233, 11 [сестра, дочь, мама], РОДСТВЕННИЦА, 0.00164, 8 [король, граф, лорд], ТИТУЛ, 0.00026, 6 К Dat
[лицо, грудь, волос], МЕСТО НА ТЕЛО, 0.00172, 13 [полка, плечо, пуговица], ДЕТАЛЬ ОДЕЖДЫ, 0.00054, 8 [стакан, тумбочка, пакет], ВМЕСТИЛИЩЕ, 0.00029, 8 С Ins
[готовность, поклон, разочарование], ВНУТРЕННЕЕ ОЩУЩЕНИЕ, 0.00064, 9 В Acc
[сторона, окошко, окно], МЕСТО, 0.003238, 8
причинить 62570 (_ Dat, 0.34281), ('_ Acc, 0.27218), (_ Ins, 0.09705) _ Nom
[лицо, перелом, разрыв], МЕСТО, 0.00068, 4
[ураган, наводнение, шторм], ПРИРОДНАЯ ЧРЕЗВЫЧАЙНАЯ СИТУАЦИЯ,
0.00092, 4
[компания, курс, семья], ГРУППА ЛЮДЕЙ, 0.00062, 4 [друг, житель, господин], ИНДИВИДУУМ, 0.00062, 4 [воспоминание, вопрос, история], ВЫСКАЗЫВАНИЕ, 0.00031, 4 [разрушение, война, разрыв], АКТ, 0.00048, 6 _ Dat
[хозяин, дочь, жертва], ЧЕЛОВЕК ПО РОЛИ, 0.00140, 11 [гражданин, фонд, компания], СУБЪЕКТ ДЕЯТЕЛЬНОСТИ, 0.00729, 11 [имущество, здание, лицо], МЕСТО, 0.00758, 8 [фонд, компания, банк], ОРГАНИЗАЦИЯ, 0.00102, 7 [компания, среда, семья], ГРУППА ЛЮДИ, 0.00763, 6 [бюджет, компания, среда], СОСТАВ, 0.00122, 5 [лицо, число, род], ГРАММАТИЧЕСКАЯ КАТЕГОРИЯ, 0.00305, 4 _ Ins
[оккупант, лицо, орган], СУБЪЕКТ ДЕЯТЕЛЬНОСТИ, 0.00174, 8 [образ, лицо, источник], МЕСТО, 0.00380, 8
[нарушение, война, преследование], АКТ, 0.00156, 5 [преследование, падение, повреждение], ПОРЧА, 0.00076, 4 [падение, бездействие, режим], ПОЛОЖЕНИЕ, 0.00025, 4
[ураган, наводнение, тайфун], ПРИРОДНАЯ ЧРЕЗВЫЧАЙНАЯ СИТУАЦИЯ,
0.00154, 4
[орган, нож, оружие], СРЕДСТВО, 0.00020, 4
Из приведённых примеров видно, что подобным образом выделяются маленькие
группы слов, чья частотность при глаголе также является невысокой. Разделение
слова на несколько понятий приводит к дублированию. С одной стороны, это
позволяет выбирать корректный вариант разбора, с другой стороны, приводит к
ошибкам группировки (см., например, понятия с меткой ГРАММАТИЧЕСКАЯ
КАТЕГОРИЯ для глагола причинить). Выделение валентностей с применением
метода из Раздела 3.7 в приведённом примере даёт лучшее описание актантной
структуры, однако в общем случае возможны отклонения в обоих методах.
При увеличении расстояния между существительным и понятием до пяти
размеры групп увеличиваются. Например.
протянуть (_ Acc, 0.42064), (_ Dat, 0.20748) _ Nom
[друг, рука, капитан], ФИЗИЧЕСКАЯ СУЩНОСТЬ, 0.00417, 48 [капитан, доктор, полковник], ВИЗУАЛЬНОЕ ИЗОБРАЖЕНИЕ, 0.00415,20 [проволока, провод, король], ФИЗИЧЕСКИЙ ОБЪЕКТ, 0.00058, 15
_ Acc
[рука, листок, стакан], ФИЗИЧЕСКАЯ СУЩНОСТЬ, 0.2373, 103 [время, телефон, записка], АБСТРАКТНЫЙ ОБЪЕКТ, 0.00228,28 [яблоко, банан, конфета], ПРОВИЗИЯ, 0.0011, 17 [стакан, бокал, чашка], ХОЗЯЙСТВЕННЫЙ ТОВАР, 0.00879, 14 [телефон, билет, провод], ПРОИСХОДЯЩАЯ СУЩНОСТЬ, 0.00103, 12 [рука, листок, ручка], БИОЛОГИЧЕСКАЯ СУЩНОСТЬ, 0.00117, 11 _ Dat
[друг, капитан, гость], СУЩЕСТВО, 0.00395,37
[капитан, лейтенант, полковник], ВИЗУАЛЬНОЕ ИЗОБРАЖЕНИЕ, 0.00305, 21 К Dat
[лицо, телефон, трубка], ПОСТОЯННАЯ СУЩНОСТЬ, 0.0017,36 [ручка, полка, столик], ПРОМЫШЛЕННОЕ ИЗДЕЛИЕ, 0.00078, 18 С Ins
[вид, готовность, поклон], ПОСТОЯННАЯ СУЩНОСТЬ, 0.00048, 13
Здесь видно, что беспредложное дополнение в винительном падеже резко увеличивает частотность и количество объектов в категории ФИЗИЧЕСКАЯ СУЩНОСТЬ - до 23% употреблений глагола.
Если варьировать расстояние от существительного до понятия, о можно увидеть, что на расстояниях от 1 до 3 размеры групп остаются небольшими. Качественный скачок происходит при расстоянии равном 4. Здесь появляется группа
[рука, листок, ручка], БИОЛОГИЧЕСКАЯ СУЩНОСТЬ, 02233, 17 чья частотность является максимальной среди всех групп. При расстоянии равном 3 доля группы составляет всего единицы процентов, тогда как здесь она равна 22%. Следующая за ней группа на расстоянии 4 занимает также доли процентов. Однако, дальнейшее увеличение порога не приводит к появлению нового скачка для дательного падежа.
Варьируя аналогичным образом расстояния для глагола причинить, мы можем выделить следующие группы:
_ Acc [боль, повреждение, травма], АБСТРАКТНЫЙ ОБЪЕКТ, 0.1079, 28 _ Dat [гражданин, здание, фонд], ПОСТОЯННАЯ СУЩНОСТЬ, 0.06517, 209 _ Ins [действие, пожар, нарушение], ПРОИСХОДЯЩАЯ СУЩНОСТЬ, 0.0334, 97 Аналогичным образом, для глагола угощать значения частот незначительно
превосходят 10%. Как видно из примера, полученные значения относительной
частоты не могут являться обоснованным критерием для выделения акантной
структуры глагола.
Если оставлять только первую из встретившихся групп, обладающую максимальной встречаемостью, можно получить следующие результаты. подвергаться 77794 (_ Dat, 0.50680)
_ Nom [работа, блогер, часть], ПОСТОЯННАЯ СУЩНОСТЬ, 0.1223, 737 _ Dat [преследование, опасность, нападение], ПРОИСХОДЯЩАЯ СУЩНОСТЬ, 0.2413,363
сопровождаться 82455 (_ Ins, 0.56269)
_ Nom [рост, правило, переход], ПРОИСХОДЯЩАЯ СУЩНОСТЬ, 0.1864, 688 _ Ins [изменение, рост, снижение], ПРОИСХОДЯЩАЯ СУЩНОСТЬ, 0.2943, 893 протянуть 141162 (_ Acc, 0.42064), (_ Dat, 0.20748) _ Nom [друг, рука, капитан], ПОСТОЯННАЯ СУЩНОСТЬ, 0.0233,329 _ Acc [рука, листок, стакан], ПОСТОЯННАЯ СУЩНОСТЬ, 0.3175, 565 _ Dat [друг, капитан, гость], ПОСТОЯННАЯ СУЩНОСТЬ, 0.01792,218 К Dat [лицо, телефон, трубка], ПОСТОЯННАЯ СУЩНОСТЬ, 0.01154, 185
238
причинить 62570 (_ Dat, 0.34281), (_ Acc, 0.27218), (_ Ins, 0.09705)
_ Nom [повреждение, ранение, травма], ПОСТОЯННАЯ СУЩНОСТЬ, 0.02317,
109
_ Dat [гражданин, здание, фонд], ПОСТОЯННАЯ СУЩНОСТЬ, 0.06517, 209 _ Acc [боль, повреждение, травма], АБСТРАКТНЫЙ ОБЪЕКТ, 0.1079, 28 _ Ins [действие, пожар, нарушение], ПРОИСХОДЯЩАЯ СУЩНОСТЬ, 0.03343, 97
Здесь видно, что актантная структура глаголов не может быть автоматически выделена для всех слов. Однако для части глаголов она успешно выделяется при переходе к агрегированию зависимых существительных на высоком уровне абстракции.
Для нашего метода, предложенного в Разделе 3.7, мы провели эксперименты с
тем же алгоритмом. Различия объясняются тем, но в нашем случае не была построена
иерархия групп, от есть расстояние от объекта до понятия не может меняться, да и
сами классовые понятия не выделялись. Это является, скорее, недостатком метода, так
как он не позволяет соотнеси одно слово с несколькими абстрактными понятиями или
рассматривать его на различных уровнях абстракции.
Приведём результаты расчётов для тех же глаголов, полученные нашим методом.
подвергаться 77794 (_ Dat, 0.50680) _ Nom
[человек, женщина, девочка], 0.01268, 13 [город, весь, район], 0.01242, 21 [работа, деятельность, активность], 0.00653,3 [блогер, журналист, корреспондент], 0.00457, 4 [член, представитель, лидер], 0.00406, 7 [лицо, тело, взгляд], 0.00342, 12 [часть, половина, треть], 0.00337, 4 _ Dat
[критика, нападки, травля], 0.07115, 5 [преследование, гонение, цензура], 0.04193, 6 [нападение, атака, набег], 0.0399, 9 [опасность, риск, угроза], 0.03529,3 [воздействие, влияние, действие], 0.0272, 5 [обстрел, бомбардировка, артобстрел], 0.02256, 4 [насилие, домогательство, агрессия], 0.01594, 6 В Acc
[время, год, период], 0.01456, 14 В Loc
[случай, условие, ситуация], 0.004693, 6 [возраст, детство, юность], 0.002818, 4 [результат, рамка, итог], 0.002688,3 [страна, район, город], 0.002383, 13 _ Acc [время, день, год], 0.005906, 11 ЗА Acc [время, год, месяц], 0.003879, 10 ПО Dat [данные, информация, сведение], 0.002811, 4 ПО Dat [оценка, наблюдение, опрос], 0.002397,3
сопровождаться 82455 (_ Ins, 0.56269) _ Nom
[процесс, этап, режим], 0.01232, 4 [увеличение, повышение, снижение], 0.01219, 27 [рост, падение, возрастание], 0.007603, 9 [праздник, церемония, празднование], 0.005903, 19 [развитие, формирование, продвижение], 0.005679, 13 [действие, реакция, воздействие], 0.005594, 5 [выступление, концерт, шоу], 0.005285, 6 _ Ins
[снижение, увеличение, повышение], 0.04487,35 [рост, падение, возрастание], 0.01341, 13 [изменение, смена, перемена], 0.01157, 9 [скандал, сенсация, склока], 0.01126,3 [крик, аплодисменты, овация], 0.009851, 45 [боль, зуд, тошнота], 0.009418, 23 [ряд, количество, множество], 0.008916, 10 В Loc [случай, условие, ситуация], 0.003562, 4
протянуть 141162 (_ Acc, 0.42064), (_ Dat, 0.20748) _ Nom
[девушка, мужчина, женщина], 0.01451, 25 [капитан, полковник, генерал], 0.003845,26 [отец, мама, мать], 0.003289, 16 [старик, старушка, старуха], 0.001602, 7 [друг, сосед, товарищ], 0.001581, 7 [миссис, мистер, мисс], 0.001555, 10 [костя, миша, женя], 0.001529, 19 _ Acc
[рука, ладонь, лапа], 0.2321,28 [стакан, чашка, кружка], 0.01072,30 [конверт, пачка, пакет], 0.009411, 6 [листок, лист, листочек], 0.007403, 4 [нога, ладошка, запястье], 0.004639, 15 [букет, цветок, роза], 0.004216, 8
[трубка, труба, газопровод], 0.004029, 13 _ Dat
[девушка, женщина, мужчина], 0.01228, 26 [отец, сестра, брат], 0.004968, 14 [капитан, командир, лейтенант], 0.003183,22 [друг, товарищ, сосед], 0.002209, 10 ДЛЯ Gen
[рукопожатие, пожатие, поцелуй], 0.002777, 4 С Ins
[улыбка, усмешка, ухмылка], 0.002768, 5 К Dat
[лицо, голова, шея], 0.002653,23 ЧЕРЕЗ Acc [стол, столик, стойка], 0.002153,3
_ Ins
[ладонь, рука, палец], 0.001986, 5 [голос, голосок, бас], 0.001452, 5 В Acc
[момент, время, минута], 0.001781, 11 К Dat
[огонь, солнце, свет], 0.001504, 5
причинить 62570 (_ Dat, 0.34281), (_ Acc, 0.27218), (_ Ins, 0.09705) _ Nom
[повреждение, травма, перелом], 0.00982, 5 [человек, мужчина, женщина], 0.00356, 7 [отец, мать, сын], 0.00145, 9
[злоумышленник, мошенник, преступник], 0.001433, 7 [деяние, побои, убийство], 0.0008465, 4 [урон, удар, попадание], 0.0008177,3
_ Acc
[вред, ущерб, польза], 0.1245,3 [повреждение, травма, перелом], 0.02458, 7 [неприятность, беда, несчастие], 0.004021,3 [неудобство, затруднение, трудность], 0.002973,3 [разрушение, опустошение, разрыв], 0.00227, 4 [рана, ссадина, порез], 0.001597,3 [масса, множество, ряд], 0.001578, 6 _ Dat
[человек, женщина, мужчина], 0.01498, 11 [бюджет, казна, госбюджет], 0.01301,3 [предприятие, компания, банк], 0.01132, 11 [город, страна, республика], 0.008033, 16 [владелец, собственник, правообладатель], 0.005926, 7
[сын, жена, отец], 0.004598, 16 [гражданин, пенсионер, инвалид], 0.004521,3 _ Ins
[преступление, правонарушение, деяние], 0.01208, 8 [пожар, взрыв, возгорание], 0.00202,3 [оккупант, захватчик, фашист], 0.001558,3 [нарушение, неисполнение, невыполнение], 0.00151,3 [злоумышленник, преступник, браконьер], 0.001318, 14 [наводнение, паводок, разлив], 0.001126, 4 [лицо, рука, взгляд], 0.0009235,3 В Loc
[результат, итог, рамка], 0.04733,3 [случай, состояние, условие], 0.001587, 4 ПО Dat
[данные, информация, сведение], 0.004079,3 В Acc
[время, период, год], 0.002463, 8 ПРИ Loc
[исполнение, проведение, осуществление], 0.00126, 6 ЗА Acc
[год, время, период], 0.001174, 5 В ХОДЕ Gen [конфликт, ссора, борьба], 0.00101, 3
Здесь видно, что результаты также не складываются в большие кластеры. Исключением являются: кластер вред, ущерб, польза, присоединяемый к глаголу причинять при помощи винительного падежа; кластер рука, ладонь, лапа, присоединяемый к глаголу протянуть при помощи винительного падежа. Однако, доля этих кластеров составляет только 12% и 23% от употреблений соответствующих глаголов. С одной стороны, это значительно больше, чем для других кластеров данных глаголов. С другой стороны, такие цифры не позволяют сделать однозначных выводов о выделении актантной структуры глагола.
К плюсам метода можно отнести формирование структуры сочетаемости для наиболее частотных сирконстантов.
5.5. Обсуждение результатов
В данной главе мы исследовали возможность выделения семантически связанных сообществ с использованием информации о глагольной сочетаемости существительных. Для этого мы использовали данные о взаимном расположении слов в статическом векторном пространстве Word2Vec. Для устранения влияния эффекта размытия смысла многозначных слов мы брали статистику совместной встречаемости слов при разных глаголах с одинаковым вариантом присоединения. Заметим, что из рассмотрения были исключены слова, отсутствующие в словаре Word2Vec, или слова с низкими частотами. Это сокращает размер итогового словаря как минимум вдвое. Следовательно, одним из вариантов развития предложенного метода является разработка алгоритма, добавляющего редкие слова к существующим семантическим группам. Помимо этого, было бы удобно отказаться от использования пространства Word2Vec, получая аналогичную информацию напрямую из дистрибутивного пространства (хотя это может замедлить работу метода в связи с резким увеличением размерности пространства).
Расширению лексики может способствовать объединение данных о разных синтаксических связях. Как отмечалось в Главе 3, помимо информации о глагольном управлении, была собрана информация и о других связях: существительного с прилагательными и другими существительными, глагола и прилагательного с наречиями, прилагательного с существительными и глагола с прилагательными. В совокупности это может помочь решить проблему редких слов, так как частотность их сочетания с другими частями речи может быть выше.
Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.