Методы и средства морфологической сегментации для систем автоматической обработки текстов тема диссертации и автореферата по ВАК РФ 00.00.00, кандидат наук Сапин Александр Сергеевич

  • Сапин Александр Сергеевич
  • кандидат науккандидат наук
  • 2023, ФГАОУ ВО «Национальный исследовательский университет «Высшая школа экономики»
  • Специальность ВАК РФ00.00.00
  • Количество страниц 89
Сапин Александр Сергеевич. Методы и средства морфологической сегментации для систем автоматической обработки текстов: дис. кандидат наук: 00.00.00 - Другие cпециальности. ФГАОУ ВО «Национальный исследовательский университет «Высшая школа экономики». 2023. 89 с.

Оглавление диссертации кандидат наук Сапин Александр Сергеевич

Введение

Глава 1. Методы морфологического анализа текста

1.1 Основные понятия

1.2 Морфологический анализ на основе словарей

1.3 Разрешение морфологической омонимии

1.4 Морфологический анализ на основе машинного обучения

1.5 Задача морфологической сегментации и методы её решения

1.6 Морфологические процессоры и их функции

Глава 2. Методы морфемного разбора лемм с использованием

машинного обучения

2.1 Разметка и данные

2.2 Выбор методов морфемной сегментации с классификацией

2.3 Морфемный разбор на основе метода CRF

2.4 Метод на базе деревьев решений с градиентным бустингом

2.5 Метод на основе нейросетевой архитектуры LSTM

2.6 Метод на базе сверточных нейронных сетей

2.7 Сравнение методов и выводы

Глава 3. Методы морфемного и морфологического анализа словоформ

3.1 Построение датасета с морфемным разбором словоформ

3.2 Метод морфемного разбора словоформ

3.3 Объединенная модель морфологического анализа

3.4 Комплексы моделей морфемного разбора

Глава 4. Морфологический процессор XMorphy

4.1 Функции и структура процессора

4.2 Словари процессора и их применение

4.3 Разрешение морфологической омонимии

4.4 Морфемный разбор и морфологический анализ

4.5 Особенности программной реализации

Заключение

Стр.

Список литературы

Список рисунков

Список таблиц

Приложение А. Словари и модели XMorphy

Приложение Б. Таблица морфологических тегов

Введение

В связи с активным ростом объемов хранимой текстовой информации в электронном виде, в первую очередь, в сети Интернет, автоматическая обработка текстов (АОТ) на естественном языке (ЕЯ) становится все более актуальным направлением компьютерных наук.

Характерной чертой естественного языка и текстов на нем является мно-гоуровневость [1; 2]. Звуки и буквы являются незначащими единицами и составляют нижний уровень. Объединения букв образуют морфы (морфемы) -минимальные значащие единицы языка и текста. Из морфов состоят словоформы

- конкретные грамматические формы слов. Морфемы и словоформы относятся к морфологическому уровню. Словоформы составляют предложения и фразы языка, которые образуют синтаксический уровень, который включает в себя подуровень словосочетаний и надуровень сверхфазовых единств: предложений, объединяющихся по смыслу. Нередко выделяют дополнительные уровни языка: семантический и дискурсивный (логический), относящиеся к связному тексту [1].

Обработка текстов на ЕЯ является сложной проблемой из-за его многоуров-невости, а также открытости и универсальности. Поэтому компьютерные модели естественного языка и реализующие их процессоры в системах АОТ обычно строятся согласно уровням естественного языка [1]. Наиболее низкоуровневыми являются графематические процессоры, которые обеспечивают выделение основных структурных единиц текста: словоформ, предложений, специальных знаков и т.п., из потока символов текста. Морфологические процессоры работают со словоформами и решают задачи, связанные с морфологическим анализом и синтезом. В задачи синтаксических процессоров входит выявление синтаксических связей слов предложения и их представление в виде синтаксического дерева. Семантические процессоры, как правило, завершают обработку текста, их основной задачей является извлечение смысла и построение его представления.

В языке уровень морфологии охватывает как словоизменение, т.е. выражение нужной грамматической информации путем изменения морфологических характеристик слова (падеж, род, число и др.), так и словообразование, т.е. создание новых слов путем слияния других слов, добавления или изменения аффиксов

- приставок, суффиксов, постфиксов и др.

Основными задачами морфологических процессоров, связанными со словоизменением, являются приведение словоформы к нормальной форме, лемме (лемматизация), определение морфологических (грамматических) характеристик словоформы (собственно морфологический анализ), разрешение морфологической неоднозначности (омонимии), генерация (синтез) словоформ с заданными грамматическими характеристиками [3]. Например, для словоформы шоколада распознается лемма шоколад и морфологические характеристики: существительное, родительный падеж, единственное число, мужской род. К морфологическому анализу относится ещё одна важная задача - морфологическая сегментация, часто называемая морфемным разбором, т.е. разбиение словоформы на составляющие морфы (морфемы), например, beautiful ^ beauti-ful, прекрасный ^ пре-крас-н-ый.

Задачи словоизменительного анализа - одни из самых разработанных для систем АОТ [3; 4], а задача морфологической сегментации исследована слабо. При этом информация о морфемном составе слов востребована в таких прикладных задачах, как машинный перевод [5; 6], распознавание речи [7], создание словообразовательных ресурсов [8], обработка редких и несловарных слов [9] и др. В работах [10—13] было показано, что использование морфем при построении векторных представлений слов (эмбеддингов) улучшает качество решения ряда прикладных задач АОТ.

Для естественных языков со сложной морфологической системой, к каковым относится русский (высокая флективность, широкий набор аффиксов), морфологическая сегментация (морфемный разбор) является трудной и недостаточно изученной задачей. Для русского языка основными сложностями решения этой задачи являются многообразие и нерегулярность морфемной структуры слов: наращение корневых морфов, многовариантность аффиксов и др [14].

Хотя исследование методов автоматического морфемного разбора (морфологической сегментации) началось достаточно давно, первые статистические методы [15—17] показали недостаточную точность морфемного разбора (до 70% точности по словам), а более точные методы на основе машинного обучения, например [18], начали разрабатываться только в последние годы и их применимость для практики (производительность) пока не исследована.

Известные открытые морфологические процессоры русского языка (например, [19—22]) решают большинство задач словоизменительного анализа и синтеза, но возможность морфемного разбора в них отсутствует. Поэтому раз-

работка и исследование методов морфемного разбора и реализация свободно доступного морфологического процессора с более широким набором функций, позволяющим дополнительно получить информацию о морфемном составе слов, является актуальной проблемой.

Существующие методы построения морфологических анализаторов базируются на словарях и лингвистических правилах, а также методах машинного обучения [3]. Благодаря машинному обучению, и в частности, нейронным сетям, в последние годы произошло значительное улучшение качества разрешения морфологической омонимии [23] (до 95% точности определения морфологических характеристик и 96% точности определения лемм). Однако системы на основе машинного обучения [24; 25] являются затратными по памяти и показывают низкую производительность [26] по времени обработки текста, поэтому в настоящее время почти не используются в практических приложениях. С другой стороны, процессоры, построенные на основе словарных данных и лингвистических правил, могут быть более производительны, однако значительно уступают системам на основе машинного обучения по качеству морфологического анализа [27]. Тем самым, морфологический процессор, сочетающий достаточно высокое качество решения задач морфологии и показывающий приемлемую для практики производительность, необходим для решения прикладных задач АОТ.

Целью данной диссертационной работы является разработка и исследование методов и средств морфологической сегментации слов текста, выполняемой с высокой точностью (качеством) и приемлемой для практики производительностью. Для достижения этой цели необходимо решить следующие задачи:

- Разработать и экспериментально исследовать методы автоматического морфемного разбора нормальных форм слов (лемм) русского языка, реализуемого с высокой точностью (более 88% верно разобранных слов).

- Разработать метод автоматического морфемного разбора словоформ русского языка с точностью не ниже методов для лемм.

- Исследовать возможность одновременного решения задачи определения морфологических характеристик и морфемного разбора словоформ русского языка.

- На основе разработанных методов реализовать модули морфологического процессора, выполняющие функции анализа с достаточной для практики производительностью (более 10 тысяч слов в секунду на одном ядре CPU).

Научная новизна и теоретическая значимость.

В данной работе экспериментально исследованы новые методы автоматического морфемного разбора лемм (нормальных форм) русского языка на основе машинного обучения, среди которых метод на базе сверточной нейронной сети показывает наилучшее качество решения этой задачи (89% верно разобранных слов). Впервые решена задача автоматического морфемного разбора словоформ русского языка, предложенный метод показывает высокое качество разбора словоформ и лемм (90-91%). Также впервые предложен способ одновременного определения морфологических характеристик словоформ и их морфемного разбора, который реализуется с высоким качеством. Данные результаты могут быть применены в качестве базы для построения программных морфологических моделей, распознающих внутреннюю структуру слов, а также могут быть полезны для разработки методов морфологической сегментации текстов на других естественных языках.

Практическая значимость работы состоит в создании программной библиотеки с открытым исходным кодом для морфологического анализа текстов на русском языке, которая:

- Предоставляет функцию морфемного разбора лемм и словоформ русского языка и может использоваться для решения прикладных задач АОТ, в которых одновременно востребованы традиционные функции морфологического анализа, а также морфемного разбора;

- Достигает производительности анализа словоформ до 20 тысяч слов в секунду на одном процессорном ядре для проводимого морфологического анализа, включая морфемный разбор.

Основные положения, выносимые на защиту:

1. Нейросетевой метод автоматического морфемного разбора словоформ русского языка, базирующийся на архитектуре сети, предложенной по результатам исследования методов разбора для нормальных форм слов (лемм). Для реализации метода разработана и применена процедура автоматического построения набора данных с сегментированными словоформами, и показано, что метод для словоформ превосходит по точности известные методы морфемного разбора.

2. Архитектура нейронной сети, на основе которой построен метод одновременного определения морфологических характеристик словоформ текста и их морфемного разбора, с высоким качеством решения обе-

их задач, а также комплекс моделей морфологического анализа текста, реализующих этот метод и служащих для повышения его производительности.

3. Программная библиотека (морфологический анализатор XMorphy), реализованная с использованием разработанных методов и предназначенная для морфологического анализа и сегментации текстов на русском языке, выполняемых с высокой точностью и производительностью.

Апробация работы. Представленные в работе результаты докладывались на следующих международных и российских конференциях, а также семинарах:

1. Научно-технический семинар "Новые информационные технологии в автоматизированных системах", МИЭМ НИУ ВШЭ, Москва, Россия, 20 апреля 2017 года;

2. Международная конференция "The 6th International Conference on Analysis of Images, Social networks and Texts (AIST 2017)", Москва, Россия, 27-29 июля 2017 года;

3. Международная конференция "Computational Linguistics and Intellectual Technologies: International Conference Dialogue-2019", Москва, Россия, 29 мая - 1 июня 2019 года;

4. Международная конференция "Artificial Intelligence and Natural Language. AINL 2019", Тарту, Эстония, 20-22 ноября 2019 года;

5. Конференция Ломоносовские чтения 2020. Секция вычислительной математики и кибернетики, Факультет вычислительной математики и кибернетики МГУ имени М.В. Ломоносова, Online, 21 октября - 2 ноября

2020 года;

6. Международная конференция "XVI TEL International conference on computational and cognitive linguistics", Online, 12-13 ноября 2020 года;

7. Международная конференция "Computational Linguistics and Intellectual Technologies: International Conference Dialogue-2021", Online, 16-19 июня

2021 года;

8. Международная конференция "The 10th International Conference on Analysis of Images, Social Networks and Texts (AIST 2021)", Тбилиси, Грузия, 16-18 декабря 2021 года;

9. Научный семинар кафедры интеллектуальных информационных технологий факультета вычислительной математики и кибернетики МГУ имени М.В. Ломоносова, 23 декабря 2021 года.

Личный вклад. Все представленные в диссертации результаты получены лично автором. Подготовка части материалов к публикации проводилась совместно с соавтором, причем вклад диссертанта был определяющим. В работах [28—30] Е. И. Большаковой принадлежит постановка задачи, обсуждение способов и результатов ее решения. В работах [31; 32] ее вклад заключается в описании правил построения размеченного набора данных с сегментированными словоформами и обсуждении результатов методов морфемного разбора на его основе. В работе [33] вклад автора относительно описанных в ней теоретических и экспериментальных исследований является основным.

Публикации.

Основные положения и выводы диссертационного исследования в полной мере изложены в 7 научных работах [28—34], 6 из которых опубликованны в рецензируемых научных изданиях индексируемых Scopus или Web of Science [28—33], 1 - в журналах, рекомендованных ВАК [34].

Рекомендованный список диссертаций по специальности «Другие cпециальности», 00.00.00 шифр ВАК

Введение диссертации (часть автореферата) на тему «Методы и средства морфологической сегментации для систем автоматической обработки текстов»

Структура работы.

Первая глава настоящей работы посвящена обзору существующих методов решения задач словоизменительного анализа и морфемного разбора. Во второй главе описывается разработка и экспериментальное исследование четырех методов морфемного разбора лемм русского языка на основе машинного обучения. Третья глава содержит описание процедуры генерации набора сегментированных словоформ русского языка, а также в ней рассматривается архитектура нейронной сети для морфемного разбора словоформ и метод решающий одновременно задачи морфологического анализа и морфемного разбора. В четвертой главе описывается библиотечная реализация морфологического процессора XMorphy для русского языка: архитектура системы, структуры данных для хранения словарной информации, используемые методы морфологического анализа, в том числе морфемного разбора. В заключении приведены основные результаты работы.

Глава 1. Методы морфологического анализа текста 1.1 Основные понятия

Основными задачами морфологического этапа обработки текста на естественном языке являются морфологический анализ и морфологический синтез. В обеих задачах происходит работа с конкретными формами слов - словоформами. Совокупность всех словоформ слова образует лексему [2]. Из всех словоформ лексемы, как правило, выделяют одну - нормальную форму или лемму, которую затем и ассоциируют с понятием (лексическим значением) [3]. Все слова одной лексемы обычно обладают неизменяемой ядерной частью, которая называется основой [2], а часть слова, не входящую в основу, называют флексией или окончанием, пример показан на рис. 1.1.

волшебн —ый

I_I

волшебн —ого

I_I

волшебн -ому

Рисунок 1.1 — Лексема волшебный: основа и флексии

Морфологические характеристики (теги) словоформы являются важнейшими признаками, определяемыми при морфологическом анализе [3]. Главной морфологической характеристикой (тегом) слова является часть речи, в русском языке она определяет наличие или отсутствие других морфологических характеристик, таких как род, число, одушевленность, падеж, лицо, вид и др. Например, для словоформы деловой теги включают: часть речи - прилагательное, род - мужской, число - единственное, падеж - именительный.

Процесс определения нормальной формы слова называется лемматизацией [1]. Русский язык является высокофлективным языком, и при обработке словоформы важное значение имеют лемма и все морфологические характеристики. Лемму и набор морфологических характеристик словоформы далее будем называть вариантом морфологического анализа словоформы.

В русском языке лексемы можно сгруппировать в соответствии с тем, какие падежные окончания имеют. Лексемы образуют конкретный словоизменительный класс [1], например, слова завод и стол относятся к одному словоизменительному классу, а слова керосин и хурма нет. Пример окончаний словоизменительного класса показан в таблице 1.

Таблица 1 — Словоизменительный класс слова завод

Единственное число Множественное число

Им. Род. Дат. Вин. Тв. Пр. Им. Род. Дат. Вин. Тв. Пр.

0 а у 0 ом е ы ов ам ы ами ах

Основной проблемой на этапе морфологического анализа является омонимия - наличие нескольких нормальных форм (лемм) и/или наборов морфологических характеристик для заданной словоформы. На рисунке 1.2 показан пример нескольких вариантов анализа у слова стали:

Рисунок 1.2 — Морфологическая омонимия словоформы "стали"

Словоформа стали может быть как существительным родительного падежа, так и глаголом множественного числа. Выбор единственного варианта анализа (леммы и набор морфологических характеристик) из множества возможных называется снятием, или разрешением морфологической омонимии.

В общем случае, морфологический анализ словоформы включает в себя определение набора морфологических характеристик словоформы, её леммы и снятие морфологической омонимии при её наличии.

Морфологический синтез - это задача, обратная морфологическому анализу [35]. Она заключается в генерации нужной словоформы по заданным морфологическим характеристикам, или всей её лексемы по нормальной форме слова или его основе. Синтез особенно важен для генеративных задач АОТ (в частности, реферирования текстов, создания вопросно-ответных систем), т.к. словоформы в генерируемых текстах должны быть синтаксически связаны (согласованы) между собой, т.е. стоять в нужном падеже, роде, числе и т.п. Например, в работе [21], по

заданному набору морфологических характеристик и словоформе морфологический синтез позволяет получить возможные словоформы и соответствующие им характеристики, см. рисунок 1.3.

СДЕЛАЕМ

СДЕЛАЛ -> -р—--

Число=мн|Время=будущ СДЕЛАЕТЕ

Рисунок 1.3 — Синтез форм множественного числа и будущего времени

Ещё одной задачей, относщейся к уровню морфологического анализа является морфемный разбор. Минимальной значащей единицей языка являются морфемы [2]. В русском языке к основным видам морфем относятся приставка, корень, суффикс, окончание и постфикс. Конкретная реализация морфемы в тексте называется морфом. Под морфемным разбором слова обычно понимается распознавание морфемного состава слова, см. пример на рисунке 1.4.

из — мен — я — ть

I_I I_I и I_I

приставка корень суффикс окончание

Рисунок 1.4 — Морфемный разбор слова изменять

Известны несколько метрик для оценки качества решения задач морфологического анализа [23; 36]. В частности, для оценки качества лемматизации применяется доля верно определенных лемм, рассчитываемая как отношение количества словоформ, у которых леммы были определены верно, к количеству всех обработанных словоформ:

\ л correct

Accuracyiemma = ^ ,, (1.1)

all

Для оценки качества определения всех морфологических характеристик рассчитывается доля верно определенных характерстик:

Ассшаст = Е matching(tags)

Accur acytags = v-^ i. \ (1.2)

sum(tags)

где Yh matching (tags) - количество тегов словоформы, совпавших с тегами в правильных (эталонных) разборах словоформ, а ^ sum(tags) - количество всех тегов словоформ текста. В целом, качество морфологического анализа с учетом снятия омонимии можно оценить, как среднее двух описанных метрик.

Для оценки качества морфемного разбора используются метрики точности, полноты и F1-меры по границам найденных морфем [37], а также доля правильно разобранных слов.

1.2 Морфологический анализ на основе словарей

Способы автоматического морфологического анализа и синтеза значительно зависят от флективности обрабатываемого языка. Первые системы морфологического анализа для русского языка строились на основе словарной информации [38; 39] и лингвистических правил: на базе словаря основ [38; 40], или на базе словаря словоформ [21].

Метод на базе словаря основ опирается на словарь, который содержит все основы (или псевдоосновы) словоформ (фрагмент словаря основ представлен в таблице 2) и связан со вспомогательными словарями флексий всех словоизменительных классов. Для каждой флексии указан набор значений морфологических характеристик, которые она может выражать (фрагмент словаря флексий представлен в таблице 3). Как правило, дополнительно хранится информация об особенностях словоизменения, например, о чередовании букв в основах (друг -друзья), беглых гласных (зло - зол) или исключительных случаях (идти - шел).

Таблица 2 — Фрагмент словаря основ

Основа Пример формы

бельев- бельевая

бельк- бельковый

бельм- бельмо

бельч- бельчонок

беляк- беляки

Морфологический анализ словоформ происходит по следующей схеме:

1. Последовательно отсекаются возможные окончания длиной от 0 до п букв, таким образом слово разбивается на основу и флексию;

2. Для полученного окончания находится его словоизменительный класс;

Таблица 3 — Простейшая таблица флексий

Окончание Окончание леммы Морф. характеристики

-онок -онок СУЩ., м. р., ед. ч., им. п.

-онка -онок СУЩ., м. р., ед. ч., род. п.

-онку -онок СУЩ., м. р., ед. ч., дат. п.

-онком -онок СУЩ., м. р., ед. ч., твор. п.

3. Проверяется наличие полученной основы в словаре основ и находится номер её словоизменительного класса;

4. В случае совпадения словоизменительных классов выбираются соответствующие морфологические характеристики и строится лемма, которые и являются результатом анализа.

Морфологический синтез на базе словаря основ реализуется с помощью поиска флексии, соответствующей запрошенным морфологическим характеристикам словоформы, и добавлению её к основе этой словоформы.

Метод на основе словаря словоформ изначально использовались для морфологического анализа низкофлективных языков, например, английского [39]. У каждой хранимой словоформы в словаре записан набор морфологических характеристик, в простейшем случае словарь может быть представлен в виде списка или таблицы, - см. таблицу 4.

Таблица 4 — Простейшая таблица словоформ

Словоформа Лемма Морфологические характеристики

КОТ КОТ СУЩ., м. р., ед .ч., им. п.

КОТА КОТ СУЩ., м. р., ед .ч., род. п.

КОТУ КОТ СУЩ., м. р., ед .ч., дат. п.

КОТОМ КОТ СУЩ., м. р., ед .ч., твор. п.

При использовании такого словаря определение леммы и морфологических характеристик заданной словоформы сводится к ее поиску в словаре. Синтез требуемой словоформы сводится к поиску ее лексемы, а затем словоформы в этой лексеме, соответствующей запрошенным морфологическим характеристикам.

Метод морфологического анализа и синтеза на базе словаря словоформ является часто используемым в настоещее время в системах АОТ. Такой метод использовался в реализациях известных морфологических процессоров Диалинг-AOT [4], MyStem [19], pymorphy2 [21]. Из-за значительного объема словаря словоформ (миллионы единиц для высокофлективного русского языка) в данных процессорах применялась эффективная структура данных для хранения словарей, например, pymorphy2 использует ациклический направленный граф слов [41]. Заметим, что в указанных процессорах используются разные системы морфологических характеристик (тегов): в MyStem используется система тегов НКРЯ [42], в pymorphy2 - теги OpenCorpora [43], в Natasha [22] система тегов UniversalDependencies [44]), примеры различий используемых систем тегов см. в таблице 5.

Таблица 5 — Различия в морфологических тегах для словоформы красив

Система тегов Набор тегов словоформы красив

НКРЯ A, m, sg, brev

OpenCorpora ADJS, Qual, masc, sing

UniversalDependecies ADJ Degree=Pos|Gender=Masc|Number=Sing|Variant=Short

Различаются как обозначения одних и тех же характеристик, так и сами наборы характеристик одного и того же слова. В частности, в системе тегов НКРЯ [42] мужской род обозначается латинской буквой m, в OpenCorpora [43] - masc, а в системе тегов UniversalDependencies [44] Gender=Masc. Различия касаются и части речи: в UniversalDependencies и НКРЯ слово красив является прилагательным (ADJ и A) и его краткость обозначается тегами Variant=Short и brev соответственно, а в системе тегов OpenCorpora для кратких прилагательных введена отдельная часть речи ADJS. Качественность прилагательного обозначается в OpenCorpora как Qual, а в UniversalDependencies как Degree=Pos, в системе же тегов НКРЯ эта характеристика не обозначена вовсе. В настоящее время стандартом де-факто становится система тегов UniversalDependencies т.к. она все больше используется для создания размеченных корпусов текстов [23], необходимых для морфологического анализа, в первую очередь потому что является универсальной для всех индоевропейских языков.

Проблемой любого метода на основе словарей является определение морфологических характеристик и леммы для несловарных (неизвестных) слов. Для предсказания морфологических характеристик и лемм неизвестных слов в таких

системах используются дополнительные словари. Они могут быть построены как по словарю словоформ, так и с привлечением дополнительных данных и в них обычно содержатся известные приставки и хвостовые части словоформ, с приписанными к ним наиболее частотными морфологическими характеристиками. Фрагмент такого дополнительного словаря флексий показан в таблице 3. Благодаря подобным данным, неизвестные слова могут быть обработаны на основе аналогии по окончанию [45]. Суть ее в том, что если два слова имеют одинаковые окончания, то они относятся к одному и тому же словоизменительному классу и имеют одинаковые морфологические характеристики. Например, с помощью фрагмента из таблицы 3 аналогия по окончанию для неизвестной словоформы салажонку позволит определить лемму салажонок и морфологические характеристики существительное, мужской род, единственное число, дательный падеж.

В процессорах pymorphy2 [21] и Диалинг-АОТ [4] применяется предсказание морфологических характеристик и леммы с помощью аналогии по наиболее длинному и частотному окончанию, например: кузявые [?] —^ корявые —^ [П,мн,им].

Методы морфологического анализа на основе словарей позволяют решать задачи словоизменительного морфологического анализа (определение леммы и морфологических характеристик словоформы) и морфологического синтеза. Качество прикладных решений на основе таких методов зависит, в первую очередь, от полноты используемого словаря и его пополнения новыми словами. Другим важным аспектом является структура данных, в которой хранится словарь, что оказывает непосредственное влияние на скорость работы и объем используемой памяти. Методы на основе словарей показывают высокую производительность (до 120 тысяч слов в секунду на CPU [19]), однако, сами по себе не решают задачу снятия морфологической омонимии, поскольку для нее необходимо привлечения дополнительной информации. Для решения этой задачи требуется последующее применение отдельной процедуры к полученным из словаря результатам.

1.3 Разрешение морфологической омонимии

Задача разрешения (снятия) морфологической омонимии имеет смысл при обработке фраз текста - последовательности взаимосвязанных слов и заключа-

ется в выборе единственной леммы и набора морфологических характеристик из множества возможных. Эта функция является одной из наиболее сложных в морфологических процессорах и может быть реализована как определение вероятности каждого из возможных вариантов анализа, найденных в словаре.

Наиболее ранним методом снятия морфологической омонимии были лингвистические правила, составляемые экспертами [46]. Такой метод показывает хорошую точность при тонкой настройке правил для текста конкретной предметной области, однако в общем случае показывает недостаточное качество.

Другим способом снятия морфологической омонимии является использование статистики встречаемости различных вариантов анализа, собранной по текстовому корпусу с разрешенной морфологической омонимией (например, [42; 43; 47]). В таком корпусе для каждой словоформы разметка содержит лемму и морфологические характеристики. Фрагмент корпуса, содержащего морфологическую разметку в формате Universal Dependencies [44] приведен ниже:

1 Чья-то чей-то DET Case=Nom|Gender=Fem|Number=Sing

2 рука рука NOUN Animacy=Inan|Case=Nom|Gender=Fem|Number=Sing

3 легла лечь VERB Gender=Fem|Mood=Ind|Number=Sing|Tense=Past

4 ему он PRON Case=Dat|Gender=Masc|Number=Sing|Person=3

5 на на ADP

6 плечо плечо NOUN Animacy=Inan|Case=Acc|Gender=Neut|Number=Sing

7 PUNCT

В приведенном фрагменте для каждой словоформы сначала указывается её номер в предложении, затем сама словоформа и её лемма, потом часть речи и набор остальных морфологических характеристик. По такому корпусу можно вычислить апостериорную вероятность различных вариантов анализа омонимичных словоформ, встретившихся в корпусе. При дальнейшей обработке текста для каждой словоформы выбирается наиболее вероятный вариант.

Такой способ снятия морфологической омонимии реализован в морфологическом процессоре pymorphy2 [21], основанном на словаре словоформ. Каждому найденному варианту анализа словоформы из размеченного корпуса OpenCorpora [43] приписывается апостериорная вероятность P(w\t) встретить слово w с тегом t, рассчитанная по следующим формулам:

Cw = Fr(w), Cwt = Fr(w, t), B = \R(w)\;

(1.3)

P (w\t) = C+B' d-4)

где Fr(w) - количество раз, которое словоформа w встретилась в корпусе, Fr(w,t) - количество раз, которое эта словоформа встретилась с морфологической характеристикой t, \R(w)\ - число возможных вариантов анализа w. Качество этого статистического способа оценивалось на корпусе из нескольких тысяч слов, доля верно определенных лемм и характеристикам составила 81.7%.

Подобные статистические методы не позволяют добиться высокого качества снятия омонимии поскольку морфологические характеристики и лемма словоформы зависят от соседних слов, иными словами контекста. Для его учета обычно применяются методы машинного обучения, которые позволяют учитывать контекст (например, [48—50]).

Методы на основе машинного обучения обрабатывают текст фрагментами из нескольких словоформ (2-5 слов), точнее вариантов их морфологических характеристик, полученных из словаря. Соответствующие модели машинного обучения предсказывают наиболее вероятный вариант анализа (или вероятности каждого из вариантов) каждой словоформы с учетом морфологических характеристик соседних словоформ. Такой метод применяется в нескольких известных морфологических процессорах на базе словарей, однако модели машинного обучения различаются: в Диалинг-АОТ [51] используются скрытые марковские цепи [48], в TreeTagger [52] - деревья решений, а в парсере UDPipe 1.0 [53] - полносвязная нейронная сеть. Подобный метод достигает доли верно определенных морфологических характеристик с учетом снятия морфологической омонимии до 94.5% для известных слов и до 79% для слов, отсутствующих в словарях [27].

В морфологических процессорах, основанных на словарях разрешение морфологической омонимии является приложением к словарю, тем самым его точность значительно зависит от используемого словаря и способа обработки несловарных слов.

1.4 Морфологический анализ на основе машинного обучения

Следующий этап развития методов морфологического анализа и снятия омонимии был связан с использованием в машинном обучении векторных

представлений слов или эмбеддингов (например, [10; 54—56]). Применение эмбеддингов дало настолько значительное улучшение качества в решении задач словоизменительного морфологического анализа, что в ряде работ [22; 24; 25; 57] они заменяют собой морфологические словари, при этом позволяют решать задачи определения морфологических характеристик и снятия морфологической омонимии одновременно.

Эмбеддинги представляют собой отображение слов естественного языка в вектора вещественных чисел заданной размерности. Получение этих векторов основано на идеях дистрибутивной семантики [58], что позволяет учитывать контекст отображаемых слов.

Современные эмбеддинги получаются в результате нейросетевых методов машинного обучения, решающих задачу предсказания контекста на неразмеченных текстовых коллекциях. Первый метод, получивший успешную реализацию, был представлен в работе Word2Vec [54], но его существенным недостатком была невозможность получения вектора для слова, отсутствующего в исходной обучающей коллекции. Этот недостатток был устранен в последующих работах FastText [10] и GloVe [59], тем не менее эмбеддинги этих методов не позволяют учитывать связи между далеко отстоящими словами текста.

Контекстуализированные эмбеддинги ElMo и BERT [55; 56], появившиеся сравнительно недавно, используют для обучения рекуррентные нейронные сети и сети внимания, которые позволяют отслеживать связи между далеко отстоящими словами. Другим их преимуществом является возможность их встраивания в нейронные сети для решения прикладных задач (методом transfer learning [56]), что позволяет добиваться более высокого качества их решения. Основным недостатком контекстуализированных эмбеддингов является вычислительная сложность их применения: методы на их основе оказываются на два порядка медленнее чем с использованием векторов из Word2Vec и FastText [26].

В современных работах используются оба типа эмбеддингов.

В синтаксическом парсере UDPipe версии 2.0 [60] используются FastText-эмбеддинги. Для определения морфологических характеристик слова используется многослойная рекуррентная нейронная сеть, которая обучается по размеченному корпусу (для русского языка использовался корпус SynTagRus [47]). На вход сети поступают эмбеддинги, которые обрабатываются двумя двунаправленными слоями долгосрочно-краткосрочной памяти LSTM [50] (Long-Short Term Memory). Для определения части речи и каждого мор-

фологического тега словоформы используется отдельный полносвязный слой (классификатор). Такой метод показывает в среднем 91.4% верно определенных морфологических характеристик для мультиязычной коллекции корпусов.

В работе [61] для определения морфологических характеристик также используется рекуррентная нейронная сеть. На вход сети подаются буквы словоформы, а также FastText-эмбеддинг. Для каждого типа морфологических тегов (часть речи, падеж, род и т.д.) используется отдельный классификатор (полносвязный нейросетевой слой) и слой условных случайных полей, CRF [49] (Canditional Random Fields). Такой метод в среднем показал 95.2% верно определенных морфологических тегов при оценке на различных корпусах текстов на русском языке.

В работе [57] задача определения морфологических характеристик решается не для каждой характеристики по отдельности, а для всего набора характеристик сразу. Для большого корпуса русского языка (SynTagRus[47]) таких возможных наборов морфологических характеристик (тегов) оказывается около тысячи. Для уменьшения количества возможных наборов морфохарактеристик используются 95% наиболее частотных, встречающихся в корпусе (около 300 различных наборов). На вход нейронной сети подаются буквы слова, а также FastText-эмбеддинг. Эти данные передаются в односвязный LSTM-слой, за которым следует полносвязаный слой, решающий задачу классификации на 300 возможных классов (соответствующих указанным наборам морфохаракте-ристик). При обучении для на мультиязычной коллекции текстов (более 15-ти языков) была показана показана средняя доля верного определения морфологических характеристик, равная 91.08%. Вместе с высокой точностью данный метод имеет очевидный недостаток. Поскольку не все возможные наборы морфологических характеристик представлены в корпусе, а с дополнительной фильтрацией по частоте их остается ещё меньше, то данный метод позволяет определять только те наборы характеристик, которые встретились в корпусе и не были отфильтрованы.

Контекстуализированные BERT-эмбеддинги применяются для русского языка в работе [24], в которой не производится отбор наиболее частотных наборов морфологических характеристик, поэтому используется около 1000 различных наборов, найденных в обучающем корпусе. Для определения вероятности каждого из 1000 возможных наборов применяется логистическая регрессия, входом которой являются BERT-эмбеддинг словоформы. В соревновании [23] такой метод показал наилучшее достижимое качество (state of the art) определения морфологических тегов с разрешением омонимии для русского языка - 96.1%.

Однако данный метод имеет тот же недостаток, что и работа [57]: обученная сеть никогда не сможет верно определить набор морфологических характеристик, который не встретился в обучающем корпусе.

Аналогичные практические реализации определения морфологических характеристик с использованием BERT-эмбеддингов представлены в системах DeepPavlov [25] и Natasha [22].

В методах морфологического анализа, использующих эмбеддинги, задача лемматизации часто решается независимо и может быть представлена как задача преобразования одной последовательности букв (словоформы) в другую (лемму). В работе [57] для решения этой задачи используется LSTM-сеть с использованием механизма внимания [62] которая обращает одни последовательности в другие (метод sequence-to-sequence [63]). На вход сети подаются только буквы обрабатываемого слова, что не позволяет учитывать контекст, поэтому дополнительно используются морфологические характеристики словоформы, которые могут быть получены любым из описанных выше методов. Результирующие буквы леммы определяются с помощью алгоритма лучевого поиска [64]. Механизм внимания, обучаясь вместе с сетью, позволяет учитывать буквы, оказывающие наибольшее влияние на результирующую последовательность. На выходе сети получается последовательность букв, которая соответствует лемме входного слова. Средняя доля верного определения леммы для такого метода составила 96.08% на мультиязычной коллекции текстов.

В работе [24] задача лемматизации решается как задача автоматического построения правил, позволяющих преобразовать исходную словоформу в лемму. Правила преобразования являются простыми правилами отсечения и добавления последовательностей символов к словоформе (например, {"отрезать суффикс длины": 1, "добавить суффикс": "ый"}), которые генерируются по размеченному корпусу автоматически. Размер множества подобных правил велик, однако рассматриваются только правила, применимые к словам корпуса не менее двух раз, максимальное количество правил ограничено 1000. BERT-эмбеддинги подаются на вход логистической регрессии, которая определяет наиболее вероятное правило для заданной словоформы. Данный метод показывается наилучшую достижимую точность лемматизации для русского языка - 96.5%. Однако он не позволяет корректно лемматизировать словоформы, правила для которых построить по корпусу невозможно [65]. Этот недостаток является существенным, поэтому в практических реализациях морфологического анализа в системах

DeepPavlov [25] и Natasha [22], использующих наиболее современные методы машинного обучения, лемматизация основана на словарной морфологии из мор-фопроцессора pymorphy [21].

Похожие диссертационные работы по специальности «Другие cпециальности», 00.00.00 шифр ВАК

Список литературы диссертационного исследования кандидат наук Сапин Александр Сергеевич, 2023 год

Список литературы

1. Большакова Е. И. Компьютерная лингвистика: задачи, подходы, ресурсы. — М.: НИУ ВШЭ, 2017. — С. 269. — (Автоматическая обработка текстов на естественном языке и компьютерная лингвистика).

2. Лингвистический энциклопедический словарь. Т. 1 / под ред. В. Н. Ярцевой. — М. : Советская энциклопедия, 1990. — С. 789.

3. Клышинский Э. С. Начальные этапы анализа текста. — М. : МИЭМ, 2011. — С. 106—140. — (Автоматическая обработка текстов на естественном языке и компьютерная лингвистика).

4. Сокирко А. В. Быстро словарь: предсказание морфологии русских слов с использованием больших лингвистических ресурсов // Труды международной конференции "Диалог-2010. Компьютерная лингвистика и интеллектуальные технологии". — М.: Издательский центр РГГУ, 2010. — С. 450—459.

5. Ataman D. [et al.]. Linguistically motivated vocabulary reduction for neural machine translation from Turkish to English // The Prague Bulletin of Mathematical Linguistics. — 2017. — Vol. 108. — P. 331—342.

6. Botha J., Blunsom P. Compositional morphology for word representations and language modelling // International Conference on Machine Learning. — 2014. — P. 1899-1907.

7. Narasimhan K. [et al.]. Morphological segmentation for keyword spotting // Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing. —2014. — P. 880—885.

V V

8. Lango M., Zabokrtsky Z., Sevcikovä M. Semi-automatic construction of wordformation networks // Language Resources and Evaluation. — 2021. — P. 3—32.

9. Cotterell R., Schütze H. Joint semantic synthesis and morphological analysis of the derived word // Transactions of the Association for Computational Linguistics. —2018. — Vol. 6. — P. 33—48.

10. Bojanowski P. [et al.]. Enriching word vectors with subword information // Transactions of the Association for Computational Linguistics. — 2017. — Vol. 5. — P. 135-146.

11. Cotterell R., Schütze H. Morphological word embeddings // Proceedings of the 2015 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. — 2015. — P. 1287—1292.

12. Hofmann V, Pierrehumbert J., Schütze H. Superbizarre Is Not Superb: Derivational Morphology Improves BERT's Interpretation of Complex Words // Proceedings of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing. — 2021. — Vol. 1. — P. 3594—1608.

13. Song Y [et al.]. Incorporating Morphological Compostions with Transformer to Improve BERT // Journal of Physics: Conference Series. - IOP Publishing. — 2020. — Vol. 1486, no. 7. — P. 72—86.

14. Зализняк А. А. Грамматический словарь русского языка. — М.: Русский язык, 1980.-С. 880.

15. Harris Z. S. Morpheme boundaries within words: Report on a computer test // Transformations and Discourse Analysis Papers. — 1970. — Vol. 73. — P. 770—778.

16. Dejean H. Morphemes as Necessary Concept for Structures Discovery from Untagged Corpora // NeMLaP3/CoNLL98 Workshop on Paradigms and Grounding in Language Learning, ACL. — 1998. — P. 295—298.

17. Creutz M., Lagus K. Unsupervised models for morpheme segmentation and morphology learning // ACM Transactions on Speech and Language Processing (TSLP). - 2007. - Vol. 1, no. 1. - P. 1-34.

18. Sorokin A., Kravtsova A. Deep convolutional networks for supervised morpheme segmentation of Russian language // Proceedings of the Conference on Artificial Intelligence and Natural Language. - Communications in Computer and Information Science, Springer, Cham. —2018. — P. 3—10.

19. Морфологический анализатор Mystem 3.0 [Электронный ресурс]. — URL: https://events.yandex.ru/lib/talks/2427/ (дата обр. 16.05.2017).

20. Сокирко А. В. Морфологические модули на сайте www.aot.ru // Труды международной конференции "Диалог-2004. Компьютерная лингвистика и интеллектуальные технологии". — М.: Наука, 2004. — С. 559—566.

21. Korobov M. Morphological analyzer and generator for Russian and Ukrainian languages // International Conference on Analysis of Images, Social Networks and Texts. - Springer International Publishing. — 2015. — P. 320—332.

22. Natasha NLP. — URL: https : / / github . com / natasha / natasha (дата обр. 16.04.2021).

23. Lyashevskaya O. N. [et al.]. GRAMEVAL 2020 Shared Task: Russian Full Morphology and Universal Dependencies Parsing // Computational Linguistics and Intellectual Technologies: Proceedings of the International Conference "Dialogue 2020". - 2020. - P. 553-569.

24. Anastasyev D. G. Exploring pretrained models for joint morpho-syntactic parsing of Russian. // Computational Linguistics and Intellectual Technologies: Proceedings of the International Conference "Dialogue 2020". — 2020. — P. 1—12.

25. Burtsev M. [et al.]. Deeppavlov: Open-source library for dialogue systems // Proceedings of ACL 2018, System Demonstrations. — 2018. — P. 122—127.

26. Sanh V. [et al.]. DistilBERT, a distilled version of BERT: smaller, faster, cheaper and lighter // Energy Efficient Machine Learning and Cognitive Computing -NeurIPS. -- 2020.

27. Ляшевская О. Н., др. Оценка методов автоматического анализа текста: морфологические парсеры русского языка // Труды международной конференции "Диалог-2010. Компьютерная лингвистика и интеллектуальные технологии". — М.: Издательский центр РГГУ, 2010. — С. 318—327.

28. Bolshakova E. I., Sapin A. S. A Morphological Processor for Russian with Extended Functionality // International Conference on Analysis of Images, Social Networks and Texts. - Springer, Cham. — 2017. — P. 22—33.

29. Bolshakova E. I., Sapin A. S. Comparing models of morpheme analysis for Russian words based on machine learning // Computational Linguistics and Intellectual Technologies: Proceedings of the Int. Conference "Dialogue 2019". — 2019.-P. 104-113.

30. Bolshakova E. I., Sapin A. S. Bi-LSTM Model for Morpheme Segmentation of Russian Words // Ustalov D., Filchenkov A., Pivovarova L. (eds) Artificial Intelligence and Natural Language. AINL 2019. CCIS, vol. 1119. Springer, Cham. — 2019.-P. 151-160.

31. Bolshakova E. I., Sapin A. S. An Experimental Study of Neural Morpheme Segmentation Models for Russian Word Forms // Proceedings of the Computational Models in Language and Speech Workshop (CMLS 2020), CEUR Workshop Proceedings. — 2020. — Vol. 2780. — P. 79—89.

32. Bolshakova E. I., Sapin A. S. Building Dataset and Morpheme Segmentation Model for Russian Word Forms // Computational Linguistics and Intellectual Technologies: Proceedings of the Int. Conference "Dialogue 2021". — 2021. — P. 154-161.

33. Bolshakova E. I., Sapin A. S. Building a Combined Morphological Model for Russian Word Forms (Построение объединенной морфологической модели для словоформ русского языка) // International Conference on Analysis of Images, Social Networks and Texts. - Lecture Notes in Computer Science, V. 13217, Springer, Cham. — 2022. — P. 45—55.

34. Сапин А. С. Построение нейросетевых моделей морфологического и морфемного анализа текста // Труды ИСП РАН. — 2021. — Т. 33, № 4. — С. 117-130.

35. Большакова Е. И. Компьютерная лингвистика: методы, ресурсы, приложения. — М.: МИЭМ, 2011. — С. 272. — (Автоматическая обработка текстов на естественном языке и компьютерная лингвистика).

36. Zeman D. [et al.]. CoNLL 2018 shared task: Multilingual parsing from raw text to universal dependencies // Proceedings of the CoNLL 2018 Shared Task: Multilingual parsing from raw text to universal dependencies. — 2018. — P. 1—21.

37. Kurimo M. [et al.]. Proceedings of the Morpho Challenge 2010 Workshop // Morpho Challenge Workshop; 2010; Espoo. - Aalto University School of Science and Technology. — 2010. — P. 7—24.

38. Белоногов Г. Г., Губарь Н. Т., Новоселов А. П. Морфологический анализ слов на основе словаря словоформ // НТИ, Серия 2. — М.: ВИНИТИ, 1975. — №9.17.-С. 54-60.

39. Brill E A simple rule-based part of speech tagger // Proceedings of the third conference on Applied natural language processing. — 1992. — P. 152—155.

40. Мальковский М. Г., Волкова И. А. Анализатор системы TULIPS-2. Морфологический компонент // Вестник Московского университета. Серия 15: Вычислительная математика и кибернетика. — 1981. — № 1. — С. 70—76.

41. Daciuk J. [et al.]. Incremental construction of minimal acyclic finite-state automata // Computational linguistics. — 2000. — Vol. 26, no. 1. — P. 3—16.

42. Национальный корпус русского языка [Электронный ресурс]. — URL: http: //ruscorpora.ru/ (дата обр. 16.04.2021).

43. Открытый корпус OpenCorpora [Электронный ресурс]. — URL: http : / / opencorpora.org/ (дата обр. 16.05.2021).

44. Universal Dependencies [Электронный ресурс]. — URL: http : / / universaldependencies.org/ (дата обр. 13.04.2021).

45. Белоногов Г. Г., Зеленков Ю. Г. Ещё раз о принципе аналогии в морфологии // НТИ, Серия 2. — М.: ВИНИТИ, 1995. — Т. 3. — С. 29—32.

46. АОТ [Электронный ресурс]. — URL: http://aot.ru/docs/rusmorph.html (дата обр. 19.01.2015).

47. SynTagRus - Russian data from the SynTagRus corpus [Электронный ресурс]. — URL: https : / / github . com / UniversalDependencies / UD _Russian -SynTagRus (дата обр. 25.07.2021).

48. Baum L. E., Petrie T. Statistical inference for probabilistic functions of finite state Markov chains // The annals of mathematical statistics. —1966. — Vol. 37, no. 6. — P. 1554—1563.

49. Lafferty J. [et al.]. Conditional random fields: Probabilistic models for segmenting and labeling sequence data // Proceedings of the eighteenth international conference on machine learning. — 2001. — Vol. 1. — P. 282—289.

50. Hochreiter S., Schmidhuber J. Long short-term memory // Neural computation. — 1997. — Vol. 9, no. 8. — P. 1735—1780.

51. Ножов И. М. Морфологическая и синтаксическая обработка текста (модели и программы) [Текст] : дис. ... канд. физ.-мат. наук / Ножов И. М. — М., 2003. - 120 с.

52. SchmidH. Probabilistic part-of-speech tagging using decision trees //Proceedings of the international conference on new methods in language processing. —1994. — P. 44--49.

53. Straka M., Strakova J., Hajic J. The UDPipe system // Proceedings of the 2017 Shared Task on Extrinsic Parser Evaluation at the Fourth International Conference on Dependency Linguistics and the 15th International Conference on Parsing Technologies. — 2017. — P. 65—74.

54. Mikolov T. [et al.]. Distributed representations of words and phrases and their compositionality // Advances in neural information processing systems. — 2013.-Vol. 26.-P. 3111-3119.

55. Peters M. E. [et al.]. Deep contextualized word representations // Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. — 2018. — Vol. 1. — P. 2227—2237.

56. Devlin J. [et al.]. Bert: Pre-training of deep bidirectional transformers for language understanding // Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. —2019. — Vol. 1. — P. 4171—4186.

57. Kanerva J. [et al.]. Turku neural parser pipeline: An end-to-end system for the conll 2018 shared task // Proceedings of the CoNLL 2018 Shared Task: Multilingual parsing from raw text to universal dependencies. — 2018. — P. 133—142.

58. Harris Z. S. Distributional structure // Word. — 1954. — Vol. 10, no. 2/3. — P. 146-162.

59. Pennington J., Socher R., Manning C. D. Glove: Global vectors for word representation // Proceedings of the 2014 conference on empirical methods in natural language processing. — 2014. — P. 1532—1543.

60. Straka M., Strakova J. Tokenizing, pos tagging, lemmatizing and parsing UD 2.0 with udpipe // Proceedings of the CoNLL 2017 Shared Task: Multilingual Parsing from Raw Text to Universal Dependencies. — 2017. — P. 88—99.

61. Bocharov V. V., Chalendar G. The russian language pipeline in the LIMA multilingual analyzer // Computational Linguistics and Intellectual Technologies: Proceedings of the International Conference "Dialogue 2020". — 2020. — P. 93-106.

62. Vaswani A. [et al.]. Attention is all you need // Advances in Neural Information Processing Systems. — 2017. — P. 6000—6010.

63. Sutskever L, Vinyals O., Le Q. V. Sequence to sequence learning with neural networks // Advances in neural information processing systems. — 2014. — P. 3104-3112.

64. Medress M. F. [et al.]. Speech understanding systems: Report of a steering committee // Artificial Intelligence. — 1977. — Vol. 9, no. 3. — P. 307—316.

65. Michurina M. [et al.]. Morphological annotation of social media corpora with reference to its reliability for linguistic research // Computational Linguistics and Intellectual Technologies: Proceedings of the International Conference "Dialogue 2021". -2021. - P. 492-504.

66. Virpioja S. [et al.]. Morfessor 2.0: Python implementation and extensions for Morfessor Baseline // Aalto University publication series SCIENCE + TECHNOLOGY - 2013. - P. 32.

67. Rissanen J. Modeling by shortest data description // Automatica. — 1978. — Vol. 14, no. 5.—P. 465—471.

68. Sakakini T., Bhat S. Viswanath P. Morse: Semantically driven morpheme segmenter // ACL 2017 - 55th Annual Meeting of the Association for Computational Linguistics, Proceedings of the Conference. — 2017. — Vol. 1. — P. 552—561.

69. Maltina L., Malafeev A. Automatic Morphemic Analysis of Russian Words // International Conference on Analysis of Images, Social Networks and Texts. — 2018.-P. 85-94.

70. Тихонов А. Н. Словообразовательный словарь русского языка. — М. : Русский язык, 1990. — С. 1808.

71. Shao Y Cross-lingual word segmentation and morpheme segmentation as sequence labelling // Multi-Language Processing in a Globalising World. —

2017. — С. 1-6.

72. Chung J. [et al.]. Empirical evaluation of gated recurrent neural networks on sequence modeling // NIPS 2014 Deep Learning and Representation Learning Workshop. — 2014. — P. 1412—1421.

73. Arefyev N. V., Gratsianova T. Y., Popov K. P. Morphological segmentation with sequence to sequence neural network // Computational Linguistics and Intellectual Technologies: Proceedings of the International Conference "Dialogue 2018". —

2018.—P. 85—95.

74. Krizhevsky A., Sutskever L, Hinton G. E. // Advances in neural information processing systems. — 2021. — Vol. 25. — P. 1097—1105.

75. Charniak E. Statistical techniques for natural language parsing // AI magazine. — 1997. - Т. 18, № 4. - С. 33-33.

76. Большаков И. КроссЛексика - Универсум связей между русскими словами // Бизнес-информатика. — 2013. — № 3. — С. 19—26.

77. Ke G. [et al.]. Lightgbm: A highly efficient gradient boosting decision tree // Advances in neural information processing systems. — 2017. — Vol. 30. — P. 3146-3154.

78. CRF++ [Электронный ресурс]. — URL: https://taku910.github.io/crfpp/ (дата обр. 16.04.2021).

79. CatBoost - open-source gradient boosting library [Электронный ресурс]. — URL: https://catboost.ai/ (дата обр. 19.04.2021).

80. Keras - Deep learning for humans [Электронный ресурс]. — URL: https://keras. io (дата обр. 07.05.2021).

81. Tensorflow - Large-Scale Machine Learning on Heterogeneous Systems [Электронный ресурс]. — URL: https://www.tensorflow.org/ (дата обр. 22.09.2021).

82. He K [et al.]. Deep residual learning for image recognition // Proceedings of the IEEE conference on computer vision and pattern recognition. -- 2016. -P. 770--778.

83. Белоногов Г. Г. [и др.]. Метод аналогии в компьютерной лингвистике // НТИ, Серия 2. — М.: ВИНИТИ, 2000. — Т. 1. — С. 21—31.

84. International Components for Unicode [Электронный ресурс]. — URL: http: //site.icu-project.org/ (дата обр. 16.05.2020).

Список рисунков

1.1 Лексема волшебный: основа и флексии ....................................10

1.2 Морфологическая омонимия словоформы ' 'стали''......................11

1.3 Синтез форм множественного числа и будущего времени................12

1.4 Морфемный разбор слова изменять........................................12

1.5 Статистика различных букв на примере слова интересный (пикир-е

и н-с).....................................23

2.1 Фрагмент датасета RuMorphs-Lemmas...................33

2.2 Фрагмент датасета из системы КроссЛексика...............33

2.3 Представление букв слова в виде векторов признаков..........38

2.4 Архитектура BiLSTM-модели морфемного разбора...........44

2.5 Архитектура СЫЫ-модели морфемного разбора лемм..........47

3.1 Архитектура СЫЫ-модели морфемного разбора словоформ.......54

3.2 Архитектура объединенной модели....................57

4.1 Диаграмма модулей XMorphy .......................63

4.2 Конвейер обработки текста в XMorphy ..................64

4.3 Фрагмент словаря ОрепСогрога в хт1-формате..............65

4.4 Структура словаря в XMorphy.......................66

4.5 Аналогия по окончанию -овая.......................69

4.6 Синтез форм единственного числа и мужского рода для словоформы ШАРАМИ...................................69

4.7 Определение всех тегов слова мыла....................71

4.8 Результат анализа фрагмента "дизельного полярного ледокола''.....74

Список таблиц

1 Словоизменительный класс слова завод....................................11

2 Фрагмент словаря основ ....................................................13

3 Простейшая таблица флексий ..............................................14

4 Простейшая таблица словоформ............................................14

5 Различия в морфологических тегах для словоформы красив..............15

6 Функциональные характеристики морфологических процессоров. ... 29

7 Технологические характеристики морфологических процессоров. ... 30

8 Результаты GBDT-модели..........................41

9 Результаты BiLSTM-модели ........................44

10 Статистика ошибок BiLSTM-модели....................45

11 Результаты CNN-модели для лемм.....................47

12 Правильность классификации по словам для морфемного разбора лемм 48

13 Характеристики производительности и размера моделей........48

14 Результаты CNN модели ......................................................54

15 Качество морфемного разбора для объединённой модели........59

16 Характеристики моделей морфемного разбора словоформ ..............61

Приложение А Словари и модели XMorphy

Данные Размер Описание

maindict.bin 11МБ Основной морфологический словарь

affixdict.bin 148КБ Словарь словоизменительных классов

flexiondict.bin 10МБ Словарь флексий

disambdict.bin 4.3МБ Словарь бесконтекстного снятия омонимии

prefixdict.bin 1.73КБ Словарь приставок

prefixoiddict.bin 174Б Список префиксоидов

phemdict.bin 6.6МБ Словарь морфемного разбора

disamb {3-9}.tflite 5.2МБ Комплекс моделей снятия омонимии

morphem {7-20}.tflite 5.4МБ Комплекс моделей морфемного разбора

joined_{3-9}_{7-20}.tflite 27МБ Комплекс объединенных моделей

Приложение Б Таблица морфологических тегов

Номер Тег Описание

Части речи ^реесИРаЛ)

1 ADJ имя прилагательное

2 ADV наречие

3 INTJ междометие

4 NOUN имя существительное

5 PROPN существительное (собственное)

6 VERB глагол

7 ADP предлог

8 AUX вспомогательный грамматический показатель

9 CONJ сочинительный союз

10 SCONJ подчинительный союз

11 DET местоимение-прилагательное

12 NUM числительное

13 PART частица

14 PRON местоимение-существительное

15 PUNCT пунктуация

16 SYM символ

Одушевлённость (Аштасу)

17 Anim одушевлённое

18 Inan неодушевлённое

Род (Gender)

19 Masc мужской род

20 Fem женский род

21 Neut средний род

Число (Number)

23 Sing единственное число

24 Plur множественное число

Падеж (Case)

25 Ыот именительный падеж

26 Gen родительный падеж

27 Dat дательный падеж

28 Acc винительный падеж

29 Ins творительный падеж

30 Loc предложный падеж

31 Voc звательный падеж

Вид (Aspect)

32 Perf совершенный вид

33 Imperf несовершенный вид

Степень сравнения (Degree)

34 Стр сравнительная степень

35 Sup превосходная степень

Категория лица (Person)

36 1 1 лицо

37 2 2 лицо

38 3 3 лицо

Категория времени (Tense)

39 Pres настоящее время

40 Past прошедшее время

41 Fut будущее время

Категория наклонения (Mood)

42 изъявительное наклонение

43 1тр повелительное наклонение

Категория залога (Voice)

44 Ай действительный залог

45 Pass страдательный залог

46 Mid средний залог

Краткость (Form)

47 Short краткое

Форма глагола (Уе^огт)

48 Fin финитная форма

49 Inf инфинитив

50 Conv деепричастие

51 Part причастие

Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.