Методы переноса знаний для нейросетевых моделей обработки естественного языка

Коновалов Василий Павлович

Методы переноса знаний для нейросетевых моделей обработки естественного языка тема диссертации и автореферата по ВАК РФ 05.13.17, кандидат наук Коновалов Василий Павлович

Коновалов Василий Павлович
кандидат наук
2022

Специальность ВАК РФ05.13.17

Количество страниц 127

Коновалов Василий Павлович. Методы переноса знаний для нейросетевых моделей обработки естественного языка: дис. кандидат наук: 05.13.17 - Теоретические основы информатики. ФГАОУ ВО «Московский физико-технический институт (национальный исследовательский университет)». 2022. 127 с.

Оглавление диссертации кандидат наук Коновалов Василий Павлович

Введение

Глава 1. Применение переноса знаний к проблемам обработки

естественного языка

1.1 Парадигма переноса знаний

1.2 Таксономия переноса знаний

1.2.1 Последовательный перенос знаний

1.2.2 Многозадачное обучение

1.2.3 Межъязыковой перенос знаний

1.2.4 Адаптация домена

1.3 Архитектура Трансформер

1.3.1 Модуль самовнимания

1.3.2 Позиционный полносвязный слой

1.3.3 Варианты применения архитектуры Трансформер

1.3.4 Трансформер в задаче машинного перевода

1.4 Двунаправленная языковая модель BERT

1.4.1 Задачи предобучения BERT

1.4.2 Формат входных данных BERT

1.5 Последовательный перенос знаний на основе BERT

1.5.1 Набор данных GLUE

1.5.2 Результат переноса знаний на основе BERT

1.6 Многозадачное обучение на основе BERT

1.6.1 Архитектура модели MT-DNN

1.6.2 Результаты модели MT-DNN на задачах GLUE

1.7 Многоязычный BERT и межъязыковой перенос

1.7.1 Межъязыковой перенос на задачах разметки последовательностей

1.7.2 Результаты межъязыкового переноса

1.7.3 Адаптация многоязычного BERT для русского языка

1.7.4 Языковая фильтрация многоязычного BERT

1.8 Адаптация домена на основе BERT

1.8.1 Описание наборов данных

1.8.2 Результаты экспериментов

Глава 2. Обучение векторного представления слов для

малоресурсных языков

2.1 Методы построения векторных представлений слов

2.2 Корпуса для обучения

2.2.1 Бурятский язык

2.2.2 Эрзянский язык

2.2.3 Коми язык

2.3 Внутренняя оценка качества векторных представлений слов

2.4 Результаты сравнения методов

2.5 Внешняя оценка качества векторных представлений слов

2.6 Проект универсальных зависимостей

2.6.1 Бурятский язык

2.6.2 Эрзянский язык

2.6.3 Коми язык

2.7 Описание модели

2.8 Результаты сравнения методов

Глава 3. Межъязыковой перенос для модели

вопросно-ответных систем

3.1 Вопросно-ответные системы

3.2 Вопросно-ответные датасеты

3.3 Метрики качества вопросно-ответных систем

3.4 Базовые модели вопросно-ответных систем

3.4.1 Базовая модель R-Net

3.4.2 Базовая модель BiDAF

3.5 Вопросно-ответные модели на основе BERT

3.6 Цели и описание экспериментов

3.7 Результаты эксперимента

3.7.1 Кривые обучения

Глава 4. Отслеживание состояния диалога путем переноса

модели

4.1 Диалоговые системы

4.2 Отслеживание состояния диалога

4.3 Обзор решений

4.4 Схемоориентированный набор данных БСБ

4.5 Архитектура модели ССЬСЫЕ

4.5.1 Входные значения

4.5.2 Классификаторы ССЬСЫЕ

4.6 Метрики качества

4.7 Эксперименты и результаты

4.8 Исследование вклада отдельных компонентов модели

Заключение

Список сокращений и условных обозначений

Словарь терминов

Список литературы

Список рисунков

Список таблиц

Приложение А. Характеристики обученных вопросно-ответных

моделей

А.1 Сравнение количества обучающих итераций для

вопросно-ответных моделей

А.2 Характеристики используемых моделей для дообучения на

вопросно-ответную задачу

Введение диссертации (часть автореферата) на тему «Методы переноса знаний для нейросетевых моделей обработки естественного языка»

Введение

Разработка эффективной модели обработки естественного языка методами машинного обучения с учителем требует соблюдения ряда условий: наличия тренировочной выборки достаточного размера; единства языка тренировочной и тестовой выборок; нахождения тренировочной и тестовой выборок в одном и том же тематическом домене; сходства распределения классов в тренировочной и тестовой выборках [1; 2]. Однако, учитывая изобилие языков, задач и доменов в реальном мире, решать задачи, строго следуя этой парадигме, представляется трудновыполнимым. В связи с этим в рамках стандартного обучения с учителем возникает необходимость в использовании вспомогательного инструмента, позволяющего справляться с современными вызовами.

Методы переноса знаний стали одним из таких инструментов. Перенос знаний позволяет осуществлять передачу знаний из связанных областей, задач и языков в целевую задачу. Перенос знаний допускает, что предметные области (домены), задачи и распределения данных могут быть разными в обучающей и тестовой выборках. В реальном мире мы регулярно сталкиваемся с переносом знаний. Например, умение играть на фортепьяно, несомненно, помогает при освоении электронного органа.

Перенос знаний давно зарекомендовал себя в обработке естественного языка (англ.: Natural Language Processing, NLP). Например, применяя пре-добученные на неразмеченных корпусах контекстно-независимые векторные представления слов, осуществляется перенос знаний с предобученных векторов на задачи NLP, что в свое время позволило добиться впечатляющих результатов на задачах определения именованных сущностей [3], исправления грамматических ошибок [4] и многих других.

Метод word2vec, предложенный специалистами компании Google в 2013 году, при обучении контекстно-независимых векторных представлений слов для английского языка, использовал корпус Google News, содержащий 6 миллиардов токенов [5]. Векторные представления GloVe обучались на датасете Common Crawl, содержащем 42 миллиарда токенов [6]. Как известно, чем больше данных для обучения, тем эффективнее будет перенос на целевую задачу [7]. Однако большое количество данных доступно только для популярных языков. В связи с тем, что для непопулярных языков зачастую отсутствуют размеченные

корпуса и весьма ограничено количество текстовых данных в открытом доступе, такие языки называют малоресурсными (англ.: low-resource languages, LRL). При этом существует масса причин для того, чтобы исследовать LRL. Разработка NLP инструментов для LRL может иметь серьезные экономические перспективы. Кроме того, исследование LRL препятствует их исчезновению и способствует их популяризации [8]. Но возникает закономерный вопрос: как обучать векторное представление слов для малоресурсного языка, для которого нет большого количества неразмеченных данных? Чтобы ответить на него, необходимо сравнить классические частотные методы построения векторных представлений слов (PMI [9], сингулярное разложение матрицы PMI [10]) с нейросетевыми методами (Skip-Gram Negative Sampling (SGNS), Continuous Bag-of-Words (CBoW) [5]).

Применение контекстуально-независимых векторных представлений слов значительно продвинуло NLP. В большинстве задач перенос знаний с предобу-ченных векторов приводил к улучшению качества по сравнению со случайной инициализацией [11]. Однако, серьезным недостатком применения контекстуально-независимых векторных представления является то, что они используются только при инициализации первого слоя нейронной сети, в то время как остальные слои обучаются с нуля на данных целевой задачи.

Современные методы решения задач NLP используют нейросетевые языковые модели, такие как ELMo [12], BERT [13] и другие, способные генерировать контекстуальные векторные представления слов. Обучение таких моделей проходит в два этапа: предобучение и дообучение. Этап предобучения гарантирует изучение связей между словами, а этап дообучения обеспечивает эффективный перенос знаний для решения целевой задачи, что было показано на датасетах GLUE [14], SWAG [15], SQuAD [13].

Чтобы дальше развивать модели понимания языка, сообществу требуются новые сложные задачи и наборы данных для них. Такими задачами могут стать вопросно-ответные задачи, задачи отслеживания состояния диалога и другие. Под вопросно-ответной задачей подразумевается поиск ответа на вопрос по контексту. Модель отслеживания состояния диалога поддерживает текущее состояние диалога в семантическом представлении.

Стэнфордский вопросно-ответный датасет SQuAD (англ.: The Stanford Question Answering Dataset) на английском языке содержит около ста тысяч примеров в обучающей выборке [16]. Чтобы собирать датасеты такого

размера, используются специальные платформы, например, Yandex.toloka1 или Amazon Mechanical Turk2. Это краудсорсинговые платформы, которые позволяют распределять задачи разметки между большим количеством неквалифицированных разметчиков. При этом большие объемы данных и сложность задач часто приводят к ошибкам в разметке. Анализ ошибок вопросно-ответной системы, обученной на датасете русского языка SberQuAD, выявил, что 74% ошибок модели связаны с неправильной разметкой датасета (29% - неполный ответ, 19% - размытый вопрос, 14% - неправильный ответ, 12% - слишком общий вопрос), а не с отсутствием возможности модели правильно отвечать на вопросы по контексту [17]. Одна из задач этой работы - выяснить возможно ли использовать методы переноса знаний для того, чтобы сократить объем требуемой тренировочной выборки без существенной потери качества модели.

Однако, не для всех задач можно найти подходящий набор данных. Например, качество решения задачи отслеживания состояния диалога (англ.: Dialogue State Tracking, DST) до сих пор страдает от нехватки подходящих обучающих датасетов. Популярный DST-датасет MultiWOZ 2.0 [18], содержащий диалоги для семи доменов (отель, такси, ресторан и другие), изобилует ошибками разметки: запоздалая разметка - слот размечается после его первоначального использования в диалоге; мультиразметка - токен размечен как относящийся к нескольким слотам; ошибочная разметка - токен назначен неправильному слоту и другие. Исправление этих ошибок привело к нескольким последовательным версиям: MultiWOZ 2.1 [19], MultiWOZ 2.2 [20], MultiWOZ 2.3 [21], MultiWOZ 2.4 [22], каждая из которых исправляет старые ошибки и вносит новые. Факт наличия нескольких ревизий одного датасета значительно осложняет работу разработчикам диалоговых систем. Для сбора диалоговых данных обычно разрабатывается отдельная полуавтоматическая система симуляции диалога, которая работает в режиме Wizard-of-Oz, когда пользователь считает, что общается с автоматической диалоговой системой, а на самом деле - с другим разметчиком (или человеком из команды сбора данных) [23; 24]. Стоимость разработки такой системы ложится тяжелым бременем на сборщиков датасета. Нивелировать часть этих проблем и заметно снизить объем обучающих данных, необходимых для тренировки диалоговой системы, может применение методов переноса знаний.

1https://toloka.yandex.ru/

2https://www.mturk.com/

Целью данной работы является исследование методов переноса знаний при решении проблем обработки естественного языка с помощью нейросете-вых моделей.

Для достижения поставленной цели требуется решить следующие задачи:

1. Предложить метод обучения контекстно-независимых векторных представлений слов при наличии ограниченной обучающей выборки.

2. Предложить способ сравнения качества контекстно-независимых векторных представлений слов.

3. Сравнить качество обученных векторных представлений слов предложенным методом.

4. Предложить способ экономии ресурсов при сборе обучающей выборки и предобучении языковой модели для решения вопросно-ответной задачи целевого языка.

5. Разработать модель отслеживания состояния диалога при помощи последовательного переноса вопросно-ответной модели.

6. Опубликовать в открытом доступе программный код обученных моделей.

Научная новизна:

1. Выполнено сравнение методов построения контекстно-независимых векторных представлений слов для трех малоресурсных языков.

2. Предложен оригинальный способ внутренней оценки качества обученных векторных представлений слов.

3. Выполнено сравнение различных многоязычных и языко-специфичных нейросетевых языковых моделей для решения вопросно-ответной задачи.

4. Показано, что использование многоязычной обучающей выборки позволяет сократить требуемый размер обучающей выборки целевого языка для решения вопросно-ответной задачи.

5. Разработан оригинальный метод переноса вопросно-ответной модели для отслеживания состояния диалога.

Теоретическая и практическая значимость. Следующие положения относятся к теоретической значимости:

— Установлено, что при наличии обучающей выборки ограниченного размера, контекстно-независимые векторные представления, обученные

частотными методами, превосходят векторные представления, обученные нейросетевыми методами.

— Показано, что межъязыковой перенос позволяет использовать общедоступные тренировочные данные английского языка при дообучении M-BERT для вопросно-ответной задачи.

— Экспериментально установлено, что, применяя метод межъязыкового переноса, M-BERT, дообученный с применением многоязычной обучающей выборки, имеет сопоставимое качество с языко-специфичными BERT для вопросно-ответной задачи.

— Разработана оригинальная модель GOLOMB, которая, применяя метод последовательного переноса знаний, использует вопросно-ответную модель SQuAD для отслеживания состояния диалога.

Практическая значимость заключается в следующем:

— Обучены и опубликованы в открытом доступе контекстно-независимые векторные представления для бурятского, эрзянского и коми языков.

— Установлено, что M-BERT, дообученный с применением многоязычной обучающей выборки, имеет сопоставимое качество с языко-специ-фичными BERT для вопросно-ответной задачи, тем самым отпадает необходимость в вычислительных ресурсах для предобучения языко-специфичных BERT.

— Показано, что межъязыковой перенос позволяет использовать общедоступные тренировочные данные английского языка при дообучении M-BERT для вопросно-ответной задачи, таким образом, отпадает необходимость в сборе полноценного тренировочного датасета целевого языка.

— Применение последовательного переноса вопросно-ответной модели позволяет улучшить качество модели отслеживания состояния диалога.

— В открытый доступ выложены модели, обученные в рамках диссертационной работы. Обученные модели готовы для использования в приложениях.

Методология и методы исследования. В исследовании использовались методы численного эксперимента для анализа задач обработки естественного языка, методы машинного обучения, основы теории вероятностей. При создании моделей для библиотеки с открытым кодом DeepPavlov использовались методы разработки на языках Python, Bash.

Основные положения, выносимые на защиту:

1. Векторные представления, обученные частотными методами, превосходят векторные представления, обученные нейросетевыми методами, при использовании обучающей выборки ограниченного размера.

2. Применяя метод межъязыкового переноса, многоязычный BERT, до-обученный с применением многоязычной обучающей выборки, имеет сопоставимое качество, а иногда превосходит языко-специфичные BERT для вопросно-ответной задачи.

3. При наличии большой обучающей выборки модели обучаются быстрее в режиме ранней остановки, чем в режиме фиксированного количества эпох для вопросно-ответной задачи.

4. Метод последовательного переноса позволяет применить вопросно-ответную модель к решению задачи отслеживания состояния диалога, улучшая качество последней.

Достоверность результатов обеспечивается экспериментами при использовании алгоритмов машинного обучения. Модели, обученные в рамках работы, выложены в открытый доступ либо в составе библиотеки DeepPavlov3, либо отдельно. Таким образом обеспечивается воспроизводимость экспериментов. Кроме того, результаты работы согласуются с результатами, полученными другими авторами.

Апробация работы. Результаты исследования были представлены на следующих семинарах и научных конференциях:

— «XXIV Международная конференция по компьютерной лингвистике и интеллектуальным технологиям Диалог», доклад «Learning Word Embeddings For Low Resource Languages: The Case Of Buryat», Vasily Konovalov, Zhargal Tumunbayarova, 30 мая - 2 июня 2018, Москва;

— Конференция «Google NLP Summit 2019», постер «DeepPavlov: An Open-Source Library for Conversational AI», Vasily Konovalov, 22 июня 2019, Цюрих, Швейцария;

— Конференция «IA Week», постер «DeepPavlov: An Open-Source Library for Conversational AI», Vasily Konovalov, 17 - 21 ноября 2019, Тель-Авив, Израиль;

3https://github.com/deepmipt/DeepPavlov/

— Конференция «AI Journey», постер «Multi-task Dialogue State Tracking», Pavel Gulyaev, Evgenia Elistratova, Vasily Konovalov, Mikhail Burtsev, 8 - 9 ноября 2019, Москва;

— Конференция «AAAI Conference on Artificial Intelligence (AAAI-20)», постер «Goal-Oriented Multi-Task BERT-Based Dialogue State Tracker», 7 -8 февраля, 2020, Нью-Йорк, США;

— «XXVI Международная конференция по компьютерной лингвистике и интеллектуальным технологиям Диалог», доклад «Exploring the BERT Cross-Lingual Transfer for Reading Comprehension», Vasily Konovalov, Pavel Gulyaev, Alexey Sorokin, Yury Kuratov, Mikhail Burtsev, 17 июня -20 июня 2020, Москва.

Личный вклад. В работе [25] (индексируется Scopus) автором собран и предобработан корпус, проанализированы методы обучения векторных представлений слов, обучены векторные представления слов, разработана методика анализа качества векторных представлений слов, обученных разными способами. В работе [26] (индексируется Scopus) автором выполнены эксперименты по дообучению моделей, построены кривые обучения и проанализированы результаты. В работах [27] и [28] (индексируется RSCI) автором реализована часть модели отслеживания состояния диалога, проведены эксперименты, выполнен анализ результатов. В работе [29] автором адаптированы модели классификации текста для случая ограниченной тренировочной выборки.

Публикации. Основные результаты по теме диссертации изложены в 5 печатных изданиях, 1 из которых издано в журналах, индексируемых RSCI, 2 —в периодических научных журналах, индексируемых Web of Science и Scopus.

Объем и структура работы. Работа состоит из введения, 4 глав, заключения. Полный объём диссертации составляет 127 страниц, включая 18 рисунков и 24 таблицы. Список литературы содержит 157 наименований.

Глава 1. Применение переноса знаний к проблемам обработки

естественного языка

1.1 Парадигма переноса знаний

В сценарии машинного обучения с учителем при обучении модели для задачи и домена предполагается, что предоставлены размеченные данные для той же задачи и домена [1; 2]. Традиционная парадигма машинного обучения с учителем сталкивается с трудностями, когда нет достаточного количества размеченных данных для обучения целевой задачи на целевом домене. Перенос знаний (англ.: transfer learning) позволяет использовать результаты, полученные при решении некоторой исходной задачи на исходном домене, для решения целевой задачи на целевом домене.

Домен D состоит из пространства признаков х и распределения Р(X), где X = {ж|Xi € х,ъ = 1, ...,п}. Задача т состоит из пространства классов и и функции принятия решений f : т = {и, f}. Функция f обучается алгоритмами машинного обучения f (xj) = {Р(yk|Xj€ и,к = 1,...,|u|}.

Исходный домен Ds задачи т^ содержит размеченную обучающую выборку Dg = {(x,y)lxi € xS,Уг € ,i = 1,...,ns}, при этом целевой домен DT содержит либо ограниченное число размеченных примеров, либо только неразмеченные примеры.

Таким образом, при наличии обучающей выборки для исходных задач и доменов {(DSi, т^)|г = 1,...,ms} и выборки для целевых задач и доменов {(D^, тд)|г = 1,...,тт}, перенос обучения использует знания, полученные при решении исходных задач т^ на исходных доменах Ds, для решения целевых задач тт на целевых доменах Dt, улучшая функции принятия решений fт. Определение дано для общего случая, когда учитывается произвольное количество исходных и целевых задач. Большинство случаев применения переноса знаний имеют дело с ms = mT = 1 [30].

1.2 Таксономия переноса знаний

Таксономия методов переноса знаний, адаптированная к обработке естественного языка, приведена на рисунке 1.1 [31]. Перенос знаний делится на две основные группы: индуктивное обучение и трансдуктивное обучение.

Рисунок 1.1 — Таксономия методов переноса знаний, адаптированная к обработке естественного языка

Цель индуктивного обучения - улучшить функцию /т на целевом домене Ит, используя знания, полученные из Ив и т^, когда т^ = тт. Индуктивное обучение предполагает, что доступна размеченная обучающая выборка для целевой задачи. При этом для исходной задачи не обязательно наличие размеченной обучающей выборки (обязательно должна быть неразмеченная выборка).

При последовательном переносе модели исходной и целевой задач обучаются последовательно. То есть сначала обучается модель исходной задачи на размеченной или неразмеченной выборке, затем, используя знания, полученные при обучении на исходную задачу, обучается модель целевой задачи. Например, контекстно-независимые векторные представления, обученные на неразмеченной выборке, в последующем используются для решения многих задач КЬР. В главе 4 описан последовательный перенос вопросно-ответной модели на задачу отслеживания состояния диалога.

Для многозадачного обучения доступна обучающая выборка как для исходной задачи, так и для целевой задачи. При этом для обоих задач обучается единая модель с учетом единой функции потерь. Предполагается, что единая модель, обучаясь одновременно на несколько задач, улучшает качество

решения целевой задачи. Применение многозадачного обучения в NLP приводится в главе 1.6.

Трансдуктивное обучение предполагает, что исходная и целевая задачи одинаковы т^ = тв, однако домены задач могут быть разными, при этом для целевой задачи доступно ограниченное количество неразмеченных данных [32]. В главе 1.8 описан метод адаптации домена универсальной языковой модели BERT к разговорному домену.

Межъязыковой перенос знаний подразумевает, что исходная и целевая задачи совпадают, однако используют разные языки. Анализ возможностей многоязычного M-BERT к межъязыковому переносу рассмотрен в главе 1.7. Применение M-BERT к вопросно-ответной задаче для экономии сбора данных и разметки вопросно-ответного корпуса целевого языка описано в главе 3.

1.2.1 Последовательный перенос знаний

Последовательный перенос знаний (англ.: sequential transfer learning) или перенос модели - это вид переноса знаний, при котором обучение для решения исходной и целевой задач выполняется последовательно. Целью последовательного переноса является улучшение качества целевой модели за счет использования результатов обучения исходной модели [33].

Последовательный перенос используется в следующих сценариях:

— тренировочные данные для обоих задач недоступны одновременно;

— исходная задача имеет гораздо больший тренировочный датасет, чем целевая задача;

— существует несколько целевых задач сходных с исходной задачей.

Последовательный перенос знаний состоит из двух этапов:

— Предобучение. На этапе предобучения модель обучается на исходную задачу. Зачастую предобучение на исходную задачу требует значительных вычислительных ресурсов и занимает много времени, однако выполняется единожды.

— Дообучение. Модель дообучается на целевую задачу с переносом знаний, полученных на этапе предобучения. На этой стадии модель менее требовательна к ресурсам, чем на предыдущей.

Выбор исходной задачи - это основная проблема при применении последовательного переноса модели. Обычно выбирают задачу, которая обучает универсальное векторное представление текста так, чтобы улучшение качества произошло не только на целевой задаче, но и на широком спектре подобных задач. Далее будут рассмотрены методы обучения контекстно-независимых векторных представлений и их сравнение. Применение переноса вопросно-ответной модели к задаче отслеживания состояния диалога описано в главе 4.

Обучение векторного представления слов

Векторное представление слов является важной областью исследований в КЬР. Модели, использующие предобученные контекстно-независимые векторные представления, добиваются высоких результатов в решении целевых задач за счет применения последовательного переноса знаний. Способы обучения контекстно-независимых векторных представлений делятся на две основные группы: частотные методы, работающие на основе матрицы совстречаемости слов, и нейросетевые методы. Все методы построения векторных представлений слов так или иначе работают на основе дистрибутивной гипотезы: «Слова, которые встречаются в схожих контекстах, имеют схожий смысл» [34]. При этом контекст в каждом случае устанавливается параметрически, это может быть к слов слева от целевого слова, справа, или симметрично.

Частотные методы

Частотные методы, основанные на учете совместного употребления слов, используют матрицу совстречаемости слов - А. Матрица А фиксирует отношения между словами на основе того, как часто они употребляются в тексте совместно. Матрица А - квадратная матрица |У| х |У|, где V - словарь, А^ указывает на то, сколько раз целевое слово % употребляется в контексте слова у, контекстом является к слов слева от г, справа или симметрично. Таким образом, матрица А представляет собой вычислительную имплементацию дистрибутив-

ной гипотезы. Схожесть в естественном языке выражается в синонимах -словах, разных по написанию, но близких по смыслу. Схожесть векторных представлений слов v и w из матрицы А определяется метриками сходства между векторами. Одной из таких метрик является косинусное сходство:

. , \ V • w г Vi • wt

cosmeiv ,w) = —г,—г = —. { 1— . (1.1)

мн

Самые частотные слова в языке, такие как артикли и предлоги, несут мало информации о целевом слове [35]. При этом они значительно смещают вектор целевого слова. Для того чтобы нивелировать влияние частотных слов в контексте, используется точечная взаимная информация (англ.: Pointwise mutual information, PMI):

PMI (w,c) = log ^

= #(w,c) • IDI

#N • #(c),

где P(w,c) - вероятность того, что токен w встретился в контексте с, D -набор пар (слово, контекст) с учетом размера контекста, #(w,c) - количество раз, когда пара (слово, контекст) встретилась в D. При этом

#N = Е #(w,c'),

С' evc

#(с) = Е #(w>,°),

w'evw

где Vc - словарь контекстов, Vw - словарь слов. Таким образом PMI измеряет ассоциативность слов и вычисляется как отношение вероятности совместного употребления w, с в некотором контексте к произведению вероятностей их появления независимо друг от друга.

Нейросетевые методы

Частотные методы строят векторные представления слов большой размерности до размера словаря \V |. Зачастую такие вектора являются разряженными, то есть большинство элементов в них равны нулю. Нейросетевые методы в свою очередь создают плотные векторные представления слов размерностью от 50 до 1,000, элементами которых являются вещественные числа. Принципиальное отличие нейросетевых методов в том, что они обучают модель, которая не требует размеченных данных. В качестве обучающей выборки выступают неразмеченные текстовые данные. Было установлено, что плотные векторные представления, обученные нейросетевыми методами, превосходят векторные представления, обученные частотными методами, на ряде задач NLP [36].

Далее будут рассмотрены методы пакета word2vec: CBoW, SGNS, которые были впервые представлены в работе «Efficient Estimation of Word Representations in Vector Space» в 2013 году специалистами компании Google.

Модель Skip-Gram - это однослойная нейросетевая модель без нелинейности. Задача метода Skip-Gram состоит в том, чтобы обучить модель, которая по целевому слову w предсказывает наиболее подходящий ему контекст Cw, состоящий из нескольких слов с £ Cw. Матрица весов Е, размерностью V х N от входного до скрытого слоя, представляет собой обучаемую матрицу векторных представлений входного слова w, где V - размер словаря, N - размерность векторного представления. Матрица весов Е', размерностью N х V от скрытого слоя к выходному слою, представляет собой обучаемую матрицу векторных представлений контекста. В качестве функции потерь используется:

С = logр(с £ Сlw).

Подробнее метод Skip-Gram рассмотрен в главе 2.1.

Модель Непрерывного мешка слов (англ.: Continuous Bag-of-Words, CBoW) - это однослойная нейросетевая модель без нелинейности. Подход CBoW является обратным тому, что делает SGNS. На вход модель принимает непрерывный мешок слов контекста с £ Cw, с целью предсказать наиболее вероятное в этом контексте целевое слово w. В качестве функции потерь используется:

С = log p(wlCw).

Подробнее метод CBoW рассмотрен в главе 2.1. Схемы обоих архитектур представлены на рисунке 1.2.

Рисунок 1.2 — Архитектуры CBoW и SGNS [5]

Оценка качества векторных представлений слов

Обучение векторных представлений происходило на корпусе Google News. Размер словаря ограничен 1 миллионом наиболее популярных слов. Скорость обучения: 0.025. Модель обучалась в течение трех эпох.

Для оценки качества предобученных векторных представлений слов используется задача аналогий. Фактически осуществляется перенос знаний из обученных векторных представлений на решение задачи аналогий [5].

Датасет аналогий включает в себя пять типов семантических тестов (государство-столица, государство-денежная единица и другие) и девять типов

синтаксических тестов (антонимы, разные времена одного глагола, сравнительная степень прилагательных и другие). Для выполнения этих тестов необходимо совершить арифметические действия над векторами, например, для теста большой-больше::малый-меньше необходимо определить вектор максимально близкий к вектору X = vector (больше) — vector (большой) + vector (малый). Если, используя косинусную близость, наиболее близкий к вектору будет vector (меньше), то тест считается пройденным. Всего датасет содержит 8,869 семантических и 10,675 синтаксических тестов. Таким образом, для решения задачи аналогий не используются никакие другие знания, помимо полученных при обучении векторных представлений слов (задача аналогий не имеет тренировочной выборки). Результаты сравнения векторов приведены в таблице 1.

Список литературы диссертационного исследования кандидат наук Коновалов Василий Павлович, 2022 год

Список литературы

1. Eisenstein, J. Introduction to natural language processing / J. Eisenstein. — MIT press, 2019.

2. Anzai, Y. Pattern recognition and machine learning / Y. Anzai. — Elsevier, 2012.

3. Siencnik, S. K. Adapting word2vec to named entity recognition / S. K. Siencnik. — 2015.

4. Kim, J. Word2Vec based spelling correction method of Twitter message / J. Kim, T. Hong, P. Kim. — 2019.

5. Efficient estimation of word representations in vector space / T. Mikolov [и др.] // arXiv preprint arXiv:1301.3781. — 2013.

6. Pennington, J. Glove: Global vectors for word representation / J. Pennington, R. Socher, C. D. Manning // Proceedings of the 2014 conference on empirical methods in natural language processing (EMNLP). — 2014. — С. 1532—1543.

7. Enriching word vectors with subword information / P. Bojanowski [и др.] // Transactions of the Association for Computational Linguistics. — 2017. — Т. 5. — С. 135—146.

8. Magueresse, A. Low-resource Languages: A Review of Past Work and Future Challenges / A. Magueresse, V. Carles, E. Heetderks // arXiv preprint arXiv:2006.07264. — 2020.

9. Church, K. Word association norms, mutual information, and lexicography / K. Church, P. Hanks // Computational linguistics. — 1990. — Т. 16, № 1. — С. 22—29.

10. Eckart, C. The approximation of one matrix by another of lower rank / C. Eckart, G. Young // Psychometrika. — 1936. — Т. 1, № 3. — С. 211—218.

11. Kim, Y. Convolutional Neural Networks for Sentence Classification / Y. Kim. — 2014. — Окт.

12. Deep Contextualized Word Representations / M. Peters [h gp.] // Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long Papers). — New Orleans, Louisiana : Association for Computational Linguistics, 06.2018. — C. 2227—2237.

13. Bert: Pre-training of deep bidirectional transformers for language understanding / J. Devlin [h gp.] // arXiv preprint arXiv:1810.04805. — 2018.

14. GLUE: A multi-task benchmark and analysis platform for natural language understanding / A. Wang [h gp.] // arXiv preprint arXiv:1804.07461. — 2018.

15. SWAG: A Large-Scale Adversarial Dataset for Grounded Commonsense Inference / R. Zellers [h gp.] // EMNLP. — 2018.

16. SQuAD: 100,000+ Questions for Machine Comprehension of Text / P. Rajpurkar [h gp.] // Proceedings of the 2016 Conference on Empirical Methods in Natural Language Processing. — 2016. — C. 2383—2392.

17. SberQuAD-Russian reading comprehension dataset: Description and analysis / P. Efimov [h gp.] // International Conference of the Cross-Language Evaluation Forum for European Languages. — Springer. 2020. — C. 3—15.

18. MultiWOZ - A Large-Scale Multi-Domain Wizard-of-Oz Dataset for Task-Oriented Dialogue Modelling / P. Budzianowski [h gp.] // Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing. — Brussels, Belgium : Association for Computational Linguistics, 10.2018. — C. 5016—5026.

19. MultiWOZ 2.1: A consolidated multi-domain dialogue dataset with state corrections and state tracking baselines / M. Eric [h gp.] // arXiv preprint arXiv:1907.01669. — 2019.

20. MultiWOZ 2.2: A dialogue dataset with additional annotation corrections and state tracking baselines / X. Zang [h gp.] // arXiv preprint arXiv:2007.12720. — 2020.

21. MultiWOZ 2.3: A multi-domain task-oriented dataset enhanced with annotation corrections and co-reference annotation / T. Han [h gp.] // arXiv preprint arXiv:2010.05594. — 2020.

22. Ye, F. MultiWOZ 2.4: A Multi-Domain Task-Oriented Dialogue Dataset with Essential Annotation Corrections to Improve State Tracking Evaluation / F. Ye, J. Manotumruksa, E. Yilmaz // arXiv preprint arXiv:2104.00773. — 2021.

23. The negochat corpus of human-agent negotiation dialogues / V. Konovalov [и др.] // Proceedings of the Tenth International Conference on Language Resources and Evaluation (LREC'16). — 2016. — С. 3141—3145.

24. Kelley, J. F. An iterative design methodology for user-friendly natural language office information applications / J. F. Kelley // ACM Transactions on Information Systems (TOIS). — 1984. — Т. 2, № 1. — С. 26—41.

25. Konovalov, V. Learning Word Embeddings For Low Resourse Languages: The Case Of Buryat / V. Konovalov, Z. Tumunbayarova // Komp'juternaja Lingvistika i Intellektual'nye Tehnologii. — 2018. — С. 331—341.

26. Exploring the BERT Cross-Lingual Transfer for Reading Comprehension / V. Konovalov [и др.] // Komp'juternaja Lingvistika i Intellektual'nye Tehnologii. — 2020. — С. 445—453.

27. Goal-oriented multi-task bert-based dialogue state tracker / P. Gulyaev [и др.] // arXiv preprint arXiv:2002.02450. — 2020.

28. Отслеживание состояния целеориентированного диалога на основе БЕРТ / П. А. Гуляев [и др.] // Труды МФТИ. — 2021. — Т. 13, № 3. — С. 48—61.

29. Deeppavlov: An open source library for conversational ai / M. Burtsev [и др.] //. — 2018.

30. Pan, S. J. A survey on transfer learning / S.J. Pan, Q. Yang // IEEE Transactions on knowledge and data engineering. — 2009. — Т. 22, № 10. — С. 1345—1359.

31. Ruder, S. Neural transfer learning for natural language processing : дис. ... канд. / Ruder Sebastian. — NUI Galway, 2019.

32. Arnold, A. A comparative study of methods for transductive transfer learning / A. Arnold, R. Nallapati, W. W. Cohen // Seventh IEEE international conference on data mining workshops (ICDMW 2007). — IEEE. 2007. — С. 77—82.

33. Wang, D. Transfer learning for speech and language processing / D. Wang, T. F. Zheng // 2015 Asia-Pacific Signal and Information Processing Association Annual Summit and Conference (APSIPA). — IEEE. 2015. — C. 1225—1237.

34. Sahlgren, M. The Distributional Hypothesis: From context to meaning / M. Sahlgren // Distributional models of the lexicon in linguistics and cognitive science, Special issue of the Italian Journal of Linguistics. —.

35. Corpus, O. E. Facts about the language / O. E. Corpus. — 2011.

36. Baroni, M. Don't count, predict! a systematic comparison of context-counting vs. context-predicting semantic vectors / M. Baroni, G. Dinu, G. Kruszewski // Proceedings of the 52nd Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). — 2014. — C. 238—247.

37. Collobert, R. A unified architecture for natural language processing: Deep neural networks with multitask learning / R. Collobert, J. Weston // Proceedings of the 25th international conference on Machine learning. — 2008. — C. 160—167.

38. Deng, L. New types of deep neural network learning for speech recognition and related applications: An overview / L. Deng, G. Hinton, B. Kingsbury // 2013 IEEE international conference on acoustics, speech and signal processing. — IEEE. 2013. — C. 8599—8603.

39. Latent multi-task architecture learning / S. Ruder [h gp.] // Proceedings of the AAAI Conference on Artificial Intelligence. T. 33. — 2019. — C. 4822—4829.

40. Ruder, S. A survey of cross-lingual word embedding models / S. Ruder, I. Vulic, A. S0gaard // Journal of Artificial Intelligence Research. — 2019. — T. 65. — C. 569—631.

41. Mikolov, T. Exploiting similarities among languages for machine translation / T. Mikolov, Q. V. Le, I. Sutskever // arXiv preprint arXiv:1309.4168. — 2013.

42. Artetxe, M. Learning principled bilingual mappings of word embeddings while preserving monolingual invariance / M. Artetxe, G. Labaka, E. Agirre // Proceedings of the 2016 Conference on Empirical Methods in Natural Language Processing. — Austin, Texas : Association for Computational Linguistics, 11.2016. — C. 2289—2294.

43. Hermann, K. M. Multilingual distributed representations without word alignment / K. M. Hermann, P. Blunsom // arXiv preprint arXiv:1312.6173. — 2013.

44. Hermann, K. M. Multilingual models for compositional distributed semantics / K. M. Hermann, P. Blunsom // arXiv preprint arXiv:1404.4641. — 2014.

45. Margolis, A. Domain adaptation with unlabeled data for dialog act tagging / A. Margolis, K. Livescu, M. Ostendorf // Proceedings of the 2010 Workshop on Domain Adaptation for Natural Language Processing. — 2010. — C. 45—52.

46. Attention is all you need / A. Vaswani [h gp.] // Advances in neural information processing systems. — 2017. — T. 30.

47. Image transformer / N. Parmar [h gp.] // International Conference on Machine Learning. — PMLR. 2018. — C. 4055—4064.

48. Sample efficient text summarization using a single pre-trained transformer / U. Khandelwal [h gp.] // arXiv preprint arXiv:1905.08836. — 2019.

49. Improving language understanding by generative pre-training / A. Radford [h gp.]. — 2018.

50. Deep residual learning for image recognition / K. He [h gp.] // Proceedings of the IEEE conference on computer vision and pattern recognition. — 2016. — C. 770—778.

51. Ba, J. L. Layer normalization / J. L. Ba, J. R. Kiros, G. E. Hinton // arXiv preprint arXiv:1607.06450. — 2016.

52. Bahdanau, D. Neural Machine Translation by Jointly Learning to Align and Translate / D. Bahdanau, K. Cho, Y. Bengio // CoRR. — 2015. — T. abs/1409.0473.

53. Hochreiter, S. The vanishing gradient problem during learning recurrent neural nets and problem solutions / S. Hochreiter // International Journal of Uncertainty, Fuzziness and Knowledge-Based Systems. — 1998. — T. 6, № 02. — C. 107—116.

54. Machacek, M. Results of the WMT14 Metrics Shared Task / M. Machacek, O. Bojar // Proceedings of the Ninth Workshop on Statistical Machine Translation. — Baltimore, Maryland, USA : Association for Computational Linguistics, 06.2014. — C. 293—301.

55. Kingma, D. P. Adam: A method for stochastic optimization / D. P. Kingma, J. Ba // arXiv preprint arXiv:1412.6980. — 2014.

56. Rethinking the inception architecture for computer vision / C. Szegedy [h gp.] // Proceedings of the IEEE conference on computer vision and pattern recognition. — 2016. — C. 2818—2826.

57. Google's neural machine translation system: Bridging the gap between human and machine translation / Y. Wu [h gp.] // arXiv preprint arXiv:1609.08144. — 2016.

58. Convolutional sequence to sequence learning / J. Gehring [h gp.] // International Conference on Machine Learning. — PMLR. 2017. — C. 1243—1252.

59. Aligning books and movies: Towards story-like visual explanations by watching movies and reading books / Y. Zhu [h gp.] // Proceedings of the IEEE international conference on computer vision. — 2015. — C. 19—27.

60. Recursive deep models for semantic compositionality over a sentiment treebank / R. Socher [h gp.] // Proceedings of the 2013 conference on empirical methods in natural language processing. — 2013. — C. 1631—1642.

61. Warstadt, A. Neural network acceptability judgments / A. Warstadt, A. Singh, S. R. Bowman // Transactions of the Association for Computational Linguistics. — 2019. — T. 7. — C. 625—641.

62. Semeval-2017 task 1: Semantic textual similarity-multilingual and cross-lingual focused evaluation / D. Cer [h gp.] // arXiv preprint arXiv:1708.00055. — 2017.

63. Dolan, W. B. Automatically constructing a corpus of sentential paraphrases / W. B. Dolan, C. Brockett // Proceedings of the Third International Workshop on Paraphrasing (IWP2005). — 2005.

64. Quora question pairs / Z. Chen [h gp.]. — 2018.

65. Williams, A. A broad-coverage challenge corpus for sentence understanding through inference / A. Williams, N. Nangia, S. R. Bowman // arXiv preprint arXiv:1704.05426. — 2017.

66. The Fifth PASCAL Recognizing Textual Entailment Challenge. / L. Bentivogli [h gp.] // TAC. — 2009.

67. Levesque, H. The winograd schema challenge / H. Levesque, E. Davis, L. Morgenstern // Thirteenth International Conference on the Principles of Knowledge Representation and Reasoning. — 2012.

68. Superglue: A stickier benchmark for general-purpose language understanding systems / A. Wang [h gp.] // Advances in neural information processing systems. — 2019. — T. 32.

69. Multi-Task Deep Neural Networks for Natural Language Understanding / X. Liu [h gp.] // ACL. — 2019.

70. Liu, X. Stochastic answer networks for natural language inference / X. Liu, K. Duh, J. Gao // arXiv preprint arXiv:1804.07888. — 2018.

71. Jacob, D. bert / D. Jacob. — 2018. — https://github.com/google-research/bert.

72. Pires, T. How Multilingual is Multilingual BERT? / T. Pires, E. Schlinger, D. Garrette // Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics. — Florence, Italy : Association for Computational Linguistics, 07.2019. — C. 4996—5001.

73. Tjong Kim Sang, E. F. Introduction to the CoNLL-2003 Shared Task: Language-Independent Named Entity Recognition / E. F. Tjong Kim Sang, F. De Meulder // Proceedings of the Seventh Conference on Natural Language Learning at HLT-NAACL 2003. — 2003. — C. 142—147.

74. Tjong Kim Sang, E. F. Introduction to the CoNLL-2002 Shared Task: Language-Independent Named Entity Recognition / E. F. Tjong Kim Sang // C0LING-02: The 6th Conference on Natural Language Learning 2002 (CoNLL-2002). — 2002.

75. Universal dependencies v1: A multilingual treebank collection / J. Nivre [и др.] // Proceedings of the Tenth International Conference on Language Resources and Evaluation (LREC'16). — 2016. — С. 1659—1666.

76. Kuratov, Y. Adaptation of deep bidirectional multilingual transformers for russian language / Y. Kuratov, M. Arkhipov // arXiv preprint arXiv:1905.07213. — 2019.

77. Куратов, Ю. Специализация языковых моделей для применения к задачам обработки естественного языка : дис. ... канд. / Куратов Юрий. — 141701, Московская область, г. Долгопрудный, Институтский переулок, д.9 : «Московский физико-технический институт (национальный исследовательский университет), 12.2020.

78. RuSentiment: An enriched sentiment analysis dataset for social media in Russian / A. Rogers [и др.] // Proceedings of the 27th international conference on computational linguistics. — 2018. — С. 755—763.

79. ParaPhraser: Russian paraphrase corpus and shared task / L. Pivovarova [и др.] // Conference on Artificial Intelligence and Natural Language. — Springer. 2017. — С. 211—225.

80. Abdaoui, A. Load What You Need: Smaller Versions of Mutlilingual BERT / A. Abdaoui, C. Pradel, G. Sigel // SUSTAINLP. — 2020.

81. XNLI: Evaluating cross-lingual sentence representations / A. Conneau [и др.] // arXiv preprint arXiv:1809.05053. — 2018.

82. Williams, A. A Broad-Coverage Challenge Corpus for Sentence Understanding through Inference / A. Williams, N. Nangia, S. Bowman // Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long Papers). — New Orleans, Louisiana : Association for Computational Linguistics, 2018. — С. 1112—1122.

83. Dailydialog: A manually labelled multi-turn dialogue dataset / Y. Li [и др.] // arXiv preprint arXiv:1710.03957. — 2017.

84. Effects of age and gender on blogging. / J. Schler [и др.] // AAAI spring symposium: Computational approaches to analyzing weblogs. Т. 6. — 2006. — С. 199—205.

85. Conversational flow in Oxford-style debates / J. Zhang [и др.] // arXiv preprint arXiv:1604.03114. — 2016.

86. Lison, P. 0pensubtitles2016: Extracting large parallel corpora from movie and tv subtitles / P. Lison, J. Tiedemann. — 2016.

87. Del Corso, G. M. Ranking a stream of news / G. M. Del Corso, A. Gulli, F. Romani // Proceedings of the 14th international conference on World Wide Web. — 2005. — С. 97—106.

88. Sang, E. F. Introduction to the CoNLL-2003 shared task: Language-independent named entity recognition / E. F. Sang, F. De Meulder // arXiv preprint cs/0306050. — 2003.

89. Rcv1: A new benchmark collection for text categorization research / D. D. Lewis [и др.] // Journal of machine learning research. — 2004. — Т. 5, Apr. — С. 361—397.

90. Results of the wnut16 named entity recognition shared task / B. Strauss [и др.] // Proceedings of the 2nd Workshop on Noisy User-generated Text (WNUT). — 2016. — С. 138—144.

91. TWEETQA: A social media focused question answering dataset / W. Xiong [и др.] // arXiv preprint arXiv:1907.06292. — 2019.

92. Алпатов, В. М. Языковая ситуация в регионах современной России / В. М. Алпатов // Отечественные записки. — 2005. — № 2. — С. 210—219.

93. LowResourceEval-2019: a shared task on morphological analysis for low-resource languages / E. Klyachko [и др.] // arXiv preprint arXiv:2001.11285. — 2020.

94. Goldberg, Y. A primer on neural network models for natural language processing / Y. Goldberg // Journal of Artificial Intelligence Research. — 2016. — Т. 57. — С. 345—420.

95. A new approach for automatic thesaurus construction and query expansion for document retrieval / L.-Y. Chen, S.-M. Chen [и др.] // International journal of information and management sciences. — 2007. — Т. 18, № 4. — С. 299.

96. Building comparable corpora based on bilingual lda model / Z. Zhu [и др.] // Proceedings of the 51st Annual Meeting of the Association for Computational Linguistics (Volume 2: Short Papers). — 2013. — С. 278—282.

97. Di Marco, A. Clustering and diversifying web search results with graph-based word sense induction / A. Di Marco, R. Navigli // Computational Linguistics. — 2013. — Т. 39, № 3. — С. 709—754.

98. Levy, O. Improving distributional similarity with lessons learned from word embeddings / O. Levy, Y. Goldberg, I. Dagan // Transactions of the association for computational linguistics. — 2015. — Т. 3. — С. 211—225.

99. Turney, P. D. From frequency to meaning: Vector space models of semantics / P. D. Turney, P. Pantel // Journal of artificial intelligence research. — 2010. — Т. 37. — С. 141—188.

100. Distributed representations of words and phrases and their compositionality / T. Mikolov [и др.] // Advances in neural information processing systems. — 2013. — С. 3111—3119.

101. Numerical recipes 3rd edition: The art of scientific computing / W. H. Press [и др.]. — Cambridge university press, 2007.

102. Rehurek, R. Gensim-python framework for vector space modelling / R. Rehurek, P. Sojka // NLP Centre, Faculty of Informatics, Masaryk University, Brno, Czech Republic. — 2011. — Т. 3, № 2.

103. Dissect-distributional semantics composition toolkit / G. Dinu, M. Baroni [и др.] // Proceedings of the 51st Annual Meeting of the Association for Computational Linguistics: System Demonstrations. — 2013. — С. 31—36.

104. Всероссийская перепись населения 2010 [Электронный ресурс]. — 2010.

105. Janhunen, J. The Mongolic Languages. Т. 5 / J. Janhunen. — Routledge, 2006.

106. Erzya [Электронный ресурс]. — 2010.

107. ЗАКОН РЕСПУБЛИКИ КОМИ. — 2006.

108. Rubenstein, H. Contextual correlates of synonymy / H. Rubenstein, J. B. Goodenough // Communications of the ACM. — 1965. — Т. 8, № 10. — С. 627—633.

109. Placing search in context: The concept revisited / L. Finkelstein [и др.] // Proceedings of the 10th international conference on World Wide Web. — 2001. — С. 406—414.

110. A study on similarity and relatedness using distributional and wordnet-based approaches / E. Agirre [h gp.]. — 2009.

111. Distributional semantics in technicolor / E. Bruni [h gp.] // Proceedings of the 50th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). — 2012. — C. 136—145.

112. Simverb-3500: A large-scale evaluation set of verb similarity / D. Gerz [h gp.] // arXiv preprint arXiv:1608.00869. — 2016.

113. Avraham, O. Improving reliability of word similarity evaluation by redesigning annotation task and performance measure / O. Avraham, Y. Goldberg // arXiv preprint arXiv:1611.03641. — 2016.

114. Sahlgren, M. The effects of data size and frequency range on distributional semantic models / M. Sahlgren, A. Lenci // arXiv preprint arXiv:1609.08293. — 2016.

115. Evaluating word embedding models: Methods and experimental results /

B. Wang [h gp.] // APSIPA transactions on signal and information processing. — 2019. — T. 8.

116. Nayak, N. Evaluating word embeddings using a representative suite of practical tasks / N. Nayak, G. Angeli, C. D. Manning // Proceedings of the 1st workshop on evaluating vector-space representations for nlp. — 2016. —

C. 19—23.

117. Universal dependencies / M.-C. de Marneffe [h gp.] // Computational linguistics. — 2021. — T. 47, № 2. — C. 255—308.

118. Universal dependencies for russian: A new syntactic dependencies tagset / O. Lyashevskaya [h gp.] // Lyashevkaya, K. Droganova, D. Zeman, M. Alexeeva, T. Gavrilova, N. Mustafina, E. Shakurova//Higher School of Economics Research Paper No. WP BRP. — 2016. — T. 44.

119. Petrov, S. A Universal Part-of-Speech Tagset / S. Petrov, D. Das, R. McDonald // Proceedings of the Eighth International Conference on Language Resources and Evaluation (LREC'12). — Istanbul, Turkey : European Language Resources Association (ELRA), 05.2012. — C. 2089—2096.

120. Zeman, D. Reusable Tagset Conversion Using Tagset Drivers. / D. Zeman // LREC. T. 2008. — 2008. — C. 28—30.

121. Tsarfaty, R. A Unified Morpho-Syntactic Scheme of Stanford Dependencies / R. Tsarfaty // Proceedings of the 51st Annual Meeting of the Association for Computational Linguistics (Volume 2: Short Papers). — Sofia, Bulgaria : Association for Computational Linguistics, 08.2013. — C. 578—584.

122. Universal Stanford dependencies: A cross-linguistic typology / M.-C. de Marneffe [h gp.] // Proceedings of the Ninth International Conference on Language Resources and Evaluation (LREC'14). — Reykjavik, Iceland : European Language Resources Association (ELRA), 05.2014. — C. 4585—4592.

123. Building the essential resources for Finnish: the Turku Dependency Treebank / K. Haverinen [h gp.] // Language Resources and Evaluation. — 2014. — T. 48, № 3. — C. 493—531.

124. Badmaeva, E. A Dependency Treebank for Buryat. / E. Badmaeva, F. M. Tyers // TLT. — 2017. — C. 1—12.

125. Rueter, J. Towards an open-source universal-dependency treebank for Erzya / J. Rueter, F. Tyers // Proceedings of the Fourth International Workshop on Computational Linguistics of Uralic Languages. — 2018. — C. 106—118.

126. The first komi-zyrian universal dependencies treebanks / N. Partanen [h gp.] // Second Workshop on Universal Dependencies (UDW 2018), November 2018, Brussels, Belgium. — 2018. — C. 126—132.

127. Tyers, F. M. UD Annotatrix: An annotation tool for Universal Dependencies / F. M. Tyers, M. Sheyanova, J. N. Washington // TLT. — 2018.

128. Hochreiter, S. Long short-term memory / S. Hochreiter, J. Schmidhuber // Neural computation. — 1997. — T. 9, № 8. — C. 1735—1780.

129. Hirschman, L. Natural language question answering: the view from here / L. Hirschman, R. Gaizauskas // natural language engineering. — 2001. — T. 7, № 4. — C. 275—300.

130. Dbpedia-a large-scale, multilingual knowledge base extracted from wikipedia / J. Lehmann [h gp.] // Semantic web. — 2015. — T. 6, № 2. — C. 167—195.

131. Vrandecic, D. Wikidata: a free collaborative knowledgebase / D. Vrandecic, M. Krotzsch // Communications of the ACM. — 2014. — T. 57, № 10. — C. 78—85.

132. Freebase: a collaboratively created graph database for structuring human knowledge / K. Bollacker [h gp.] // Proceedings of the 2008 ACM SIGMOD international conference on Management of data. — 2008. — C. 1247—1250.

133. Rajpurkar, P. Know what you don't know: Unanswerable questions for SQuAD / P. Rajpurkar, R. Jia, P. Liang // arXiv preprint arXiv:1806.03822. — 2018.

134. Drcd: a chinese machine reading comprehension dataset / C. C. Shao [h gp.] // arXiv preprint arXiv:1806.00920. — 2018.

135. Gated convolutional neural network for semantic segmentation in highresolution images / H. Wang [h gp.] // Remote Sensing. — 2017. — T. 9, № 5. — C. 446.

136. Bidirectional attention flow for machine comprehension / M. Seo [h gp.] // arXiv preprint arXiv:1611.01603. — 2016.

137. DistilBERT, a distilled version of BERT: smaller, faster, cheaper and lighter / V. Sanh [h gp.] // arXiv preprint arXiv:1910.01108. — 2019.

138. Loshchilov, I. Fixing weight decay regularization in adam / I. Loshchilov, F. Hutter. — 2018.

139. KlUwer, T. From chatbots to dialog systems / T. Klüwer // Conversational agents and natural language interaction: Techniques and Effective Practices. — IGI Global, 2011. — C. 1—22.

140. Weizenbaum, J. ELIZA—a computer program for the study of natural language communication between man and machine / J. Weizenbaum // Communications of the ACM. — 1966. — T. 9, № 1. — C. 36—45.

141. Let's go public! taking a spoken dialog system to the real world / A. Raux [h gp.] //in Proc. of Interspeech 2005. — Citeseer. 2005.

142. The design and implementation of xiaoice, an empathetic social chatbot / L. Zhou [h gp.] // Computational Linguistics. — 2020. — T. 46, № 1. — C. 53—93.

143. Hemphill, C. T. The ATIS spoken language systems pilot corpus / C. T. Hemphill, J. J. Godfrey, G. R. Doddington // Speech and Natural Language: Proceedings of a Workshop Held at Hidden Valley, Pennsylvania, June 24-27, 1990. — 1990.

144. Towards scalable multi-domain conversational agents: The schema-guided dialogue dataset / A. Rastogi [h gp.] // arXiv preprint arXiv:1909.05855. — 2019.

145. Thomson, B. Bayesian update of dialogue state: A POMDP framework for spoken dialogue systems / B. Thomson, S. Young // Computer Speech & Language. — 2010. — T. 24, № 4. — C. 562—588.

146. Wang, Z. A simple and generic belief tracking mechanism for the dialog state tracking challenge: On the believability of observed information / Z. Wang, O. Lemon // Proceedings of the SIGDIAL 2013 Conference. — 2013. — C. 423—432.

147. Williams, J. D. Web-style ranking and SLU combination for dialog state tracking / J. D. Williams // Proceedings of the 15th Annual Meeting of the Special Interest Group on Discourse and Dialogue (SIGDIAL). — 2014. — C. 282—291.

148. Henderson, M. The Second Dialog State Tracking Challenge / M. Henderson, B. Thomson, J. D. Williams // Proceedings of the 15th Annual Meeting of the Special Interest Group on Discourse and Dialogue (SIGDIAL). — Philadelphia, PA, U.S.A. : Association for Computational Linguistics, 06.2014. — C. 263—272.

149. Zilka, L. Incremental LSTM-based dialog state tracker / L. Zilka, F. Jurcicek // 2015 Ieee Workshop on Automatic Speech Recognition and Understanding (Asru). — IEEE. 2015. — C. 757—762.

150. Zhong, V. Global-locally self-attentive encoder for dialogue state tracking / V. Zhong, C. Xiong, R. Socher // Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). —

2018. — C. 1458—1467.

151. Nouri, E. Toward Scalable Neural Dialogue State Tracking Model / E. Nouri, E. Hosseini-Asl // Advances in neural information processing systems (NeurIPS), 2nd Conversational AI workshop. — 2018.

152. Goel, R. HyST: A Hybrid Approach for Flexible and Accurate Dialogue State Tracking / R. Goel, S. Paul, D. Hakkani-Tiir // Proc. Interspeech 2019. —

2019. — C. 1458—1462.

153. Xu, P. An end-to-end approach for handling unknown slot values in dialogue state tracking / P. Xu, Q. Hu // Proceedings of the 56th Annual Meet- ing of the Association for Computational Linguistics (Volume 1: Long Papers). — Association for Computational Linguistics. 2018. — C. 1448—1457.

154. Transferable Multi-Domain State Generator for Task-Oriented Dialogue Systems / C.-S. Wu [h gp.] // Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). — Association for Computational Linguistics, 2019.

155. Chao, G.-L. BERT-DST: Scalable End-to-End Dialogue State Tracking with Bidirectional Encoder Representations from Transformer / G.-L. Chao, I. Lane // INTERSPEECH. — 2019.

156. Loshchilov, I. Decoupled weight decay regularization / I. Loshchilov, F. Hutter. — 2018.

157. Huggingface's transformers: State-of-the-art natural language processing / T. Wolf [h gp.] // arXiv preprint arXiv:1910.03771. — 2019.

Список рисунков

1.1 Таксономия методов переноса знаний, адаптированная к обработке

естественного языка........................................................13

1.2 Архитектуры CBoW и SGNS [5]..........................................18

1.3 Архитектура Трансформер представляет из себя модули кодировщика и декодировщика [46]........................................24

1.4 Модуль самовнимания архитектуры Трансформер [46] ................25

1.5 Множественный модуль самовнимания архитектуры

Трансформер [46] ..........................................................25

1.6 Входные данные модели BERT [13]........................................30

1.7 Архитектура модели MT-DNN. Слой 11 преставление собой

неконтекстуальные векторные представления токенов, которые подаются на вход кодировщику BERT, слой 12 - потокенное контекстуальное представление полученное на выходе кодировщика BERT. Далее под каждый тип задач формируются собственные слои, преобразующие контекстуальное векторное представление, и

классифицирующая голова................................................35

3.1 Архитектура модели R-Net [135]..........................................69

3.2 Архитектура модели BiDAF [136] ........................................70

3.3 Архитектуры QA модели SQuAD на основе BERT [13] ................71

3.4 Кривые обучения моделей, дообученных на основе M-BERT для русского и китайского языков ............................................79

4.1 Пример отслеживания состояния многодоменного диалога............83

4.2 Архитектура модели BERT-DST [155]....................................86

4.3 Схема для сервиса цифрового кошелька [144]............................88

4.4 Архитектура модели GOLOMB. Классификатор наличия слота

(slot gate) решает должен ли слот попасть в обновленное состояние диалога. Классификатор требуемых слотов (requested slot gate) предсказывает был ли слот запрошен пользователем. Классификатор намерений (intent classifier) выбирает активное намерение (intent) пользователя. В зависимости от того, является ли слот категориальным или некатегориальным, используются разные классификаторы. Для некатегориального слота используется заполнитель слотов подстроками из текста (free-form slot filler), который выбирает позиции начала и конца значения слота в истории диалога. Для категориального слота классификатор категориальных слотов (categorical slot filler) выбирает значение слота среди представленных возможных значений 89

4.5 Сравнение качества для каждого домена по общей целевой точности и усредненной целевой точности между базовой моделью и предложенной. Знак «*» обозначает домен, сервисы которого содержатся в тестовой выборке, но не содержатся в тренировочной, «**» обозначает домен, один сервис которого модель видела в тренировочных данных, а второй - нет. Все

сервисы остальных доменов содержатся в тренировочных данных . . 96

4.6 Первые 20 слотов, отсортированных по частоте ошибок на тестовых данных. На слоте location, который появляется в доменах Hotels, Restaurants и Travel модель выдала наибольший процент ошибок -12%. А на слоте director, который появляется в доменах Media и Movies, вышел минимальный процент ошибок - 1.6%......... 97

4.7 Пример смены домена в диалоге ..................... 98

Список таблиц

1 Сравнение качества предобученных векторов на задаче аналогий [5] 19

2 Результаты сравнения моделей на задаче машинного перевода. Архитектура Трансформер превзошла прошлые системы

машинного перевода на датасетах WMT'14 по метрике BLEU [46] . . 27

3 Сравнение качества моделей на задачах GLUE [13] .......... 33

4 Сравнение многозадачной модели МТ-DNN с BERTlarge на

задачах соревнования GLUE [69] ..................... 37

5 F-мера межъязыкового переноса на задаче NER для языков: английский, немецкий, нидерландский, испанский [72] ........ 39

6 Точность межъязыкового переноса на задаче POS для языков: английский, немецкий, испанский, итальянский [72].......... 40

7 Точность межъязыкового переноса на задаче POS для языков: английский, болгарский, японский [72] ................. 40

8 Сравнение моделей на основе языко-специфичного RuBERT и многоязычного M-BERT (по метрике F-мера) ............. 42

9 Усредненная точность всех 15 языков тестовой выборки XNLI, где M-BERT, M-BERTi5iangs, M-BERTen_xx обучаются на оригинальной английской обучающей выборке, а M-BERTxx обучается на переведенной обучающей выборке на язык xx средствами машинного перевода [80] ......................... 44

10 Размер и количество занимаемой памяти моделями, средняя скорость загрузки десяти запусков модели, среднее время инференса модели для 100 батчей датасета XNLI (размер батча=1). Для двуязычных M-BERTen-xx и моноязычных M-BERTxx указаны усредненные значения ........................... 44

11 Сравнение моделей разговорной (разг) и формальной (форм) лексики на задачах трех типов: текстовой классификации (AG, Insult), разметки последовательности (Conll 2003, Twitter NER), ответов на вопросы по контексту (SQuAD, TweetQA). |Д| - модуль разницы между метриками двух моделей ................ 47

12 Статистика дампов Википедии...................... 55

13 Внутреннее сравнение качества векторных представлений слов, сформированных разными методами................... 58

14 Внешнее сравнение качества векторных представлений слов, обученных разными методами. Для сравнения используется задача классификации частей речи с метрикой потокенная F-мера...... 63

15 Анализ 100 случайно отобранных ошибок вопросно-ответной модели, обученной на датасете SberQuAD. В верхней части таблицы представлены ошибки, обусловленные некорректной разметкой, в нижней части - ошибки дообученной модели...... 66

16 Средние длины контекста, вопроса и ответа вопросно-ответных датасетов.................................. 67

17 Сравнение качества вопросно-ответных моделей на датасетах

SQuAD [13], SberQuAD [17], DRCD [134] ................ 72

18 Сравнение моделей на основе M-BERT с языко-специфичными BERT для трех датасетов: английский (SQuAD), русский (SberQuAD), китайский (DRCD) в двух режимах: фиксированный режим (3 эпохи), ранней остановки (patience=10)........... 75

19 Параметры схемоориентированного датасета SGD........... 88

20 Компоненты входной последовательности для GOLOMB....... 90

21 Сравнение качества между базовой моделью и предложенной моделью на валидации и на тесте .................... 95

22 Исследование вклада отдельных компонент модели. Здесь «Описания» обозначают использование описаний слотов и доменов на естественном языке. Для предсказания значений категориальных слоев использовались два подхода. Первый использует для предсказания выход ucls - полносвязный слой над CLS-выходом BERT. Второй подход, вошедший в финальную архитектуру модели, использует выходы upv для выбора значения слота среди возможных .......................... 99

23 Сравнение количества требуемых итераций для моделей, обученных в фиксированном режиме (3 эпохи) и в режиме ранней остановки (patience=10)................................126

24 Сводная таблица архитектурных параметров BERT, применяемых для дообучения. Схожесть параметров RuBERT и M-BERT обусловлена тем, что RuBERT основан на M-BERT. Размер памяти и скорость инференса получены с помощью run_benchmark.py пакета transformers для длины последовательности - 512 и размера батча - 8. Скорость инференса вычисляется при выполнении прямого прохождения модели (forward pass). Все модели имеют схожую скорость инференса, потому что они основаны на одной и той же архитектуре BERTbase......................127

Приложение А Характеристики обученных вопросно-ответных моделей

А.1 Сравнение количества обучающих итераций для вопросно-ответных моделей

Таблица 23 — Сравнение количества требуемых итераций для моделей, обученных в фиксированном режиме (3 эпохи) и в режиме ранней остановки (ра^епсе=10)

Модель (обуч выборка) Фикс режим (тысяч) Реж ран ост (тысяч)

ВЕКТ(8диАВ^т) 30.75 28.5

М-ВЕКТ(8диАВ^т) 30.75 30.5

М-ВЕЯТеп ^нАО^ат) 30.75 17

ИиВЕЯТ (ЗЬегдиАВ^аш) 15 10

М-ВЕКТги(8ЬегдиАВ^ат) 15 20

М-ВЕКТ(8диАВ^т) 30.75 12.5

М-ВЕКТеп-ги(8диАВ^т) 30.75 12

М-ВЕКТ(8ЬегдиАВ^ат) 15 17.5

M-BERTen.ru ^Ье^^^т) 15 14

M-BERT(8ЬeгQuADtraiп+8QuADtraiп) 46 21

M-BERTen-ru(SbeгQuADtrain+SQuADtrain) 46 19.5

ChBERT(DRCDtraiп) 10 18

М-ВЕЯТсЬ (DRCDtraiп) 10 17

M-BERT (8QuADtraiп) 30.75 12

M-BERTeп-ch (8QuADtraiп) 30.75 17.5

M-BERT(DRCDtraiп) 10 11.5

M-BERTeп-ch(DRCDtraiп ) 10 16.5

M-BERT (DRCDtraiп+8QuADtraiп) 41 23

M-BERTeп-ch(DRCDtraiп+8QuADtraiп) 41 21

А.2 Характеристики используемых моделей для дообучения на

вопросно-ответную задачу

Таблица 24 — Сводная таблица архитектурных параметров BERT, применяемых для дообучения. Схожесть параметров RuBERT и M-BERT обусловлена тем, что RuBERT основан на M-BERT. Размер памяти и скорость инференса получены с помощью run_benchmark.py пакета transformers для длины последовательности - 512 и размера батча - 8. Скорость инференса вычисляется при выполнении прямого прохождения модели (forward pass). Все модели имеют схожую скорость инференса, потому что они основаны на одной и той же архитектуре BERTbase

Модель Параметры Словарь Размер Память Инференс

(миллионы) (субтокены) (Мбайт) (Мбайт) (сек)

bertBASE 108 28,996 416 1,829 0.125

M-BERT 177 119,547 681 3,509 0.172

RuBERT 177 119,547 681 1,641 0.111

ChBERT 102 21,128 393 1,683 0.117

M-BERTgn-ru 114 37,465 438 1,985 0.128

M-BERTen-ch 113 35,225 432 1,945 0.126

M-BERTen 107 28,471 412 1,819 0.125

M-BERTru 97 14,283 370 1,555 0.119

M-BERTch 95 12,941 366 1,531 0.116

Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.

Оглавление диссертации кандидат наук Коновалов Василий Павлович

Рекомендованный список диссертаций по специальности «Теоретические основы информатики», 05.13.17 шифр ВАК

Специализация языковых моделей для применения к задачам обработки естественного языка2020 год, кандидат наук Куратов Юрий Михайлович

Многозадачный перенос знаний для диалоговых задач2023 год, кандидат наук Карпов Дмитрий Александрович

Методы оценивания языковых моделей в задачах понимания естественного языка2023 год, кандидат наук Тихонова Мария Ивановна

Методы автоматизированного пополнения графов знаний на основе векторных представлений2022 год, кандидат наук Тихомиров Михаил Михайлович

Введение диссертации (часть автореферата) на тему «Методы переноса знаний для нейросетевых моделей обработки естественного языка»

Похожие диссертационные работы по специальности «Теоретические основы информатики», 05.13.17 шифр ВАК

Нейросетевые модели и диалоговая система для ведения разговора на общие темы2021 год, кандидат наук Баймурзина Диляра Римовна

Нейросетевой механизм кросс-внимания в задачах извлечения информации из текстов на примере биомедицинских данных2021 год, кандидат наук Алимова Ильсеяр Салимовна

Нейросетевые методы работы с базами знаний для ответа на вопросы, ведения диалога и обработки текста2023 год, кандидат наук Евсеев Дмитрий Андреевич

Модели, методы и программные средства извлечения оценочных отношений на основе фреймовой базы знаний2022 год, кандидат наук Русначенко Николай Леонидович

Список литературы диссертационного исследования кандидат наук Коновалов Василий Павлович, 2022 год