Многозадачный перенос знаний для диалоговых задач

Карпов Дмитрий Александрович

Многозадачный перенос знаний для диалоговых задач тема диссертации и автореферата по ВАК РФ 00.00.00, кандидат наук Карпов Дмитрий Александрович

Карпов Дмитрий Александрович
кандидат наук
2023

Специальность ВАК РФ00.00.00

Количество страниц 198

Карпов Дмитрий Александрович. Многозадачный перенос знаний для диалоговых задач: дис. кандидат наук: 00.00.00 - Другие cпециальности. ФГАОУ ВО «Московский физико-технический институт (национальный исследовательский университет)». 2023. 198 с.

Оглавление диссертации кандидат наук Карпов Дмитрий Александрович

Введение

Глава 1. Нейросетевые методы машинного обучения для задач

обработки естественного языка

1.1 Основные понятия

1.1.1 Определение нейросетевых методов машинного обучения

1.1.2 Метод обратного распространения ошибки

1.1.3 Полносвязные нейронные сети

1.1.4 Токенизация

1.1.5 Нейросетевые языковые модели

1.1.6 Векторные представления слов

1.1.7 Модели «предложение-в-предложение»

1.2 Архитектура Трансформер и модель BERT

1.2.1 Архитектура Трансформер

1.2.2 Модель BERT

1.3 Многозадачные модели

1.3.1 Типы многозадачных архитектур

1.3.2 Модель MT-DNN

1.3.3 Модель PAL-BERT

1.3.4 Перенос знаний в многозадачных моделях

Глава 2. Использование псевдоразметки данных в

многозадачных моделях для решения задач GLUE

2.1 Описание экспериментов

2.2 Условные обозначения

2.3 Способы обучения многозадачной модели

2.3.1 Независимые метки

2.3.2 Мягкие независимые метки

2.3.3 Дополненные независимые метки

2.3.4 Мягкое вероятностное предположение

2.3.5 Мягкие предсказанные метки

2.3.6 Жесткие предсказанные метки

2.3.7 Независимые метки, замороженная голова

2.3.8 Мягкие независимые метки, замороженная голова

2.4 Настройки и результаты экспериментов

2.5 Выводы

Глава 3. Многозадачные энкодер-агностичные модели

3.1 Архитектура энкодер-агностичной многозадачной модели

3.1.1 Какие эксперименты не сработали

3.1.2 Преимущество энкодер-агностичной многозадачной модели над многозадачной моделью с одним линейным слоем

3.2 Наборы данных

3.2.1 Классификация эмоций

3.2.2 Классификация тональности

3.2.3 Классификация токсичности

3.2.4 Классификация интентов и тематическая классификация

3.3 Настройки экспериментов

3.4 Многозадачные и однозадачные модели - эксперименты на

полном наборе данных

3.4.1 Эффект уменьшения размера обучающей выборки (англоязычные данные)

3.4.2 Многоязычные многозадачные модели - эффект кросс-языкового обучения

3.4.3 Насколько помогает добавление англоязычных данных?

3.5 Выводы и анализ результатов

Глава 4. Исследование переноса знаний в многоязычных

моделях на новом тематическом наборе данных

4.1 Введение

4.2 Набор данных Я^ТорюБ

4.2.1 Получение набора данных

4.2.2 Разбиение и размеры

4.3 Выбор представления набора данных Я^ТорюБ

4.3.1 Как сравнить представления набора данных друг с другом?

4.3.2 Описание экспериментов для сравнения

4.4 Оценка для всех классов RuQTopics

4.5 Перенос знаний между языками

4.6 Выводы и анализ результатов

Глава 5. Использование в диалоговой платформе DeepPavlov

Dream многозадачных моделей

5.1 Диалоговая платформа DeepPavlov Dream

5.1.1 Конкурс Alexa Prize Socialbot Grand Challenge

5.1.2 Архитектура диалоговой системы DREAM в «Alexa Prize Challenge 4»

5.2 Использование многозадачных моделей в диалоговой системе DREAM и платформе DeepPavlov Dream

5.2.1 Использование многозадачных моделей с одним

линейным слоем

5.2.2 Использование модели PAL-BERT в диалоговой платформе DeepPavlov Dream

5.2.3 Использование многозадачной энкодер-агностичной

модели в диалоговой платформе DeepPavlov Dream

5.2.4 Выводы

Заключение

Словарь терминов

Список литературы

Список рисунков

Список таблиц

Приложение А. Все запуски для энкодер-агностичной

многозадачной модели

Приложение Б. Размеры наборов данных, на которых

тестировался перенос знаний в многозадачных моделях для диалоговых задач

Приложение В. Все запуски для моделей, работавших с

набором данных RuQTopics

Приложение Г. Распределение числа тренировочных примеров

по классам в серии экспериментов с моделью PAL-BERT и с моделью с одним линейным слоем в DeepPavlov Dream, до и после дополнительной псевдоразметки

Приложение Д. Распределение числа примеров по классам в

серии экспериментов с энкодер-агностичными моделями в DeepPavlov Dream

Введение

Актуальность темы обоснована стремительным развитием нейросетевых моделей, в частности, для обработки естественного текста. В настоящее время нейросетевые модели на основе трансформеров, типа BERT, стали чаще применяться в различных областях, в том числе в диалоговых системах. Это связано с тем, что они показывают более высокие результаты, чем иные методы машинного обучения.

В то же самое время, такие модели требуют вычислительных ресурсов, которые могут быть дорогостоящими. В зависимости от бюджета, может возникнуть потребность в экономии на вычислительных ресурсах без снижения качества работы моделей.

В связи с этим получает развитие идея многозадачного обучения - использование одной и той же модели для решения нескольких задач машинного обучения. Такие модели могут показывать результаты не хуже, чем однозадачные, тратя при этом меньше вычислительных ресурсов. В некоторых случаях эти модели могут показывать лучшие результаты, чем однозадачные модели, за счет переноса знаний.

Перенос знаний позволяет передавать знания между областями, задачами и языками. Перенос знаний можно часто встретить в реальном мире - к примеру, умение играть в шахматы помогает при освоении шашек. Однако особенности переноса знаний в многозадачных моделях между различными задачами изучены не до конца. Не полностью изучен и межъязыковой перенос знаний в многозадачных и однозадачных моделях. Исследование эффектов, связанных с переносом знаний, безусловно, является актуальным.

Также для изучения особенностей применения многозадачных моделей и переноса знаний в них существует потребность в технических решениях, которые находились бы в открытом доступе. Данная диссертационная работа призвана решить эти проблемы.

Целью данной работы является определение закономерностей, влияющих на перенос знаний между языками и задачами в многозадачных нейросетевых моделях на различных архитектурах и на особенности прикладного применения этих моделей в диалоговых платформах.

Для достижения поставленной цели необходимо решить следующие задачи:

1. Определить закономерности переноса знаний при псевдоразметке данных для многозадачных нейросетевых моделей с одним линейным слоем.

2. Определить закономерности переноса знаний в энкодер-агностичных многозадачных нейросетевых моделях между различными диалоговыми задачами. Провести оценку зависимости этого переноса от размера обучающей выборки.

3. Определить закономерности переноса знаний в многоязычных энко-дер-агностичных многозадачных нейросетевых моделях между различными языками - с английского языка на русский. Провести оценку зависимости этого переноса от размера обучающей выборки.

4. Интегрировать энкодер-агностичные многозадачные нейросетевые модели в open-source библиотеку для решения задач машинного обучения.

5. Проверить зависимость межъязыкового переноса знаний на разговорных данных в многоязычных нейросетевых моделях от размера предобучающей выборки и генеалогической близости языков к языку дообучения.

6. Интегрировать рассмотренные в диссертации многозадачные нейросетевые архитектуры в диалоговую платформу, оценить применимость данных архитектур и провести их сравнительный анализ на основании результатов на задачах данной платформы.

Научная новизна:

1. Впервые получена оценка влияния различных методов псевдоразметки данных на качество многозадачных моделей. Выделен тип задач, для которых объединение меток при многозадачной классификации оправдано.

2. Впервые получена оценка зависимости качества работы энкодер-агно-стичных многозадачных нейросетевых моделей на диалоговых задачах из различных языков от размера обучающей выборки, в том числе при переносе знаний между языками.

3. Впервые для дообучения на русском языке получена оценка зависимости межъязыкового переноса знаний на разговорных данных в многоязычных нейросетевых моделях от размера предобучающей выборки и генеалогической близости языков к языку дообучения.

Соответствие диссертации паспорту научной специальности Пункты 1 и 2 Научной новизны соответствуют Пункту 8 «Комплексные исследования научных и технических проблем с применением современной технологии математического моделирования и вычислительного эксперимента.» специальности 1.2.2 «Математическое моделирование, численные методы и комплексы программ». Пункт 3 Научной новизны соответствует пункту 9 «Постановка и проведение численных экспериментов, статистический анализ их результатов, в том числе с применением современных компьютерных технологий» специальности 1.2.2 «Математическое моделирование, численные методы и комплексы программ».

Основные положения, выносимые на защиту:

1. Псевдоразметка данных с использованием однозадачных моделей улучшает метрики многозадачных моделей. При этом объединение классов оправдано только для задач, достаточно сильно похожих друг на друга.

2. Для достаточно малых данных многозадачные энкодер-агностичные модели превосходят по своей средней точности однозадачные, в особенности - за счет задач с наименьшим объемом данных. При этом для таких многоязычных моделей наблюдается также перенос знаний с английского языка на русский в рамках одной задачи, и чем меньше русскоязычных данных, тем сильнее выражен перенос. Эта закономерность справедлива и для однозадачных моделей.

3. Для многоязычных нейросетевых моделей качество переноса знаний на разные языки на тематических данных сильно коррелирует с размером предобучающей выборки для каждого языка, но при этом после поправки на размер предобучающей выборки статистически значимая корреляция с генеалогической близостью этого языка к языку дообучения не обнаруживается.

Практическая значимость

1. Создан ряд компонент диалоговой платформы мирового уровня, впервые в России вышедшей в полуфинал престижных мировых конкурсов Alexa Prize 3 и Alexa Prize 4. В число этих компонент входят много-

задачные нейросетевые модели: многозадачная нейросетевая модель с одним линейным слоем, многозадачная нейросетевая модель на основе архитектуры PAL-BERT и многозадачная энкодер-агностичная нейросетевая модель. Диалоговая платформа имеет полностью открытый код, что дает возможность легкого переиспользования любой части проделанной над ней работы. При этом многозадачная энкодер-агно-стичная модель даёт на девяти задачах данной диалоговой платформы экономию видеопамяти ^90% и экономию оперативной памяти ^79% по сравнению с аналогичными однозадачными моделями, даже не учитывая эффект от возможности быстрой замены базовой модели.

2. Программный код для реализации многозадачной энкодер-агностич-ной нейросетевой модели встроен в библиотеку DeepPavlov, имевшую более 500000 скачиваний на момент встраивания кода. Данные модели позволяют решить большое число задач без дополнительных вычислительных затрат, не считая затрат на использование задаче-спе-цифичных линейных слоёв (всего ~0.1% дополнительных параметров для решения сразу пяти задач вместо одной).

Методология и методы исследования. Были применены:

1. Метод численного эксперимента для исследования задач обработки естественного языка;

2. Теория вероятностей и математическая статистика;

3. Методы машинного обучения и теории глубокого обучения;

4. Методы разработки на языках Python, Bash.

Достоверность полученных результатов подтверждается публикациями результатов исследования в рецензируемых научных изданиях и обеспечивается экспериментами на наборах диалоговых данных и наборе данных GLUE, описанными в [1—3], применением в различных соревнованиях по созданию диалоговых систем, описанным в [4—8] и использованием результатов работы в диалоговой платформе Dream и библиотеке DeepPavlov. Результаты находятся в соответствии с результатами, полученными другими авторами.

Введение диссертации (часть автореферата) на тему «Многозадачный перенос знаний для диалоговых задач»

Апробация работы.

— En&T 2018, доклад «Разработка диалоговой системы с интеграцией профиля личности», Даниил Болотин, Дмитрий Карпов, Григорий Рашков, Иван Шкурак, 15-16 ноября 2018 года, Москва;

- Диалог-2021, доклад «Data pseudo-labeling while adapting BERT for multitask approaches», Dmitry Karpov, Mikhail Burtsev, 16-19 июня 2021 года, Москва;

- AINL-2023, доклад «Monolingual and cross-lingual knowledge transfer for topic classification», Dmitry Karpov, Mikhail Burtsev, 20-22 апреля 2023 года, Ереван, Армения;

Личный вклад. Исследование, разработка и сравнительный анализ методов псевдоразметки данных, описанных в работе [1], были выполнены автором самостоятельно. В работах [2; 3] все исследования также были выполнены автором самостоятельно. В работах [4—6; 8] автор отвечал за ряд важных компонент диалоговой системы - навыки обсуждения книг, эмоций, коронавируса, слухов, навык для обоснования диалога, ранжирующий навык TF-IDF, генеративный навык, классификаторы эмоций, интентов, момента остановки диалога и многозадачную нейросетевую модель. В работе [7] автор отвечал за ряд основных компонент диалоговой системы, включающих в себя алгоритм для перефразировки реплик. В работе [9] автор отвечал за программные решения для работы с текстом.

Публикации. Основные результаты по теме диссертации изложены в 8 публикациях, 1 из которых издана в журналах, рекомендованных ВАК, 1 в периодических научных журналах, индексируемых Web of Science и Scopus (еще 2 - принято в такие журналы и готовится к публикации), 5 в тезисах докладов. Получено также 1 свидетельство о регистрации программы для ЭВМ.

Объем и структура работы. Диссертация состоит из введения, пяти глав, заключения и пяти приложений. Полный объём диссертации составляет 198 страниц, включая 15 рисунков и 73 таблицы. Список литературы содержит 104 наименования.

Глава 1. Нейросетевые методы машинного обучения для задач

обработки естественного языка

1.1 Основные понятия 1.1.1 Определение нейросетевых методов машинного обучения

Нейросетевые методы машинного обучения - это методы, основанные на использовании искусственных нейронных сетей. В данной работе рассматривается класс искусственных нейронных сетей, представляющих собой совокупность слоев с функциями активации, таких, что подаваемые на вход данные проходят через различные слои по очереди, где каждый слой представляет собой многомерную функцию многих переменных. Итоговый выход нейронной сети подается в функцию потерь, после чего функция потерь оптимизируется методом обратного распространения ошибки.

1.1.2 Метод обратного распространения ошибки

Метод обратного распространения ошибки - один из методов «обучения с учителем», то есть подход, при котором модель учится решать задачу, чтобы соответствовать набору примеров входных/выходных данных. Для определения того, насколько ответ, данный нейронной сетью, соответствует требуемому, вводится функция потерь. Далее выполняется поиск точки минимума функции потерь в пространстве параметров искусственной нейронной сети для данного набора примеров входных данных. Параметры искусственной нейронной сети включают в себя синаптические веса и сдвиги нейронов. Впервые данный метод был предложен в 1974 году [10]. Чтобы данный метод работал, функция потерь и все слои нейронной сети должны иметь ненулевые частные производные по параметрам ИНС на достаточно большой части своих областей определения. Данный метод оказался очень эффективным, так как он применим к сетям

с практически любыми архитектурами. С использованием этого метода связано возрождение интереса к исследованию области нейронных сетей, которая в восьмидесятых годах называлась коннекционизмом.

Все самые главные достижения в области нейронных сетей в 21 веке были связаны именно с применением нейросетевых подходов. Хотя существовали и достижения на основе иных подходов, как например, условные случайные поля [11], метрика BLEU (пословная схожесть перевода с оригиналом) [12], латентное разложение Дирихле [13], автоматическая генерация данных из имеющейся базы знаний [14], главную роль играли именно нейросетевые подходы. Ниже будут кратко описаны основные шаги в их развитии.

Одним из классических видов нейронных сетей являются полносвязные нейронные сети - сети, состоящие из полносвязных слоев. Будем называть полносвязным слоем с М нейронами взвешенную сумму значений входного вектора х размерности К, к каждому элементу которой затем применяется функция активации и(у):

где W\ - матрица весов (weights) полносвязного слоя размерности N * М, W0 - матрица смещений (bias) полносвязного слоя размерности M, а - некая нелинейная функция активации.

В качестве функции активации обычно используется softmax:

1.1.3 Полносвязные нейронные сети

* = v(y)

у = Wo + WiX

(1.1)

for i = 1,2,... ,K

(1.2)

или relu:

relu(zi) = max(0, Zi)

(1.3)

где i - индекс ^-мерного вектора z.

Для регуляризации в таких слоях (как и в других, более сложных) применяется также дропаут, предложенный в [15]. При использовании данного метода некий процент элементов выходного вектора (как правило, 10-20%) приравнивается к нулю. Такая техника мешает «переобучению» нейронной сети, улучшая тем самым ее обобщающую способность.

1.1.4 Токенизация

Перед обработкой естественного текста этот текст токенизируется, или разбивается на элементарные единицы - токены. Один токен соответствует одному слову и/или одной его части в зависимости от метода токенизации. Для нижеописанного метода Word2Vec токеном является 1 слово, для нижеописанной архитектуры BERT - слово либо его часть.

1.1.5 Нейросетевые языковые модели

Языковое моделирование - это задача предсказания следующего слова в тексте с использованием предыдущих. У языкового моделирования есть простейшие практические приложения - умная клавиатура и пр. Первые подходы к языковому моделированию основывались на марковских моделях [16]. Позднее, в 2003 году, была предложена первая нейросетевая языковая модель [17], изображенная на рисунке 1.1. Модель берет из таблицы С векторные представления N предыдущих слов, потом эти представления соединяются и подаются в скрытый слой, оттуда - в функцию активации эойшах. В дальнейшем вместо данных сетей стали применяться рекуррентные сети [18] или сети с долгосрочной памятью [19].Языковое моделирование является частью таких более поздних продвижений в области обработке текста, как векторные представления слов, предварительно обученные языковые модели, модели seq2seq и т.д.

index for wt-n+\ index for wt_2 index for wt \

Рисунок 1.1 — Первая нейросетевая языковая модель

1.1.6 Векторные представления слов

Разреженные представления слов в обработке естественного текста использовались достаточно давно. Хотя первая нейросетевая языковая модель была предложена еще в 2003 году [17], основное нововведение [20], предложенное в 2013 году - архитектура Word2vec - позволило гораздо успешнее обучать векторные представления слов (т.е проводить их векторизацию). Word2vec существует в двух вариантах - CBOW и skip-gram. Они различаются по своей цели: CBOW предсказывает центральное слово на основе окружающих слов, а skip-gram делает обратное.

Данные варианты схематически изображены на Рисунке 1.2.

Рисунок 1.2 — Word2Vec

Использование модели для большого обучающего корпуса позволяет модели выучить такие понятия, как пол, время глагола, или отношения типа «страна-столица».

1.1.7 Модели «предложение-в-предложение»

В 2014 году была предложена методика обучения моделей «предложение-в-предложение»(seq2seq) [21] - нейросетевых моделей для отображения одной последовательности в другую. Данные модели состоят энкодера и декодера.

После токенизации предложения энкодер обрабатывает каждый токен предложения по очереди и сжимает их в векторы скрытых состояний; на основе этих векторов скрытых состояний декодер шаг за шагом прогнозирует символ энкодера, который предполагается на выходе. Пример работы данной сети изображен на рисунке 1.3.

В 2016 году Google начал заменять свои модели машинного перевода на модели «предложение-в-предложение» [22]. Модели «предложение-в-пред-

Рисунок 1.3 — Пример сети на основе модели Seq2Seq

ложение» могут широко применяться в любых задачах, где данные имеют конкретную структуру.

Энкодер и декодер могут быть основаны на разных типах нейросетевых архитектур, включая архитектуру Трансформер. В следующем разделе эта архитектура рассмотрена более детально.

1.2 Архитектура Трансформер и модель BERT

1.2.1 Архитектура Трансформер

В разделе 1 были изложены предшествовавшие этапы развития нейросетевых моделей. Но на момент проведения описываемых в данной диссертационной работе научных исследований, ключевую роль в обработке текста уже играли модели на базе архитектуры Трансформер. В связи с этим в данном разделе подробно описана данная нейросетевая архитектура. В следующем разделе 1.3 описаны многозадачные нейросетевые модели на основе данной архитектуры, являющиеся предметом данной диссертационной работы.

Архитектура Трансформер была разработана в 2017 году [23]. Составляющие данной архитектуры - это полносвязные слои и механизм внимания (Attention). Механизм внимания был предложен авторами статьи, чтобы лучше передавать информацию из энкодера декодеру в моделях «предложение-в-пред-ложение»: состояние декодера обновляется на основе информации от энкодера.

Механизм внимания работает на основе трех матриц: Q (Query, запрос), K (Key, ключ), V (Value, значение).

Получая на вход последовательность токенов длины Nqueries, модель до применения Attention векторизует каждый из данных токенов, ставя каждому токену в соответствие вектор длины D. Получив тем самым представление для каждого предложения - Query размерности Nqueries * D, механизм также использует Key той же размерности Nkeys * D (Щеу8 = Nqueries ) и Value размерности Nkeys * Dv для формирования взвешенного скалярного произведения в соответствии со следующей формулой:

Attention(Q, К, V) = softmax(QKT)V/sqrt(D) (1.4)

Механизм внимания подробнее проиллюстрирован на Рисунке 1.4.

1 \

[ MatMul

+ 1

| Soft мах

t

M as К (opt.)

+

Scale ]

t

[ MatMul

t i

Q К V

Рисунок 1.4 — Механизм Attention.

Внимание делится на Vd, чтобы избежать затухания градиентов, подробнее описанного в [24]. Механизм внимания может широко применяться в задачах, которые требуют использования части входных данных - парсинг синтаксических зависимостей, понимание текста и пр. Механизм внимания особенно примечателен своей интерпретируемостью, так как он помогает понять, на какие части текста смотрит модель, за счет своих весовых коэффициентов.

Чтобы увеличить число вариаций, которыми представляются поступающие на вход токены, данный модуль в архитектуре Трансформер применяется h раз параллельно после чего результаты этих применений конкатенируются. При этом к матрицам Key, Value и Query предварительно применяются линейные преобразования. Иными словами:

MultiHeadAttention(Q, К, V) = Concat(headi,...headh)W0 (1.5)

где W° - матрица линейного преобразования, имеющая размерность h * Dv * D0ut, и

headг = Attention(QW? ,VWV) (1.6)

где W® - матрица линейного преобразования для запросов, имеющая размерность D * D, W^ - матрица линейного преобразования для ключей, имеющая размерность D * D, Wv - матрица линейного преобразования для значений, имеющая размерность D * Dv

Подобное применение attention называется «Multi-head attention» (многоголовое внимание).

Число голов h выбирается авторами модели вручную. Как правило, чем больше слоев у модели Трансформер, тем больше голов. В архитектуре Транс-формер механизм внимания используется, чтобы передавать информацию с предыдущего слоя на следующий. Механизм внимания применяется к самой входной последовательности.

Self-attention (самовнимание) - это механизм внимания, примененный к самой же входной последовательности для ее обновления.

В архитектуру Трансформер входят повторяющиеся полносвязные слои и механизмы внимания. Они образуют Трансформер слои, из которых состоят энкодер и декодер. Энкодер состоит из некого числа N повторяющихся слоев типа «многоголовое самовнимание + полносвязный слой», где полносвязный слой применяется к каждому элементу последовательности независимо. В энкодере

также используются остаточные (residual) связи вокруг этих слоев, описанные в [25], и нормализации слоя, описанная в [26].

Декодер состоит из N повторяющихся слоев типа «многоголовое самовнимание + внимание на последний слой энкодера + полносвязный слой». Подробнее модули энкодера и декодера изображены на рисунке 1.5.

Рисунок 1.5 — Модули энкодера и декодера в архитектуре Трансформер. При этом при применении многоголового самовнимания в энкодере

Q = к = V = X,

(1.7)

, где X_e - векторные представления токенов предложения, которые поступают в энкодер. При применении многоголового самовнимания в декодере

Q = К = V = Xd (1.8)

, где X_d - векторные представления токенов предложения, которые поступают в декодер. При применении внимания на последний слой энкодера

Q = К = Хе (1.9)

V = xd (1.10)

Заметим, что, поскольку декодер предсказывает следующее слово по предыдущим, он не может видеть информацию о будущих словах во время обучения. Поэтому в декодере используется маскированное самовнимание (masked self-attention). Модуль MASK «маскирует» следующие слова. Заметим, что порядок элементов входной последовательности в оригинальной архитектуре Трансформер никак не используется, так как каждая из операций в Трансфор-мер слое, что в энкодере, что в декодере, происходит независимо для разных элементов последовательности.

В статьях [23; 27; 28] предложен следующий способ добавления информации о положении данного токена во входной последовательности - векторные представления позиций (position embeddings). Данные векторные представления суммируются со входными векторными представлениями. Они могут задаваться аналитически, а могут обучаться вместе с параметрами всей модели. Архитектура Трансформер получила большое развитие за последние годы. Так, в репозитории компании HuggingFace [29] находится более 16 тысяч моделей, имеющих данную архитектуру, в том числе дообученных на конкретную задачу.

Для задач классификации обычно применяются модели на основе архитектуры Трансформер, состоящие только из слоев-энкодеров, так как они показывают наилучшие результаты на таких задачах [30; 31]. В связи с этим, перенос знаний в данной работе изучался только на примере таких моделей.

Самой популярной моделью на основе архитектуры Трансформер, состоящей только из слоев-энкодеров, является модель BERT, которая широко использовалась в дальнейшей работе. Эта модель описана подробнее в следующем подразделе.

1.2.2 Модель BERT

BERT (Bidirectional Encoder Representations from Transformer) [27] - основанные на архитектуре Трансформер модели для обработки естественного текста, предобученные одноимённым методом на задачах предсказания токена по контексту и определения того, могут ли данные 2 предложения следовать одно за другим.

BERT - это универсальная архитектура. На базе BERT могут работать различные модели NLP - модели классификации одного предложения, классификации пары предложений, регрессии, выбора из вариантов, вопросно-ответные и так далее. Модели на основе BERT значительно превзошли модели предыдущего поколения для обработки естественного языка. Данный метод имеет следующие ключевые особенности:

— Модель BERT состоит только из слоев-энкодеров, без слоев-декодеров. Каждый слой-энкодер работает с выходом предыдущего слоя.

— BERT обрабатывает всю последовательность одновременно. По определению авторов, это двунаправленная (bidirectional) обработка. Отличие данного способа обработки от применяемого в двунаправленных рекуррентных сетях заключается в следующем: в двунаправленных сетях обработка входных данных производится по одному токену слева направо и справа налево, последовательно. А в нейронных сетях, имеющих архитектуру Трансформер, включая BERT, обработка каждого токена производится параллельно, при этом каждый токен имеет доступ при помощи механизма внимания ко всем остальным токенам.

— BERT предобучается без учителя, или точнее, с самообучением (self supervised learning). Предобучение модели BERT требует большого объёма неразмеченных текстов, разметку для которых при этом можно получить из самих этих текстов, используя уже имеющуюся в них информацию.

Обучение модели BERT делится на 2 стадии: предобучение (pretraining) на большом объеме неразмеченных текстов и дообучение (finetuning) на относительно небольшом объёме данных, специфических для каждой конкретной задачи.

Предобучение производится на две задачи. Первой из двух задач является Маскированное языковое моделирование (Masked Language Modeling, MLM). В данной задаче некоторые входящие токены последовательности маскируются, заменяясь на служебный токен [MASK]. Модель BERT учится предсказывать маскированные токены. Так как токен [MASK] не используется при дообучении (fine-tuning) модели, то замена производится следующим образом: каждый из 15% случайно выбранных токенов с вероятностью 80% заменяется на токен [MASK] (I feel very well заменяется, например, на I feel [MASK] well), с вероятностью 10% заменяется на другой токен (I feel very well - >I feel blue well), с вероятностью 10% не изменяется (I feel very well - >I feel very well). Эти 15% токенов предсказываются на основе векторных представлений на финальном слое модели BERT. В качестве функции потерь используется кросс-энтропия, в качестве финальной функции активации Softmax.

Помимо описанной выше задачи, модель BERT также необходимо научить работать с текстом не только на уровне одного предложения, но и на уровне нескольких предложений. Для этого модель BERT также учится предсказывать, может ли одно предложение встретиться после другого или нет. Данная задача называется Next Sentence Prediction (NSP). В качестве положительных примеров в набор данных добавляются пары предложений, встретившиеся в обучающей выборке и стоявшие рядом друг с другом. В качестве отрицательных примеров - случайные пары предложений. Два предложения разделяются служебным токеном [SEP], перед ними ставится другой служебный токен [CLS], а после всех токенов - служебный токен [EOS].Пример представления: «[CLS] I wake up [SEP] I go to work [EOS]» для предложений «I wake up» и «I go to work». Финальное векторное представление токена [CLS] используется линейным слоем «наверху» модели BERT для классификации этой пары предложений. Подбор пары предложений для модели BERT-BASE осуществляется таким образом, чтобы их суммарная длина не превышала 512 токенов. У 90% пар длина не превышала 128 токенов. Функцией потерь, как и в предыдущем пункте, является кросс-энтропия, функцией активации - Softmax.

Векторные представления каждого токена из сформированной по указанным выше правилам входной последовательности токенов суммируются также ещё с 2 видами векторных представлений: это представления сегмента последовательности (обозначающие, к первому предложению или ко второму относится данный токен) и представления позиции токена в последовательности (добавля-

ющие информацию о позиции токена). Наглядное представление можно увидеть на рисунке 1.6.

Рисунок 1.6 — Три типа представления токенов в модели BERT

Модель BERT предобучалась на 2 наборах данных. Это набор данных BooksCorpus, имеющий 800 миллионов слов [32], и набор данных из английской Википедии, содержащей 2.5 миллиардов слов [27].

Дообучение модели BERT может производиться на любых, даже небольших наборах данных. Как и при решении задачи Next Sentence Prediction, в задачах классификации и регрессии ответ модели предсказывается линейным слоем по финальному векторному представлению [CLS] токена. В оригинальной статье показаны результаты модели BERT при дообучении на задачах из набора данных GLUE; цифры из данной статьи будут также использоваться в последующих разделах. Две основных конфигурации модели BERT, предложенные авторами оригинальной статьи - это:

— BERT-BASE. Размерность векторного представления токена 768, 12 последовательно повторяющихся слоев Трансформер, 12 модулей self-attention в одном блоке, 110 миллионов параметров. Для обучения использовались 4 Cloud TPU 4 дня.

— BERT-LARGE. Размерность векторного представления токена 1024, 24 последовательно повторяющихся слоя Трансформер, 16 модулей self-attention в одном блоке, 340 миллионов параметров. Для обучения использовалось 16 Cloud TPU 4 дня.

Универсальность архитектуры BERT обуславливает возможность применения данной нейросетевой модели для решения широкого круга задач. Так, токен [SEP] позволяет ставить границы между поступающими на вход последовательностями. Это даёт возможность решать задачи классификации пар

предложений и задачи ответа на вопрос (question answering), где тоже на вход подаются пары последовательности. Токен [MLM] даёт возможность для обучения векторных представлений токенов, зависящих от контекста, что позволяет решать также задачи классификации каждого токена в последовательности (распознавание именованных сущностей, классификация каждого слова по частям речи). Токен [CLS] содержит информацию обо всей последовательности, что даёт возможность применять его для решения задач классификации текста.

Эффективность модели BERT обусловлена переносом знаний: BERT получает знания на этапе предобучения, и применяет их на этапе дообучения для решения иных задач. Таким образом, в модели BERT происходит перенос знаний.

На момент проведения описанных в данной работе исследований, модель BERT (с определёнными модификациями) считалась стандартом в машинном обучении. В связи с этим, именно модели такого типа считались базовыми в дальнейшей работе, и при работе над многозадачными моделями приоритет в рассмотрении отдавался именно архитектурам, основанным на модели BERT. Применявшиеся в данной работе архитектуры многозадачных моделей описаны в следующем разделе 1.3.

1.3 Многозадачные модели

Многозадачное обучение - это метод разделения параметров между моделями, обучающимися выполнять несколько задач. Идея многозадачного обучения была впервые предложена в 1993 году [33]. Для нейросетевых методов обработки текста оно впервые было применено в 2008 году [34]. В их модели справочные таблицы (или матрицы вложения слов) разделены между двумя моделями, обученными различным задачам, как показано на рисунке 1.7. Использование общих параметров дает моделям возможность обмениваться низкоуровневой информацией.

с >i Lookup Tables f N Lookup Tables

LV LTW3 j ПкШ i-ii-1.-----'VHBJ ГК i 1

___'

Convolution Convolution

Мах Г Max

Classical NN Layer(s) Classical NN Layer(s)

Softmax Softmax

Task 1 Task 2

Рисунок 1.7 — Пример многозадачного обучения 1.3.1 Типы многозадачных архитектур

Авторы обзора [35] классифицировали архитектуры нейросетевых многозадачных моделей по следующим типам:

— Параллельные архитектуры. Для данного типа архитектур одни и те же «общие» слои используются для примеров из каждой задачи, при этом выход «общих» слоев обрабатывается независимо своим специфическим слоем для каждой задачи. Плюсом данного типа архитектур является его достаточно высокая степень универсальности, а минусом -то, что необходимость получать одно и то же представление для каждой задачи может ограничивать адаптационные способности нейросетевой модели. К такому типу архитектур, в частности, принадлежит модель MT-DNN [36], которая будет подробнее рассмотрена ниже.

— Иерархические архитектуры. Для данного типа архитектур задачи обрабатываются зависимо друг от друга: так, результат классификации примера для одной из задач может использоваться при решении другой из задач как дополнительный входной параметр. Плюсом данного типа

архитектур является возможность моделирования глубоких отношений между задачами, минусом - его негибкость.

— Модульные архитектуры. Нейронная сеть в данных архитектурах делится на общие модули и задаче-специфичные модули, где общие модули имеют одни и те же веса для всех задач, а задаче-специфичные модули - свои веса для каждой из задач. Плюсом такого рода архитектур является возможность более точно адаптировать модель для решения нескольких задач, что даёт возможность достигать высокой степени экономии вычислительных ресурсов и хороших результатов, реализованную, в частности, в статье [37]. Минусом же данного типа архитектур является отсутствие инвариантности по отношению к базовой модели: в отличие от параллельных архитектур, данный тип архитектур заточен под какую-то конкретную базовую нейросетевую модель, что делает замену базовой модели «под капотом» для многозадачных моделей из данного типа архитектур технически сложной. Данную архитектуру имеет, в частности, модель PAL-BERT [38], которая будет рассмотрена в следующих разделах.

— Генеративно-состязательные архитектуры. Для данного типа архитектур генератор и дискриминатор обучаются совместно таким образом, что дискриминатор пытается предсказать, из какой задачи пример, по его выдаваемому генератором представлению. А генератор, соответственно, пытается сгенерировать такое представление, чтобы дискриминатор мог предсказать задачу как можно хуже. Такое «состязание» генератора и дискриминатора даёт возможность генератору научиться выдавать представления примера, максимально инвариантные относительно задачи, которые в дальнейшем классифицируются скрытыми слоями на выходе, специфичными для каждой задачи. Подобный тип архитектур распространен достаточно мало в связи со своей негибкостью и нестабильностью обучения генеративно-состязательных сетей. В то же время его неоспоримым преимуществом является возможность использовать большой объем неразмеченных данных для получения векторных представлений задач.

В данной диссертационной работе исследовались возможности и особенности применения многозадачных нейросетевых моделей для обработки естественного языка. Был сделан упор на 2 нейросетевые архитектуры - модель

Список литературы диссертационного исследования кандидат наук Карпов Дмитрий Александрович, 2023 год

Список литературы

1. Karpov, D. Data pseudo-labeling while adapting BERT for multitask approaches [Текст] / D. Karpov, M. Burtsev // Computational Linguistics and Intellectual Technologies. — 2021. — С. 358—366. — URL: https : //www.dialog-21.ru/media/5519/karpovdplusburtsevm079.pdf.

2. Karpov, D. Knowledge transfer in the multi-task encoder-agnostic transformer-based models [Текст] / D. Karpov, V. Konovalov // Computational Linguistics and Intellectual Technologies. — 2023. — URL: https://www.dialog-21.ru/media/5902/karpovdpluskonovalovv002.pdf.

3. Karpov, D. Monolingual and cross-lingual knowledge transfer for topic classification [Текст] / D. Karpov, M. Burtsev // Artificial Intelligence and Natural Language. — 2023. — URL: https://arxiv.org/abs/2306.07797.

4. DREAM technical report for the Alexa Prize 2019 [Текст] / Y. Kuratov [и др.] // Alexa Prize Proceedings. — 2019. — URL: https://m. media -amazon. com / images / G / 01 / mobile - apps / dex / alexa / alexaprize / assets / challenge3/proceedings/Moscow-DREAM.pdf.

5. DREAM technical report for the Alexa Prize 4 [Текст] / D. Baymurzina [и др.] // Alexa Prize Proceedings. — 2021. — URL: https://assets.amazon. science / ae / d2 / d9dd78d244f69f6a8db4ce384ff2 / dream- technical- report - for-the-alexa-prize-4.pdf.

6. Диалоговая система DREAM в конкурсе Alexa Prize Challenge 2019 [Текст] / Ю. М. Куратов [и др.] // Труды МФТИ. — 2021. — Т. 13, № 3. — С. 62—89. — URL: https://mipt.ru/upload/medialibrary/124/06.pdf.

7. Разработка диалоговой системы с интеграцией профиля личности [Текст] / Д. Болотин [и др.] // 5я Международная конференция «Инжиниринг & Телекоммуникации - En&T 2018», сборник тезисов. — 2019. — С. 72—73. — URL: http://2019.en-t.info/old/articles/ent2018-thesis.pdf.

8. DeepPavlov Dream: Platform for Building Generative AI Assistants (готовится к публикации) [Текст] / D. Zharikova [и др.] // Proceedings of ACL Systems Demo. — 2023.

9. Свидетельство о депонировании программы для ЭВМ, Texter ocr-cv-nlp-microservice [Текст] / В. Дуплякин [и др.]. — 2021.

10. Werbos, P. Beyond Regression: New Tools for Prediction and Analysis in the Behavioral Sciences [Текст] : THESIS.DOCTORAL / Werbos Paul. — Harvard University, 1974.

11. Lafferty, J. Kernel conditional random fields: Representation and clique selection [Текст] / J. Lafferty, X. Zhu, Y. Liu // Twenty-first international conference on Machine learning - ICML '04. — New York, New York, USA : ACM Press, 07.2004. — С. 64. — URL: http://portal.acm.org/citation.cfm? doid=1015330.1015337.

12. BLEU: A method for automatic evaluation of machine translation [Текст] / K. Papineni [и др.] // Proceedings of the 40th Annual Meeting on Association for Computational Linguistics - ACL '02. — Morristown, NJ, USA : Association for Computational Linguistics, 2001. — С. 311. — URL: http: //portal.acm.org/citation.cfm?doid=1073083.1073135.

13. Blei, D. M. Latent Dirichlet Allocation [Текст] / D. M. Blei, A. Y. Ng, M. I. Jordan //J. Mach. Learn. Res. — 2003. — Март. — Т. 3, null. — С. 993—1022.

14. Distant supervision for relation extraction without labeled data [Текст] / M. Mintz [и др.] // Proceedings of the Joint Conference of the 47th Annual Meeting of the ACL and the 4th International Joint Conference on Natural Language Processing of the AFNLP: Volume 2 - ACL-IJCNLP '09. — Morristown, NJ, USA : Association for Computational Linguistics, 08.2009. — С. 1003. — URL: http://portal.acm.org/citation.cfm?doid=1690219.1690287.

15. Dropout: A Simple Way to Prevent Neural Networks from Overfitting [Текст] / N. Srivastava [и др.] // Journal of Machine Learning Research. — 2014. — Т. 15, № 56. — С. 1929—1958. — URL: http://jmlr.org/papers/v15/ srivastava14a.html.

16. Kneser, R. Improved backing-off for M-gram language modeling [Текст] / R. Kneser, H. Ney // 1995 International Conference on Acoustics, Speech, and Signal Processing. — IEEE, 1995. — С. 181—184. — URL: http://ieeexplore. ieee.org/document/479394/.

17. A Neural Probabilistic Language Model [Текст] / Y. Bengio [и др.] //J. Mach. Learn. Res. — 2003. — Март. — Т. 3, null. — С. 1137—1155.

18. Recurrent neural network based language model [Текст] / T. Mikolov [и др.] // Interspeech 2010. — ISCA : ISCA, 09.2010. — С. 1045—1048. — URL: https : / / www . isca- speech . org / archive / interspeech % 5C _ 2010 / mikolov10%5C_interspeech.html.

19. Hochreiter, S. Long short-term memory. [Текст] / S. Hochreiter, J. Schmidhuber // Neural Computation. — 1997. — Т. 9, № 8. — С. 1735—1780. — URL: http://dx.doi.org/10.1162/neco.1997.9.8.1735.

20. Efficient Estimation of Word Representations in Vector Space [Текст] / T. Mikolov [и др.] // arXiv. — 2013. — URL: https://arxiv.org/abs/1301. 3781.

21. Sutskever, I. Sequence to Sequence Learning with Neural Networks [Текст] / I. Sutskever, O. Vinyals, Q. V. Le // arXiv. — 2014. — URL: https://arxiv. org/abs/1409.3215.

22. Found in translation: More accurate, fluent sentences in Google Translate [Текст] : WEBSITE. — URL: https://blog.google/products/translate/found-translation - more - accurate - fluent - sentences - google - translate/ (дата обр. 13.11.2022).

23. Attention Is All You Need [Текст] / A. Vaswani [и др.] // arXiv. — 2017. — URL: https://arxiv.org/abs/1706.03762.

24. Hochreiter, S. The vanishing gradient problem during learning recurrent neural nets and problem solutions [Текст] / S. Hochreiter // International Journal of Uncertainty, Fuzziness and Knowledge-Based Systems. — 1998. — Апр. — Т. 06, № 02. — С. 107—116. — URL: http://www.worldscientific. com/doi/abs/10.1142/S0218488598000094.

25. Deep residual learning for image recognition [Текст] / K. He [и др.] // IEEE Conference on Computer Vision and Pattern Recognition (CVPR). — IEEE, 06.2016. — С. 770—778. — URL: http://ieeexplore.ieee.org/document/ 7780459/.

26. Ba, J. L. Layer Normalization [Текст] / J. L. Ba, J. R. Kiros, G. E. Hinton // arXiv. — 2016. — URL: https://arxiv.org/abs/1607.06450.

27. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding [Текст] / J. Devlin [и др.] // arXiv. — 2018. — URL: https://arxiv.org/abs/1810.04805.

28. Convolutional Sequence to Sequence Learning [Текст] / J. Gehring [и др.] // arXiv. — 2017. — URL: https://arxiv.org/abs/1705.03122.

29. Hugging Face - Wikipedia [Текст] : WEBSITE. — URL: https://en.wikipedia. org/wiki/Hugging%5C_Face (дата обр. 20.11.2022).

30. Patwardhan, N. Transformers in the Real World: A Survey on NLP Applications [Текст] / N. Patwardhan, S. Marrone, C. Sansone // Information. — 2023. — Т. 14, № 4. — URL: https://www.mdpi.com/2078-2489/14/4/242.

31. HuggingFace NLP Course: Encoder Models [Текст] : WEBSITE. — URL: https://huggingface.co/learn/nlp-course/chapter1/5?fw = pt (дата обр. 30.06.2023).

32. Aligning Books and Movies: Towards Story-Like Visual Explanations by Watching Movies and Reading Books [Текст] / Y. Zhu [и др.] // 2015 IEEE International Conference on Computer Vision (ICCV). — IEEE, 12.2015. — С. 19—27. — URL: http://ieeexplore.ieee.org/document/7410368/.

33. Caruana, R. Multitask learning [Текст] / R. Caruana // Machine learning. — 1997. — Т. 28, № 1. — С. 41—75.

34. Collobert, R. A unified architecture for natural language processing: Deep neural networks with multitask learning [Текст] / R. Collobert, J. Weston // Proceedings of the 25th international conference on Machine learning - ICML '08. — New York, New York, USA : ACM Press, 07.2008. — С. 160—167. — URL: http://portal.acm.org/citation.cfm?doid=1390156.1390177.

35. Chen, S. Multi-Task Learning in Natural Language Processing: An Overview [Текст] / S. Chen, Y. Zhang, Q. Yang // CoRR. — 2021. — Т. abs/2109.09138. — URL: https://arxiv.org/abs/2109.09138.

36. Multi-Task Deep Neural Networks for Natural Language Understanding [Текст] / X. Liu [и др.] // Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics. — Stroudsburg, PA, USA : Association for Computational Linguistics, 2019. — С. 4487—4496. — URL: https://www.aclweb.org/anthology/P19-1441.

37. Maziarka, L. Multitask Learning Using BERT with Task-Embedded Attention [Текст] / L. Maziarka, T. Danel // 2021 International Joint Conference on Neural Networks (IJCNN). — IEEE, 07.2021. — С. 1—6. — URL: https:// ieeexplore.ieee.org/document/9533990/.

38. Stickland, A. C. BERT and PALs: Projected Attention Layers for Efficient Adaptation in Multi-Task Learning [Текст] / A. C. Stickland, I. Murray // Proceedings of the 36th International Conference on Machine Learning. Т. 97. — 2019. — 5986:5995. — URL: https://arxiv.org/abs/1902.02671.

39. GLUE: A multi-task benchmark and analysis platform for natural language understanding [Текст] / A. Wang [и др.] // Proceedings of the 2018 EMNLP Workshop BlackboxNLP: Analyzing and Interpreting Neural Networks for NLP. — Stroudsburg, PA, USA : Association for Computational Linguistics, 2018. — С. 353—355. — URL: http://aclweb.org/anthology/W18-5446.

40. Sang, E. F. T. K. Introduction to the CoNLL-2003 Shared Task: Language-Independent Named Entity Recognition [Текст] / E. F. T. K. Sang, F. De Meulder // arXiv. — 2003. — URL: https://arxiv.org/abs/cs/0306050.

41. Liu, X. Stochastic Answer Networks for Natural Language Inference [Текст] / X. Liu, K. Duh, J. Gao // arXiv. — 2018. — URL: https://arxiv.org/abs/ 1804.07888.

42. On the Properties of Neural Machine Translation: Encoder-Decoder Approaches [Текст] / K. Cho [и др.] // CoRR. — 2014. — Т. abs/1409.1259. — URL: http://arxiv.org/abs/1409.1259.

43. Bousquet, O. Advanced Lectures on Machine Learning: ML Summer Schools

2003, Canberra, Australia, February 2-14, 2003, Tübingen, Germany, August 4-16, 2003, Revised ... (Lecture Notes in Computer Science (3176)) [Текст] / O. Bousquet, U. v. Luxburg, G. Ratsch. — 2004-е изд. — Berlin : Springer,

2004. — С. 256.

44. Kingma, D. P. Adam: A Method for Stochastic Optimization [Текст] / D. P. Kingma, J. Ba // arXiv. — 2014. — URL: https://arxiv.org/abs/ 1412.6980.

45. Коновалов, В. Методы переноса знаний для нейросетевых моделей обработки естественного языка [Текст] : THESIS.DOCTORAL / Коновалов Василий. — МФТИ, 2022. — URL: https : / / mipt . ru / upload / medialibrary/33e/dissertatsiya-konovalov-vasiliy-pavlovich.pdf.

46. BERT: Pre-training of deep bidirectional transformers for language understanding [Текст] / J. Devlin [и др.] // Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers). Abs/1905.07213. — Association for Computational Linguistics, 2019. — 4171:4186. — URL: https://arxiv.org/abs/1810.04805.

47. Maziarka, L. Multitask Learning Using BERT with Task-Embedded Attention [Текст] / L. Maziarka, T. Danel // 2021 International Joint Conference on Neural Networks (IJCNN). — IEEE, 07.2021. — С. 1—6. — URL: https:// ieeexplore.ieee.org/document/9533990/.

48. GradTS: A Gradient-Based Automatic Auxiliary Task Selection Method Based on Transformer Networks [Текст] / W. Ma [и др.] // CoRR. — 2021. — Т. abs/2109.05748. — arXiv: 2109.05748. — URL: https://arxiv.org/abs/2109. 05748.

49. GoEmotions: A Dataset of Fine-Grained Emotions [Текст] / D. Demszky [и др.] // Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics. — Online : Association for Computational Linguistics, 07.2020. — С. 4040—4054. — URL: https://aclanthology.org/

2020.acl-main.372.

50. Sboev, A. Data-Driven Model for Emotion Detection in Russian Texts [Текст] / A. Sboev, A. Naumov, R. Rybka // Procedia Computer Science. —

2021. — Т. 190. — С. 637—642. — URL: https://huggingface.co/datasets/cedr.

51. DynaSent: A Dynamic Benchmark for Sentiment Analysis [Текст] / C. Potts [и др.] // CoRR. — 2020. — Т. abs/2012.15349. — arXiv: 2012.15349. — URL: https://arxiv.org/abs/2012.15349.

52. Smetanin, S. Sentiment Analysis of Product Reviews in Russian using Convolutional Neural Networks [Текст] / S. Smetanin, M. Komarov // 2019 IEEE 21st Conference on Business Informatics (CBI). Т. 01. — 07.2019. — С. 482—486. — URL: https://github.com/sismetanin/rureviews.

53. Measuring and Mitigating Unintended Bias in Text Classification( paper for Wiki Talk dataset, cleaned version of the dataset retrieved from https:// huggingface.co/datasets/OxAISH-AL-LLM/wiki_toxic) [Текст] / L. Dixon [и др.] // Proceedings of the 2018 AAAI/ACM Conference on AI, Ethics, and Society. — New Orleans, LA, USA : Association for Computing Machinery, 2018. — С. 67—73. — (AIES '18). — URL: https://doi.org/10.1145/3278721. 3278729.

54. Russian toxicity dataset from 2ch.hk. Dataset retrieved from https://github. com/s-nlp/rudetoxifier [Текст] / D. Dementieva [и др.] // CoRR. — 2021. — Т. abs/2105.09052. — arXiv: 2105.09052. — URL: https://arxiv.org/abs/ 2105.09052.

55. MASSIVE: A 1M-Example Multilingual Natural Language Understanding Dataset with 51 Typologically-Diverse Languages [Текст] / J. FitzGerald [и др.]. — 2022. — arXiv: 2204.08582 [cs.CL].

56. SLURP: A Spoken Language Understanding Resource Package [Текст] / E. Bastianelli [и др.] // Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP). — Online : Association for Computational Linguistics, 11.2020. — С. 7252—7262. — URL: https: //aclanthology.org/2020.emnlp-main.588.

57. DistilBERT, a distilled version of BERT: smaller, faster, cheaper and lighter [Текст] / V. Sanh [и др.] // CoRR. — 2019. — Т. abs/1910.01108. — arXiv: 1910.01108. — URL: http://arxiv.org/abs/1910.01108.

58. Knowledge Distillation of Russian Language Models with Reduction of Vocabulary [Текст] / A. Kolesnikova [и др.]. — 2022. — URL: https://arxiv. org/abs/2205.02340.

59. Kuratov, Y. Adaptation of Deep Bidirectional Multilingual Transformers for Russian Language [Текст] / Y. Kuratov, M. Y. Arkhipov // CoRR. — 2019. — Т. abs/1905.07213. — arXiv: 1905.07213. — URL: http://arxiv.org/abs/1905. 07213.

60. MLSUM: The Multilingual Summarization Corpus [Текст] / T. Scialom [и др.] // arXiv preprint arXiv:2004.14900. — 2020.

61. XGLUE: A New Benchmark Dataset for Cross-lingual Pre-training, Understanding and Generation [Текст] / Y. Liang [и др.] // arXiv. — 2020. — Т. abs/2004.01401.

62. Blinov, P. Dataset of Russian reviews about medical facilities [Текст] / P. Blinov. — 2022. — Accessed: 2023-02-17. https://huggingface.co/datasets/ blinoff/healthcare_facilities_reviews.

63. Perevalov, A. PSTU dataset: classification of university-related topics [Текст] / A. Perevalov. — 2018. — https://github.com/Perevalov/pstu_ assistant/blob/master/data/data.txt.

64. Koziev, I. Chatbot-ru: Russian intent and topic classification dataset [Текст] / I. Koziev. — 2020. — https://github.com/Koziev/chatbot/blob/master/data/ intents.txt.

65. Yandex Que Service [Текст]. — 2023. — Accessed: 2023-02-17. https://yandex. ru/q/.

66. Variations of the Similarity Function of TextRank for Automated Summarization [Текст] / F. Barrios [и др.] // CoRR. — 2016. — Т. abs/1602.03606. — arXiv: 1602 . 03606. — URL: http : / / arxiv . org / abs/1602.03606.

67. Transformers: State-of-the-Art Natural Language Processing [Текст] / T. Wolf [и др.] // Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing: System Demonstrations. — Online : Association for Computational Linguistics, 10.2020. — С. 38—45. — URL: https://www.aclweb.org/anthology/2020.emnlp-demos.6.

68. Jacob Devlin, S. P. Official description of the multilingual BERT models from Google Research [Текст] / S. P. Jacob Devlin. — 2019. — https://github.com/ google-research/bert/blob/master/multilingual.md.

69. SberDevices. ruT5, ruRoBERTa, ruBERT: How we trained a series of models for the Russian-language [Текст] / SberDevices. — 2021. — HuggingFace model link: https: / / huggingface. co / sberbank- ai / ruBert - base. Accessed: 2023-02-17. https://habr.com/ru/company/sberbank/blog/567776/.

70. Beaufils, V. Stochastic approach to worldwide language classification: the signals and the noise towards long-range exploration [Текст] / V. Beaufils, J. Tomin. — 2020. — SocArXiv: 5swba. — Implementation we used: http: //www.elinguistics.net/Compare_Languages.aspx.

71. Alexa Prize SocialBot Grand Challenge 3 - Amazon Science [Текст] : WEBSITE. — URL: https://www.amazon.science/alexa-prize/socialbot-grand-challenge/2019 (дата обр. 08.11.2022).

72. Alexa Prize SocialBot Grand Challenge 4 - Amazon Science [Текст] : WEBSITE. — URL: https://www.amazon.science/alexa-prize/socialbot-grand-challenge/2020 (дата обр. 08.11.2022).

73. Overview |Docker Documentation [Текст] : WEBSITE. — URL: https://docs. docker.com/compose/ (дата обр. 09.11.2022).

74. Dream Team / Alexa Prize 3 [Текст] : WEBSITE. — URL: https : / / deeppavlov.ai/challenges/dream%5C_alexa%5C_3.

75. Universal Sentence Encoder [Текст] / D. Cer [и др.] // arXiv. — 2018. — URL: https://arxiv.org/abs/1803.11175.

76. Conversational english BERT from DeepPavlov [Текст] : WEBSITE. — URL: https: / / huggingface. co / DeepPavlov / bert - base - cased - conversational (дата обр. 09.11.2022).

77. Jigsaw Unintended Bias in Toxicity Classification |Kaggle [Текст] : WEBSITE. — URL: https : / / www . kaggle . com / competitions / jigsaw -unintended-bias-in-toxicity-classification/discussion (дата обр. 09.11.2022).

78. DeepPavlov/sentiment_sst_conv_bert.json at 0.9.0 ■ deeppavlov/DeepPavlov ■ GitHub [Текст] : WEBSITE. — URL: https://github.com/deepmipt/ %7BDeepPavlov%7D/blob/0.9.0/deeppavlov/configs/classifiers/sentiment% 5C_sst%5C_conv%5C_bert.json (дата обр. 09.11.2022).

79. Recursive Deep Models for Semantic Compositionality Over a Sentiment Treebank [Текст] / R. Socher [и др.] // Proceedings of the 2013 Conference on Empirical Methods in Natural Language Processing. — Seattle, Washington, USA : Association for Computational Linguistics, 10.2013. — С. 1631—1642. — URL: https://aclanthology.org/D13-1170.

80. Eray Yildiz |Novice |Kaggle [Текст] : WEBSITE. — URL: https://www. kaggle.com/eray1yildiz (дата обр. 09.11.2022).

81. 'ScenarioSA: A Large Scale Conversational Database for Interactive Sentiment Analysis' [Текст] / D. S. Yazhou Zhang Lingling Song [и др.] // arXiv preprint arXiv:1907.05562. — 2019.

82. Emotion classification dataset (retrieved from Kaggle, supplemented by the neutral example from ScenarioSA dataset) [Текст] : WEBSITE. — URL: http: / / files. deeppavlov. ai / datasets / %7BEmotionDataset % 7D . rar (дата обр. 10.11.2022).

83. Robertson, S. Understanding Inverse Document Frequency: On Theoretical Arguments for IDF [Текст] / S. Robertson // Journal of Documentation - J DOC. — 2004. — Окт. — Т. 60. — С. 503—520.

84. Topical-Chat: Towards Knowledge-Grounded Open-Domain Conversations [Текст] / Q. C. Karthik Gopalakrishnan Behnam Hedayatnia [и др.] // Proceedings of Interspeech. — 2019.

85. Personalizing Dialogue Agents: I have a dog, do you have pets too? [Текст] / S. Zhang [и др.] // CoRR. — 2018. — Т. abs/1801.07243. — URL: http: //arxiv.org/abs/1801.07243.

86. Wizard of Wikipedia: Knowledge-Powered Conversation Agents [Текст] / S. R. Emily Dinan [и др.] // Proceedings of ICLR. — 2018.

87. Improving language understanding by generative pre-training [Текст] / A. Radford [и др.] // URL https://s3-us-west-2. amazonaws. com/openai-assets/research-covers/languageunsupervised/language understanding paper. pdf. — 2018.

88. Reddit - Dive into anything [Текст] : WEBSITE. — URL: https://www. reddit.com/ (дата обр. 10.11.2022).

89. ConveRT: Efficient and Accurate Conversational Representations from Transformers [Текст] / M. Henderson [и др.] // arXiv preprint arXiv:1911.03688. — 2019.

90. Evi(software) - Wikipedia [Текст] : WEBSITE. — URL: https://en.wikipedia. org/wiki/Evi%5C_(software) (дата обр. 10.11.2022).

91. Goodreads |Meet your next favorite book [Текст] : WEBSITE. — URL: https: //www.goodreads.com/ (дата обр. 10.11.2022).

92. Github, John Hopkins University - data about COVID cases and deaths [Текст] : WEBSITE. — URL: https : / / github . com / CSSEGISandData / COVID-19 (дата обр. 10.11.2022).

93. Баймурзина, Д. Нейросетевые модели и диалоговая система для ведения разговора на общие темы [Текст] : THESIS.DOCTORAL / Баймурзина Ди-ляра. — МФТИ, 10.2021. — URL: https://mipt.ru/upload/medialibrary/ e31/dissertation%5C_baymurzina.pdf.

94. Kubernetes - Wikipedia [Текст] : WEBSITE. — URL: https://ru.wikipedia. org/wiki/Kubernetes (дата обр. 10.11.2022).

95. Yu, D. Midas: A dialog act annotation scheme for open domain human machine spoken conversations [Текст] / D. Yu, Z. Yu // arXiv preprint arXiv:1908.10023. — 2019.

96. wikiHow: How-to instructions you can trust. [Текст] : WEBSITE. — URL: https://www.wikihow.com/Main-Page (дата обр. 10.11.2022).

97. Vrandecic, D. Wikidata: A Free Collaborative Knowledgebase [Текст] / D. Vrandecic, M. Krotzsch // Communications of the ACM. — 2014. — Сент. — Т. 57, № 10. — С. 78—85. — URL: http://dl.acm.org/citation. cfm?doid=2661061.2629489.

98. Questions on Yahoo Answers labeled as either informational or conversational, version 1.0, L31 YAHOO dataset [Текст] : WEBSITE. — URL: https:// webscope.sandbox.yahoo.com/catalog.php?datatype = l%5C&did = 82 (дата обр. 13.11.2022).

99. Dialog Flow Framework [Текст] : WEBSITE. — URL: https://deeppavlov. ai/dff (дата обр. 10.11.2022).

100. Recipes for building an open-domain chatbot [Текст] : OTHER / S. Roller [и др.]. — 2020.

101. Policy-Driven Neural Response Generation for Knowledge-Grounded Dialogue Systems [Текст] / B. Hedayatnia [и др.] // arXiv preprint arXiv:2005.12529. — 2020.

102. Sagyndyk, B. DeepPavlov Topics: Topic Classification Dataset for Conversational Domain in English [Текст] / B. Sagyndyk, D. Baymurzina, M. Burtsev // Advances in Neural Computation, Machine Learning, and Cognitive Research VI / под ред. B. Kryzhanovsky [и др.]. — Cham : Springer International Publishing, 2023. — С. 371—380.

103. DynaSent: A Dynamic Benchmark for Sentiment Analysis [Текст] / C. Potts [и др.] // Proceedings of ACL. — 2020. — arXiv: 2012.15349. — URL: https: //arxiv.org/abs/2012.15349.

104. Yahoo. Questions on Yahoo Answers labeled as either informational or conversational, version 1.0, L31 YAHOO dataset [Текст] : WEBSITE / Yahoo. — URL: https : / / webscope . sandbox . yahoo . com / catalog . php ? datatype=l%5C&did=82 (дата обр. 13.11.2022).

Список рисунков

1.1 Первая нейросетевая языковая модель ..................................14

1.2 Word2Vec....................................................................15

1.3 Пример сети на основе модели Seq2Seq..................................16

1.4 Механизм Attention..........................................................17

1.5 Модули энкодера и декодера в архитектуре Трансформер..............19

1.6 Три типа представления токенов в модели BERT......................23

1.7 Пример многозадачного обучения........................................25

1.8 Схема модели MT-DNN....................................................28

1.9 Использование проективных слоев внимания (PAL1, PAL2) в

модели PAL-BERT. LN означает LayerNorm, SA самовнимание. ... 31

3.1 Средняя точность для англоязычных диалоговых задач. Эффект уменьшения тренировочных данных. Результаты усреднены по 13 запускам......................................................................61

3.2 Однозадачная и многозадачная точность для каждой задачи. Английский язык............................................................63

3.3 Средняя точность (СКО) на русскоязычных данных для

сИвШЬеН-Ьаве-шиШиидиаисавеё,. Б означает однозадачный режим, М означает многозадачный режим, RU доля означает долю русскоязычных обучающих данных, использованных при обучении, RU означает только обучение на этой доле русскоязычных данных, RU+EN означает обучение на этой доле русскоязычных обучающих

данных плюс на 100 процентах англоязычных обучающих данных.

В Таблице 9 приведены более подробные детали............. 66

3.4 Однозадачная и многозадачная точность для каждой задачи.

Русский язык................................ 69

5.1 Архитектура диалоговой системы DREAM в конкурсе «Alexa Prize Challenge 3» ................................ 88

5.2 Архитектура диалоговой системы DREAM в конкурсекАкха Prize Challenge 4» ................................ 96

Список таблиц

1 Лучшая точность на валидационных данных (при лучшей скорости обучения из выбираемых, среднее по 3 запускам) ........... 44

2 Лучшая точность на тестовых данных (при лучшей скорости обучения из выбираемых, среднее по 3 запускам) ........... 45

3 Метрики англоязычных моделей (точность/макро-F!) для пяти англоязычных диалоговых задач.Режим S означает однозадачные модели, режим M означает многозадачные модели. distilbert означает distilbert-base-cased, bert - bert-base-cased, bert-large -bert-large-cased. Усреднено по трем запускам, кроме distilbert, для которого усреднение проводилось по 13 запускам............ 59

4 Метрики русскоязычных моделей (точность/fl. macro) для пяти диалоговых задач. Режим S означает однозадачные модели, режим M означает многозадачные модели. distilrubert означает базовую модель DeepPavlov/distilrubert-base-cased-conversational, rubert -базовую модель DeepPavlov/rubert-base-cased-conversational. Усреднено по трем запускам для всех моделей, кроме distilrubert-tiny и по тринадцати для distilrubert-tiny.......... 59

5 Метрики многозадачной энкодер-агностичной модели для набора задач GLUE. M.Corr означает корреляцию Мэттью, P/S означает

корреляцию Пирсона-Спирмена, Acc точность, F1 - макро-FL Режим S означает однозадачные модели, режим M означает многозадачные модели. Размер означает размер тренировочного набора данных. distilbert означает distilbert-base-cased, bert -

bert-base-cased, bert-large - bert-large-cased................. 60

6 Точность/fl. macro на задачах из Таблицы 3 для MT-DNN и для базовой модели distilbert-base-cased. Энкодер-агн. означает энкодер-агностичную модель. Усреднено по 13 запускам........ 60

7 Точность/ макро-Fl для запусков на части тренировочных данных. Режим M означает многозадачные модели, режим S означает однозадачные модели, и Доля означает долю использованных тренировочных данных. Базовая модель distilbert-base-cased. Усреднено по 13 запускам......................... 62

8 Точность/fl. macro на русскоязычных данных для многоязычных моделей. Режим S означает однозадачные модели, режим M -многозадачные модели. RU означает русскоязычные данные, EN означает англоязычные данные. Объединенные означает, что русскоязычные и англоязычные данные объединены по задаче, Отдельные означает, что русскоязычные и англоязычными задачи считаются отдельными задачами. distilbert-mult обозначает модель distilbert-base-multilingual-cased, bert-mult - модель bert-base-multilingual-cased. Усреднено по трем запускам, кроме

первых двух экспериментов, для которых усреднено по 13 запускам. 64

9 Влияние добавления англоязычных данных. Точность/ А-макро на русскоязычных данных для энкодер-агностичного distilbert-base-multilingual-cased. Число батчей означает число батчей, которые видела модель в процессе своего обучения, режим S означает однозадачное обучение, режим M - многозадачное обучение. RU доля - доля тренировочных примеров, взятых из каждого русскоязычного тренировочного набора данных, и EN доля - доля примеров, взятых из каждого англоязычного тренировочного набора данных. Усреднено по 13 запускам....... 67

10 Сравнение валидации на русскоязычных и англоязычных данных. Точность/ fl-макро на русскоязычных данных для энкодер-агностичного distilbert-base-multilingual-cased. Число батчей означает число батчей, которые видела модель в процессе своего обучения, режим S означает однозадачное обучение, режим M -многозадачное обучение. RU доля - доля тренировочных примеров, взятых из каждого русскоязычного тренировочного набора данных, и EN доля - доля примеров, взятых из каждого англоязычного тренировочного набора данных. Усреднено по 3 запускам, кроме указанных выше экспериментов, для которых усреднение проводилось по 5 запускам - для валидации на русскоязычных данных, и по 13 запускам для валидации на англоязычных данных. . 68

11 Размеры набора данных RuQTopics по классу и части......... 75

12 Параметры различных базовых моделей, рассмотренных в этой главе 77

13 Метрики различных типов базовых моделей на объединенных тестовых данных MASSIVE для русского языка. Модели были обучены на шестиклассовой равноразмерной подвыборке RuQTopics, предобработанной при помощи одного из нескольких режимов, описанных в Разделе 4.3. Условные обозначения моделей - как в Таблице 12. Точн. означает точность. Усреднено по трем запускам................................... 77

14 Метрики различных типов базовых моделей на объединенных тестовых данных MASSIVE для русского языка. Модели были обучены на шестиклассовой полной подвыборке RuQTopics (из всей однометочной части), предобработанной при помощи одного из нескольких режимов, описанных в Разделе 4.3. Условные обозначения моделей - как в Таблице 12. Точн. означает точность. Усреднено по трем запускам........................ 78

15 Метрики различных базовых моделей для 5-кратной кросс-валидации на всех классах из набора данных RuQTopics при обучении только на вопросах. Базовые модели обозначаются как в Таблице 12, Разб. означает разбиение, Точн. - точность, F1 -Макро-F!. Дисперсия не превосходит 0.65 для всех базовых моделей. 79

16 Метрики модели bert-base-multilingual-cased на объединенном тестовом наборе данных MASSIVE для всех языков. Модель обучалась на версии Q набора данных RuQTopics. Код означает код языка(КО 639-1), N означает число статей в Википедии на этом языке на 11 октября 2018 года, Дист означает лингвистическую дистанцию между этим языком и русским, посчитанную в соответствии с работой [70]. Усреднено по трем

запускам................................... 81

17 Сравнение метрик в экспериментах из Таблицы 16 с дообучением тела модели(т.е как в Таблице 16) и без дообучения тела модели(с обучением только финальных линейных слоев). Усреднено по трем запускам................................... 82

18 Матрица ошибок классификатора эмоций из Alexa Prize Challenge 3 92

19 Точность (перплексия) для генеративного навыка............ 93

20 Точность (взвешенный-F!) для многозадачной классификации для различных моделей. «1 в 1» означает оригинальные модели, «6 в 1» - многозадачную модель с одним линейным слоем, обученную на аннотациях всех упомянутых в таблице классификаторов, «3 в 1 (Cobot)» - многозадачную модель с одним линейным слоем, обученную только на аннотациях классификаторов Cobot Topics, Cobot DialogAct Topics и Cobot DialogAct Intents, «3 в 1 (не Cobot)»

- многозадачную модель с одним линейным слоем, обученную только на аннотациях остальных

классификаторов(классификаторы эмоций, тональности и токсичности).................................104

21 Точность (взвешенный-Е1) с диалоговой историей для многозадачной модели с 1 линейным слоем, только Коботовские задачи....................................105

22 Точность (взвешенный П) с диалоговой историей для многозадачных моделей, только Коботовские задачи .........107

23 Точность (взвешенный-Fl) для моделей без диалоговой истории для многозадачной модели с 1 линейным слоем и PAL-BERT на псевдоразмеченных данных из Alexa Prize Challenge 4, оценка на «чистых» тестовых данных для не-Коботовских задач и на псевдоразмеченных для Коботовских задач. «1 в 1» означает оригинальные модели............................109

24 Точность (взвешенный-F!) для оценки моделей в третьей серии экспериментов. Для не-Коботовских задач при оценке используются оригинальные тестовые наборы данных, для Коботовских - тестовая часть разбиения данных. «1 в 1» означает оригинальные модели, «История» означает использование диалоговой истории для Коботовских задач...............112

25 Точность/взвешенный-F!) в экспериментах с энкодер-агностичными моделями. Для не-Коботовских задач при оценке используются оригинальные тестовые наборы данных, для Коботовских - тестовая часть разбиения данных. Как distilbert обозначается модель distilbert-base-uncased, как bert модель bert-base-uncased. «С историей» означает использование диалоговой истории только в задаче MIDAS, «Без истории» означает, что диалоговая история не использовалась ни в одной задаче. «Размер» означает размер обучающей выборки. Режим S означает, что обучались однозадачные модели, M означает, что обучалась многозадачная модель...........................118

26 Точность/взвешенный-F!) в экспериментах с многозадачными моделями. «Новая» означает энкодер-агностичную модель, описанную в Главе 3, «Старая» - модель с одним линейным слоем. Все модели основаны на distilbert-base-uncased, с использованием истории только в наборе данных MIDAS. Для не-Коботовских задач при оценке используются оригинальные тестовые наборы данных, для Коботовских - тестовая часть разбиения данных.

«Размер» означает размер обучающей выборки.............119

27 Метрики англоязычных моделей(точность/£1 macro) для пяти диалоговых задач, Глава 3. Режим S означает однозадачные модели, режим M означает многозадачные модели. Все запуски. . . . 158

28 Метрики MT-DNN (точность/П. macro) для пяти диалоговых задач, Глава 3. Базовая модель distilbert-base-cased. Все запуски.......159

29 Точность/ F1 для запусков на части тренировочных данных, Глава 3. Режим M означает многозадачные модели, режим S означает однозадачные модели, и Доля означает долю использованных тренировочных данных. Базовая модель distilbert-base-cased. Все запуски. Часть 1................160

30 Точность/ F1 для запусков на части тренировочных данных, Глава 3. Режим M означает многозадачные модели, режим S означает однозадачные модели, и Доля означает долю использованных тренировочных данных. Базовая модель distilbert-base-cased. Все запуски. Часть 2.................161

31 Точность/ F1 для запусков на части тренировочных данных, Глава 3. Режим M означает многозадачные модели, режим S означает однозадачные модели, и Доля означает долю использованных тренировочных данных. Базовая модель distilbert-base-cased. Все запуски. Часть 3................162

32 Точность/ F1 для запусков на части тренировочных данных, Глава 3. Режим M означает многозадачные модели, режим S означает однозадачные модели, и Доля означает долю использованных тренировочных данных. Базовая модель distilbert-base-cased. Все запуски. Часть 4................163

33 Точность/ F1 для запусков на части тренировочных данных, Глава 3. Режим M означает многозадачные модели, режим S означает однозадачные модели, и Доля означает долю использованных тренировочных данных. Базовая модель distilbert-base-cased. Все запуски. Часть 5................164

34 Метрики русскоязычных моделей(точность/А. macro) для пяти диалоговых задач, Глава 3. Режим S означает однозадачные

модели, режим M означает многозадачные модели. Все запуски. ... 164

35 Точность/fl. macro на русскоязычных данных для многоязычных моделей, Глава 3. Режим S означает однозадачные модели, режим M - многозадачные модели. RU означает русскоязычные данные, EN означает англоязычные данные. Объединенные означает, что русскоязычные и англоязычные данные объединены по задаче, Отдельные означает, что русскоязычные и англоязычными задачи считаются отдельными задачами. Все запуски.............165

36 Точность/ fl-макро на русскоязычных данных для энкодер-агностичного distilbert-base-multilingual-cased, Глава 3. Число батчей означает число батчей, которые видела модель в процессе своего обучения, режим S означает однозадачное обучение, режим M - многозадачное обучение. RU доля - доля тренировочных примеров, взятых из каждого русскоязычного тренировочного набора данных, и EN доля - доля примеров, взятых из каждого англоязычного тренировочного набора данных. Все запуски. Часть 1. 166

37 Точность/ fl-макро на русскоязычных данных для энкодер-агностичного distilbert-base-multilingual-cased, Глава 3. Число батчей означает число батчей, которые видела модель в процессе своего обучения, режим S означает однозадачное обучение, режим M - многозадачное обучение. RU доля - доля тренировочных примеров, взятых из каждого русскоязычного тренировочного набора данных, и EN доля - доля примеров, взятых из каждого англоязычного тренировочного набора данных. Все запуски. Часть 2. 167

38 Точность/ fl-макро на русскоязычных данных для энкодер-агностичного distilbert-base-multilingual-cased, Глава 3. Число батчей означает число батчей, которые видела модель в процессе своего обучения, режим S означает однозадачное обучение, режим M - многозадачное обучение. RU доля - доля тренировочных примеров, взятых из каждого русскоязычного тренировочного набора данных, и EN доля - доля примеров, взятых из каждого англоязычного тренировочного набора данных. Все запуски. Часть 3. 168

39 Точность/ А-макро на русскоязычных данных для энкодер-агностичного сИвШЬеН-Ьаве-шиШиидиаисавеё,, Глава 3. Число батчей означает число батчей, которые видела модель в процессе своего обучения, режим Б означает однозадачное обучение, режим М - многозадачное обучение. RU доля - доля тренировочных примеров, взятых из каждого русскоязычного тренировочного набора данных, и EN доля - доля примеров, взятых из каждого англоязычного тренировочного набора данных. Все запуски. Часть 4. 169

40 Точность/ А-макро на русскоязычных данных для энкодер-агностичного сИвШЬеН-Ьаве-шиШиидиаисавеё,, Глава 3. Число батчей означает число батчей, которые видела модель в процессе своего обучения, режим Б означает однозадачное обучение, режим М - многозадачное обучение. RU доля - доля тренировочных примеров, взятых из каждого русскоязычного тренировочного набора данных, и EN доля - доля примеров, взятых из каждого англоязычного тренировочного набора данных. Все запуски. Часть 5. 170

41 Точность/ А-макро на русскоязычных данных для энкодер-агностичного сИвШЬеН-Ьаве-шиШиидиаисавеё,, Глава 3. Число батчей означает число батчей, которые видела модель в процессе своего обучения, режим Б означает однозадачное обучение, режим М - многозадачное обучение. RU доля - доля тренировочных примеров, взятых из каждого русскоязычного тренировочного набора данных, и EN доля - доля примеров, взятых из каждого англоязычного тренировочного набора данных. Все запуски. Часть 6. 171

42 Точность/ А-макро на русскоязычных данных для энкодер-агностичного сИвШЬеН-Ьаве-шиШиидиаисавеё,, Глава 3. Число батчей означает число батчей, которые видела модель в процессе своего обучения, режим Б означает однозадачное обучение, режим М - многозадачное обучение. RU доля - доля тренировочных примеров, взятых из каждого русскоязычного тренировочного набора данных, и EN доля - доля примеров, взятых из каждого англоязычного тренировочного набора данных. Все запуски. Часть 7. 172

43 Точность/ fl-макро на русскоязычных данных для энкодер-агностичного distilbert-base-multilingual-cased, Глава 3. Число батчей означает число батчей, которые видела модель в процессе своего обучения, режим S означает однозадачное обучение, режим M - многозадачное обучение. RU доля - доля тренировочных примеров, взятых из каждого русскоязычного тренировочного набора данных, и EN доля - доля примеров, взятых из каждого англоязычного тренировочного набора данных. Все запуски. Часть 8. 173

44 Точность/ fl-макро на русскоязычных данных для энкодер-агностичного distilbert-base-multilingual-cased, Глава 3. Число батчей означает число батчей, которые видела модель в процессе своего обучения, режим S означает однозадачное обучение, режим M - многозадачное обучение. RU доля - доля тренировочных примеров, взятых из каждого русскоязычного тренировочного набора данных, и EN доля - доля примеров, взятых из каждого англоязычного тренировочного набора данных. Все запуски. Часть 9. 174

45 Точность/ fl-макро на русскоязычных данных для энкодер-агностичного distilbert-base-multilingual-cased, Глава 3. Число батчей означает число батчей, которые видела модель в процессе своего обучения, режим S означает однозадачное обучение, режим M - многозадачное обучение. RU доля - доля тренировочных примеров, взятых из каждого русскоязычного тренировочного набора данных, и EN доля - доля примеров, взятых из каждого англоязычного тренировочного набора данных. Все запуски. Часть 10.175

46 Точность/ fl-макро на русскоязычных данных для энкодер-агностичного distilbert-base-multilingual-cased, Глава 3. Число батчей означает число батчей, которые видела модель в процессе своего обучения, режим S означает однозадачное обучение, режим M - многозадачное обучение. RU доля - доля тренировочных примеров, взятых из каждого русскоязычного тренировочного набора данных, и EN доля - доля примеров, взятых из каждого англоязычного тренировочного набора данных. Все запуски. Часть 11.176

47 Точность/ fl-макро на русскоязычных данных для энкодер-агностичного distilbert-base-multilingual-cased, Глава 3. Число батчей означает число батчей, которые видела модель в процессе своего обучения, режим S означает однозадачное обучение, режим M - многозадачное обучение. RU доля - доля тренировочных примеров, взятых из каждого русскоязычного тренировочного набора данных, и EN доля - доля примеров, взятых из каждого англоязычного тренировочного набора данных. Все запуски. Часть 12.177

48 Точность/ fl-макро на русскоязычных данных для энкодер-агностичного distilbert-base-multilingual-cased, Глава 3. Число батчей означает число батчей, которые видела модель в процессе своего обучения, режим S означает однозадачное обучение, режим M - многозадачное обучение. RU доля - доля тренировочных примеров, взятых из каждого русскоязычного тренировочного набора данных, и EN доля - доля примеров, взятых из каждого англоязычного тренировочного набора данных. Все запуски. Часть 13.178

49 Размеры наборов данных для классификации эмоций, Глава 3. Английские и русские данные.......................180

50 Размеры наборов данных для классификации токсичности, Глава 3. Английские и русские данные.......................180

51 Размеры наборов данных для классификации тональности, Глава 3. Английские и русские данные.......................180

52 Размеры наборов данных для тематической классификации,

Глава 3. Английские и русские данные..................181

53 Размеры наборов данных для классификации интентов, Глава 3. Английские и русские данные.......................182

54 Метрики различных типов базовых моделей на объединенных тестовых данных MASSIVE для русского языка. Модели были обучены на шестиклассовой равноразмерной подвыборке RuQTopics, предобработанной при помощи одного из нескольких режимов, описанных в Разделе 4.3. Условные обозначения моделей

- как в Таблице 12. Точн. означает точность. Глава 4. Все запуски. . 184

55 Запуски для моделей, работавших с полным набором данных, Глава 4.185

56 Точность(£1) модели bert-base-multilingual-cased на всех языках из набора данных MASSIVE, обучавшейся на версии Q набора данных RuQTopics.Код означает код языка(КО 639-1), N означает число статей в Википедии на этом языке на 11 октября 2018 года, Дистанция означает лингвистическую дистанцию между этим языком и русским. Все запуски. Глава 4.................186

57 Точность^) модели bert-base-multilingual-cased на всех языках из набора данных MASSIVE, обучавшейся на версии Q набора данных RuQTopics, при заморозке базовой модели и обучении только линейного слоя.Код означает код языка(КО 639-1), N означает число статей в Википедии на этом языке на 11 октября 2018 года, Дистанция означает лингвистическую дистанцию между этим языком и русским. Все запуски. Глава 4.................187

58 Распределение числа тренировочных примеров по классам в серии экспериментов с моделью PAL-BERT и с моделью с одним линейным слоем в DeepPavlov Dream, до и после дополнительной псевдоразметки. Глава 5. Классификация фактоидности........188

59 Распределение числа тренировочных примеров по классам в серии экспериментов с моделью PAL-BERT и с моделью с одним линейным слоем в DeepPavlov Dream, до и после дополнительной псевдоразметки. Глава 5. Классификация тональности......... 188

60 Распределение числа тренировочных примеров по классам в серии экспериментов с моделью PAL-BERT и с моделью с одним линейным слоем в DeepPavlov Dream, до и после дополнительной псевдоразметки. Глава 5. Классификация токсичности.........189

61 Распределение числа тренировочных примеров по классам в серии экспериментов с моделью PAL-BERT и с моделью с одним линейным слоем в DeepPavlov Dream, до и после дополнительной псевдоразметки. Глава 5. Классификация эмоций............ 189

62 Распределение числа тренировочных примеров по классам в серии экспериментов с моделью PAL-BERT и с моделью с одним линейным слоем в DeepPavlov Dream, до и после дополнительной псевдоразметки. Глава 5. Классификация Cobot Topics.........190

63 Распределение числа тренировочных примеров по классам в серии экспериментов с моделью PAL-BERT и с моделью с одним линейным слоем в DeepPavlov Dream, до и после дополнительной псевдоразметки. Глава 5. Классификация Cobot DialogAct Topics. . . 191

64 Распределение числа тренировочных примеров по классам в серии экспериментов с моделью PAL-BERT и с моделью с одним линейным слоем в DeepPavlov Dream, до и после дополнительной псевдоразметки. Глава 5. Классификация Cobot DialogAct Intents. . . 192

65 Распределение числа тренировочных примеров по классам в серии экспериментов с энкодер-агностичными моделями в DeepPavlov Dream. Глава 5. Классификация эмоций.................193

66 Распределение числа тренировочных примеров по классам в серии экспериментов с энкодер-агностичными моделями в DeepPavlov Dream. Глава 5. Классификация тональности..............194

67 Распределение числа тренировочных примеров по классам в серии экспериментов с энкодер-агностичными моделями в DeepPavlov Dream. Глава 5. Классификация фактоидности. Валидационная выборка соответствовала тестовой.....................194

68 Распределение числа тренировочных примеров по классам в серии экспериментов с энкодер-агностичными моделями в DeepPavlov Dream. Глава 5. Классификация интентов MIDAS. Валидационная выборка соответствовала тестовой.....................194

69 Распределение числа тренировочных примеров по классам в серии экспериментов с энкодер-агностичными моделями в DeepPavlov Dream. Глава 5. Классификация токсичности..............195

70 Распределение числа тренировочных примеров по классам в серии экспериментов с энкодер-агностичными моделями в DeepPavlov Dream. Глава 5. Тематическая классификация DeepPavlov Topics. . . 196

71 Распределение числа тренировочных примеров по классам в серии экспериментов с энкодер-агностичными моделями в DeepPavlov Dream. Глава 5. Классификация Cobot Topics. Класс Phatic был удален из обучающей выборки.......................197

72 Распределение числа тренировочных примеров по классам в серии экспериментов с энкодер-агностичными моделями в DeepPavlov Dream. Глава 5. Классификация Cobot DialogAct Topics. Класс

Other был удален из обучающей выборки................198

73 Распределение числа тренировочных примеров по классам в серии экспериментов с энкодер-агностичными моделями в DeepPavlov Dream. Глава 5. Классификация Cobot DialogAct Intents........198

Приложение А

Все запуски для энкодер-агностичной многозадачной модели

Таблица 27 — Метрики англоязычных моделей(точность/А. macro) для пяти диалоговых задач, Глава 3. Режим S означает однозадачные модели, режим M

означает многозадачные модели. Все запуски.

Модель Режим Запуск Среднее Эмоции 39.4k Тональность 80.5k Токсичность 127.6k Интенты 11.5k Темы 11.5k Число батчей

distilbert-base-cased S 0 82.8/77.5 70.4/62.8 74.6/74.2 91.8/81.5 86.1/78.2 91.2/90.9 11000

distilbert-base-cased S 1 83.0/78.8 70.2/63.2 74.7/74.3 91.4/81.0 88.0/84.9 90.9/90.5 11586

distilbert-base-cased S 2 83.0/78.8 70.2/63.2 74.7/74.3 91.4/81.0 88.0/84.9 90.9/90.5 11586

distilbert-base-cased S 3 83.3/78.9 70.1/62.5 75.3/74.9 92.2/82.0 87.9/84.5 91.1/90.5 12638

distilbert-base-cased S 4 82.7/78.5 69.2/61.9 74.3/74.1 92.0/81.7 87.8/85.4 90.4/89.6 11448

distilbert-base-cased S 5 83.2/78.2 70.9/63.7 75.3/75.0 91.6/81.1 87.1/80.3 91.3/90.8 9395

distilbert-base-cased S 6 83.1/78.5 69.3/61.7 75.6/75.3 91.7/81.3 87.8/84.0 90.9/90.4 13021

distilbert-base-cased S 7 83.3/78.7 69.9/63.1 75.5/75.2 91.9/81.6 87.7/82.9 91.3/90.8 10549

distilbert-base-cased S 8 83.1/78.6 70.0/63.4 74.9/74.5 92.2/81.8 87.5/82.8 91.1/90.4 12425

distilbert-base-cased S 9 83.2/79.2 69.6/62.4 75.0/74.8 92.2/82.0 88.3/86.9 90.8/90.1 11679

distilbert-base-cased S 10 83.1/78.9 68.8/61.3 75.6/75.5 92.9/82.8 87.6/84.8 90.8/90.3 12491

distilbert-base-cased S 12 83.3/79.1 70.4/62.6 75.8/75.6 91.8/81.4 87.5/85.0 91.2/90.8 12298

distilbert-base-cased S 11 83.3/78.7 69.7/63.0 75.9/75.7 92.4/82.1 87.9/82.6 90.7/90.3 11344

distilbert-base-cased M 0 82.2/77.2 67.6/60.2 74.8/74.5 91.1/80.6 86.8/80.5 90.7/89.9 13440

distilbert-base-cased M 1 81.8/77.6 66.1/59.6 75.0/74.8 90.0/79.0 87.3/84.8 90.8/90.0 18480

distilbert-base-cased M 2 82.3/76.8 69.5/62.2 75.8/75.6 90.6/79.8 84.9/75.8 90.9/90.3 10080

distilbert-base-cased M 3 81.9/76.3 69.2/62.8 76.4/76.2 88.1/76.8 84.9/75.5 90.9/90.4 10080

distilbert-base-cased M 4 82.4/77.5 68.1/60.3 74.7/74.3 91.6/80.8 87.1/82.1 90.6/90.1 18480

distilbert-base-cased M 5 82.6/77.5 68.5/61.1 75.5/75.2 90.7/79.9 87.3/80.8 91.0/90.3 13440

distilbert-base-cased M 6 82.3/77.0 68.5/60.8 74.7/74.3 92.1/81.6 85.8/78.2 90.4/89.8 13440

distilbert-base-cased M 7 82.2/77.2 67.9/61.2 74.3/73.9 91.9/81.3 86.6/79.9 90.3/89.8 13440

distilbert-base-cased M 8 81.7/76.3 69.0/62.1 73.0/72.4 89.6/78.5 86.1/77.8 91.1/90.8 11760

distilbert-base-cased M 9 82.4/77.5 67.5/59.8 75.9/75.8 90.3/79.4 87.2/82.0 91.0/90.3 15120

distilbert-base-cased M 10 82.4/76.6 69.0/61.6 76.1/75.9 90.9/80.2 84.9/74.7 90.8/90.5 10080

distilbert-base-cased M 11 82.4/77.3 67.9/60.6 75.0/74.8 91.5/80.9 86.9/80.3 90.7/90.1 13440

distilbert-base-cased M 12 82.5/76.8 69.0/61.4 75.3/75.1 91.7/81.2 85.4/75.6 91.1/90.6 10080

bert-base-cased S 0 84.0/79.7 71.2/64.5 76.2/76.0 93.5/84.0 87.9/83.1 91.3/90.8 9944

bert-base-cased S 1 83.9/79.7 71.2/64.0 76.0/75.7 93.0/83.3 87.9/84.7 91.3/90.7 9234

bert-base-cased S 2 83.9/79.7 71.2/64.0 76.0/75.7 93.0/83.3 87.9/84.7 91.3/90.7 9234

bert-base-cased M 0 83.2/78.5 69.3/63.0 75.6/75.4 92.4/82.3 87.5/81.1 91.2/90.6 11760

bert-base-cased M 1 82.8/78.4 68.6/63.1 77.5/77.4 89.7/78.7 86.8/82.0 91.5/90.8 11760

bert-base-cased M 2 83.1/78.4 69.1/63.3 76.5/76.4 92.0/81.5 87.1/80.6 91.0/90.3 11760

bert-large-cased S 0 84.6/80.0 70.8/64.3 80.4/80.3 92.0/82.0 88.5/82.4 91.2/90.8 7958

bert-large-cased S 1 84.7/80.8 71.0/64.5 80.5/80.5 92.2/82.3 88.4/86.2 91.3/90.7 8810

bert-large-cased S 2 84.7/80.8 71.0/64.5 80.5/80.5 92.2/82.3 88.4/86.2 91.3/90.7 8810

bert-large-cased M 0 84.2/79.4 69.3/61.6 78.5/78.3 92.9/82.9 88.4/82.6 91.8/91.4 13440

bert-large-cased M 1 83.6/78.9 69.1/61.7 78.1/78.0 91.3/80.8 88.0/82.9 91.6/91.0 11760

bert-large-cased M 2 83.0/77.7 68.7/62.0 80.4/80.4 89.7/78.9 85.6/77.1 90.6/90.0 8400

Таблица 28 — Метрики MT-DNN (точность/f! macro) для пяти диалоговых

задач, Глава 3. Базовая модель distilbert-base-cased. Все запуски.

Запуск Среднее Эмоции 39.4k Тональность 80.5k Токсичность 127.6k Интенты 11.5k Темы 11.5k Число батчей

0 82.1/77.0 67.8/60.6 73.6/73.2 91.4/80.7 86.9/79.9 91.2/90.6 16800

1 82.4/77.8 67.6/60.4 74.6/74.3 91.6/81.0 87.1/82.5 91.1/90.6 13440

2 81.9/77.5 67.0/58.8 73.4/73.0 91.6/81.1 87.0/84.7 90.6/90.0 28560

3 82.2/76.5 69.3/61.9 75.1/74.8 90.3/79.3 85.3/76.1 90.8/90.4 10080

4 82.5/78.0 68.2/60.6 74.5/74.2 92.5/82.0 87.0/83.3 90.1/89.6 16800

5 82.2/77.1 68.8/61.9 73.8/73.3 91.1/80.5 86.6/79.5 90.9/90.4 11760

6 82.5/77.5 68.2/61.7 74.8/74.5 92.0/81.6 86.6/79.7 90.8/90.2 11760

7 82.4/77.8 68.3/61.1 74.2/73.7 91.9/81.5 86.7/82.3 91.0/90.5 18480

8 81.8/75.5 69.4/62.4 75.6/75.3 90.8/80.1 82.6/69.5 90.7/90.2 8400

9 81.8/77.0 67.9/60.6 73.1/72.6 90.7/79.9 86.6/81.7 90.6/90.4 13440

10 82.0/77.9 66.8/61.3 75.1/74.9 90.4/79.5 87.3/83.5 90.6/90.1 15120

11 82.8/77.8 69.2/62.5 75.2/74.9 93.0/82.9 85.6/78.2 90.8/90.4 11760

12 82.3/76.9 68.7/62.0 76.1/75.8 90.3/79.4 85.5/76.9 91.0/90.5 10080

Таблица 29 — Точность/ F1 для запусков на части тренировочных данных, Глава 3. Режим M означает многозадачные модели, режим S означает однозадачные модели, и Доля означает долю использованных тренировочных данных. Базовая модель distilbert-base-cased. Все запуски. Часть 1.

Запуск Режим Доля Среднее Эмоции 39.4k Тональность 80.5k Токсичность 127.6k Интенты 11.5k Темы 11.5k Число батчей

0 S 15% 78.6/70.0 65.3/47.8 69.0/68.5 92.9/81.9 79.0/66.5 86.6/85.5 1936

1 S 15% 78.7/71.3 66.5/50.6 69.5/69.0 92.0/81.0 79.2/71.3 86.1/84.8 1850

2 S 15% 78.6/70.9 66.1/51.1 69.6/69.0 92.7/81.7 78.3/67.9 86.1/84.7 2127

3 S 15% 78.2/71.6 65.7/53.4 68.9/68.4 91.8/80.7 78.5/70.5 86.1/84.8 2687

4 S 15% 78.4/70.6 65.6/50.0 69.4/68.9 91.7/80.5 78.4/67.8 86.7/85.6 2266

5 S 15% 78.7/71.1 65.6/46.8 69.3/68.7 91.6/80.3 79.8/73.4 87.2/86.3 2544

6 S 15% 78.2/70.2 65.6/50.3 68.9/68.2 91.7/80.7 79.3/67.8 85.5/84.1 1830

7 S 15% 78.1/71.4 65.8/54.3 69.2/68.8 91.1/79.9 78.8/70.4 85.4/83.6 1948

8 S 15% 78.3/70.5 66.5/53.6 69.4/68.8 91.8/80.7 78.2/64.7 85.8/84.5 1836

9 S 15% 78.5/71.1 64.8/48.9 70.0/69.4 91.9/80.6 79.7/71.6 85.9/84.9 2172

10 S 15% 78.5/71.9 66.5/57.4 69.4/68.9 91.7/80.6 78.6/67.7 86.5/85.0 1748

11 S 15% 78.5/70.4 65.6/48.6 69.0/68.3 91.6/80.7 79.5/69.5 86.7/85.1 2230

12 S 15% 78.0/70.7 65.4/53.5 67.1/66.2 91.8/80.6 78.6/67.7 86.9/85.6 1913

0 M 15% 77.3/69.9 63.7/54.3 68.5/67.9 91.9/80.1 76.5/62.2 86.1/85.2 4980

1 M 15% 77.2/70.5 63.9/54.8 66.8/66.0 91.5/79.9 77.1/66.2 86.5/85.5 5229

2 M 15% 77.6/70.9 63.8/56.1 69.4/69.0 91.7/80.3 76.5/63.0 86.8/85.9 4000

3 M 15% 77.1/70.1 64.0/54.4 67.8/67.0 91.8/80.5 76.2/63.8 85.9/85.0 4250

4 M 15% 77.9/71.4 64.4/55.5 69.1/68.6 91.2/79.4 78.3/67.7 86.6/85.6 5250

5 M 15% 77.6/70.9 63.8/54.9 69.2/68.7 91.1/79.6 77.7/66.2 86.2/85.2 5478

6 M 15% 77.0/70.2 63.2/52.3 67.4/66.6 91.4/79.8 77.6/68.5 85.1/83.8 5952

7 M 15% 77.3/70.7 63.7/54.1 68.4/67.6 91.0/79.4 78.0/68.2 85.5/84.0 6000

8 M 15% 76.4/67.9 64.2/54.7 68.3/67.7 91.1/79.8 72.6/53.0 85.8/84.4 3000

9 M 15% 77.0/71.1 62.3/54.7 68.5/68.0 91.3/79.7 77.6/68.7 85.5/84.4 4750

10 M 15% 77.2/70.2 63.1/53.0 67.7/67.1 91.5/80.0 77.5/65.3 86.3/85.4 6500

11 M 15% 76.3/68.2 62.8/54.2 68.1/67.4 91.3/79.5 73.1/55.5 86.0/84.6 3237

12 M 15% 77.4/70.7 63.1/55.1 69.8/69.3 91.4/79.9 76.6/64.3 86.1/85.0 4464

0 S 10% 77.3/68.6 64.0/46.0 69.2/68.9 92.8/81.7 75.5/62.8 84.8/83.4 1513

1 S 10% 77.5/69.4 65.4/50.1 69.9/69.6 92.4/81.0 74.8/62.4 85.2/83.8 1580

2 S 10% 76.8/68.1 65.1/43.7 66.9/66.3 91.7/80.6 75.7/66.2 84.6/83.5 1652

3 S 10% 77.1/68.4 64.5/41.8 67.0/66.3 92.7/81.7 76.3/68.9 84.9/83.3 1707

4 S 10% 76.7/67.3 64.1/43.5 68.3/67.7 91.5/80.0 75.1/63.1 84.6/82.4 1447

5 S 10% 77.6/68.5 64.7/41.6 69.7/69.2 92.2/80.8 76.0/67.2 85.3/83.9 1741

6 S 10% 77.3/69.2 64.4/48.7 67.8/67.1 92.5/81.3 77.6/66.7 84.1/82.1 1457

7 S 10% 77.0/69.0 64.9/48.0 67.6/66.9 91.3/79.9 76.6/67.9 84.4/82.4 1716

8 S 10% 76.7/68.3 65.3/48.7 64.7/64.0 92.1/81.0 76.1/64.2 85.3/83.8 1467

9 S 10% 77.5/69.4 64.2/47.7 69.9/69.5 92.1/80.5 76.5/65.9 84.6/83.2 1391

10 S 10% 77.3/69.2 65.2/51.3 68.0/67.4 92.6/81.2 76.1/63.8 84.5/82.5 1413

11 S 10% 76.7/67.3 65.4/42.9 64.3/63.5 92.0/80.7 76.6/66.2 85.0/83.0 1313

12 S 10% 64.9/54.9 65.0/41.9 66.8/66.2 92.3/81.2 15.8/2.6 84.6/82.6 1273

Таблица 30 — Точность/ F1 для запусков на части тренировочных данных, Глава 3. Режим M означает многозадачные модели, режим S означает однозадачные модели, и Доля означает долю использованных тренировочных данных. Базовая модель distilbert-base-cased. Все запуски. Часть 2.

Запуск Режим Доля Среднее Эмоции 39.4k Тональность 80.5k Токсичность 127.6k Интенты 11.5k Темы 11.5k Число батчей

0 M 10% 76.2/69.3 62.9/53.8 66.6/65.8 92.1/80.3 74.9/62.6 84.5/83.9 4125

1 M 10% 74.8/67.4 63.3/54.9 66.0/65.1 91.3/79.7 69.5/55.3 84.1/82.0 2822

2 M 10% 76.1/69.5 62.2/52.9 67.2/66.5 91.6/80.0 75.1/64.9 84.5/83.2 4509

3 M 10% 75.9/70.0 62.1/52.8 66.5/65.7 90.7/78.7 75.9/69.4 84.7/83.6 5845

4 M 10% 76.5/69.4 62.6/53.5 66.9/66.0 91.8/79.9 75.9/63.7 85.2/83.9 4175

5 M 10% 75.6/67.3 61.5/50.1 68.0/67.4 91.0/79.5 72.5/55.9 84.9/83.8 2805

6 M 10% 76.0/69.1 62.6/51.3 66.8/65.8 91.5/79.8 75.5/66.0 83.9/82.3 4620

7 M 10% 74.2/66.2 62.6/53.2 65.6/64.8 89.1/77.1 70.0/53.8 83.9/81.7 2656

8 M 10% 76.7/69.5 62.3/51.7 68.3/67.8 92.3/80.3 75.4/64.1 85.2/83.6 3818

9 M 10% 75.2/67.5 61.1/51.7 66.9/66.2 90.0/77.9 73.2/58.4 84.7/83.5 2988

10 M 10% 76.1/69.4 62.8/52.8 65.3/64.3 91.7/80.0 75.5/66.4 84.9/83.6 4676

11 M 10% 75.8/68.6 61.6/53.0 67.4/66.8 92.3/80.4 73.1/60.0 84.6/82.8 3154

12 M 10% 76.0/69.3 62.8/54.4 65.2/64.4 91.0/79.2 75.5/65.1 85.2/83.6 3960

0 S 9% 76.8/67.1 63.9/42.5 69.7/69.5 91.7/80.5 74.6/61.4 83.9/81.7 1394

1 S 9% 76.6/67.7 64.9/47.1 67.8/67.2 91.9/80.5 73.9/60.7 84.5/83.1 1345

2 S 9% 76.9/67.9 64.2/42.2 68.3/67.7 91.6/80.0 75.7/66.7 84.6/83.0 1619

3 S 9% 76.5/68.0 65.1/46.8 67.2/66.7 92.5/81.4 73.8/62.9 83.9/82.1 1157

4 S 9% 76.6/66.4 65.0/41.0 68.1/67.5 91.5/79.8 74.2/61.7 84.2/82.1 1771

5 S 9% 77.0/67.6 64.8/41.7 68.2/67.8 91.9/80.5 74.9/63.8 85.4/84.1 1247

6 S 9% 77.0/68.8 64.9/48.9 68.0/67.3 91.2/79.8 76.9/66.0 84.0/82.0 1640

7 S 9% 63.4/55.9 64.3/50.3 67.9/67.3 90.7/78.9 9.8/0.9 84.3/82.2 1078

8 S 9% 64.8/55.8 64.4/44.7 69.6/69.2 92.3/81.0 13.3/1.5 84.4/82.5 1165

9 S 9% 76.6/66.9 64.0/42.4 68.2/67.5 92.3/80.6 74.3/61.4 84.3/82.7 1453

10 S 9% 76.8/69.0 64.9/51.4 67.8/67.2 91.3/80.1 75.4/63.1 84.8/83.0 1292

11 S 9% 77.2/67.2 65.4/41.2 68.0/67.4 92.5/80.9 75.8/64.6 84.2/81.7 1444

12 S 9% 64.8/55.2 63.9/41.2 69.6/69.2 92.2/80.7 14.4/2.5 84.1/82.2 1195

0 M 9% 75.7/68.3 62.5/52.6 65.9/65.2 92.1/80.1 73.8/60.3 84.3/83.4 4144

1 M 9% 75.0/67.7 62.3/52.6 66.2/65.4 91.9/80.0 71.0/58.8 83.5/81.7 4321

2 M 9% 75.6/68.4 61.6/51.9 68.3/67.8 89.9/78.1 73.6/60.3 84.8/83.8 3129

3 M 9% 75.1/67.3 62.2/52.3 65.7/64.7 92.4/80.8 70.9/55.9 84.1/82.7 2682

4 M 9% 75.4/67.4 61.9/52.4 66.3/65.6 90.6/78.7 72.9/57.0 85.2/83.3 4200

5 M 9% 75.6/67.7 62.1/51.7 67.1/66.4 91.6/79.8 73.2/58.3 84.2/82.2 2960

6 M 9% 75.3/68.5 62.0/51.8 65.8/64.6 91.1/79.2 74.4/65.5 83.4/81.6 5215

7 M 9% 70.5/60.1 62.3/51.4 65.9/65.3 90.4/78.3 53.9/30.9 79.8/74.6 1639

8 M 9% 76.2/69.0 61.6/51.2 67.5/66.5 91.2/79.3 75.3/63.9 85.4/84.0 4619

9 M 9% 74.8/66.6 60.3/50.5 67.8/67.3 91.0/79.2 70.9/53.9 83.8/82.2 2682

10 M 9% 75.5/68.1 62.6/53.3 66.7/66.0 91.9/80.1 72.5/58.7 84.0/82.5 2980

11 M 9% 75.0/67.3 61.2/51.2 66.6/65.8 91.2/79.5 71.4/56.3 84.8/83.5 2812

12 M 9% 75.2/68.0 62.4/53.9 65.6/64.6 91.5/79.7 72.2/59.7 84.2/82.1 3108

Таблица 31 — Точность/ И для запусков на части тренировочных данных, Глава 3. Режим М означает многозадачные модели, режим Б означает однозадачные модели, и Доля означает долю использованных тренировочных данных.

Базовая модель сИвШЬеН-Ьаве-савей. Все запуски. Часть 3.

Запуск Режим Доля Среднее Эмоции 39.4к Тональность 80.5к Токсичность 127.6к Интенты 11.5к Темы 11.5к Число батчей

0 Б 7% 76.1/66.5 63.5/41.6 68.5/68.2 92.1/80.7 73.2/61.0 83.0/81.0 1311

1 Б 7% 64.5/55.7 63.8/47.0 69.1/68.7 91.7/80.0 15.2/1.9 82.9/80.8 1155

2 Б 7% 75.9/65.8 63.1/40.1 67.3/66.5 92.2/80.3 73.5/60.6 83.6/81.5 1196

3 Б 7% 76.0/67.1 63.1/41.7 66.9/66.4 92.3/81.0 73.4/64.4 84.1/82.0 1270

4 Б 7% 75.2/65.1 63.1/40.1 67.7/67.2 90.9/78.7 71.5/59.0 82.9/80.4 1323

5 Б 7% 76.4/66.6 63.3/40.4 68.7/68.2 92.6/81.1 72.9/60.3 84.6/83.2 1193

6 Б 7% 76.1/67.2 63.5/43.1 67.5/66.9 91.8/80.2 75.1/65.8 82.7/79.9 1205

7 Б 7% 76.0/67.4 63.8/44.4 68.2/67.8 91.2/79.4 73.7/64.9 83.0/80.7 1357

8 Б 7% 64.9/54.9 64.7/41.4 68.5/68.0 91.9/80.5 15.2/2.2 84.0/82.2 912

9 Б 7% 76.1/66.5 63.1/41.1 68.2/67.7 91.9/80.1 73.7/62.3 83.4/81.5 1400

10 Б 7% 75.8/66.0 64.1/42.6 67.4/66.8 91.6/79.9 72.4/59.4 83.6/81.4 1267

11 Б 7% 76.3/66.0 64.4/41.4 68.0/67.5 92.4/80.5 73.5/61.0 83.0/79.7 1304

12 Б 7% 63.7/54.6 63.4/41.1 68.7/68.2 92.7/81.2 10.9/2.1 83.0/80.2 867

0 М 7% 74.9/67.5 60.9/51.2 67.3/66.8 91.1/78.8 72.3/59.2 82.9/81.9 3248

1 М 7% 74.1/66.9 61.2/51.2 65.2/64.5 91.5/79.2 69.2/58.3 83.3/81.2 2784

2 М 7% 74.2/65.7 61.0/48.9 66.5/65.7 90.6/78.7 69.0/53.5 83.6/81.6 2204

3 М 7% 74.1/66.0 61.1/50.1 64.7/63.8 91.7/79.6 69.9/55.2 83.0/81.3 3016

4 М 7% 73.8/65.8 61.1/50.5 65.2/64.5 90.3/78.4 69.7/55.3 82.5/80.5 3159

5 М 7% 73.6/65.1 59.3/48.0 68.0/67.7 88.3/76.2 68.9/52.3 83.4/81.5 2070

6 М 7% 74.1/66.5 61.2/50.2 66.5/65.6 90.2/78.1 70.4/59.4 82.2/79.2 2784

7 М 7% 73.1/65.1 62.0/53.0 64.9/63.7 90.6/78.3 67.1/52.1 80.9/78.7 2808

8 М 7% 75.3/67.8 61.4/49.9 67.1/66.2 91.3/79.2 72.3/61.0 84.3/82.7 3596

9 М 7% 73.9/65.9 59.8/50.1 67.0/66.4 90.7/78.7 69.6/54.0 82.3/80.0 2436

10 М 7% 73.7/65.1 61.4/51.8 65.9/65.1 90.7/78.7 67.3/48.9 83.1/81.0 2088

11 М 7% 74.4/66.6 60.4/49.8 66.7/66.3 91.5/79.5 71.5/57.8 82.2/79.5 3016

12 М 7% 74.3/66.7 61.3/51.7 64.7/63.7 91.9/80.0 70.4/56.6 83.2/81.3 2760

0 Б 5% 74.0/63.5 62.4/39.1 67.6/67.2 92.0/80.2 66.4/50.8 81.6/80.0 954

1 Б 5% 63.6/53.7 63.9/40.5 67.5/67.0 92.6/80.7 13.0/1.8 81.2/78.6 654

2 Б 5% 74.0/63.0 61.3/36.9 66.7/65.9 91.6/79.8 68.1/52.9 82.3/79.6 1173

3 Б 5% 60.8/52.3 62.4/39.3 65.8/65.3 91.8/80.0 2.4/0.1 81.4/77.0 846

4 Б 5% 73.2/62.3 62.6/38.9 66.8/66.1 91.2/79.0 63.8/48.5 81.7/79.0 882

5 Б 5% 49.9/38.1 63.1/40.3 66.9/66.3 92.5/80.8 13.3/1.6 13.5/1.3 663

6 Б 5% 64.5/51.3 62.7/41.3 65.8/65.0 91.5/79.8 68.0/56.3 34.4/14.1 954

7 Б 5% 74.0/63.4 63.5/39.9 67.2/66.6 91.4/79.6 67.2/53.8 80.5/77.1 1011

8 Б 5% 64.1/53.5 62.9/40.5 66.7/66.3 91.4/79.3 17.3/2.5 82.3/79.1 894

9 Б 5% 73.9/62.3 62.6/39.2 67.0/66.3 91.7/79.6 68.6/53.4 79.7/73.2 981

10 Б 5% 64.5/50.7 63.4/45.8 67.2/67.0 92.6/80.8 67.0/51.8 32.4/8.1 807

11 Б 5% 61.0/47.4 63.6/39.7 67.8/67.2 92.3/80.0 65.1/45.9 16.1/4.0 732

12 Б 5% 50.2/38.4 62.1/39.8 67.8/67.1 91.7/80.0 11.5/1.5 17.9/3.8 566

Таблица 32 — Точность/ F1 для запусков на части тренировочных данных, Глава 3. Режим M означает многозадачные модели, режим S означает однозадачные модели, и Доля означает долю использованных тренировочных данных. Базовая модель distilbert-base-cased. Все запуски. Часть 4.

Запуск Режим Доля Среднее Эмоции 39.4k Тональность 80.5k Токсичность 127.6k Интенты 11.5k Темы 11.5k Число батчей

Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.

Многозадачный перенос знаний для диалоговых задач тема диссертации и автореферата по ВАК РФ 00.00.00, кандидат наук Карпов Дмитрий Александрович

Оглавление диссертации кандидат наук Карпов Дмитрий Александрович

Рекомендованный список диссертаций по специальности «Другие cпециальности», 00.00.00 шифр ВАК

Специализация языковых моделей для применения к задачам обработки естественного языка2020 год, кандидат наук Куратов Юрий Михайлович

Методы переноса знаний для нейросетевых моделей обработки естественного языка2022 год, кандидат наук Коновалов Василий Павлович

Нейросетевой механизм кросс-внимания в задачах извлечения информации из текстов на примере биомедицинских данных2021 год, кандидат наук Алимова Ильсеяр Салимовна

Нейросетевые модели и диалоговая система для ведения разговора на общие темы2021 год, кандидат наук Баймурзина Диляра Римовна

Введение диссертации (часть автореферата) на тему «Многозадачный перенос знаний для диалоговых задач»

Похожие диссертационные работы по специальности «Другие cпециальности», 00.00.00 шифр ВАК

Методы автоматизированного пополнения графов знаний на основе векторных представлений2022 год, кандидат наук Тихомиров Михаил Михайлович

Методы оценивания языковых моделей в задачах понимания естественного языка2023 год, кандидат наук Тихонова Мария Ивановна

Методы сжатия рекуррентных нейронных сетей для задач обработки естественного языка2019 год, кандидат наук Грачев Артем Михайлович

Априорное распределение параметров в задачах выбора моделей глубокого обучения2022 год, кандидат наук Грабовой Андрей Валериевич

Список литературы диссертационного исследования кандидат наук Карпов Дмитрий Александрович, 2023 год