Применение глубоких нейросетевых моделей, учитывающих структурную лингвистическую информацию, в прикладных задачах анализа текстовых данных тема диссертации и автореферата по ВАК РФ 00.00.00, кандидат наук Чернявский Александр Сергеевич
- Специальность ВАК РФ00.00.00
- Количество страниц 200
Оглавление диссертации кандидат наук Чернявский Александр Сергеевич
Содержание
1 Введение
2 Векторные представления текстов, подходы глубокого обучения и метрики в задачах NLP
2.1 Векторные представления текстов
2.1.1 GloVe
2.1.2 Universal Sentence Encoder
2.2 Сверточные графовые сети
2.3 Нейросетевые архитектуры на базе Трансформер
2.3.1 Механизм внимания и архитектура Трансформер
2.3.2 Модели семейства BERT
2.3.3 Модели семейства GPT
2.3.4 Модели seq2seq: BART и T5
2.4 Метрики оценки качества в задачах NLP
2.4.1 Метрики классификации и ранжирования
2.4.2 Метрики генерации
3 Виды структурной лингвистической информации, используемой в задачах NLP
3.1 Графы синтаксических зависимостей
3.1 Abstract Meaning Representation (AMR)
3.2 Теория риторических структур (RST)
3.3 Графы кореферентности
3.4 Дискурс для диалогов: диалоговые акты
4 Нейросетевые модели классификации, использующие лингвистическую информацию
4.1 Введение
4.2 Обзор литературы
4.3 Методы
4.3.1 Векторные представления EDU
4.3.2 Модель RSTRecNN
4.3.3 Модель DSNDM
4.3.4 Модель GCN-RSTRecNN
4.4 Наборы данных
4.4.1 Internet Argument Corpus (IAC)
4.4.2 Датасеты PolitiFact, LIAR и LIAR-PLUS
4.4.3 Датасет Movie Reviews
4.4.4 Датасет Congressional floor debates
4.4.5 Датасет ANTIQUE
4.5 Результаты классификации текстов
4.5.1 Дискурс для анализа интернет аргументации
4.5.2 Дискурс для автоматической проверки фактов
4.5.3 Дискурс для анализа тональности текста
4.5.4 Синтаксис и отношение кореферентности для задач классификации
4.6 Результаты классификации пар текстов и ранжирования
4.6.1 Автоматическая верификация фактов
4.6.2 Вопросно-ответные системы
4.7 Выводы и результаты по главе
5 Генеративные модели на базе Трансформеров: дискурсивное
планирование и лингвистический анализ
5.1 Введение
5.1.1 Описание предметной области
5.1.2 Ограничения открытых демо-систем
5.1.3 Основные результаты
5.2 Обзор литературы
5.2.1 Генерация повествовательного текста
5.2.2 Генерация диалогов
5.2.3 Чат-боты для обсуждения научных статей
5.3 Методы генерации повествовательного текста и методология оценки качества
5.4 Методы генерации диалогов
5.4.1 Лингвистические признаки
5.4.2 Линеаризация диалогов
5.4.3 Дискурсивное планирование
5.4.4 Модель GroundHog
5.5 Наборы данных
5.5.1 Датасет IMDB
5.5.2 Датасет CDSC
5.5.3 Датасет GroungHog Reddit
5.5.4 Датасет PaperPersiChat
5.6 Эксперименты
5.6.1 Дискурсивное планирование в генерации повествовательного текста
5.6.2 Дискурсивное планирование в генерации диалогов
5.6.3 Использование разнородной лингвистической информации для
генерации диалогов
5.7 РарегРега^а^ диалоговый ассистент в научном домене
5.7.1 Общее описание пайплайна
5.7.2 Подмодули пайплайна и метрики end-to-end
5.7.3 Пользовательский интерфейс
5.8 Выводы и результаты по главе
6 Обнаружение манипулятивных техник в текстах на основе Трансформеров и дискурсивных структур
6.1 Введение
6.2 Обзор литературы
6.3 Методы
6.3.1 Дискурсивные признаки
6.3.2 Архитектура модели
6.4 Наборы данных
6.5 Эксперименты
6.5.1 Детали реализации
6.5.2 Результаты экспериментов
6.5.3 Анализ ошибок
6.5.4 Анализ интерпретируемости
6.6 Выводы и результаты по главе
7 Заключение
Перечень обозначений и сокращений
Список литературы
Перечень рисунков
Перечень таблиц
1 Введение
Описание предметной области
Анализ текстовых данных - активно развивающаяся область исследований, в которой ключевую роль играют методы обработки естественного языка (МЬР). Эти методы находят применение в самых разных задачах, от создания векторных представлений текста до решения конкретных задач кластеризации, классификации, генерации, вопросно-ответных систем и во многих других областях.
Задачи классификации, рассматриваемые в рамках данной работы, можно дополнительно разбить на несколько типов: (1) классификацию отдельных текстов, используемую в для анализа эмоциональной окраски текстов, анализа аргументации, классификации типов, и так далее; (2) классификацию пар текстов, используемую в задачах сопоставления и ранжирования в основном в вопросно-ответных системах и задачах верификации текстов; (3) классификацию отдельных токенов и спанов текста, нашедшей широкой применение в задачах определения именованных сущностей, детекции спанов определенного типа.
Задачи первого типа часто используются в аналитических системах, и могут помогать компаниям анализировать отзывы, следить за мнениями, и так далее. При таком анализе важно принимать во внимание не только семантику (смысл того, что и конкретно написано), но и стиль и структуру, как это написано. Так, в ряде работ была показана применимость и актуальность использования дискурсивной информации текстов [1] [2] [3] [4]. При этом предлагаемые в них подходы для анализа дискурса, являются либо базовыми нейросе-тями, такими как RNN, либо вообще не являются нейронными сетями. В данной работе мы адаптируем модели для анализа длинных текстов (не имеющих
ограничения контекста, как популярные подходы на базе BERT [5]), позволяющие кодировать сложные графовые структуры, на базе рекурсивных нейронных сетей.
Технологический прогресс в области поисковых систем инициирует разработку более продвинутых интерфейсов, таких как вопросно-ответные и диалоговые системы, которые компании внедряют для улучшения пользовательского опыта. Для этого нужны, как качественные генеративные системы, так и системы поиска и сопоставления запросов и документов. Задача классификации пар текстов менее исследована с точки зрения анализа лингвистики, но тем не менее ранее было показано, что она так же позволяет улучшить качество базового подхода [1].
В рамках задач третьего типа мы рассматриваем задачу детекции мани-пулятивных техник в тексте, как одну из наиболее сложных и актуальных задач, получившую большую популярность в связи с распространением дезинформации в политике, экономике и здравоохранении (например, про COVID-19), и других областях. На текущий момент лучшими моделями здесь являются модели на основе Трансформеров [6] [7] [8]. Однако эти подходы в основном направлены на получение лучших результатов в рамках конкретных соревнований или датасетов. Мы анализируем задачу более широко и ставим цель не только получить лучшее решение с точки зрения качества, но и также получить интерпретацию и провести дополнительный анализ, которые могут способствовать прогрессу в обнаружении манипулятивного контента в будущем. Поэтому в данном случае мы тоже исследуем лингвистическую информацию, анализируя корреляцию между дискурсивной структурой и классами манипу-лятивного контента.
Второй рассматриваемый нами класс задач, Natural Language Generation (NLG), имеет цель в исследовании обучения моделей писать тексты таким об-
разом, чтобы они были максимально близки к текстам, которые пишут реальные люди. Данная задача так же используется во многих приложениях: ассистирующих системах, маркетинге, для генерации историй, и так далее [9] [10] [11] [12].
Современные подходы, построенные на моделях GPT [13] [14], позволяют генерировать тексты, содержащие минимальное количество синтаксических ошибок. Однако, присущий им принцип генерации, основанный на последовательной обработке токенов, ограничивает их способность к анализу и планированию текста на более высоком уровне абстракции. Как результат, дискурсивная структура генерируемы текстов часто является некорректной: содержит ошибки в связующих словах, противоречивую логику, искусственную последовательность мыслей, и так далее [15] [16].
Данная работа посвящена исследованию методов, направленных на решение данной проблемы и позволяющих получать дискурсивно согласованные тексты, причем как повествовательные, так и в форме диалогов, в том числе многосторонних. Мы рассматриваем подходы к генерации для случаев, когда не задан определенный формат выхода [17], и необходимо более глубокое планирование в процессе вывода без четкой априорной структуры контента.
Для задачи генерации повествовательного текста уже существует ряд подходов, использующих лингвистическую информацию, такую как анализ тональности [18] или дискурса [19] [20] [21] с использованием базовых моделей, таких как RNN. Авторы делают вывод, что методы генерации улучшают качество благодаря такому дискурсивному планированию, однако используемые ими модели уже достаточно устарели. Таким образом, качество может быть еще улучшено благодаря использованию современных нейросетевых подходов из семейства Трансформеров, существенно улучшивших результаты бейзлай-нов на основе рекуррентных сетей для многих задач генерации текстов.
Диалоги в отличии от генерации повествовательных текстов имеют четкий контекст, состоящий в накопленной последовательности реплик спикеров, упорядоченной по времени. Мы рассматриваем два типа диалогов - чат-боты [22] [23] [9] и multi-party диалоги [24] [25] [11] [26]. Первый тип является диалогом бота, управляемого моделью генерации, и одного пользователя, по очереди обменивающихся репликами. Он используется в первую очередь в системах-ассистентах и голосовых помощниках. Второй тип является более сложным, так как подразумевает диалог нескольких пользователей (спикеров), в разное время вступающих в диалог и реагирующих на высказывания друг друга, при этом ограниченных некоторой общей темой. При этом качественная генерация таких диалогов не менее актуальна, и может существенно упростить текущее взаимодействие пользователей и ботов (в первую очередь в интернете в обсуждениях, где пользователей много).
Контроль генерации диалога так же, как и повествовательного текста, может включать в себя контроль эмоций (тональности), персоны, темы, и так далее. Так, в существующих подходах рассматриваются именованные сущности [27] [28], диалоговые акты [29], эволюцию темы [30], дискурсивные аннотации [31]. Используемые модели контроля также частично пересекаются и являются модификациями друг друга [32]. Важно отметить, что дискурсивные отношения в диалогах, до этого использовались только в задачах суммариза-ции или machine reading comprehension (MRC) [33] [34].
Цели и задачи исследования
Целью данной работы является оценка важности использования лингвистических языковых структур, в первую очередь дискурсивных, в прикладных NLP задачах, а также разработка подходов по интеграции лингвистических признаков в современные нейросетевые SOTA подходы классификации и генерации текстов с целью повышения качества. Для достижения данной цели были поставлены следующие задачи:
1. Проанализировать роль дискурса в задачах проверки фактов, QA, анализа тональности и аргументации и предложить подход, заключающийся в модификации существующих архитектур, показывающий преимущество подходов с использованием дискурса для популярных бенчмарках.
2. Проанализировать лингвистические ошибки генеративных LLM с точки зрения дискурсивной структуры и предложить способы для их корректировки. Анализ важно провести как для генерации повествовательных текстов, так и для генерации диалогов.
3. Проанализировать важность использования отдельных типов лингвистической информации для генерации и разработать подход, учитывающий их и повышающий за счет этого качество генерации.
4. Установить связь между дискурсивной структурой и задачей обнаружения манипулятивных техник в тексте и предложить модификацию текущих SOTA подходов по улучшению качества детекции и классификации манипулятивного контента.
5. Собрать датасеты, которые могут быть необходимы для дальнейшего анализа и улучшения дискурсивных моделей. Продемонстрировать их актуальность и применимость в реальных прикладных задачах.
Научная новизна
Научная новизна работы заключается в создании комплексных подходов для анализа и генерации текстовых данных с использованием теории современной лингвистики. Работа расширяет теоретические основы NLP, предлагая новые архитектуры нейронных сетей, методы для работы с разнородными лингвистическими данными, и показывает как учет лингвистических структур повышает качество анализа и генерации текстов.
Теоретическая значимость
1. Предложена новая рекурсивная нейронная сеть для кодирования дискурса, ее сиамский вариант и ряд модификаций.
2. Предложен подход для оценки лингвистической связности сгенерированных текстов.
3. Предложен подход по планированию дискурса при генерации текстовых и диалоговых данных.
4. Предложена новая архитектура для кодирования нескольких разнородных входов и продемонстрирована ее эффективность для кодирования различных типов лингвистической информации.
5. Предложена новая архитектура, расширяющая базовые Трансфор-меры-энкодеры с целью кодированию дискурсивных признаков, с применением в задачах классификации текстов и NER.
6. Критически проанализированы корреляции между дискурсивными структурами и типами манипулятивного контента.
Практическая значимость
Представленные в работе подходы и методы имеют следующую практическую значимость:
1. Представленные подходы позволяют существенно повысить качество существующих моделей в ряде популярных NLP задач, связанных с классификацией, таких как проверка фактов, анализ тональности и аргументации, детекция манипулятивного контента. Все параметры и детали реализации описаны в соответствующих статьях, код для последних моделей на базе Трансформеров выложен в открытый до-ступ1.
1 https://github.com/alchernyavskiy/discourse_propagada_detection
10
2. Представленные подходы позволяют существенно повысить качество существующих моделей в ряде NLP задач, связанных с генерацией диалогов, в том числе многосторонних, что может быть ключевым требованием к диалоговым системам-ассистентам. Код с архитектурами моделей, а также скриптами для обучения и инференса выложен
" 1 2 в открытый доступ1
3. Предложены два уникальных датасета по генерации диалогов, позволяющих ускорить и упростить разработку аналогичных моделей в рассматриваемых доменах. Оба датасета выложены в открытый до-
3
ступ3
4. Разработана диалоговая система с возможностями реферирования, работающая с документами из домена научных статей. Эта система имеет открытый пользовательский интерфейс, а код по реализации ее пайплайна5 и веса обученных моделей6 так же выложены в открытый доступ.
Публикации и апробация работы
Результаты, представленные в рамках данной работы, были опубликованы в 8 работах, 2 из которых имеют повышенный уровень (CORE A/A*). Работы опубликованы в рамках научных конференций, большинство из которых индексируются Scopus:
1 https://github.com/alchernyavskiy/discourse_mpc_generation
2 https ://github.com/alchernyavskiy/GroundHog
3 https://huggingface.co/datasets/alexchern5757/groundhog_reddit
4 https://huggingface.co/datasets/ai-forever/paper_persi_chat
5 https://github.com/ai-forever/paper_persi_chat
6 https://huggingface.co/ai-forever/paper_persi_chat
1. Alexander Chernyavskiy and Dmitry Ilvovsky: "Recursive Neural Text Classification using Discourse Tree Structure for Argumentation Mining and Sentiment Analysis Tasks." In ISMIS 2020. Lecture Notes in Computer Science, vol 12117. Springer, Cham. https://doi.org/10.1007/978-3-030-59491-6_9 (2020) [Scopus Q2]
2. Alexander Chernyavskiy and Dmitry Ilvovsky: "DSNDM: Deep Siamese Neural Discourse Model with Attention for Text Pairs Categorization and Ranking." In Proceedings of the First Workshop on Computational Approaches to Discourse at EMNLP 2020, pp. 76-85, (2020)
3. Alexander Chernyavskiy, Dmitry Ilvovsky and Boris Galitsky: "Correcting Texts Generated by Transformers using Discourse Features and Web Mining." In Proceedings of the Student Research Workshop Associated with RANLP 2021, pp. 36-43 (2021)
4. Alexander Chernyavskiy: "Improving Text Generation via Neural Discourse Planning." In WSDM 2022 - Proceedings of the 15th ACM International Conference on Web Search and Data Mining. Association for Computing Machinery (ACM), pp. 1543-1544 (2022) [CORE A*]
5. Alexander Chernyavskiy and Dmitry Ilvovsky: "Transformer-based MultiParty Conversation Generation using Dialogue Discourse Acts Planning." In Proceedings of the 24th Annual Meeting of the Special Interest Group on Discourse and Dialogue, pages 519-529, Prague, Czechia. Association for Computational Linguistics. (2023) [CORE B]
6. Alexander Chernyavskiy, Max Bregeda and Maria Nikiforova: "PaperPer-siChat: Scientific Paper Discussion Chatbot using Transformers and Discourse Flow Management." In Proceedings of the 24th Annual Meeting of the Special Interest Group on Discourse and Dialogue, pages 584-587, Prague, Czechia. Association for Computational Linguistics. (2023) [CORE B]
7. Alexander Chernyavskiy, Lidiia Ostyakova, and Dmitry Ilvovsky: "GroundHog: Dialogue Generation using Multi-Grained Linguistic Input." In Proceedings of the 5th Workshop on Computational Approaches to Discourse (CODI 2024), pages 149-160, St. Julians, Malta. Association for Computational Linguistics. (2024)
8. Alexander Chernyavskiy, Dmitry Ilvovsky, and Preslav Nakov: "Unleashing the Power of Discourse-Enhanced Transformers for Propaganda Detection." In Proceedings of the 18th Conference of the European Chapter of the Association for Computational Linguistics (Volume 1: Long Papers), pages 1452-1462, St. Julian's, Malta. Association for Computational Linguistics. (2024) [CORE A]
Доклады на конференциях:
1. 25th International Symposium on Methodologies for Intelligent Systems, online, 25.09.2020, Recursive Neural Text Classification Using Discourse Tree Structure for Argumentation Mining and Sentiment Analysis Tasks
2. 1st Workshop on Computational Approaches to Discourse, online,
20.11.2020, DSNDM: Deep Siamese Neural Discourse Model with Attention for Text Pairs Categorization and Ranking
3. RANLP 2021 Student Research Workshop, online, 03.09.2021, Correcting Texts Generated by Transformers using Discourse Features and Web Mining
4. 2nd Workshop on Computational Approaches to Discourse, online,
10.11.2021, Improving Text Generation via Neural Discourse Planning (extended abstract)
5. 5th Workshop on Computational Approaches to Discourse (CODI 2024), Мальта/online, 21.03.2024, GroundHog: Dialogue Generation using Multi-Grained Linguistic Input
6. The 18th Conference of the European Chapter of the Association for Computational Linguistics (EACL 2024), Мальта/online, 18.03.2024, Unleashing the Power of Discourse-Enhanced Transformers for Propaganda Detection
Достоверность полученных результатов подтверждена обоснованностью выбора исследовательских методов, строгостью и корректностью проведения экспериментов, а также их соответствием теоретическим положениям современной лингвистики.
Ключевые результаты, выносимые на защиту
1. Предложена рекурсивная нейронная сеть, кодирующая дискурс и другие лингвистические признаки, при помощи которой был достигнуто наилучшее качество в нескольких типах задач классификации. Кроме того, предложен ее сиамский вариант с модификацией на базе механизма внимания, улучшающий качество в задачах классификации пар и сопоставления текстов.
2. Предложена методология оценки дискурсивной согласованности генерируемых текстов, при помощи которой были выявлены недостатки существующих подходов.
3. Предложен генеративный подход с шагом планирования специальных дискурсивных токенов, позволивший улучшить качество генерации диалогов.
4. Предложен новая архитектура многоголовой BART модели, кодирующей дискурсивную информацию, синтаксис и тональность для более качественной генерации многосторонних диалогов. Для ее обучения собран уникальный датасет, содержащий многосторонние диалоги с разметкой по указанным выше типам лингвистической информации и обогащённый граундингом.
5. Представлено демо диалоговой системы, позволяющей получать сум-маризацию и ответы на вопросы в рамках диалога для домена научных статей с использованием дискурсивного диалогового менеджмента. Не имеющий сопоставимых по размеру аналогов обучающий датасет, выложен в открытый доступ.
6. Предложена интеграция кодирования дискурсивной структуры в модели на базе Трансформеров для решения задачи обнаружения мани-пулятивного контента, существенно улучшившая качество текущих подходов. Проведенный анализ является одним из самых первых, который предоставляет важную информацию о роли дискурсивной информации в манипулятивных текстах.
Личный вклад в положения, выносимые на защиту
Архитектуры нейронных сетей классификации и генерации текстов, а также подходы с планированием генерации текстов и диалогов были придуманы автором лично. Автором также самостоятельно были проведены почти все эксперименты и обучены все используемые модели, за исключением некоторых моделей из демо диалоговой системы. Сбор новых датасетов, названных GroundHog и РарегРегаОДа^ был реализован совместно с соавторами соответствующих публикаций, причем методология для сбора была тоже предложена автором.
Рекомендованный список диссертаций по специальности «Другие cпециальности», 00.00.00 шифр ВАК
Модели и методы автоматического обнаружения, верификации и анализа недостоверной, искаженной и манипулятивной информации в текстовых данных2025 год, кандидат наук Чернявский Антон Сергеевич
Многозадачный перенос знаний для диалоговых задач2023 год, кандидат наук Карпов Дмитрий Александрович
Специализация языковых моделей для применения к задачам обработки естественного языка2020 год, кандидат наук Куратов Юрий Михайлович
Выявление структурных компонентов языковых моделей, ответственных за лингвистические и фактологические знания, и управление ими2025 год, кандидат наук Плетенев Сергей Александрович
Нейросетевые модели на основе механизма внимания с памятью для решения задач обработки естественного языка2024 год, кандидат наук Сагирова Алсу Рафаэлевна
Введение диссертации (часть автореферата) на тему «Применение глубоких нейросетевых моделей, учитывающих структурную лингвистическую информацию, в прикладных задачах анализа текстовых данных»
Структура работы
Данная работа состоит из 200 страниц и включает в себя введение, пять основных глав и заключение. Во введении описывается актуальность исследования, формулируется его цель и задачи. В Главе 2 описываются текущие подходы к вычислению эмбеддингов текстов, а также основные нейросетевые архитектуры моделей и метрики качества, применяемые в рассматриваемых задачах. В Главе 3 мы рассматриваем виды структурной лингвистической информации, включающей в себя дискурс, синтаксис и семантику, а также графы
15
кореферентности. В Главе 4 предлагается ряд подходов на базе рекурсивных нейронных сетей для решения задач классификации текстов и сопоставления пар текстов при помощи анализа дискурсивных структур и вспомогательных лингвистических признаков. В Главе 5 мы анализируем генеративные модели и предлагаем способы улучшения генерации текстов и диалогов за счет лингвистического анализа и дискурсивного планирования. В Главе 6 рассматривается приложение дискурсивного анализа и моделей-Трансформеров для задачи детекции манипулятивного и искаженного контента. В Главе 7 формулируются основные результаты проведенного исследования.
2 Векторные представления текстов, подходы глубокого обучения и метрики в задачах NLP
2.1 Векторные представления текстов
2.1.1 GloVe
GloVe (Global Vectors for Word Representation) [35] - это алгоритм обучения векторных представлений слов без учителя, разработанный в Стэнфорд-ском университете. В отличие от некоторых других методов, таких как Word2Vec, которые предсказывают слова на основе их контекста, GloVe строит векторные представления, анализируя глобальную статистику совместной встречаемости слов в большом текстовом корпусе.
Алгоритм создает матрицу совместной встречаемости X, где каждый элемент Xij представляет собой количество раз, когда j встречается контексте i (например, в одном окне текста). Поскольку не все совместные встречаемости одинаково важны, GloVe использует функцию взвешивания /(Х^), чтобы уменьшить влияние часто встречающихся пар слов и усилить влияние редких пар. Основная цель GloVe - найти векторные представления слов wt и Wj (и их контекстных векторов Wj и Wj), такие, чтобы их скалярное произведение было близко к логарифму совместной встречаемости слов. Формально, функция потерь определяется следующим образом:
Zlyl ~ 2
/(^■Жи/; + bi + bj - \og(Xij)) (2.1)
i,j=l
Здесь |K| - размер словаря, wt - векторное представление слова i, -векторное представление слова j, bt и Ьу - смещения для слов и контекстов соответственно.
Векторное представление для полного текста обычно вычисляется как усреднение (возможно взвешенное эмбеддингов его слов).
2.1.2 Universal Sentence Encoder
Universal Sentence Encoder [36] - модель, обученная для вычисления семантических векторных представлений текстов. Основная идея заключается в том, чтобы считать не отдельные эмбеддинги слов, как описано выше для GloVe, а использовать полное семантическое значение текста и представить его в виде числового вектора, который содержит в себе более важную информацию, необходимую в том числе для задач классификации и анализа текстов и семантического поиска.
USE является универсальным подходом, поскольку обучен на большом количестве разнообразных текстовых данных, что позволяет ему эффективно работать с текстами различных стилей и тематик. В настоящее время существует несколько вариантов архитектуры Universal Sentence Encoder, где двумя основными являются следующие:
• Deep Averaging Network (DAN): более простая и вычислительно эффективная архитектура.
• Transformer: более сложная архитектура Трансформера, обеспечивающая более высокую точность, но требующая больше вычислительных ресурсов.
В данном исследовании мы используем архитектуру DAN в связи с ее вычислительной эффективностью и высокой производительностью. Архитектура представлена на Рисунок 2.1. Основная идея заключается в том, чтобы агрегировать векторные представления отдельных слов в предложении для получения представления всего предложения. В этих целях модель использует несколько полносвязных слоев с нелинейностями между ними. Промежуточные слои не меняют размерность векторов.
При этом стоит отметить, что из-за потери информации о порядке слов, DAN может испытывать трудности с пониманием сложных синтаксических
конструкций и зависимостей между словами на больших расстояниях в тексте.
18
softmax
1
~TT1 h2 = f(W2 • hx + b2)
\rih1 = f(W1-av + b1)
Predator is a masterpiece
Cl c2 c3 c4
Рисунок 2.1 Архитектура Deep Average Network.
2.2 Сверточные графовые сети
Сверточные графовые сети используются для работы с графовым представлением данных, когда не хочется терять важной информации при преобразовании их к линейному виду. Они позволяют учитывать как атрибуты узлов, так и их связи, что делает их эффективными для решения широкого спектра задач, где структура данных играет важную роль. Поскольку большинство лингвистических структур так же представляется в виде графов, мы используем такие сети в данном исследовании.
Основной идеей архитектуры является то, что в отличии от слова последовательности, у вершины в графе может быть более двух ближайших соседей, и каждый из них можно учесть для подсчета ее эмбеддинга. Если же для каждого соседа дополнительно учесть его соседей, то получатся векторные представления вершин, учитывающих соседей на расстоянии 2; и так далее. Таким образом, в ходе каждой итерации модель получает информацию от вершин-соседей и обновляет свою собственную информацию.
Пример архитектуры GCN модели показан на Рисунок 2.2. В данном случаи учитываются вершины на расстоянии не более двух: сначала эмбеддинг
каждой вершины считается как среднее ее соседей, после чего применяется нелинейность, и эмбеддинги пересчитываются еще раз аналогичным образом.
Рисунок 2.2 Архитектура Graph Convolutional Network.
Архитектура модели GCN, которая используется в данной работе, описывается следующим образом.
Для учета соседей вершин модель использует матрицу смежности А размера пхп, а также начальные эмбеддинги вершин, представленные матрицей Е Е . Работа GCN основана на трех основных принципах: (1) Агрегация информации из соседей.
Реализуется через используется умножение на нормализованную мат-
Л м
рицу смежности: А = Б-1 А, где Б - матрица степеней вершин. Так, на каждом шаге вычисляется обновление А • Х—1. Здесь, Х^-1 - значение эмбеддингов (признаков) с предыдущего шага, которое на первом шаге инициализируется через:
Х0 = ЕШ0 + Ь0 Е Жпхт (22)
Здесь, ]М0 ЕШахт и Ь0 Е М1хт являются обучаемыми параметрами сети и используются в целях понижения размерности (которая при применении
слоев GCN уже меняться не будет). Операция + соответствует прибавлению вектора к каждому столбцу матрицы.
(2) Обучаемое преобразование признаков.
К полученной агрегированной информации применяется линейный слов с нелинейностью, и обновляются признаки с предыдущего шага. Таким образом, на i -ом шаге используется следующее преобразование:
Xi = Х-! + F(A • Xt-± • Щ + bi) (2.3)
В данном случае Wt Е штхт и bt Е М1хт - тоже обучаемые веса модели. F отвечает за нелинейность, и в качестве него обычно принято использовать сигмоиду или ReLU.
Во многих случаях, в графовые сетях в последних слоях skip-connections с предыдущих слоев, чтобы не забыть информацию, полученную ранее в случае большого количества шагов [37].
Итерация по слоям в (2.3) выполняется от 1 до N, где N - общее количество слоев GCN. На выходе получается матриц. На выходе GCN сети получается матрица эмббедингов XN, которая в дальнейшем используется при решении downstream задач.
2.3 Нейросетевые архитектуры на базе Трансформер 2.3.1 Механизм внимания и архитектура Трансформер
Механизм внимания был предложен в статье [38] и является одним из ключевых элементов современных языковых моделей. При построении эм-беддинга каждого токена он позволяет фокусироваться на векторных представлениях остальных токенов контекстного окна в зависимости от их релевантности.
Механизм внимания принимает не вход три матрицы эмбеддингов - запросы, ключи и значения (см Рисунок 2.3). В случае self-attention, ключи и значения совпадают.
Рисунок 2.3 Схема механизма внимания (слева) и многоголового механизма внимания
(справа).
Значения через механизм внимания вычисляются следующим образом:
(2.4)
V
Так, сначала для запросов сначала оценивается близость к ключам при помощи скалярного произведения (скоры внимания), эти скоры нормируются в значения от 0 до 1, после чего используется softmax, с целью отображения полученных коэффициентов в веса с суммой равной 1. Эти веса для каждого токена из Q показывают, насколько токен из K на него влияет. Именно с этими весами суммируются соответствующие токены из V.
Чтобы была возможность выучивания разнородных зависимостей между токенами предлагается использование многоголового механизма внимания, применяемого параллельно над несколькими обучаемыми линейными преобразованиями значений Q, ^ и V. Каждое линейное преобразование задается своей матрицей проекции и не использует линейный сдвиг. Выходы голов конкатенируются, после чего к ним применяется полносвязный слой для агрега-
ции и получения единого векторного представления.
22
Рисунок 2.4 Архитектура Трансформер.
Архитектура Трансформер (см. Рисунок 2.4) использует механизм внимания, описанный выше, и решает задачу последовательной генерации текста в авторегрессионной манере при помощи блоков двух типов - энкодера и декодера. Блок энкодера кодирует токены входного текста через механизм внимания, получая качественно векторное представление каждого токена. Эти представления передаются в дальнейшем в декодер и подставляются в блок с механизмом внимания в качестве Q и К, в то время как V берутся из самого декодера. К полученным таким образом эмбеддингам в декодере применяется цепочка из полносвязных слоев с SoftMax отображением с целью получить распределение вероятностей следующего токена.
Данная архитектура сразу показала значительное улучшение над конкурентными моделями и легла в основу дальнейших SOTA решений, как в задачах классификации, так и в задачах генерации текстов.
2.3.2 Модели семейства BERT
BERT [5] является одной из прорывных моделей в задачах, основанных на классификации токенов (или текстов). Модели, базирующиеся на его архитектуре, показывают высокие результаты во многих downstream задачах.
В основе архитектуры BERT лежит энкодерные слои Трансформер [38] с механизмом self-attention. В оригинальной версии Трансфермера используются как энкодерные слои, кодирующие текст, так и декодерные, осуществляющие генерацию. Однако, поскольку BERT предназначен для задач кодирования, то он не использует декодерные слои.
Обучается BERT на задачу masked language modeling (MLM), основной целью которой является предсказание моделью замаскированных токенов исходного текста. Пример показан на Рисунок 2.5. Кроме того, авторами предлагается использование дополнительной задачи, а именно next sentence prediction: для лучшего понимания правильной семантической последовательности решается задача бинарной классификации - предсказания, идут ли два предложения последовательно в тексте или нет.
В модели используется фиксированный набор специальных токенов: то-кен [CLS] стоит в начале предложения и позволяет кодировать в себе информацию обо всем тексте с целью дальнейшего использования классификации текстов: эмбеддинг данного токена соответствует эмбеддингу полного текста. Токен [SEP] позволяет разделить несколько входов (как, например, в задаче классификации двух предложений, упомянутой выше).
you has the highest probability
you.they. your..
Output
[С1 .S] he iw a e do ng toe ay [SE -P]
BERT masked language model
[Cl .S] he iw a e ma do ng toe ay [SE :P]
Input
Рисунок 2.5 Задача MLM при обучении BERT.
Отдельно стоит отметить входы, кодируемые BERT и показанные на Рисунок 2.6. Модель использует как стандартные эмбеддинги токенов текста, так и позиционное кодирование и эмбеддинги сегментов (разделяемых токеном [SEP]).
Рисунок 2.6 Входы модели BERT.
Предобученная таким образом модель может быть в дальнейшем успешно дообучена на решение downstream задач: классификации текстов и пар текстов, классификации токенов (NER), детекции спанов (ответов в QA).
Впоследствии на базе BERT было предложено целое семейство моделей, предлагающих улучшения как на основе количества обучающих данных, так и модификации архитектуры, входов модели и улучшенного позиционного кодирования.
Одной из наиболее успешных моделей является модель RoBERTa [39]. Она обучалась только задаче MLM, но имеет более качественную настройку параметров по сравнению с BERT, расширенный словарь токенизатора и расширенный датасет. Именно эта модель продолжительное время показывала SOTA результаты во многих задачах, и даже в 2024 году остается одним из сильных бейзлайновых решений. На базе RoBERTa были также обучены муль-тиязычные модели, самой успешной и широко используемой из которых в настоящее время является XLM-RoBERTa [40], обученная более чем на 100 языках.
DeBERTa [41] также наследуется от архитектуры BERT и является лучшей моделью для бенчмарка SuperGLUE [42], основном бенчмарке для сравнения энкодерных языковых моделей. В отличии от базовой архитектуры используется enhanced mask decoder: в промежуточных слоях он использует не только семантические эмбеддинги, но и эмбеддинги позиций и ролей (см. Рисунок 2.7). Кроме того, расширяется механизм внимания (на disentangled attention), когда промежуточные скоры-веса рассчитываются не только контекста при условии контекста, но и контекста при условии позиций и позиций при условии других позиций.
V шшшшш\тШШштшЁлтшшш
Рисунок 2.7 Архитектура модели DeBERTa.
Для этой модели так же было предложено несколько моделей-потомков. Так, версия DeBERTa-v2 улучшает токенизатор и позиционное кодирование.
2.3.3 Модели семейства GPT
Модели на базе GPT [14] были предложены для решения задач генерации текстов. Они обучаются на огромном массиве обучающих данных в авторегрессионной манере: на основе текущего текста необходимо сгенерировать то-кены, его продолжающие. Такой подход позволяет GPT понимать контекст и генерировать осмысленные тексты.
Несмотря на то, что GPT, как и BERT является архитектурой на базе Трансформер, необходимо выделить несколько важных отличий. Во-первых, эта модель имеет тип не энкодер, а декодер: использует однонаправленный подход и она анализирует текст слева направо, предсказывая следующее слово на основе предыдущих. Механизм внимания таким образом в ней маскируется, чтобы модель не заглядывала в будущее.
После предварительного обучения модель может быть дообучена на специфических задачах, таких как классификация текста, задачи машинного перевода или генерация диалогов. Для этого используется меньший набор размеченных данных, который адаптирует модель к конкретной задаче. При этом важно отметить, что GPT использует метод самообучения (self-supervised learning), где данные для обучения создаются автоматически из текста. Например, задача предсказания следующего слова не требует ручной разметки, что делает процесс обучения более эффективным.
Современные версии GPT (например, GPT-3, GPT-4) обучаются на миллиардах параметров, что позволяет им достигать высокой точности и универсальности в решении задач.
Архитектура модели GPT представлена на рисунке Рисунок 2.8. Каждый токен проходит через набор слоев-декодера, отличительной особенностью которых является маскированных механизм внимания. В каждом блоке декодера
27
после механизма внимания результаты проходят через полносвязные слои (feed-forward layers), которые выполняют нелинейное преобразование данных. Обычно используется функция активации ReLU. На выходе модели применяется полносвязный слой для получения вектора, показывающего вероятности токенов, насколько они уместны в качестве следующего. Таким образом, модель обучается на задачу классификации каждого токена.
^^^^^ Decoder #12, Position #1 IB output vector
V DECODER
Decoder #2, Position #1 output vector * * *
ч DECODER
DECODER LLLi J Decoder #1, Position #1 output vector
Feed Forward Neural Network )
Masked Self-Attention )
<S>
1 2 ... 1024
Рисунок 2.8 Архитектура GPT.
Если говорить про стратегии выбора следующего токена на этапе предсказания, то обычно используется несколько основных стратегий. Поскольку модель предсказывает распределение вероятностей для следующего токена, может быть использовано несколько вариантов сэмплирования:
1) Top-k [43] осуществляет сэмплирование только из топа самых вероятных токенов (с целью случайно не получить совсем маловероятный токен). Таким образом, наиболее вероятные токены перевзвешиваются.
2) Nucleus Sampling [44] осуществляет сэмплирование из токенов, позволяющих покрыть суммарно нужную вероятность. Это нужно для того, что в случае наличия токена с вероятностью сильно превосходящей остальные, достаточно было выбрать только его, проигнорировав остальные, являющиеся
очень редкими. Таким образом, токены для сэмплирования собираются до тех пор не пока наберется необходимое количество, а пока их кумулятивная вероятность не превосходит заданного порога.
На базе GPT в дальнейшем было предложено семейство сильно больших в размере языковых моделей, позволяющих решать различные генеративные задачи в few-shot и zero-shot формате. Так, отдельно стоит отметить модель In-structGPT [45], выполняющую генерацию на основе описанной пользователем инструкции. В ней авторы расширяют стандартный процесс предобучения и предлагают несколько шагов, показанных на Рисунок 2.9. Так после базового предобучения, добавляется шаг инструктивного SFT, как модель учится следовать определенному набору инструкций. После этого на основе генераций модели составляется экспертная разметка из попарных сравнений, на которых обучается reward модель. Скоры из модели наград используются в заключительном шаге дообучения исходной модели при обучении с подкреплением (механизме PPO), когда обученная ревард модель используется в качестве функции потерь для оценки текущих предсказаний.
Модель InstructGPT легла в основу семейства ChatGPT моделей от OpenAI и конкурирующих подходов, таких как Sparrow [46], LLaMa [47] и других, показывающих сейчас SOTA результаты по многих задачах, которые формулируются в виде генеративных инструкций.
2.3.4 Модели seq2seq: BART и T5
Модели seq2seq предназначены для генерации одной последовательности по другой и получили наибольшую популярность в задачах суммаризации текстов и перевода. Основным преимуществом относительно моделей на базе GPT в этих моделях является то, что входную последовательность обрабатывает энкодер, а выходную - декодер.
Рисунок 2.9 Шаги обучения InstructGPT.
Архитектура модели BART [48] показана на Рисунок 2.10. Основной идеей в процессе обучения является обучение задаче денойзинга: входы энко-дера зашумляются, а авторегрессионный декодер должен восстановить исходную последовательность. При обучении рассматривались следующие варианты зашумления: маскирование токенов, удаление токенов, изменение порядка токенов и случайная замена. BART при выходе значительно обошла предыдущие модели в задачах суммаризации и QA.
Рисунок 2.10 Архитектура BART.
Архитектура модели T5 [49] так же является энкодер-декодер архитектурой и показывает сопоставимые с BART результаты. Модель обучается только на одну задачу денойзинга, а именно на восстановление пропущенных промежутков. Архитектура минимально отличается от BART: используется относительное позиционное кодирование вместо абсолютного; восстанавливаются только пропущенные токены, а не весь исходный текст целиком; используется немного другую нормализацию.
Обе этих модели имеют соответствующие мультиязычные варианты, позволяющих в том числе работать с русским языком: mBART и mT5.
2.4 Метрики оценки качества в задачах NLP
В данном исследовании мы рассматриваем несколько типов NLP задач. В каждом из них обычно используется набор стандартных метрик оценки качества.
2.4.1 Метрики классификации и ранжирования
В задачах бинарной классификации помимо простой метрики Accuracy, отвечающей за долю правильных предсказаний, как положительных так и отрицательных, обычно используются метрики точности (precision), полноты (recall), и их среднее гармоническое, называемое F1-score. Эти метрики привязаны к положительному классу. Precision определяется как TP / (TP + FP), где TP - истинно положительные срабатывания, FP - ложно положительные. Recall определяется как TP / (TP + FN), где TP - истинно положительные срабатывания, FN - ложно отрицательные.
В задачах многоклассовой классификации используется микро- и макроусреднение данных метрик. В микро-усреднении TP, FP и FN считаются сразу по всем примерам всех классов, а потом на основе них считаются нужные метрики. Такой подход позволяет оценить общее качество, не учитывая баланс классов. Для учета баланса классов для несбалансированных датасетов
обычно используется макро-усреднение, когда целевые метрики сначала вычисляются для каждого класса отдельно, а затем усредняются для получения финальной метрики.
Для задач ранжирования и сопоставления есть несколько типовых метрик. Пусть дан набор запросов {^у} м и отсортированный по релевантности
для каждого вопроса список ответов 1(д). Если модель ранжирования (или сопоставления) предсказывает список /(д), также отсортированный по релевантности, и /^(д) - его первые к элементов, то метрики MRR и Р@К вычисляются согласно формулам (2.5) и (2.6) соответственно.
N
1V 1
МДД = - > --—— (2.5)
N ¿—I [позиция первого релев. ответа в ](д,)] ]=1
= \ I (2.6)
Л\тт (|%)|, К) ( )
2.4.2 Метрики генерации
Для генерации же для автоматического оценивания принято использовать метрики, основанные на пересечении n-грамм в предсказанном и идеальном ответах. Наиболее популярными являются метрики ROUGE [50] и на основе BLEU [51].
ROUGE оценивает качество на основе предсказанных n-грамм: так, ROUGE-1 показывает точность, полноту и F1 по юниграмам, а ROUGE-2 - по биграммам. Кроме того, обычно используется метрика ROUGE-L, которая вместо количества совпавших n-грамм вычисляет длину наибольшей общей подпоследовательности.
Метрика BLUE тоже основана на совпадении n-грамм между сгенерированным текстом и одним или несколькими референсными текстами, но делает акцент на точности с добавлением «штрафа за краткость» (называемый обычно
brevity penalty), чтобы не поощрять генерацию коротких текстов. Формально, BLEU = BP • exp wnlog (pn)), где BP - штраф за краткость; wn - вес n-грамм, а рп - модифицированный precision по n-граммам.
3 Виды структурной лингвистической информации, используемой в задачах NLP
Базовые представления текстов как последовательности токенов могут обогащаться при помощи структурной лингвистической информации, полученной через дополнительный лингвистический анализ. Принято выделять несколько уровней: морфология (уровень слов), синтаксис (связи между словами), семантика (смысловая нагрузка), дискурс и прагматика (связи между предложениями и отдельными мыслями).
3.1 Графы синтаксических зависимостей
Синтаксические графы - это представления синтаксической структуры предложений. Они показывают, как слова в предложении связаны друг с другом грамматически. Эти графы состоят из узлов (обычно представляющих слова или фразы) и ребер (представляющих синтаксические отношения между ними). Такие графы принято разделять на два типа: Constituency и Dependency.
Constituency графы представляют синтаксическую структуру предложения как иерархию вложенных фраз. Основная идея заключается в том, что слова объединяются в составляющие (constituents), которые, в свою очередь, могут объединяться в более крупные составляющие. Узлами в таких деревьях могут быть как отдельные слова (терминальные узлы), так и синтаксические категории (нетерминальные узлы), такие как именная группа (NP), глагольная группа (VP), предложная группа (PP) и так далее. Таким образом, эти графы используются в первую очередь при анализе именных групп.
Второй тип графов является более сокращенным представлением, и не строит иерархию, а представляет синтаксическую структуру предложения как набор отношений зависимости между отдельными словами. Основная идея за-
ключается в том, что каждое слово в предложении, кроме одного (корня), зависит от другого слова, называемого управляющим словом. Каждое слово может иметь только одно входное ребро.
Ошибка! Источник ссылки не найден. демонстрирует пример dependency синтаксического графа. Для данного примера "gave" является корнем. Слова, от него зависящие, такие как "Mary" и "book", позволяют провести более глубокий анализ и получить более качественные эмбеддинги по сравнению с подходом, учитывающим только номера позиций слов в тексте.
ROOT
NMOD
Mary gave the book to Steven
Рисунок 3.1 Пример синтаксического дерева типа dependency tree.
Dependency графы лучше подходят для задач, связанных с пониманием смысла, так как лучше отражают конкретные зависимости между словами. А в связи с их более простым представлением, в данной работе мы использовали именно их.
3.1 Abstract Meaning Representation (AMR)
Abstract Meaning Representation - это формальное представление смысла предложения, которое стремится выразить его семантическое содержание в виде ориентированного ациклического графа [52]. Узлы графа соответствуют концептам (понятиям, сущностям, событиям), а ребра — отношениям между ними. При этом отношения могут быть семантическими ролями (например, ":ARG0" - субъект1, ":ARG1" - субъект2), модальными отношениями (":mod"), временными отношениями (":time"), и так далее. При этом набор отношений стандартизирован, что обеспечивает согласованность представления.
Добавление графов AMR позволило улучшить диалоговые системы, направленные на решение конкретных задач (task-oriented) [53]. Кроме того, ранее была исследована интеграция AMR для прагматического анализа [54]. Таким образом, в своем анализе в данной работе мы также используем эти графы в качестве одного из лингвистически мотивированных входов.
Похожие диссертационные работы по специальности «Другие cпециальности», 00.00.00 шифр ВАК
Методы и средства морфологической сегментации для систем автоматической обработки текстов2023 год, кандидат наук Сапин Александр Сергеевич
Методы и средства морфологической сегментации для систем автоматической обработки текстов2022 год, кандидат наук Сапин Александр Сергеевич
Повышение эффективности методов генерации изображений мультимодальными нейронными сетями2025 год, кандидат наук Воронов Антон Дмитриевич
Методы и алгоритмы интеллектуального анализа медицинских текстов на арабском языке2023 год, кандидат наук Хаммуд Жаафар
Список литературы диссертационного исследования кандидат наук Чернявский Александр Сергеевич, 2025 год
Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics, ACL 2017, Vancouver, Canada, July 30 - August 4, Volume 1: Long Papers, 2017.
[3] P. Bhatia, Y Ji h J. Eisenstein, «Better Document-level Sentiment Analysis from RST Discourse Parsing,» b Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing, EMNLP 2015, Lisbon, Portugal, September 17-21, 2015, 2015.
[4] B. Galitsky, «Learning Discourse-Level Structures for Question Answering,» 2019, pp. 177-219.
[5] J. Devlin, M.-W. Chang, K. Lee h K. Toutanova, «BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding,» b Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, NAACL-HLT 2019, Minneapolis, MN, USA, June 2-7, 2019, Volume 1 (Long and Short Papers), 2019.
[6] D. Jurkiewicz, L. Borchmann, I. Kosmala h F. Gralinski, «ApplicaAI at SemEval-2020 Task 11: On RoBERTa-CRF, Span CLS and Whether Self-Training Helps Them,» b Proceedings of the Fourteenth Workshop on Semantic Evaluation, SemEval@COLING 2020, Barcelona (online), December 12-13, 2020, 2020.
[7] Q. Liao, M. Lai h P. Nakov, «MarsEclipse at SemEval-2023 Task 3: Multilingual and Multi-label Framing Detection with Contrastive Learning,» b Proceedings of the The 17th International Workshop on Semantic Evaluation, SemEval@ACL 2023, Toronto, Canada, 13-14 July 2023, 2023.
[8] B. Wu, O. Razuvayevskaya, F. Heppell, J. A. Leite, C. Scarton, K. Bontcheva h X. Song, «SheffieldVeraAI at SemEval-2023 Task 3: Mono and Multilingual Approaches for News Genre, Topic and Persuasion Technique Classification,» b Proceedings of the The 17th International Workshop on Semantic Evaluation, SemEval@ACL 2023, Toronto, Canada, 13-14 July 2023, 2023.
[9] T. Young, E. Cambria, I. Chaturvedi, H. Zhou, S. Biswas h M. Huang, «Augmenting End-to-End Dialogue Systems With Commonsense Knowledge,» b Proceedings of the Thirty-Second AAAI Conference on Artificial Intelligence, (AAAI-18), AAAI Press, 2018, pp. 4970--4977.
[10] B. A. Galitsky, «Building Dialogue Structure from Discourse Tree of a Question,» b The Workshops of the The Thirty-Second AAAI Conference on Artificial Intelligence, New Orleans, Louisiana, USA, February 2-7, 2018, 2018.
[11] H. Ouchi h Y Tsuboi, «Addressee and Response Selection for Multi-Party Conversation,» b Proceedings of the 2016 Conference on Empirical Methods in Natural Language Processing, EMNLP 2016, ACL, 2016, pp. 2133--2143.
[12] J.-C. Gu, Z.-H. Ling h Q. Liu, «Interactive Matching Network for Multi-Turn Response Selection in Retrieval-Based Chatbots,» b Proceedings of the 28th ACM International Conference on Information and Knowledge Management, CIKM2019, Beijing, China, ACM, 2019, pp. 2321--2324.
[13] Radford, A., Wu, J., Child, R., Luan, D., Amodei, D., and Sutskever, I., "Language models are unsupervised multitask learners," 2019.
[14] Brown, T., Mann, B., Ryder, N., Subbiah, M., Kaplan, J., Dhariwal, P., Neelakantan, A., Shyam, P., Sastry, G., Askell, A., Agarwal, S., Herbert-Voss, A., Krueger, G., Henighan, T., Child, R., Ramesh, A., Ziegler, D.M., Wu, J., Winter, C., Hesse, C., Chen,, "Language Models are Few-Shot Learners," ArXiv, abs/2005.14165, 2020.
[15] Ko, W., and Li, J., "Assessing discourse relations in language generation from GPT2," in Proceedings of the 13th International Conference on Natural Language Generation, Dublin, Ireland, 2020.
[16] Z. Ji h gp, «Survey of Hallucination in Natural Language Generation,» b abs/2202.03629, CoRR, 2022.
[17] Puduppully, R., Dong, L., and Lapata, M, "Data-to-text generation with content selection and planning," in AAAI2019, 2019.
[18] Peng, N., Ghazvininejad, M., May, J., and Knight, K., "Towards controllable story generation," in Proceedings of the First Workshop on Storytelling, New Orleans, Louisiana, 2018.
[19] Biran, O., and McKeown, K., "Discourse planning with an n-gram model of relations," in Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing, Lisbon, Portugal, 2015.
[20] Y Ji, G. Haffari h J. Eisenstein, «A Latent Variable Recurrent Neural Network for Discourse Relation Language Models,» b abs/1603.01913, CoRR, 2016.
[21] Harrison, V., Reed, L., Oraby, S., and Walker, M., "Maximizing stylistic control and semantic accuracy in NLG: personality variation and discourse contrast," CoRR, abs/1907.09527, 2019.
[22] L. Shang, Z. Lu h H. Li, «Neural Responding Machine for Short-Text Conversation,» b Proceedings of the 53rd Annual Meeting of the Association for Computational Linguistics and the 7th International Joint Conference on
Natural Language Processing of the Asian Federation of Natural Language Processing, The Association for Computer Linguistics, 2015, pp. 1577-1586.
[23] M. Wang, Z. Lu, H. Li h Q. Liu, «Syntax-based Deep Matching of Short Texts,» 2015.
[24] D. R. Traum, «Issues in Multiparty Dialogues,» b Advances in Agent Communication, International Workshop on Agent Communication Languages, ACL 2003, Melbourne, Australia, Springer, 2003, pp. 201--211.
[25] D. C. Uthus h D. W. Aha, «Multiparticipant chat analysis: A survey,» b Artif. Intell., 2013, pp. 106--121.
[26] R. Le, W. Hu, M. Shang, Z. You, L. Bing, D. Zhao h R. Yan, «Who Is Speaking to Whom? Learning to Identify Utterance Addressee in Multi-Party Conversations,» b Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing, ACL, 2019, pp. 1909--1919.
[27] D. Varshney, A. - Prabhakar h A. Ekbal, «Commonsense and named entity aware knowledge grounded dialogue generation,» b arXiv preprint arXiv:2205.13928, 2022.
[28] S. Wu, Y Li, P. Xue, D. Zhang h Z. Wu, «Section-aware commonsense knowledge-grounded dialogue generation with pre-trained language model,» b Proceedings of the 29th International Conference on Computational Linguistics, 2022, pp. 521--531.
[29] B. Hedayatnia, K. Gopalakrishnan, S. Kim, Y. Liu, M. Eric h D. Hakkani-Tur, «Policy-driven neural response generation for knowledge-grounded dialogue systems,» b arXiv preprint arXiv:2005.12529, 2020.
[30] J. Wu h H. Zhou, «Augmenting topic aware knowledge-grounded conversations with dynamic built knowledge graphs,» b Proceedings of Deep
Learning Inside Out (DeeLIO): The 2nd Workshop on Knowledge Extraction and Integration for Deep Learning Architectures, 2021, pp. 31--39.
[31] B. Khalid, M. Alikhani, M. Fellner, B. McMahan h M. Stone, «Discourse coherence, reference grounding and goal oriented dialogue,» b arXiv preprint arXiv:2007.04428, 2020.
[32] Z. Lin h M. O. Riedl, «Plug-and-Blend: A Framework for Plug-and-Play Controllable Story Generation with Sketches,» b Proceedings of the Seventeenth AAAI Conference on Artificial Intelligence and Interactive Digital Entertainment, AIIDE 2021, virtual, October 11-15, 2021, 2021.
[33] X. Feng, X. Feng, B. Qin h X. Geng, «Dialogue Discourse-Aware Graph Model and Data Augmentation for Meeting Summarization,» b Proceedings of the Thirtieth International Joint Conference on Artificial Intelligence, IJCAI2021, Montreal, Canada, 2021, pp. 3808--3814.
[34] J. Li, M. Liu, Z. Zheng, H. Zhang, B. Qin, M.-Y Kan h T. Liu, «DADgraph: A Discourse-aware Dialogue Graph Neural Network for Multiparty Dialogue Machine Reading Comprehension,» b International Joint Conference on Neural Networks, IJCNN 2021, Shenzhen, China, 2021, pp. 1--8.
[35] Pennington, J., Socher, R., Manning, C., "Glove: Global Vectors for Word Representation," in Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing (EMNLP), 2014.
[36] Cer, D., Yang, Y., Kong, S., Hua, N., Limtiaco, N., John, R., Constant, N., Guajardo-Cespedes, M., Yuan, S., Tar, C., Sung, Y, Strope, B., Kurzweil, R., "Universal sentence encoder," CoRR, abs/1803.11175, 2018.
[37] K. He, X. Zhang, S. Ren h J. Sun, «Deep Residual Learning for Image Recognition,» b 2016 IEEE Conference on Computer Vision and Pattern Recognition, CVPR 2016, Las Vegas, NV, USA, June 27-30, 2016, 2016.
[38] A. Vaswani, N. Shazeer, N. Parmar, J. Uszkoreit, L. Jones, A. N. Gomez, L. Kaiser h I. Polosukhin, «Attention is All you Need,» b Advances in Neural Information Processing Systems 30: Annual Conference on Neural Information Processing Systems 2017, December 4-9, 2017, Long Beach, CA, USA,2017.
[39] A. Liu, Z. Huang, H. Lu, X. Wang h C. Yuan, «BB-KBQA: BERT-Based Knowledge Base Question Answering,» b Chinese Computational Linguistics - 18th China National Conference, CCL 2019, Kunming, China, October 1820, 2019, Proceedings, 2019.
[40] A. Conneau, K. Khandelwal, N. Goyal, V. Chaudhary, G. Wenzek, F. Guzman, E. Grave, M. Ott, L. Zettlemoyer h V. Stoyanov, «Unsupervised Cross-lingual Representation Learning at Scale,» b Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics, ACL 2020, Online, July 5-10, 2020, 2020.
[41] P. He, X. Liu, J. Gao h W. Chen, «Deberta: decoding-Enhanced Bert with Disentangled Attention,» b 9th International Conference on Learning Representations, ICLR 2021, Virtual Event, Austria, May 3-7, 2021, 2021.
[42] A. Wang, Y. Pruksachatkun, N. Nangia, A. Singh, J. Michael, F. Hill, O. Levy h S. R. Bowman, «SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems,» b Advances in Neural Information Processing Systems 32: Annual Conference on Neural Information Processing Systems 2019, NeurIPS 2019, December 8-14, 2019, Vancouver, BC, Canada, 2019.
[43] Fan, A., Lewis, M., and Dauphin, Y, "Hierarchical neural story generation," CoRR, abs/1805.04833, 2018.
[44] Holtzman, A., Buys, J., Forbes, M., and Choi, Y., "The curious case of neural text degeneration," CoRR, abs/1904.09751, 2019.
[45] L. Ouyang, J. Wu, X. Jiang, D. Almeida, C. L. Wainwright, P. Mishkin, C. Zhang, S. Agarwal, K. Slama, A. Ray, J. Schulman, J. Hilton, F. Kelton, L. Miller, M. Simens, A. Askell, P. Welinder, P. F. Christiano, J. Leike h R. Lowe, «Training language models to follow instructions with human feedback,» b
Advances in Neural Information Processing Systems 35: Annual Conference on Neural Information Processing Systems 2022, NeurIPS 2022, New Orleans, LA, USA, November 28 - December 9, 2022, 2022.
[46] A. Glaese, N. McAleese, M. Trebacz, J. Aslanides, V. Firoiu, T. Ewalds, M. Rauh, L. Weidinger, M. J. Chadwick, P. Thacker, L. Campbell-Gillingham, J. Uesato, P.-S. Huang, R. Comanescu, F. Yang, A. See, S. Dathathri, R. Greig, C. Chen, D. Fritz, J. S. Elias, R. Green, S. Mokra, N. Fernando, B. Wu, R. Foley, S. Young, I. Gabriel, W. Isaac, J. Mellor, D. Hassabis, K. Kavukcuoglu, L. A. Hendricks h G. Irving, «Improving alignment of dialogue agents via targeted human judgements,» CoRR, t. abs/2209.14375, 2022.
[47] H. Touvron, T. Lavril, G. Izacard, X. Martinet, M.-A. Lachaux, T. Lacroix, B. Rozière, N. Goyal, E. Hambro, F. Azhar, A. Rodriguez, A. Joulin, E. Grave h G. Lample, «LLaMA: Open and Efficient Foundation Language Models,» CoRR, t. abs/2302.13971, 2023.
[48] M. Lewis, Y. Liu, N. Goyal, M. Ghazvininejad, A. Mohamed, O. Levy, V. Stoyanov h L. Zettlemoyer, «BART: Denoising Sequence-to-Sequence Pre-training for Natural Language Generation, Translation, and Comprehension,» b Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics, ACL 2020, Online, July 5-10, 2020, Association for Computational Linguistics, 2020, pp. 7871--7880.
[49] R. Colin, S. Noam, R. Adam, L. Katherine, N. Sharan, M. Michael, Z. Yanqi, W. Li h J. L. Peter, «Exploring the Limits of Transfer Learning with a Unified
Text-to-Text Transformer,» b Journal of Machine Learning Research, 2020, pp. 1--67.
[50] C.-Y Lin, «ROUGE: A Package for Automatic Evaluation of Summaries,» b ACL 2004, 2004.
[51] K. Papineni, S. Roukos, T. Ward h W.-J. Zhu, «Bleu: a Method for Automatic Evaluation of Machine Translation,» b Proceedings of the 40th Annual Meeting of the Association for Computational Linguistics, ACL, 2002, pp. 311--318.
[52] L. Banarescu, C. Bonial, S. Cai, M. Georgescu, K. Griffitt, U. Hermjakob, K. Knight, P. Koehn, M. Palmer, Schneider h Nathan, «Abstract Meaning Representation for Sembanking,» b Proceedings of the 7th Linguistic Annotation Workshop and Interoperability with Discourse, LAW-ID@ACL 2013, Sofia, Bulgaria, The Association for Computer Linguistics, 2013, pp. 178--186.
[53] B. Yang, C. Tang h C. Lin, «Improving Medical Dialogue Generation with Abstract Meaning Representations,» b arXiv preprint arXiv:2309.10608, 2023.
[54] C. Bonial, L. Donatelli, M. Abrams, S. Lukin, S. Tratz, M. Marge, R. Artstein, D. Traum h C. Voss, «Dialogue-AMR: abstract meaning representation for dialogue,» b Proceedings of the Twelfth Language Resources and Evaluation Conference, 2020, pp. 684--695.
[55] W. C. Mann h S. A. Thompson, «Rhetorical Structure Theory: Toward a functional theory of text organization,» Text & Talk, t. 8, pp. 243-281, 1988.
[56] S. R. Joty, G. Carenini h R. T. Ng, «A Novel Discriminative Framework for Sentence-Level Discourse Analysis,» b Proceedings of the 2012 Joint Conference on Empirical Methods in Natural Language Processing and
Computational Natural Language Learning, EMNLP-CoNLL 2012, July 1214, 2012, Jeju Island, Korea, 2012.
[57] C. Sutton, A. McCallum h K. Rohanimanesh, «Dynamic Conditional Random Fields: Factorized Probabilistic Models for Labeling and Segmenting Sequence Data,» J. Mach. Learn. Res., t. 8, p. 693-723, 2007.
[58] Y Wang, S. Li h J. Yang, «Toward Fast and Accurate Neural Discourse Segmentation,» b Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing, Brussels, Belgium, October 31 - November 4, 2018, 2018.
[59] Y Wang, S. Li h H. Wang, «A Two-Stage Parsing Method for Text-Level Discourse Analysis,» b Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics (Volume 2: Short Papers), Vancouver, 2017.
[60] M. Stone, U. Stojnic h E. Lepore, «Situated Utterances and Discourse Relations,» b Proceedings of the 10th International Conference on Computational Semantics, IWCS 2013, Potsdam, Germany, The Association for Computer Linguistics, 2013, pp. 390--396.
[61] Z. Shi h M. Huang, «A Deep Sequential Model for Discourse Parsing on Multi-Party Dialogues,» b The Thirty-Third AAAI Conference on Artificial Intelligence, AAAI 2019, The Thirty-First Innovative Applications of Artificial Intelligence Conference, IAAI2019, The Ninth AAAI Symposium on Educational Advances in Artificial Intelligence, EAAI 2019, Honolulu, Hawaii, USA, January 27 - February 1, 2019, 2019.
[62] K. S. Tai, R. Socher h C. D. Manning, «Improved Semantic Representations From Tree-Structured Long Short-Term Memory Networks,» b Proceedings of the 53rd Annual Meeting of the Association for Computational Linguistics and the 7th International Joint Conference on Natural Language Processing
of the Asian Federation of Natural Language Processing, ACL 2015, July 2631, 2015, Beijing, China, Volume 1: Long Papers, 2015.
[63] R. Clancy, I. F. Ilyas h J. Lin, «Scalable Knowledge Graph Construction from Text Collections,» b Proceedings of the Second Workshop on Fact Extraction and VERification (FEVER), Hong, 2019.
[64] G. L. Ciampaglia, P. Shiralkar, L. M. Rocha, J. Bollen, F. Menczer h A. Flammini, «Computational fact checking from knowledge networks,» CoRR, t. abs/1501.03471, 2015.
[65] H. Hashemi, M. Aliannejadi, H. Zamani h W. B. Croft, «ANTIQUE: A Non-factoid Question Answering Benchmark,» b Advances in Information Retrieval - 42nd European Conference on IR Research, ECIR 2020, Lisbon, Portugal, April 14-17, 2020, Proceedings, Part II, 2020.
[66] W. Cui, Y. Xiao, H. Wang, Y. Song, S.-w. Hwang h W. Wang, «KBQA: Learning Question Answering over QA Corpora and Knowledge Bases,» CoRR, t. abs/1903.02419, 2019.
[67] S. Semeniuta, A. Severyn h E. Barth, «Recurrent Dropout without Memory
Loss,» b COLING 2016, 26th International Conference on Computational Linguistics, Proceedings of the Conference: Technical Papers, December 1116, 2016, Osaka, Japan, 2016.
[68] M. A. Walker, J. E. F. Tree, P. Anand, R. Abbott h J. King, «A Corpus for Research on Deliberation and Debate,» b Proceedings of the Eighth International Conference on Language Resources and Evaluation, LREC 2012, Istanbul, Turkey, May 23-25, 2012, 2012.
[69] S. Oraby, L. Reed, R. Compton, E. Riloff, M. A. Walker h S. Whittaker, «And That's A Fact: Distinguishing Factual and Emotional Argumentation in Online
Dialogue,» b Proceedings of the 2nd Workshop on Argumentation Mining, ArgMining@HLT-NAACL 2015, June 4, 2015, Denver, Colorado, USA, 2015.
[70] H. Rashkin, E. Choi, J. Y Jang, S. Volkova h Y. Choi, «Truth of Varying Shades: Analyzing Language in Fake News and Political Fact-Checking,» b
Proceedings of the 2017 Conference on Empirical Methods in Natural Language Processing, EMNLP 2017, Copenhagen, Denmark, September 911, 2017, 2017.
[71] T. Alhindi, S. Petridis h S. Muresan, «Where is Your Evidence: Improving Fact-checking by Justification Modeling,» b Proceedings of the First Workshop on Fact Extraction and VERification, FEVER@EMNLP 2018, Brussels, Belgium, November 1, 2018, 2018.
[72] Pang, B., Lee, L., "A sentimental education," in Proceedings of the 42nd Annual Meeting on Association for Computational Linguistics - ACL '04, 2004.
[73] Thomas, M., Pang, B., and Lee, L., "Get out the vote: Determining support or opposition from Congressional floor-debate transcripts," in EMNLP, 2006.
[74] C. Guggilla, T. Miller h I. Gurevych, «CNN- and LSTM-based Claim Classification in Online User Comments,» b COLING 2016, 26th International Conference on Computational Linguistics, Proceedings of the Conference: Technical Papers, December 11-16, 2016, Osaka, Japan, 2016.
[75] Y Kim, «Convolutional Neural Networks for Sentence Classification,» b
Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing, EMNLP 2014, October 25-29, 2014, Doha, Qatar, A meeting of SIGDAT, a Special Interest Group of the ACL, 2014.
[76] R. Oshikawa, J. Qian h W. Y. Wang, «A Survey on Natural Language Processing for Fake News Detection,» b Proceedings of The 12th Language
Resources and Evaluation Conference, LREC 2020, Marseille, France, May 11-16, 2020, 2020.
[77] H. Karimi, P. Roy, S. Saba-Sadiya h J. Tang, «Multi-Source Multi-Class Fake News Detection,» b Proceedings of the 27th International Conference on Computational Linguistics, COLING 2018, Santa Fe, New Mexico, USA, August 20-26, 2018, 2018.
[78] A. Hogenboom, F. Frasincar, F. de Jong h U. Kaymak, «Using rhetorical structure in sentiment analysis,» Commun. ACM, t. 58, p. 69-77, 2015.
[79] Bastings, J., Titov, I., Aziz, W., Marcheggiani, D., and Simaan, K., "Graph Convolutional Encoders for Syntax-aware Neural Machine Translation," 10.18653/v1/D17-1209, pp. 1957-1967, 2017.
[80] Zhang, Y., Peng, Q., and Manning, CD, "Graph Convolution over Pruned Dependency Trees Improves Relation Extraction," in Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing, 2018.
[81] S. MacAvaney, F. M. Nardini, R. Perego, N. Tonellotto, N. Goharian h O. Frieder, «Training Curricula for Open Domain Answer Re-Ranking,» b
Proceedings of the 43rd International ACM SIGIR conference on research and development in Information Retrieval, SIGIR 2020, Virtual Event, China, July 25-30, 2020, 2020.
[82] J. Guo, Y. Fan, Q. Ai h W. B. Croft, «A Deep Relevance Matching Model for Ad-hoc Retrieval,» b Proceedings of the 25th ACM International Conference on Information and Knowledge Management, CIKM 2016, Indianapolis, IN, USA, October 24-28, 2016, 2016.
[83] L. Yang, Q. Ai, J. Guo h W. B. Croft, «aNMM: Ranking Short Answer Texts with Attention-Based Neural Matching Model,» b Proceedings of the 25th
ACM International Conference on Information and Knowledge Management, CIKM2016, Indianapolis, IN, USA, October 24-28, 2016, 2016.
[84] S. Feng, H. Wan, C. Gunasekara, S. S. Patel, S. Joshi h L. A. Lastras, «doc2dial: A goal-oriented document-grounded dialogue dataset,» b arXiv preprint arXiv:2011.06623, 2020.
[85] X. Zhao, W. Wu, C. Xu, C. Tao, D. Zhao h R. Yan, «Knowledge-grounded dialogue generation with pre-trained language models,» b arXiv preprint arXiv:2010.08824, 2020.
[86] H. Rashkin, D. Reitter, G. S. Tomar h D. Das, «Increasing faithfulness in knowledge-grounded dialogue with controllable features,» b arXiv preprint arXiv:2107.06963, 2021.
[87] A. X. Zhang, B. Culbertson h P. K. Paritosh, «Characterizing Online Discussion Using Coarse Discourse Sequences,» Proceedings of the International AAAI Conference on Web and Social Media, 2017.
[88] J.-C. Gu, C. Tao, Z.-H. Ling, C. Xu, X. Geng h D. Jiang, «MPC-BERT: A Pre-Trained Language Model for Multi-Party Conversation Understanding,»
b Proceedings of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing, Association for Computational Linguistics, 2021, pp. 3682--3692.
[89] L. F. R. Ribeiro, M. Schmitt, H. Schutze h I. Gurevych, «Investigating Pretrained Language Models for Graph-to-Text Generation,» 2020.
[90] M. Kale h A. Rastogi, «Text-to-Text Pre-Training for Data-to-Text Tasks,» b Proceedings of the 13th International Conference on Natural Language Generation, INLG 2020, Dublin, Ireland, Association for Computational Linguistics, 2020, pp. 97--102.
[91] Bosselut, A., Celikyilmaz, A., He, X., Gao, J., Huang, P., and Choi, Y., "Discourse-aware neural rewards for coherent text generation," in
Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, 2018.
[92] W. Hu, Z. Chan, B. Liu, D. Zhao, J. Ma h R. Yan, «GSN: A Graph-Structured Network for Multi-Party Dialogues,» b Proceedings of the Twenty-Eighth International Joint Conference on Artificial Intelligence, IJCAI2019, 2019, pp. 5010--5016.
[93] Y Luan, Y Ji h M. Ostendorf, «LSTM based Conversation Models,» 2016.
[94] I. V. Serban, A. Sordoni, R. Lowe, L. Charlin, J. Pineau, A. C. Courville h Y. Bengio, «A Hierarchical Latent Variable Encoder-Decoder Model for Generating Dialogues,» b Proceedings of the Thirty-First {AAAI} Conference on Artificial Intelligence, AAAI Press, 2017, pp. 3295--3301.
[95] S. Li, H. Yan h X. Qiu, «Contrast and Generation Make BART a Good Dialogue Emotion Recognizer,» 2021.
[96] S. Borgeaud h e. al., «Improving Language Models by Retrieving from Trillions of Tokens,» b International Conference on Machine Learning, ICML 2022, Baltimore, Maryland, PMLR, 2022, pp. 2206--2240.
[97] Y Lu, H. Lu, G. Fu h Q. Liu, «KELM: Knowledge Enhanced Pre-Trained Language Representations with Message Passing on Hierarchical Relational Graphs,» b CoRR, 2021.
[98] R. Thoppilan h gp, «LaMDA: Language Models for Dialog Applications,» b abs/2201.08239, CoRR, 2022.
[99] Y Cai, M. Zuo h H. Xiong, «Modeling hierarchical attention interaction between contexts and triple-channel encoding networks for document-grounded dialog generation,» b Frontiers of Physics, 2022.
[100] C. Gao, W. Zhang h W. Lam, «UniGDD: A Unified Generative Framework for Goal-Oriented Document-Grounded Dialogue,» b Proceedings of the 60th Annual Meeting of the Association for Computational Linguistics (Volume 2: Short Papers), ACL 2022, Dublin, Ireland, May 22-27, 2022, 2022.
[101] Z. Wu, B.-R. Lu, H. Hajishirzi h M. Ostendorf, «DIALKI: Knowledge Identification in Conversational Systems through Dialogue-Document Contextualization,» b Proceedings of the 2021 Conference on Empirical Methods in Natural Language Processing, EMNLP 2021, Virtual Event / Punta Cana, Dominican Republic, 7-11 November, 2021, 2021.
[102] K. Zhou, S. Prabhumoye h A. W. Black, «A Dataset for Document Grounded Conversations,» b Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing, Brussels, Belgium, Association for Computational Linguistics, 2018, pp. 708--713.
[103] E. Dinan, S. Roller, K. Shuster, A. Fan, M. Auli h J. Weston, «Wizard of wikipedia: Knowledge-powered conversational agents,» b arXiv preprint arXiv:1811.01241, 2018.
[104] A. Askari, M. Aliannejadi, E. Kanoulas h S. Verberne, «Generating Synthetic Documents for Cross-Encoder Re-Rankers: A Comparative Study of ChatGPT and Human Experts,» CoRR, t. abs/2305.02320, 2023.
[105] A. Chernyavskiy h D. Ilvovsky, «Recursive Neural Text Classification Using Discourse Tree Structure for Argumentation Mining and Sentiment Analysis Tasks,» b Foundations of Intelligent Systems - 25th International Symposium, ISMIS 2020, Graz, Austria, September 23-25, 2020, Proceedings, 2020.
[106] B. P. Majumder, S. Li, J. Ni h J. McAuley, «Interview: Large-scale modeling of media dialog with discourse patterns and knowledge grounding,» b
Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP), 2020, pp. 8129--8141.
[107] F. Barbieri, J. Camacho-Collados, L. E. Anke h L. Neves, «TweetEval: Unified Benchmark and Comparative Evaluation for Tweet Classification,» b Findings of the Association for Computational Linguistics: EMNLP 2020, 2020, pp. 1644--1650.
[108] A. M. Hoyle, A. Marasovic h N. A. Smith, «Promoting Graph Awareness in Linearized Graph-to-Text Generation,» b Findings of the Association for Computational Linguistics: ACL/IJCNLP 2021, Association for Computational Linguistics, 2021, pp. 944--956.
[109] I. Beltagy, M. E. Peters h A. Cohan, «Longformer: The Long-Document Transformer,» b abs/2004.05150, CoRR, 2020.
[110] N. Reimers h I. Gurevych, «Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks,» b Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing, EMNLP-IJCNLP 2019, Hong Kong, China, November 3-7, 2019, 2019.
[111] M. Joshi, D. Chen, Y Liu, D. S. Weld, L. Zettlemoyer h O. Levy, «SpanBERT: Improving Pre-training by Representing and Predicting Spans,» Trans. Assoc. Comput. Linguistics, t. 8, p. 64-77, 2020.
[112] P. Rajpurkar, R. Jia h P. Liang, «Know What You Don't Know: Unanswerable Questions for SQuAD,» b Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics, ACL 2018, Melbourne, Australia, July 15-20, 2018, Volume 2: Short Papers, 2018.
[113] A. Cohan, S. Feldman, I. Beltagy, D. Downey h D. S. Weld, «SPECTER: Document-level Representation Learning using Citation-informed Transformers,» b Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics, ACL 2020, Online, July 5-10, 2020, 2020.
[114] Y Zhang, S. Sun, M. Galley, Y-C. Chen, C. Brockett, X. Gao, J. Gao, J. Liu h B. Dolan, «DIALOGPT : Large-Scale Generative Pre-training for Conversational Response Generation,» b Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics: System Demonstrations, ACL 2020, Online, July 5-10, 2020, 2020.
[115] G. D. S. Martino, A. Barron-Cedeno, H. Wachsmuth, R. Petrov h P. Nakov, «SemEval-2020 Task 11: Detection of Propaganda Techniques in News Articles,» b Proceedings of the Fourteenth Workshop on Semantic Evaluation, SemEval@COLING 2020, Barcelona (online), December 12-13, 2020, 2020.
[116] A. Maarouf, D. Bär, D. Geissler h S. Feuerriegel, «HQP: A Human-Annotated Dataset for Detecting Online Propaganda,» CoRR, t. abs/2304.14931, 2023.
[117] J. Piskorski, N. Stefanovitch, G. D. S. Martino h P. Nakov, «SemEval-2023 Task 3: Detecting the Category, the Framing, and the Persuasion Techniques in Online News in a Multi-lingual Setup,» b Proceedings of the The 17th International Workshop on Semantic Evaluation, SemEval@ACL 2023, Toronto, Canada, 13-14 July 2023, 2023.
[118] Z. Lan, M. Chen, S. Goodman, K. Gimpel, P. Sharma h R. Soricut, «ALBERT: A Lite BERT for Self-supervised Learning of Language Representations,» b 8th International Conference on Learning Representations, ICLR 2020, Addis Ababa, Ethiopia, April 26-30, 2020, 2020.
[119] K. Baraniak h M. Sydow, «Kb at SemEval-2023 Task 3: On Multitask Hierarchical BERT Base Neural Network for Multi-label Persuasion
Techniques Detection,» b Proceedings of the The 17th International Workshop on Semantic Evaluation, SemEval@ACL 2023, Toronto, Canada, 13-14 July 2023, 2023.
[120] S. R. Joty, F. Guzmán, L. Márquez h P. Nakov, «Discourse Structure in Machine Translation Evaluation,» Comput. Linguistics, t. 43, 2017.
[121] J. Xu, Z. Gan, Y. Cheng h J. Liu, «Discourse-Aware Neural Extractive Text Summarization,» b Annual Meeting of the Association for Computational Linguistics, 2019.
[122] H. Karimi h J. Tang, «Learning Hierarchical Discourse-level Structure for Fake News Detection,» CoRR, t. abs/1903.07389, 2019.
[123] S. Yu, G. D. S. Martino, M. Mohtarami, J. R. Glass h P. Nakov, «Interpretable Propaganda Detection in News Articles,» b Proceedings of the International Conference on Recent Advances in Natural Language Processing (RANLP 2021), Held Online, 1-3September, 2021, 2021.
[124] D. B. Rodríguez, V. Dankers, P. Nakov h E. Shutova, «Paper Bullets: Modeling Propaganda with the Help of Metaphor,» b Findings of the Association for Computational Linguistics: EACL 2023, Dubrovnik, Croatia, May 2-6, 2023, 2023.
[125] E. Chistova, A. Shelmanov, D. Pisarevskaya, M. Kobozeva, V. Isakov, A. Panchenko, S. Toldova h I. Smirnov, «RST Discourse Parser for Russian: An Experimental Study of Deep Learning Models,» b In Proceedings of Analysis of Images, Social Networks and Texts (AIST), 2020.
[126] A. Purificato h R. Navigli, «APatt at SemEval-2023 Task 3: The Sapienza NLP System for Ensemble-based Multilingual Propaganda Detection,» b
Proceedings of the The 17th International Workshop on Semantic Evaluation, SemEval@ACL 2023, Toronto, Canada, 13-14 July 2023, 2023.
[127] T. Hromadka, T. Smolen, T. Remis, B. Pecher h I. Srba, «KInITVeraAI at SemEval-2023 Task 3: Simple yet Powerful Multilingual Fine-Tuning for Persuasion Techniques Detection,» b Proceedings of the The 17th International Workshop on Semantic Evaluation, SemEval@ACL 2023, Toronto, Canada, 13-14 July 2023, 2023.
[128] J. Thorne, A. Vlachos, O. Cocarascu, C. Christodoulopoulos h A. Mittal, «The Fact Extraction and VERification (FEVER) Shared Task,» b Proceedings of the First Workshop on Fact Extraction and VERification, FEVER@EMNLP 2018, Brussels, Belgium, November 1, 2018, 2018.
[129] Y Nie, H. Chen h M. Bansal, «Combining Fact Extraction and Verification with Neural Semantic Matching Networks,» b The Thirty-Third AAAI Conference on Artificial Intelligence, AAAI 2019, The Thirty-First Innovative Applications of Artificial Intelligence Conference, IAAI2019, The Ninth AAAI Symposium on Educational Advances in Artificial Intelligence, EAAI 2019, Honolulu, Hawaii, USA, January 27 - February 1, 2019, 2019.
[130] Y Ji h J. Eisenstein, «Representation Learning for Text-level Discourse Parsing,» b Proceedings of the 52nd Annual Meeting of the Association for Computational Linguistics, ACL 2014, June 22-27, 2014, Baltimore, MD, USA, Volume 1: Long Papers, 2014.
[131] A. Alonso-Reina, R. Sepúlveda-Torres, E. Saquete h M. Palomar, «Team GPLSI. Approach for automated fact checking,» b Proceedings of the Second Workshop on Fact Extraction and VERification (FEVER), Hong, 2019.
ПЕРЕЧЕНЬ РИСУНКОВ
Рисунок 2.1 Архитектура Deep Average Network...............................................19
Рисунок 2.2 Архитектура Graph Convolutional Network....................................20
Рисунок 2.3 Схема механизма внимания (слева) и многоголового механизма
внимания (справа).........................................................................................22
Рисунок 2.4 Архитектура Трансформер..............................................................23
Рисунок 2.5 Задача MLM при обучении BERT..................................................25
Рисунок 2.6 Входы модели BERT........................................................................25
Рисунок 2.7 Архитектура модели DeBERTa.......................................................26
Рисунок 2.8 Архитектура GPT.............................................................................28
Рисунок 2.9 Шаги обучения InstructGPT............................................................30
Рисунок 2.10 Архитектура BART........................................................................30
Рисунок 3.1 Пример синтаксического дерева типа dependency tree................35
Рисунок 3.2 AMR граф для одного высказывания и его усеченное (по первым двум уровням) линеаризованное представление. Здесь (1) — входной текст, (2) — соответствующий граф AMR, а (3) — усеченное
представление вида graph2text.....................................................................36
Рисунок 3.3 Пример дискурсивного дерева, построенного согласно Rhetorical
Structure Theory. Стрелки проведены от Ядер к Спутникам....................38
Рисунок 3.4 Модель DCRF для дискурсивного парсинга.................................39
Рисунок 3.5 Аннотированное вручную дерево диалога для MPC. Цвет
идентифицирует спикера, а ребра показывают диалоговые акты............42
Рисунок 3.6 Архитектура дискурсивного парсера многосторонних диалогов.
.........................................................................................................................42
Рисунок 4.1 Сиамская рекурсивная нейронная сеть DSNDM Модель принимает два входа, в данном случае соответствующих высказыванию и сопутствующему контексту в задаче проверки фактов. Веса TreeLSTM
используются одинаковые для обоих входов и выделены одним цветом.
.........................................................................................................................53
Рисунок 4.2 Архитектура модели GCN-RSTRecNN..........................................56
Рисунок 4.3 Качество BERT и RSTRecNN на длинных текстах для Internet
Argument Corpus. График отражает зависимость качества Accuracy от
параметра n, отвечающее за нижнюю оценку количества вершин в
деревьях тестового набора...........................................................................64
Рисунок 4.4 Матрица ошибок модели DSNDM + Attention для тестовой
выборки датасета LIAR-PLUS.....................................................................73
Рисунок 4.5 Зависимость между количеством вершин в дискурсивных
деревьях вопросов (слева) и ответов (справа) и уверенностью DSNDM.
Синим выделены кривые для правильных предсказаний модели, а рыжим
- для ошибочных...........................................................................................77
Рисунок 5.1 Часть дискурсивного дерева для текста: "... [named john]6 [who
survives a major accident]7 [and is saved by a state of the art experimental
operation]8 [that turns him into a robotic machine-like agent]10 [who has tools
and contraptions of all sorts]10 [built into his body at his use]11 [when he says]12
..."....................................................................................................................83
Рисунок 5.2 Пайплайн генерации MPC. Цвета в данном случае показывают
спикеров.........................................................................................................93
Рисунок 5.3 Пайплайн оценки качества подходов с дискурсивным
планированием..............................................................................................96
Рисунок 5.4 Пример процесса линеаризации дискурсивно аннотированного
диалога. Во-первых, все узлы упорядочиваются по времени, образуя
последовательность высказываний. Затем эта цепочка преобразуется в
текстовое представление с использованием специальных токенов для
отображения метаинформации: ui используются как идентификаторы
высказываний; sj — как идентификаторы спикеров (обозначаются на
194
рисунке цветами); to\uk используются для адресатов; и
Rij используются для отношений между высказываниями i и j.
Дополнительно вводится токен init в связи с тем, что у первой реплики
нет адресата.................................................................................................101
Рисунок 5.5 Архитектура GroundHog. Модель GroundHog содержит отдельные
энкодеры из BART, которые предназначены для кодирования каждого из
входных текстов. Их выходы впоследствии объединяются и используются
в качестве входных данных для единого декодера из BART. Чтобы
уменьшить размерность входных данных, ко всем входным данным,
кроме основного, применяется одномерный сверточный слой. Общий
слой эмбеддингов токенов обозначен значком шестеренки. Кроме того,
указаны промежуточные размерности тензоров (размер батча
обозначается на рисунке как bs)................................................................104
Рисунок 5.6 Распределение количества реплик в обсуждениях собранного
датасета........................................................................................................108
Рисунок 5.7 Метрики Accuracy на основе дискурса (синяя линия) и ROUGE на
основе LM (красная линия) в зависимости от веса а..............................120
Рисунок 5.8 Матрица ошибок для базовой модели. Матрица построено
согласно предсказанными моделью диалоговым актам..........................122
Рисунок 5.9 Матрица ошибок для дискурсивной модели. Матрица построено
согласно предсказанными моделью диалоговым актам..........................123
Рисунок 5.10 Примеры сгенерированных диалогов. Цвет вершины отображает
спикера, а ребра показывают адресатов. Задача состоит в том, чтобы
сгенерировать текст высказывания для пустой вершины. Здесь «base»
относится к базовой BART модели, а «discourse» - к модели BART,
дообученной с использованием специальных дискурсивных токенов.
Дискурсивные токены, сгенерированные дискурсивной моделью,
выделены курсивом.....................................................................................124
195
Рисунок 5.11 Примеры сгенерированных диалогов........................................126
Рисунок 5.12 Пример сгенерированных ответов моделей, отличающихся
сентиментом.................................................................................................133
Рисунок 5.13 Пример сгенерированных ответов моделей, отличающихся
дискурсивными отношениями...................................................................134
Рисунок 5.14 Пример сгенерированных ответов моделей, отличающихся сущностями из графа Abstract Meaning Representation...........................136
Рисунок 5.15 Архитектура пайплайна PaperPersiChat. Диалог строится по шагам с использованием предобработанных фрагментов статей. На Рисунке показан шаг обсуждения в рамках i-го сегмента. Здесь информация, приходящая от пользователя показано в рамках красного цвета, ответы чатбота - в рамках синего цвета, а обучаемые части пайплайна выделены зеленым. DM относится у модулю диалогового менеджмента. Светло-фиолетовая часть пайплайна работает в цикле по сегментам, до тех пор, пока не будет найдена релевантная часть ответа.
Текущий обсуждаемый сегмент обозначен значком шестеренки..........137
Рисунок 5.16 Скриншот интерфейса диалогового окна с диалогом,
сгенерированным при помощи PaperPersiChat пайплайна.....................141
Рисунок 5.17 Меню веб-интерфейса PaperPersiChat.......................................142
Рисунок 6.1 Пример дискурсивного дереве для текста, аннотированного
спанами манипулятивного контента.........................................................147
Рисунок 6.2 Архитектура модели для задачи классификации токенов. Обучаемые блоки выделены синим. Цвета внутри span text показывают отдельные EDU, и только эти EDU используются для вычисления дискурсивных эмбеддингов внутри дискурсивного дерева, построенного
для полного текста......................................................................................154
Рисунок 6.3 Архитектура модели для задачи классификации спанов...........155
Рисунок 6.4 Покрытие спанов манипулятивного контента дискурсивными отношениями (на основе символов). Все значения округлены до второго десятичного знака. Для каждого класса манипулятивной техники наиболее встречаемые дискурсивные отношения выделены зеленым цветом (за исключением трех стандартных и наиболее популярных
отношений, а именно «Elaboration», «Joint» и «Same-Unit»)..................164
Рисунок 6.5 Покрытие дискурсивных отношений спанами манипулятивного
контента (на основе символов)..................................................................165
Рисунок 6.6 Значения IOU, рассчитанные на основе пересечения спанов дискурсивных отношений и спанов манипулятивного контента (на основе символов).....................................................................................................166
ПЕРЕЧЕНЬ ТАБЛИЦ
Таблица 4.1 Наиболее репрезентативные частоты отношений в классах feeling
и factual датасета Internet Argument Corpus................................................62
Таблица 4.2 Результаты на тестовой выборке Internet Argument Corpus.........63
Таблица 4.3 Значения macro avg. F1-score для моделей на тестовой выборке датасета PolitiFact. «Частотный класс» - бейзлайн, в котором в качестве
предсказания всегда используется наиболее частый класс......................66
Таблица 4.4 Качество Accuracy моделей на датасете LIAR. «Частотный класс» соответствует предсказанию наиболее часто встречаемого класса во всех
случаях............................................................................................................67
Таблица 4.5 Качество моделей на тестовой части датасета Movie Reviews. .. 68
Таблица 4.6 Качество GCN-RSTRecNN модели на тестовых выборках.........70
Таблица 4.7 Качество GCN-based подхода, в котором вместо RSTRecNN используется усреднение полученных эмбеддингов EDU, на тестовых
выборках.........................................................................................................71
Таблица 4.8 Результаты по macro avg. F1-score на тестовой части набор данных
LIAR-PLUS....................................................................................................71
Таблица 4.9 Примеры ошибок модели DSNDM + Attention для LIAR-PLUS. 74 Таблица 4.10 Результаты моделей ранжирования на тестовой выборке датасета
ANTIQUE.......................................................................................................75
Таблица 4.11 Примеры ошибок модели DSNDM + Attention (classification) для
ANTIQUE.......................................................................................................77
Таблица 5.1 Распределение дискурсивных меток в датасете CDSC..............107
Таблица 5.2 Качество предлагаемой модели на основе BART на тестовом наборе CDSC для различных наборов обучающих данных и коэффициентов а. Мы используем популярные метрики, основанные на ROUGE и BLEU. В таблице представлены результаты для нескольких
датасетах. Здесь STD < 0,6 в случае метрик на основе биграмм и STD <
0,1 в случаях метрик на основе биграмм..................................................116
Таблица 5.3 Результаты модели на основе T5 на тестовом наборе CDSC для
различных наборов обучающих данных и коэффициентов а.................117
Таблица 5.4 Результаты экспертной оценки на случайной выборке из 200 диалогов. Здесь ''# лучше'' показывает количество случаев, когда ответы
модели были выбраны как более уместные (корректные)......................119
Таблица 5.5 Качество предложенной модели на тестовом наборе CDSC для зашумленных обучающих наборов данных в зависимости от доли
замененных дискурсивных токенов..........................................................121
Таблица 5.6 Качество модели на тестовой части набора данных (длинные ответы) для различных конфигураций входа. В и Gi соответствуют моделям BART и GroundHog, обученным с использованием различных комбинаций входных данных. R-i показывают ROUGE-i скоры и B-i показывают BLEU-i скоры. Во всех случаях стандартное отклонение
результатов не превосходит 0.007.............................................................. 129
Таблица 5.7 Качество модели на тестовой части набора данных (короткие
ответы) для различных конфигураций входа..........................................130
Таблица 5.8 Результаты экспертной оценки на случайной выборке из 250 диалогов. Здесь ''# лучше'' показывает количество случаев, когда ответы
модели были выбраны как более уместные (корректные)......................131
Таблица 5.9 Статистика диалоговых действий в текстах, генерируемых базовыми моделями BART и GroundHog. Наиболее явные различия
выделены жирным шрифтом......................................................................134
Таблица 6.1 Качество для задачи классификации параграфов для английского языка. Стандартное отклонение во всех случаях не превосходит 0,008. .......................................................................................................................157
Таблица 6.2 Качество для задачи классификации токенов для английского языка. Стандартное отклонение во всех случаях не превосходит 0,008. Метрики для ансамблевым моделей из соревнования для данной задачи
недоступны..................................................................................................158
Таблица 6.3 Качество для задачи классификации спанов для русского языка. Качество сравнивается с качеством лучших моделей, предложенных на конкурсе. Стандартное отклонение во всех случаях не превосходит 0,012.
.......................................................................................................................159
Таблица 6.4 Macro-F1 метрики для базовой (base) и дискурсивной (disc.) моделей в задаче классификации спанов английского языка. Частота
показана в процентах от общего числа параграфов................................160
Таблица 6.5 Результаты по macro-F1 метрике для базовой (base) и дискурсивной (disc.) моделей в задаче классификации токенов
английского языка.......................................................................................161
Таблица 6.6 Значения mIOU (на основе пересечения манипулятивного контента и EDU) и значения покрытия манипулятивного контента вершинами типа Nucleus для набора данных на английском языке. Максимальные значения выделены жирным шрифтом, а минимальные значения подчеркнуты................................................................................163
Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.