Автоматический анализ прагматики и дискурса в диалогах на повседневные темы тема диссертации и автореферата по ВАК РФ 00.00.00, кандидат наук Остякова Лидия Николаевна
- Специальность ВАК РФ00.00.00
- Количество страниц 140
Оглавление диссертации кандидат наук Остякова Лидия Николаевна
Введение
Глава 1. Теория речевых функций
1.1 Подходы к анализу дискурса в диалогах, основанные на теории диалоговых актов
1.2 Теория сегментированного представления дискурса
1.3 Основные характеристики таксономии речевых функций
1.4 Практическое применение таксономии речевых функций
1.5 Выводы
Глава 2. Ручная аннотация диалогов согласно теории речевых
функций
2.1 Выбор и подготовка данных к аннотации
2.2 Разработка инструкций для аннотации и модификация таксономии
2.3 Золотой стандарт аннотации речевых функций
2.4 Краудсорсинг
2.5 Выводы
Глава 3. Аугментация данных с аннотацией речевых функций
3.1 Аннотация речевых функций с помощью больших языковых моделей
3.1.1 Оценка применимости БЯМ для аннотации речевых функций и анализ эффективности стратегий промптинга
3.1.2 Тестирование гибридной аннотации как способа аугментации данных
3.1.3 Исследование влияния форматов инструкций на точность автоматической аннотации
3.1.4 Выводы
3.2 Генерация данных с помощью больших языковых моделей .... 91 3.2.1 Оценка применимости данных, сгенерированных с
помощью GPT-3.5 Turbo
3.2.2 Анализ и тестирование стратегий контроля при
генерации данных с разметкой речевых функций
3.2.3 Выводы
Заключение
Список литературы
Список рисунков
Список таблиц
Приложение А. Применение классификатора речевых
функций и модуля для предсказания наиболее вероятных последующих классов в среде
DD-IDEE
Приложение Б. Полная и сокращенные версии таксономии
речевых функций
Приложение В. Описание речевых функций
Приложение Г. Матрицы ошибок по результатам аннотации
речевых функций с помощью трех БЯМ (сравнение с эталонной разметкой)
Приложение Д. Системный промпт для генерации
синтетических примеров для экспериментов
Приложение Е. Сравнение количества примеров речевых
функций в оригинальном и синтетическом наборах данных
Рекомендованный список диссертаций по специальности «Другие cпециальности», 00.00.00 шифр ВАК
Дискурсивная практика иронии: когнитивный, семантический и прагматический аспекты2014 год, кандидат наук Шилихина, Ксения Михайловна
Структура научной аннотации: интегральная модель (на материале английского, немецкого и русского языков)2021 год, кандидат наук Силкина Ольга Михайловна
Семантика и прагматика самообозначения в диалоге: На материале английского и русского языков2004 год, кандидат филологических наук Олейникова, Елена Николаевна
Содержательные характеристики речевых действий практического психолога в терапевтическом дискурсе2018 год, кандидат наук Гринева, Мария Сергеевна
Методы адаптивного обучения на основе краудсорсинговой разметки данных для интеллектуального анализа медицинских изображений2026 год, кандидат наук Коваленко Лев Алексеевич
Введение диссертации (часть автореферата) на тему «Автоматический анализ прагматики и дискурса в диалогах на повседневные темы»
Введение
Дискурсивный анализ является важным методом абстрактного представления диалогов, используемым в различных задачах обработки естественного языка, таких как управление диалогом [86], генерация диалоговых данных [72], суммаризация диалогов [36] и распознавание эмоций [142]. Несмотря на существование общепризнанного ISO стандарта аннотации дискурса в диалогах [17, 15, 16], его практическое применение ограничено из-за сложности предложенной таксономии и необходимости многоуровневой сегментации диалогов. В самых популярных схемах аннотации при выделении классов диалоговых или речевых актов преимущественно опираются на грамматическую форму высказываний, что не способствует моделированию дискурсивной структуры спонтанного диалога [136]. Данное ограничение подчёркивает актуальность разработки и исследования новых подходов к аннотации дискурса, ориентированных на аспекты реальной коммуникации.
В данной работе исследуется теория речевых функций, а также таксономия, разработанная на её основе, как альтернативный подход к анализу дискурса в диалогах на повседневные темы. Понятие «речевая функция» в контексте единицы для анализа разговорной речи впервые встречается в работах М.А.К.Халлидея [48]. Речевая функция изначально определяется как описание роли высказывания в обмене репликами между двумя собеседниками. Затем данная структурная единица диалога получила новую интерпретацию в исследованиях С. Эггинс и Д. Слейд: она дополнительно отражает межличностные отношения между собеседниками [34]. Речевые функции, как и диалоговые акты, используются в анализе как инструмент для обозначения коммуникативных намерений в непринужденной беседе и включают в себя несколько уровней аннотации, что позволяет более точно характеризовать высказывания с точки зрения прагматики и дискурса. Согласно теории, диалог представлется как последовательность дискурсных паттернов, которые в свою очередь состоят из речевых функций. Таксономия речевых функций в сокращенном виде уже использовалась для автоматического анализа диалогов: такая анннотация была включена при построении виртуального агента для поддержания беседы [85].
Этот эксперимент показывает релевантность использования рассматриваемой теории для практических задач.
Из-за отсутствия датасета, размеченного согласно теории речевых функций, данная работа предполагает создание «золотого стандарта». Дискурсивная разметка, как одна из задач лингвистической аннотации, отличается высокими затратами, необходимостью привлечения квалифицированных специалистов и часто субъективной формулировкой задач [33]. Для разработки автоматических подходов к анализу дискурса требуется большое количество данных, которые сложно получить только с привлечением экспертов в области лингвистики. Получение качественных дискурсивных данных с помощью краудсорсинга требует четко структурированных заданий для большого числа исполнителей, а также постоянного контроля [120]. По этим причинам большие языковые модели (БЯМ) рассматриваются как инструмент для масштабирования необходимых данных и автоматизации дискурсивной разметки. Использование моделей, не требующих значительных вычислительных ресурсов и следующих инструкциям, рассматривается как перспективный подход для упрощения процесса аннотации и снижения затрат [105, 24, 51]. Предыдущие эксперименты показали, что БЯМ способны успешно определять дискурсивные отношения, выраженные явно в диалогах или текстах, однако испытывают трудности с точной аннотацией неявных отношений [137]. В данной работе подробно рассматриваются различные подходы к аугментации и аннотации данных с использованием моделей, что подчеркивает актуальность исследования в контексте современных задач масштабируемой и эффективной дискурсивной разметки.
Объектом исследования является теория речевых функций как альтернативный подход к аннотации дискурса и прагматики в диалогах. Предметом исследования в диссертации являются способы автоматического анализа диалогов на английском языке с помощью таксономии речевых функций.
Цель диссертационного исследования заключается в исследовании возможностей автоматической аугментации данных с аннотацией речевых функций при помощи больших языковых моделей.
Для достижения поставленной цели необходимо было решить следующие задачи:
1. Рассмотреть особенности таксономии, основанной на теории речевых функций, как инструмент для анализа дискурса и прагматики в диалогах на повседневные темы;
2. Провести сравнительный анализ таксономии речевых функций с другими схемами аннотации дискурса и прагматики, применяемыми в современных исследованиях для анализа диалогов.
3. Разработать и протестировать эффективные методы ручной аннотации диалогов с использованием выбранной таксономии.
4. Создать корпус диалогов с надежной аннотацией речевых функций с привлечением экспертов в области лингвистики;
5. Организовать и провести аннотацию диалогов с помощью краудсорсин-га, разработав инструкции и систему контроля качества, а также сравнить результаты с эталонной разметкой;
6. Протестировать применение больших языковых моделей для автоматической аннотации данных и генерации синтетических примеров с необходимой лингвистической разметкой;
7. Оценить влияние различных форматов инструкций для БЯМ на качество аннотации;
8. Оценить качество полученных с помощью БЯМ синтетических данных, определить преимущества и ограничения таких методов;
9. Определить ограничения и перспективы применения гибридных подходов для аннотации речевых функций в диалогах на повседневные темы.
Научная ценность данного исследования состоит в более подробном изучении теории речевых функций и ее применения в автоматическом анализе прагматики и дискурса диалогов на повседневные темы, что в дальнейшем может быть использовано как для прикладных задач (например, при создании чат-ботов), так и для дальнейших теоретических исследованиях в областях прагматики и дискурса. В исследовании также уделяется внимание проблемам, связанным с созданием автоматических подходов к классификации намерений в диалогах на повседневные темы, вариативностью в аннотации дискурса и прагматики и гибридной разметкой. Прикладное значение исследования состоит в создании первого корпуса в открытом доступе с разметкой по теории речевых функций, а также автоматических инструментов для такой разметки. Более того, в исследовании представлены способы промптинга (инструктирования) боль-
ших языковых моделей для достижения качества разметки намерений в диалогах, сравнимого с аннотацией краудсорсеров. Золотой стандарт данных с разметкой речевых функций, а также дополнительные материалы для проведения экспериментов по автоматической аннотации и генерации данных представлены по следующей ссылке: https://github.com/lostyakova/discourse_analysis.
Основные положения, выносимые на защиту:
— Таксономия речевых функций является надёжной схемой аннотации. По результатам разметки 44 диалогов из датасета «ВаПуЭ1а^» коэффициент каппа Флейса составил 0.62 для полной версии таксономии (34 тега) и 0.83 для сокращённой (21 тег). Эти значения отражают соответственно значительный и высокий уровни согласованности между аннотаторами.
— Разбиение инструкции по аннотации дискурса и прагматики на последовательные шаги заметно повышает качество как ручной, так и автоматической разметки. Использование инструкции в виде дерева решений дает прирост коэффициента каппа Флейса до 34% в экспериментах с привлечением профессиональных аннотаторов. Такой формат инструкции позволяет добиться высокой согласованности 0.7 для сокращённой версии таксономии среди исполнителей с платформы краудсорсинга. Эксперименты с различными БЯМ также показали, что применение такой пошаговой стратегии даёт более высокую точность классификации речевых функций, чем стратегии с меньшим количеством шагов.
— БЯМ демонстрируют качество аннотации 21 речевой функции, сопоставимое с результатами краудсорсинга. В частности, с помощью модели Claude-3-Haiku были достигнуты показатели макро и взвешенной П 47.93% и 71.44%, которые уступают краудсорсингу на 3-4%.
— Маскирование названий речевых функций в промптах заметно повышает качество автоматической аннотации. Прирост качества для моделей Claude-3-Haiku и ОРТ-3.5-ТигЬо при замене оригинальных тегов на нейтральные названия составил до 22% для взвешенной П и до 10% для макро П.
— Гибридный подход к аннотации — объединение ответов разметчиков и моделей — не обеспечивает надежность разметки речевых функций и не позволяет достичь высокой точности разметки. Эксперименты с тре-
мя моделями показали, что агрегация ответов даёт более низкую точность аннотации, чем полностью автоматический подход. Более того, согласованность при применении гибридной аннотации во всех случаях уступает уровню согласованности непрофессиональных исполнителей.
— Добавление сгенерированных примеров в промпты при автоматической аннотации с помощью БЯМ повышает качество разметки. В экспериментах с тремя моделями (GPT-4o-mini, Claude-3-Haiku, DeepSeek-V3) синтетические иллюстрации речевых функций в большинстве случаев увеличивали точность аннотации в среднем на 5-7%.
— Генерация синтетических примеров с аннотированными речевыми функциями демонстрирует более низкую эффективность как способ аугментации по сравнению с автоматической аннотацией. Даже при использовании разнообразных метрик для оценки качества не удаётся достичь необходимой надёжности: автоматические способы проверки часто не справляются с точной идентификацией ошибок, что влечёт за собой ухудшение качества данных.
Апробация результатов исследования проводилась на заседаниях научного семинара Школы лингвистики НИУ ВШЭ, а также в ходе выступлений на научных семинарах и международных конференциях:
— Международная конференция по компьютерной лингвистике и интеллектуальным технологиям «Диалог 2022» (Москва, 2022 г.)
— Международная конференция по компьютерной лингвистике и интеллектуальным технологиям «Диалог 2023» (Москва, 2023 г.)
— Annual Meeting of the Special Interest Group on Discourse and Dialogue (SIGdial) (Прага, Чехия, 2023 г.)
— Колмогоровский семинар по компьютерной лингвистике и наукам о языке (Москва, 2023 г.; Москва, 2024 г.)
— The 12th International Conference on Analysis of Images, Social Networks and Texts (Бишкек, Кыргызстан, октябрь 2024 г.)
Публикации. Основные результаты по теме диссертации изложены в следующих работах:
1. Kuznetsov D., Evseev D., Ostyakova L., Serikov O., Kornev D., Burtsev M. Discourse-driven integrated dialogue development environment for
open-domain dialogue systems. In: Proceedings of the 2nd Workshop on Computational Approaches to Discourse. 2021, pp. 29-51.
2. Ostyakova L., Petukhova K., Smilga V., Zharikova D. "Linguistic Annotation Generation with ChatGPT: a Synthetic Dataset of Speech Functions for Discourse Annotation of Casual Conversations." In: Proceedings of the International Conference "Dialogue". 2023.
3. Ostyakova L., Mikhailova A., Konovalov V. Redefining Annotation Practices: Leveraging Large Language Models for Discourse Annotation //International Conference on Analysis of Images, Social Networks and Texts. - Cham : Springer Nature Switzerland, 2024. - С. 131-147.
Дополнительно в рамках исследования были подготовлены следующие публикации:
1. Baymurzina, D., Kuznetsov, D., Evseev, D., Karpov, D., Sagirova, A., Peganov, A., Ignatov, F., Ermakova, E., Cherniavskii, D., Kumeyko, S., Serikov, O., Kuratov, Y., Ostyakova, L., Kornev, D., Burtsev, M. Dream technical report for the Alexa Prize 4. In: 4th Proc. Alexa Prize. 2021.
2. Ostyakova, L., Molchanova, M., Petukhova, K., Smilga, N., Kornev, D., Burtsev, M. "Corpus with Speech Function Annotation: Challenges, Advantages, and Limitations." Computational Linguistics and Intellectual Technologies, 2022, pp. 1129-1139.
3. Ostyakova, L., Smilga, V., Petukhova, K., Molchanova, M., Kornev, D. "ChatGPT vs. crowdsourcing vs. experts: Annotating open-domain conversations with speech functions." In: Proceedings of the 24th Annual Meeting of the Special Interest Group on Discourse and Dialogue. 2023, pp. 242-254.
Глава 1. Теория речевых функций
Дискурсивный анализ в диалогах представляет собой метод изучения структуры и функций высказываний в процессе взаимодействия. Одной из основных задач такого анализа является описание прагматики действий, совершаемых говорящими в рамках коммуникативного процесса, то есть дать характеристику намерений собеседников в определённый момент диалога (например, просьба, утверждения и др.) [9, 28]. В исследованиях, посвященных прагматике и логике, рассматривается, каким образом участники выстраивают и интерпретируют смысл в коммуникативном процессе [45]. Особое внимание уделяется также структурным аспектам диалога, а именно — правилам смены речевых ролей, специальным маркерам, которые используются для передачи или принятия активной роли в диалоге [104]. Помимо этого, важной составляющей дискурсивного анализа является изучение социокультурного контекста общения: стилевые особенности речи указывают на культурные различия [121], а также в коммуникативном процессе можно обнаружить проявления неравенства и власти [124]. Таким образом, в дискурсивном анализе структура диалога рассматривается как система лингвистических и экстралингвистических признаков, с учётом чего интепретируются функции высказываний и намерения участников коммуникации.
В исследованиях дискурсивной структуры диалога можно выделить два основных направления: теория диалоговых актов [61] и теория сегментированного представления дискурса [69]. В рамках первой теории диалог рассматривается как линейная последовательность высказываний, каждому из которых присваивается коммуникативная функция на основе лексических, прагматических, синтаксических и просодических характеристик [61, 116]. Хотя теория сегментированного представления дискурса была предложена как универсальный подход к анализу дискурсивных структур, на практике она наиболее широко применяется именно в области анализа структуры диалогического взаимодействия [80, 70, 23]. В данном направлении исследований диалог представляется в виде графа, где узлы соответствуют элементарным дискурсивным единицам (ЭДЕ), а рёбра — отношениям между ними. Теория сегментированного представления дискурса фокусируется не на характеристиках самих единиц, а на
анализе связей между ними. При таком подходе учитываются иерархические отношения между ЭДЕ, что позволяет моделировать структуру диалога более детально в сравнении с линейными способами. Также предпринимаются попытки интегрировать два подхода к представлению дискурсивной структуры диалога: реализуется анализ отношений между высказываниями, каждое из которых дополнительно характеризуется одним или несколькими диалоговыми актами [20].
Теория речевых функций, предложенной С. Эггинс и Д. Слейд, представляет собой альтернативный подход к анализу дискурса в диалогах [34]. В ходе исследования структуры диалогов на повседневные темы авторы разработали иерархическую таксономию, которая включает 46 составных тегов, отражающих различные коммуникативные намерения говорящих. Особенность данной схемы аннотации заключается в том, что в ней рассматриваются категории, очень близкие с точки зрения прагматики, а также уделяется большее внимание организации тем в ходе коммуникации. Речевые функции присваиваются непосредственно сегментам диалогов, что делает подход схожим с теорией диалоговых актов. При этом, один из ключевых принципов теории сегментированного представления дискурса — нелинейность структуры диалога — тоже находит отражение в теории речевых функций. Из чего следует, что в подходе С. Эггинс и Д. Слейд объединяются элементы двух основных направлений анализа дискурсивной структуры.
В данной главе рассматриваются наиболее популярные методы дискурсивного анализа в рамках двух основных теоретических подходов. Основное внимание уделено описанию особенностей теории речевых функций и способ её применения к анализу диалогов.
1.1 Подходы к анализу дискурса в диалогах, основанные на
теории диалоговых актов
Существует множество интерпретаций теории диалоговых актов, которые различаются по следующим параметрам: 1) количество функциональных изме-
рений; 2) уровень сегментации диалогов; 3) предметная область [99]. Эти факторы определяют наборы тегов, применяемых в анализе дискурса в диалогах.
Выделение функциональных измерений в таксономиях обусловлено тем, что в рамках одного и того же высказывания может реализовываться несколько коммуникативных действий (например, смена темы разговора и просьба). Каждое измерение описывает разный тип информации и представляет собой группу взаимоисключающих тегов [14]. Так, в таксономиях выделяются группы тегов, описывающие организацию дискурса в диалоге, социальные обязательства между говорящими, автокоррекцию и т.д. Большинство современных подходов к аннотации диалоговых актов являются многомерными, то есть одной реплике может быть присвоено несколько тегов из разных функциональных измерений (например, DiAML [87], MIDAS [136]). Одномерными называются таксономии, в которых все теги являются взаимоисключающими. Примером такой схемы аннотации является HCRC Map Task, которая разрабатывалась для разметки спонтанных диалогов, полученных в ходе игрового эксперимента [5].
Границы сегментов в диалогах определяются функциональностью тегов, которые описаны в таксономии [17]. Наиболее простой подход к разбиению диалогов для анализа заключается в использовании предложений в качестве функциональных сегментов. Этот метод широко применяется в автоматическом анализе дискурса, поскольку сегментация диалога на высказывания является нетривиальной задачей [136]. Сложность определения границ высказывания в спонтанных диалогах обусловлена наличием пауз, исправлений, повторов и прерываний реплик [42]. В качестве высказывания может рассматриваться целая реплика, границы которой определяются сменой говорящего. Однако такая сегментация в большинстве случаях не является точной, так как в рамках реплики одного говорящего могут реализовываться несколько коммуникативных функций. В иерархических схемах аннотации нередко выделяется несколько уровней сегментации. Так, в таксономии DiAML, стандарте разметки диалоговых актов, аннотируются паузы и задержки в речи, которые требуют особой сегментации, но также рассматривается разбиение диалогов на темы [87]. Таким образом, разные схемы аннотации требуют разную степень сегментации диалогов, в том числе в зависимости от функциональных измерений, рассматриваемых в таксономии.
Таксономии диалоговых актов могут быть как универсальными, так и адаптированными для решения специфических задач. Универсальные схемы аннотации предназначены для разметки дискурса в диалогах независимо от конкретной предметной области. С этой целью был разработан стандарт ISO для разметки диалоговых актов, который учитывает различные аспекты развития диалогового взаимодействия [87]. Во втором случае при создании набора тегов ориентируются на специфику используемых данных или задач, решаемых диалоговой системой. Такие таксономии включают теги, специфичные для конкретных предметных областей или типов взаимодействия, что ограничивает их применение. Одной из первых схем аннотации, ориентированных на задачу, является HCRC Maptask, разработанная специально для анализа взаимодействия во время «диалоговых игр», в которых участники пытаются отгадать местоположение на карте [5]. Примером таксономии для аннотации определенного типа коммуникации является MIDAS, которая используется для аннотации неформальных диалогов, но, несмотря на свою гибкость, не позволяет описывать все виды взаимодействия [136]. Более того, универсальные таксономии модифицируют под определенные задачи, например, для разметки диалогов в обучающих системах [13].
Далее будут рассмотрены основные таксономии, которые используются для анализа диалогов на свободные темы.
Dialog Act Markup in Several Layers (DAMSL) была создана как универсальная таксономия коммуникативных актов, предназначенная для разметки диалогов независимо от домена и цели [26]. В таксономии выделено 4 верхне-уровневых функциональных измерения, которые отражают коммуникативный статус высказывания, тип информации, основные коммуникативные функции и ответные реакции. В DAMSL в качестве единицы сегментации рассматривается высказывание — последовательность слов, произнесенных одним говорящим, которая является целостным с точки зрения коммуникативной функции и типа информации. Высказывание может включать более одного предложения, однако более мелкие элементы речи, такие как запинки и исправления, не выделяются отдельно.
Количество диалоговых актов, характеризующих одно высказывание, может варьироваться от нуля до нескольких тегов из каждого функционального измерения, так как они не являются взаимоисключающими. Комбинации те-
гов в таксономии DAMSL насчитывают около 4 миллионов, что значительно затрудняет автоматическую разметку диалоговых актов [98, 62]. По этой причине эта схема аннотации редко используется для анализа дискурса в диалогах в первоначальном виде, а чаще адаптируется под определенные задачи [46].
Switchboard-DAMSL (SWBD-DAMSL) — это более современная версия таксономии DAMSL, которая была разработана в ходе разметки диалоговых актов в телефонных разговорах, представленных в корпусе Switchboard [62]. В процессе аннотации выбранного датасета по схеме DAMSL было выявлено, что из 220 возможных комбинаций тегов большинство встречались крайне редко. Для того, чтобы сделать возможной автоматическую аннотацию и упростить процесс разметки, редкие категории были исключены, а схожие теги объединены в 42 класса.
Все диалоговые акты в SWBD-DAMSL предполагаются взаимоисключающими, поэтому каждому высказыванию может быть присвоен только один тег. Несмотря на отсутствие иерархической структуры, в данной схеме выделяются 7 функциональных измерений (например, диалоговые акты, которые отражают тип информации). Тем не менее, исследования показывают, что представленные в схеме теги по своей функциональности не являются строго взаимоисключающими, поэтому присвоение каждому высказыванию только одного диалогового акта остаётся спорным [98]. Хотя именно такой подход позволяет использовать таксономию для решения прикладных задач.
Dialogue Annotation Mark-up Language (DiAML) — это международный стандарт для аннотации диалоговых актов [17]. Таксономия является универсальной, то есть позволяет аннотировать разнообразные коммуникативные ситуации вне зависимости от цели диалога. В ней представлена иерархия 56 диалоговых актов, представляющих 9 функциональных измерений ( например, для описания обратной связи, организации дискурса и социальных обязательств) [16]. Одному высказыванию, согласно стандарту, может быть присвоено несколько тегов из разных функциональных измерений. В таблице 1 представлен пример аннотации согласно данной таксономии, представленный в официальном банке диалогов 1. В данном примере «Well» одновременно присваиваются две коммуникативные функции: передачи роли говорящего и паузы.
1https://dialogbank.lsv.uni-saarland.de/
Таблица 1 — Пример разметки диалога с помощью таксономии DiAML
DA_ID Utterance Dialogue Act Sender
da1 Jimmy TurnManagement: turnAssign A
da2 so how do you get most of your news? Task: setQuestion A
da3; da4 Well TurnManagement: turnTake TimeManagement: stalling B
da5 I kind of I OwnCommunication Management: selfCorrection B
da6 uh TimeManagement: stalling B
da7 I watch the national news every day, for one Task: answer (Fu: da2) B
Таксономия предполагает многоуровневую сегментацию диалогов, которая обусловлена широким спектром функциональности диалоговых актов. Так, при разметке временных характеристик речи необходимо учитывать паузы и заминки, а для описания организации дискурса предполагается разбиение диалога на темы. Таким образом, DiAML позволяет осуществлять детальный анализ дискурса на разных уровня, однако аннотация с использованием такой таксономии представляет собой сложный процесс, требующий вовлечения экспертов [87].
Multidimensional Dialogue Act Scheme (MIDAS) является самой современной таксономией диалоговых актов, которая учитывает особенности взаимодействия между человеком и диалоговыми системами [136]. Эта схема аннотации включает в себя 23 тега и предназначена для поверхностного анализа дискурса. В таксономии MIDAS выделяются две иерархии тегов, представляющих семантические и функциональные типы запросов. К первой группе тегов относятся инициирующие акты (вопросы, команды) и акты реакций (утверждение, ответ, мнение). Функциональные типы запросов отражают социальные
обязательства (приветствие, благодарность), неполные высказывания, а также включают тег для категорий, не попадающих под основные классы.
Иерархическая структура таксономии не отражается при разметке диалога, а служит только для лучшего понимания актов. Данный подход предполагает сегментацию диалога только на одном уровне — предложений, которые затем характеризуются одним или несколькими тегами. Диалоговые акты в двух выделенных функциональных измерениях не являются взаимоисключающими, за исключением двух категорий тегов, поэтому могут составлять различные комбинации. В случаях, когда одному высказыванию могут соответствовать несколько тегов из семантической группы, диалоговые акты выбираются на основе установленной авторами приоритетности.
Основным преимуществом данной таксономии является то, что она адаптирована для автоматического анализа. Хотя таксономия применяется для анализа диалогов на свободные темы, назвать её полностью универсальной нельзя: большинство функциональных запросов ориентированы именно на диалоговые системы. Несмотря на относительную простоту аннотации, поддержка многоклассовой разметки может приводить к низкой согласованности между аннотаторами.
Похожие диссертационные работы по специальности «Другие cпециальности», 00.00.00 шифр ВАК
Мыслительная активность говорящего как объект номинации в диалоге2007 год, кандидат филологических наук Лысенко, Наталья Владимировна
Обозначение внешнего облика коммуниканта в диалоге: лингвопрагматический анализ2009 год, кандидат филологических наук Габуния, Ольга Ивановна
Лингвопрагматическая характеристика обозначения действий коммуникантов в диалоге: На материале английского и русского языков2006 год, кандидат филологических наук Молявина, Елена Алексеевна
Вербальное обозначение психической активности партнера в диалогическом взаимодействии: на материале английского и русского языков2009 год, кандидат филологических наук Шепелева, Наталия Георгиевна
Перифразирование в лингвопрагматическом аспекте на материале французского дискурса2010 год, доктор филологических наук Туницкая, Елена Леонидовна
Список литературы диссертационного исследования кандидат наук Остякова Лидия Николаевна, 2025 год
Список литературы
[1] Stergos Afantenos и Nicholas Asher. "Testing SDRT's right frontier". В: arXiv preprint arXiv:1006.5880 (2010).
[2] Stergos Afantenos и др. "Discourse parsing for multi-party chat dialogues". В: Conference on Empirical Methods on Natural Language Processing (EMNLP 2015). 2015, pp—928.
[3] Vibhor Agarwal, Yu Chen и Nishanth Sastry. "Haterephrase: Zero-and few-shot reduction of hate intensity in online posts using large language models". В: arXiv preprint arXiv:2310.13985 (2023).
[4] Merav Allouch, Amos Azaria и Rina Azoulay. "Conversational agents: Goals, technologies, vision and challenges". В: Sensors 21.24 (2021), с. 8448.
[5] Anne H Anderson и др. "The HCRC map task corpus". В: Language and speech 34.4 (1991), с. 351—366.
[6] Negar Arabzadeh и Charles LA Clarke. "Fr\'echet Distance for Offline Evaluation of Information Retrieval Systems with Sparse Labels". В: arXiv preprint arXiv:2401.17543 (2024).
[7] Nicholas Asher и Alex Lascarides. Logics of conversation. Cambridge University Press, 2003.
[8] Nicholas Asher и др. "Discourse structure and dialogue acts in multiparty dialogue: the STAC corpus". В: 10th International Conference on Language Resources and Evaluation (LREC 2016). 2016, с. 2721—2727.
[9] JL Austin. Speech acts. 1962.
[10] Dilyara Baymurzina и др. "DREAM Technical Report for the Alexa Prize 4". В: 4th Proceedings of Alexa Prize (2021).
[11] Christin Beck и др. "Representation problems in linguistic annotations: Ambiguity, variation, uncertainty, error and bias". В: Proceedings of the 14th Linguistic Annotation Workshop. 2020, с. 60—73.
[12] Nabil Moncef Boukhatem, Davide Buscaldi и Leo Liberti. "Cataphora detection and resolution: Advancements and Challenges in Natural Language Processing". Дис. ... док. LIX, Ecole Polytechnique, 2024.
[13] Kristy Boyer h gp. "Dialogue act modeling in a complex task-oriented domain". B: Proceedings of the SIGDIAL 2010 Conference. 2010, c. 297— 305.
[14] Harry Bunt. "Dimensions in Dialogue Act Annotation." B: LREC. 2006, c. 919—924.
[15] Harry Bunt h gp. ISO 24617-2: A semantically-based standard for dialogue annotation. Tex. oth. University of Southern California Los Angeles, 2012.
[16] Harry Bunt h gp. "The ISO standard for dialogue act annotation". B: 12th Edition of its Language Resources and Evaluation Conference (LREC 2020). European Language Resources Association (ELRA). 2020, c. 549—558.
[17] Harry Bunt h gp. "Towards an ISO standard for dialogue act annotation". B: Seventh conference on International Language Resources and Evaluation (LREC'10). 2010.
[18] Mikhail Burtsev h gp. "DeepPavlov: An Open Source Library for Conversational AI". B: NIPS. 2018. URL: https://openreview.net/pdf? id=BJzyCF6Vn7.
[19] Mikhail Burtsev h gp. "Deeppavlov: Open-source library for dialogue systems". B: Proceedings of ACL 2018, system demonstrations. 2018, c. 122— 127.
[20] Jon Z Cai h gp. "Dependency Dialogue Acts-Annotation Scheme and Case Study". B: arXiv preprint arXiv:2302.12944 (2023).
[21] Jean Carletta h gp. "The reliability of a dialogue structure coding scheme." B: (1997).
[22] Ana Paula Chaves h Marco Aurelio Gerosa. "How should my chatbot interact? A survey on social characteristics in human-chatbot interaction design". B: International Journal of Human-Computer Interaction 37.8 (2021), c. 729—758.
[23] Ta-Chung Chi h Alexander I Rudnicky. "Structured dialogue discourse parsing". B: arXiv preprint arXiv:2306.15103 (2023).
[24] Bharath Chintagunta h gp. "Medically aware GPT-3 as a data generator for medical dialogue summarization". B: Machine Learning for Healthcare Conference. PMLR. 2021, c. 354—372.
[25] John Joon Young Chung, Ece Kamar h Saleema Amershi. "Increasing diversity while maintaining accuracy: Text data generation with large language models and human interventions". B: arXiv preprint arXiv:2306.04140 (2023).
[26] Mark G Core h James Allen. "Coding dialogs with the DAMSL annotation scheme". B: AAAI fall symposium on communicative action in humans and machines. T. 56. Boston, MA. 1997, c. 28—35.
[27] Nelson Filipe Costa h Leila Kosseim. "Exploring Soft-Label Training for Implicit Discourse Relation Recognition". B: Proceedings of the 5th Workshop on Computational Approaches to Discourse (CODI 2024). 2024, c. 120—126.
[28] Malcolm Coulthard h gp. Advances in spoken discourse analysis. Routledge London, 1992.
[29] Ludivine Crible h Maria Josep Cuenca. "Discourse markers in speech: characteristics and challenges for corpus annotation". B: Dialogue and Discourse 8.2 (2017).
[30] Haixing Dai h gp. "Auggpt: Leveraging chatgpt for text data augmentation". B: IEEE Transactions on Big Data (2025).
[31] Haixing Dai h gp. "Chataug: Leveraging chatgpt for text data augmentation". B: arXiv preprint arXiv:2302.13007 1.2 (2023).
[32] Aida Mostafazadeh Davani, Mark Diaz h Vinodkumar Prabhakaran. "Dealing with disagreements: Looking beyond the majority vote in subjective annotations". B: Transactions of the Association for Computational Linguistics 10 (2022), c. 92—110.
[33] Bosheng Ding h gp. "Data augmentation using llms: Data perspectives, learning paradigms and challenges". B: arXiv preprint arXiv:2403.02990 (2024).
[34] Suzanne Eggins h Diana Slade. Analysing casual conversation. Equinox Publishing Ltd., 2004.
[35] Yaxin Fan h gp. "Uncovering the potential of chatgpt for discourse analysis in dialogue: An empirical study". B: arXiv preprint arXiv:2305.08391 (2023).
[36] Xiachong Feng, Xiaocheng Feng h Bing Qin. "A survey on dialogue summarization: Recent advances and new frontiers". B: arXiv preprint arXiv:2107.03175 (2021).
[37] Sarah E Finch, Ellie S Paek h Jinho D Choi. "Leveraging large language models for automated dialogue analysis". B: arXiv preprint arXiv:2309.06490 (2023).
[38] Joseph L Fleiss, Bruce Levin, Myunghee Cho Paik h gp. "The measurement of interrater agreement". B: Statistical methods for rates and proportions 2.212-236 (1981), c. 22—23.
[39] Tommaso Fornaciari h gp. "Beyond black & white: Leveraging annotator disagreement via soft-label multi-task learning". B: Proceedings of the 2021 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. Association for Computational Linguistics. 2021.
[40] Yingxue Fu. "Towards unification of discourse annotation frameworks". B: arXiv preprint arXiv:2204.07781 (2022).
[41] Volker Gast, Lennart Bierkandt h Christoph Rzymski. "Creating and retrieving tense and aspect annotation with GraphAnno, a lightweight tool for multi-level annotation". B: Proceedings of the 11th Joint ACL-ISO Workshop on Interoperable Semantic Annotation (ISA-11). 2015.
[42] Jeroen Geertzen, Volha Petukhova h Harry Bunt. "A multidimensional approach to utterance segmentation and dialogue act classification". B: Proceedings of the 8th SIGdial Workshop on Discourse and Dialogue. 2007, c. 140—149.
[43] Jeroen Geertzen, Volha Petukhova h Harry Bunt. "Evaluating Dialogue Act Tagging with Naive and Expert Annotators." B: LREC. 2008.
[44] John J Godfrey, Edward C Holliman h Jane McDaniel. "SWITCHBOARD: Telephone speech corpus for research and development". B: Acoustics, speech, and signal processing, ieee international conference on. T. 1. IEEE Computer Society. 1992, c. 517—520.
[45] Herbert P Grice. "Logic and conversation". B: Speech acts. Brill, 1975, c. 41— 58.
[46] David Griol h gp. "Developing enhanced conversational agents for social virtual worlds". B: Neurocomputing 354 (2019), c. 27—40.
[47] M.A.K. Halliday h C.M.I.M. Matthiessen. Halliday's Introduction to Functional Grammar. Contemporary Security Studies. Taylor & Francis, 2013. ISBN: 9781135983482. URL: https ://books . google . ru / books ? id = JdkqAAAAQBAJ.
[48] Michael Alexander Kirkwood Halliday h gp. An introduction to functional grammar. Routledge, 2014.
[49] He He h gp. "Decoupling strategy and generation in negotiation dialogues". B: arXiv preprint arXiv:1808.09637 (2018).
[50] Pengcheng He, Jianfeng Gao h Weizhu Chen. "Debertav3: Improving deberta using electra-style pre-training with gradient-disentangled embedding sharing". B: arXiv preprint arXiv:2111.09543 (2021).
[51] Xingwei He h gp. "Annollm: Making large language models to be better crowdsourced annotators". B: arXiv preprint arXiv:2303.16854 (2023).
[52] Zeyu He h gp. "If in a Crowdsourced Data Annotation Pipeline, a GPT-4". B: Proceedings of the CHI Conference on Human Factors in Computing Systems, CHI 2024, Honolulu, HI, USA, May 11-16, 2024. nog peg. Florian 'Floyd' Mueller h gp. ACM, 2024, 1040:1—1040:25. DOI: 10.1145/3613904. 3642834. URL: https://doi.org/10.1145/3613904.3642834.
[53] Dan Hendrycks h gp. "Measuring massive multitask language understanding". B: arXiv preprint arXiv:2009.03300 (2020).
[54] Michael Heseltine h Bernhard Clemm von Hohenberg. "Large language models as a substitute for human experts in annotating political text". B: Research & Politics 11.1 (2024), c. 20531680241236239.
[55] Martin Heusel h gp. "Gans trained by a two time-scale update rule converge to a local nash equilibrium". B: Advances in neural information processing systems 30 (2017).
[56] Jet Hoek h Merel Scholman. "Evaluating discourse annotation: Some recent insights and new approaches". B: Proceedings of the 13th Joint ISO-ACL Workshop on Interoperable Semantic Annotation (isa-13). 2017.
[57] Julie Hunter h gp. "Defining the right frontier in multi-party dialogue". B: 19th Workshop on the semantics and pragmatics of dialogue (SemDial 2015-goDIAL). 2015, pp—95.
[58] Adam Janin h gp. "The ICSI meeting corpus". B: 2003 IEEE International Conference on Acoustics, Speech, and Signal Processing, 2003. Proceedings.(ICASSP'03). T. 1. IEEE. 2003, c. I—I.
[59] Adam Janin h gp. "The ICSI meeting project: Resources and research". B: Proceedings of the 2004 ICASSP NIST Meeting Recognition Workshop. 2004.
[60] Albert Q Jiang h gp. "Mistral 7B". B: arXiv preprint arXiv:2310.06825 (2023).
[61] Dan Jurafsky h gp. "Lexical, prosodic, and syntactic cues for dialog acts". B: Discourse relations and discourse markers. 1998.
[62] Daniel Jurafsky, Elizabeth Shriberg h Debra Biasca. Switchboard SWBD-DAMSL Shallow-Discourse-Function Annotation Coders Manual, Draft 13. Tex. oth. 97-02. Boulder, CO: University of Colorado, Boulder Institute of Cognitive Science, 1997.
[63] Kimi Kaneko h Daisuke Bekki. "Building a Japanese corpus of temporal-causal-discourse structures based on SDRT for extracting causal relations". B: Proceedings of the EACL 2014 workshop on computational approaches to causality in language (CAtoCL). 2014, c. 33—39.
[64] Daisuke Kawahara h gp. "Rapid development of a corpus with discourse annotations using two-stage crowdsourcing". B: Proceedings of COLING 2014, the 25th international conference on computational linguistics: Technical papers. 2014, c. 269—278.
[65] Zaid Khan h gp. "Q: How to specialize large vision-language models to data-scarce vqa tasks? a: Self-train on unlabeled images!" B: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2023, c. 15005—15015.
[66] Vasily Konovalov h gp. "Exploring the Bert Cross-Lingual Transfer for Reading Comprehension". B: Komp'juternaja Lingvistika i Intellektual'nye Tehnologiithis. 2020, c. 445—453. ISBN: 978-5-7281-2947-9. DQI: 10.28995/
2075-7182-2020-19-445-453. URL: http://www.dialog-21.ru/media/5100/ konovalovvpplusetal-118.pdf.
[67] Varun Kumar, Ashutosh Choudhary и Eunah Cho. "Data augmentation using pre-trained transformer models". В: arXiv preprint arXiv:2003.02245 (2020).
[68] Denis Kuznetsov и др. "Discourse-driven integrated dialogue development environment for open-domain dialogue systems". В: Proceedings of the 2nd Workshop on Computational Approaches to Discourse. 2021, с. 29—51.
[69] Alex Lascarides и Nicholas Asher. "Segmented discourse representation theory: Dynamic semantics with discourse structure". В: Computing meaning. Springer, 2007, с. 87—124.
[70] Jiaqi Li и др. "A survey of discourse parsing". В: Frontiers of Computer Science 16.5 (2022), с. 165329.
[71] Jiaqi Li и др. "Molweni: A challenge multiparty dialogues-based machine reading comprehension dataset with discourse structure". В: arXiv preprint arXiv:2004.05080 (2020).
[72] Jingyang Li и др. "ChatMDG: A discourse parsing graph fusion based approach for multi-party dialogue generation". В: Information Fusion 110 (2024), с. 102469.
[73] Jiwei Li и др. "A Diversity-Promoting Objective Function for Neural Conversation Models". В: Proceedings of the 2016 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. Под ред. Kevin Knight, Ani Nenkova и Owen Rambow. San Diego, California: Association for Computational Linguistics, июнь 2016, с. 110—119. DOI: 10 . 18653 / v1 / N16-1014. URL: https : / / aclanthology.org/N16-1014/.
[74] Jiyi Li. "A Comparative Study on Annotation Quality of Crowdsourcing and LLm Via Label Aggregation". В: IEEE International Conference on Acoustics, Speech and Signal Processing, ICASSP 2024, Seoul, Republic of Korea, April 14-19, 2024. IEEE, 2024, с. 6525—6529. DOI: 10.1109/ ICASSP48485.2024.10447803. URL: https://doi.org/10.1109/ICASSP48485. 2024.10447803.
[75] Wei Li h gp. "SKIER: A symbolic knowledge integrated model for conversational emotion recognition". B: Proceedings of the AAAI conference on artificial intelligence. T. 37. 11. 2023, c. 13121—13129.
[76] Yanran Li h gp. "Dailydialog: A manually labelled multi-turn dialogue dataset". B: arXiv preprint arXiv:1710.03957 (2017).
[77] Zhuoyan Li h gp. "Synthetic data generation with large language models for text classification: Potential and limitations". B: arXiv preprint arXiv:2310.07849 (2023).
[78] Kaihui Liang h gp. "Gunrock 2.0: A user adaptive social conversational system". B: arXiv preprint arXiv:2011.08906 (2020).
[79] Aixin Liu h gp. "Deepseek-v3 technical report". B: arXiv preprint arXiv:2412.194 37 (2024).
[80] Zhengyuan Liu h Nancy F Chen. "Improving multi-party dialogue discourse parsing via domain integration". B: arXiv preprint arXiv:2110.04526 (2021).
[81] Yuxiang Lu h gp. "Enhancing reasoning capabilities by instruction learning and chain-of-thoughts for implicit discourse relation recognition". B: Findings of the Association for Computational Linguistics: EMNLP 2023. 2023, c. 5634—5640.
[82] Matthew Maciejewski h gp. "Evaluating the Santa Barbara Corpus: Challenges of the Breadth of Conversational Spoken Language". B: Proc. Interspeech 2024. 2024, c. 2155—2159.
[83] William C Mann h Sandra A Thompson. Rhetorical structure theory: A theory of text organization. University of Southern California, Information Sciences Institute Los Angeles, 1987.
[84] Shivam Mathur h gp. "Interpreting Answers to Yes-No Questions in UserGenerated Content". B: arXiv preprint arXiv:2310.15464 (2023).
[85] Nikita Mattar h Ipke Wachsmuth. "Small talk is more than chit-chat". B: Annual Conference on Artificial Intelligence. Springer. 2012, c. 119—130.
[86] Stefano Mezza, Wayne Wobcke h Alan Blair. "Exploiting Dialogue Acts and Context to Identify Argumentative Relations in Online Debates". B: Proceedings of the 11th Workshop on Argument Mining (ArgMining 2024). 2024, c. 36—45.
[87] Stefano Mezza h gp. "Iso-standard domain-independent dialogue act tagging for conversational agents". B: arXiv preprint arXiv:1806.04327 (2018).
[88] Gongalo Mordido h Christoph Meinel. "Mark-evaluate: Assessing language generation using population estimation methods". B: arXiv preprint arXiv:2010.04 606 (2020).
[89] Sourabrata Mukherjee, Atul Kr Ojha h Ondrej Dusek. "Are Large Language Models Actually Good at Text Style Transfer?" B: arXiv preprint arXiv:24 06.05885 (2024).
[90] Philippe Muller h gp. "Constrained decoding for text-level discourse parsing". B: Proceedings of COLING 2012. 2012, c. 1883—1900.
[91] Costanza Navarretta h Patrizia Paggio. "Dialogue act annotation in a multimodal corpus of first encounter dialogues". B: Proceedings of the Twelfth Language Resources and Evaluation Conference. 2020, c. 634—643.
[92] Ponrudee Netisopakul h Usanisa Taoto. "Comparison of evaluation metrics for short story generation". B: IEEE Access 11 (2023), c. 140253—140269.
[93] Martha Palmer h Nianwen Xue. "Linguistic annotation". B: The handbook of computational linguistics and natural language processing (2010), c. 238— 270.
[94] Ellie Pavlick h Tom Kwiatkowski. "Inherent disagreements in human textual inferences". B: Transactions of the Association for Computational Linguistics 7 (2019), c. 677—694.
[95] Gabrijela Perkovic, Antun Drobnjak h Ivica Boticki. "Hallucinations in llms: Understanding and addressing challenges". B: 2024 47th MIPRO ICT and Electronics Convention (MIPRO). IEEE. 2024, c. 2084—2088.
[96] Volha Petukhova h gp. "Metalogue Multi-Issue Bargaining: Corpus Manual". B: (2016).
[97] Massimo Poesio h Ron Artstein. "The reliability of anaphoric annotation, reconsidered: Taking ambiguity into account". B: Proceedings of the workshop on frontiers in corpus annotations ii: Pie in the sky. 2005, c. 76—83.
[98] Andrei Popescu-Belis. "Dialogue act tagsets for meeting understanding: an abstraction based on the DAMSL, Switchboard and ICSI-MR tagsets". B: Report IM2. MDM-09 (2003).
[99] Andrei Popescu-Belis. "Dialogue acts: One or more dimensions". B: ISSCO WorkingPaper 62 (2005).
[100] Vipul Raheja h Joel Tetreault. "Dialogue act classification with context-aware self-attention". B: arXiv preprint arXiv:1904-02594 (2019).
[101] Nils Reimers h Iryna Gurevych. "Sentence-bert: Sentence embeddings using siamese bert-networks". B: arXiv preprint arXiv:1908.10084 (2019).
[102] Virgile Rennard h gp. "Abstractive meeting summarization: A survey". B: Transactions of the Association for Computational Linguistics 11 (2023), c. 861—884.
[103] Egil R0nningstad, Erik Velldal h Lilja 0vrelid. "A GPT among Annotators: LLM-based Entity-Level Sentiment Annotation". B: Association for Computational Linguistics. 2024.
[104] Harvey Sacks, Emanuel A Schegloff h Gail Jefferson. "A simplest systematics for the organization of turn-taking for conversation". B: language 50.4 (1974), c. 696—735.
[105] Gaurav Sahu h gp. "Data augmentation for intent classification with off-the-shelf large language models". B: arXiv preprint arXiv:2204.01959 (2022).
[106] Maximilian Schmidhuber h Udo Kraschwitz. "Llm-based synthetic datasets: Applications and limitations in toxicity detection". B: LREC-COLING 37 (2024), c. 2024.
[107] Merel Scholman, Jacqueline Evers-Vermeul, Ted JM Sanders h gp. "A step-wise approach to discourse annotation: Towards a reliable categorization of coherence relations". B: Dialogue & Discourse 7.2 (2016), c. 1—28.
[108] Merel Scholman h gp. "Design choices in crowdsourcing discourse relation annotations: The effect of worker selection and training". B: Proceedings of the Thirteenth Language Resources and Evaluation Conference. 2022, c. 2148— 2156.
[109] Merel Scholman h gp. "DiscoGeM: A crowdsourced corpus of genre-mixed implicit discourse relations". B: the 13th Language Resources and Evaluation Conference (LREC 2022). European Language Resources Association. 2022, c. 3281—3290.
[110] Stanislau Semeniuta, Aliaksei Severyn h Sylvain Gelly. "On accurate evaluation of gans for language generation". B: arXiv preprint arXiv:1806.04936 (2018).
[111] Saket Sharma h gp. "When and how to paraphrase for named entity recognition?" B: Proceedings of the 61st Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). 2023, c. 7052—7087.
[112] Zhouxing Shi h Minlie Huang. "A deep sequential model for discourse parsing on multi-party dialogues". B: Proceedings of the AAAI Conference on Artificial Intelligence. T. 33. 01. 2019, c. 7007—7014.
[113] Elizabeth Shriberg h gp. "The ICSI meeting recorder dialog act (MRDA) corpus". B: Proceedings of the 5th SIGdial Workshop on Discourse and Dialogue at HLT-NAACL 2004 . 2004, c. 97—100.
[114] Heydar Soudani h gp. "A survey on recent advances in conversational data generation". B: arXiv preprint arXiv:2405.13003 (2024).
[115] Amanda Stent. "Rhetorical structure in dialog". B: INLG'2000 proceedings of the first international conference on natural language generation. 2000, c. 247—252.
[116] Andreas Stolcke h gp. "Dialogue act modeling for automatic tagging and recognition of conversational speech". B: Computational linguistics 26.3 (2000), c. 339—373.
[117] Maliha Sultana h Osmar R Zaiane. "Exploring dialog act recognition in open domain conversational agents". B: International Conference on Big Data Analytics and Knowledge Discovery. Springer. 2023, c. 233—247.
[118] Maite Taboada. "Rhetorical relations in dialogue: A contrastive study". B: Discourse across languages and cultures. John Benjamins Publishing Company, 2006, c. 75—97.
[119] Maite Taboada h William C Mann. "Applications of rhetorical structure theory". B: Discourse studies 8.4 (2006), c. 567—588.
[120] Eirini Takoulidou h gp. "Social media and NLP tasks: Challenges in crowdsourcing linguistic information". B: 2016 11th International Workshop on Semantic and Social Media Adaptation and Personalization (SMAP). IEEE. 2016, c. 53—58.
[121] Deborah Tannen. Conversational style: Analyzing talk among friends. Oxford University Press, 2005.
[122] Alexandra Uma h gp. "SemEval-2021 task 12: Learning with disagreements". B: Proceedings of the 15th international workshop on semantic evaluation (SemEval-2021). 2021, c. 338—347.
[123] Alexandra N Uma h gp. "Learning from disagreement: A survey". B: Journal of Artificial Intelligence Research 72 (2021), c. 1385—1470.
[124] Teun A Van Dijk. "Principles of critical discourse analysis". B: Discourse & society 4.2 (1993), c. 249—283.
[125] Somin Wadhwa, Silvio Amir h Byron C Wallace. "Revisiting relation extraction in the era of large language models". B: Proceedings of the conference. Association for Computational Linguistics. Meeting. T. 2023. 2023, c. 15566.
[126] Huiyao Wang h gp. "Simulating Dual-Process Thinking in Dialogue Topic Shift Detection". B: Proceedings of the 31st International Conference on Computational Linguistics. 2025, c. 2592—2602.
[127] Chao Wei h gp. "Apre: Annotation-aware prompt-tuning for relation extraction". B: Neural Processing Letters 56.2 (2024), c. 62.
[128] Jason Wei h gp. "Chain-of-thought prompting elicits reasoning in large language models". B: Advances in neural information processing systems 35 (2022), c. 24824—24837.
[129] Leonie Weissweiler, Abdullatif Koksal h Hinrich Schiitze. "Hybrid Human-LLM Corpus Construction and LLM Evaluation for Rare Linguistic Phenomena". B: arXiv preprint arXiv:2403.06965 (2024).
[130] Andrew Wood, Zachary Eberhart h Collin McMillan. "Dialogue act classification for virtual agents for software engineers during debugging". B: Proceedings of the IEEE/ACM 42nd international conference on software engineering workshops. 2020, c. 462—469.
[131] Huiyuan Xie h gp. "Tiage: A benchmark for topic-shift aware dialog modeling". B: arXiv preprint arXiv:2109.04562 (2021).
[132] Yi Xu, Hai Zhao h Zhuosheng Zhang. "Topic-aware multi-turn dialogue modeling". B: Proceedings of the AAAI Conference on Artificial Intelligence. T. 35. 16. 2021, c. 14176—14184.
[133] Diyi Yang. "Human-AI Interaction in the Age of Large Language Models". B: Proceedings of the AAAI Symposium Series. T. 3. 1. 2024, c. 66—67.
[134] Shunyu Yao h gp. "Tree of thoughts: Deliberate problem solving with large language models". B: Advances in neural information processing systems 36 (2023), c. 11809—11822.
[135] Danni Yu h gp. "Assessing the potential of LLM-assisted annotation for corpus-based pragmatics and discourse analysis: The case of apology". B: International Journal of Corpus Linguistics 29.4 (2024), c. 534—561.
[136] Dian Yu h Zhou Yu. "Midas: A dialog act annotation scheme for open domain human machine spoken conversations". B: arXiv preprint arXiv:1908.10023 (2019).
[137] Frances Yung h Vera Demberg. "On Crowdsourcing Task Design for Discourse Relation Annotation". B: arXiv preprint arXiv:2412.11637 (2024).
[138] Frances Yung, Vera Demberg h Merel Scholman. "Crowdsourcing discourse relation annotations by a two-step connective insertion task". B: Proceedings of the 13th Linguistic Annotation Workshop. 2019, c. 16—25.
[139] Frances Yung h gp. "Prompting Implicit Discourse Relation Annotation". B: arXiv preprint arXiv:2402.04918 (2024).
[140] Elina Zarisheva h Tatjana Scheffler. "Dialog act annotation for twitter conversations". B: Proceedings of the 16th annual meeting of the special interest group on discourse and dialogue. 2015, c. 114—123.
[141] Duzhen Zhang, Feilong Chen h Xiuyi Chen. "Dualgats: Dual graph attention networks for emotion recognition in conversations". B: Proceedings of the 61st Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). 2023, c. 7395—7408.
[142] Yu Zhu h Ou Wu. "Elementary discourse units with sparse attention for multi-label emotion classification". B: Knowledge-Based Systems 240 (2022), c. 108114.
1.1 Пример диалогового графа из корпуса «STAC» [8]..................18
1.2 Кодирование уровней аннотации в речевой функции................21
1.3 Пример дискурсного паттерна........................................21
1.4 Иерархия в таксономии речевых функций............................23
2.1 Изменения в таксономии речевых функций............. 40
2.2 Пример инструкции для разметчиков на третьем этапе её разработки ............................... 41
2.3 Пример итоговой инструкции для группы Open, представленной
в виде дерева решений......................... 42
2.4 Изменение каппы Флейса на разных этапах разработки инструкции: сравнение для полной и сокращённой версий таксономии ............................... 44
2.5 Соотношение групп речевых функций в «золотом стандарте» аннотации ................................ 46
2.6 Пример задания по аннотации речевых функций на платформе «Toloka»................................. 50
2.7 Алгоритм контроля качества в ходе разметки речевых функций
с помощью краудсорсинга..............................................51
2.8 Матрица ошибок: краудсорсинг vs эталонные метки................54
2.9 Распределение точных, допустимых и ошибочных ответов непрофессиональных аннотаторов по речевым функциям ..........56
3.1 Подходы к аннотации речевых функций с помощью GPT-3.5 Turbo 65
3.2 Сравнение метрик взвешенной точности, полноты и макро F1
при разных температурах (слева) и размерах контекста (справа) . 67
3.3 Распределение точных, допустимых и ошибочных ответов в аннотациях речевых функций с помощью трех БЯМ........ 71
3.4 Аннотация с помощью GPT-3.5 Turbo с августа по ноябрь 2024
г. (температура = 0).......................... 75
3.5 Аннотация с помощью Mixtral 8*22B с августа по ноябрь 2024
г. (температура = 0) .......................... 76
3.6 Каппа Флейса разных комбинаций аннотаторов при полной и сокращенной версий таксономии. ГА — гибридная аннотация. . . 78
3.7 Анализ воспроизводимости качества аннотации речевых
функций с помощью Эеер8еек-У3 с разными версиями инструкций 84
3.8 Матрица ошибок по результатам аннотации речевых функций с помощью Эеер8еек-У3 (сравнение с эталонной разметкой) .... 86
3.9 Распределение точных, допустимых и ошибочных ответов в аннотациях речевых функций с помощью Эеер8еек-У3...... 88
3.10 Алгоритм классификации речевых функций............ 94
3.11 Сравнение метрик В1з!тс1-1 и В1з!тс1-2 для синтетических и реальных данных (Эксперимент1 — базовый, Эксперимент2 — с добавлением лексики) ......................... 98
3.12 1-8КЕ-проекция ЗВЕКГ-эмбеддингов: сравнение двух вариантов генерации синтетических пар со случайной выборкой из «Ва11уВ1а1о§»..............................101
А.1 Предложение последующих ходов диалога на основе результатов
работы модуля предсказания ..................... 130
А.2 Пример проектирования навыка диалоговой системы на основе
речевых функций ............................ 131
Г.1 Матрица ошибок для СРТ-3.5-ТигЬо.................136
Г.2 Матрица ошибок для М1х!га1 8x22В.................137
Г.3 Матрица ошибок для С1а^е-3-На1ки ................138
1 Пример разметки диалога с помощью таксономии DiAML..... 15
2 Сравнение таксономий диалоговых актов (ФИ — функциональные измерения)..................... 16
3 Сравнение наиболее популярных датасетов с дискурсивной аннотацией..............................................................32
4 Уровни согласованности по метрике Fleiss' kappa....................43
5 Оценка точности аннотации с помощью краудсорсинга............53
6 Оценка результатов аннотации речевых функций с помощью GPT-3.5 Turbo на 12 диалогах .................... 66
7 Результаты аннотации 44 диалогов с помощью GPT-3.5 Turbo . . 68
8 Оценка автоматической аннотации на 44 диалогах «DailyDialog» . 69
9 Примеры смешения тегов одной группы речевых функций при автоматической аннотации ...................... 72
10 Примеры неверной аннотации Sustain.Continue.Command..... 73
11 Примеры ошибок при выборе речевой функции Open.Give.Fact в результатах аннотации моделью Mixtral 8x22B........... 74
12 Метрики для гибридной аннотации.................. 77
13 Подробная информация о выбранных моделях ........... 79
14 Результаты аннотации 15 диалогов для полной версии таксономии (34 тега, t = 0, контекст =1).............. 80
15 Оценка результатов моделей на 15 диалогах с использованием древовидной схемы и заменой примеров^=0, контекст = 1) . . . . 81
16 Оценка результатов DeepSeek-V3 на 15 диалогах с использованием двухэтапного подхода к промптингу и заменой примеров (t=0, контекст =1)..................... 82
17 Оценка результатов разметки GPT-4o-mini, DeepSeek V3 с синтетическими примерами на 44 диалогах (t=0, контекст=1) . . 83
18 Примеры ошибок при классификации категории Develop.Extend моделью DeepSeek-V3 ......................... 87
19 Сравнение точности классификаторов на синтетическом и оригинальном наборах данных.................... 95
20 Сравнение FID с разными типами данных. Эксперимент1 — базовый вариант генерации, Эксперимент2 — с добавлением лексики из реальных диалогов..................... 101
21 Сравнение Self-BLEU (mean ± std) для трёх условий: исходные данные, генерация без добавления лексики, генерация с добавлением лексики .......................... 102
22 Точность соответствия сгенерированных примеров заданным речевым функциям...........................104
23 Описание речевых функций с примерами..............135
Применение классификатора речевых функций и модуля для предсказания наиболее вероятных последующих классов в среде
ББ-ГОЕЕ
Рисунок А.1 — Предложение последующих ходов диалога на основе результатов работы модуля предсказания
Рисунок А.2 — Пример проектирования навыка диалоговой системы на основе
речевых функций
Полная и сокращенные версии таксономии речевых функций
Сокращенные метки Полные метки
Open.Initiate.Demand.Fact Open.Initiate.Demand.Fact
Open.Initiate.Demand.Opinion Open.Initiate.Demand.Opinion
Open.Initiate.Give.Fact Open.Initiate.Give.Fact
Open.Initiate.Give.Opinion Open.Initiate.Give.Opinion
Open.Command Open.Command
Open.Attend Open.Attend
Sustain.React.Rejoinder.Confront.Response Sustain.React.Rejoinder.Confront.Response.Refute Sustain.React.Rejoinder.Confront.Response.Re-challenge
Sustain.React.Rejoinder.Support.Track Sustain.React.Rejoinder.Support.Track.Probe Sustain.React.Rejoinder.Support.Track.Check Sustain.React.Rejoinder.Support.Track.Clarify Sustain.React.Rejoinder.Support.Track.Confirm
Sustain.Continue.Prolong Sustain.Continue.Prolong.Extend Sustain.Continue.Prolong.Enhance Sustain.Continue.Prolong.Elaborate
Sustain.React.Rejoinder.Confront.Challenge Sustain.React.Rejoinder.Confront.Challenge.Rebound Sustain.React.Rejoinder.Confront.Challenge.Counter
Sustain.React.Respond.Support.Reply Sustain.React.Respond.Support.Reply.Affirm Sustain.React.Respond.Support.Reply.Acknowledge Sustain.React.Respond.Support.Reply.Agree
Sustain.React.Respond.Support.Develop Sustain.React.Respond.Support.Develop.Extend Sustain.React.Respond.Support.Develop.Enhance Sustain.React.Respond.Support.Develop.Elaborate
Sustain.React.Respond.Confront.Reply Sustain.React.Respond.Confront.Reply.Disagree Sustain.React.Respond.Confront.Reply.Contradict Sustain.React.Respond.Confront.Reply.Disavow
Sustain.Continue.Monitor Sustain.Continue.Monitor
Sustain.Continue.Command Sustain.Continue.Command
Sustain.React.Respond.Support.Register Sustain.React.Respond.Support.Register
Sustain.React.Respond.Support.Engage Sustain.React.Respond.Support.Engage
Sustain.React.Respond.Support.Reply.Accept Sustain.React.Respond.Support.Reply.Accept
Sustain.React.Rejoinder.Support.Response.Resolve Sustain.React.Rejoinder.Support.Response.Resolve
Sustain.React.Respond.Command Sustain.React.Respond.Command
Sustain.React.Rejoinder.Confront.Challenge.Detach Sustain.React.Rejoinder.Confront.Challenge.Detach
Приложение В Описание речевых функций
Метка Описание и типичные маркеры Примеры
Open — инициирование диалога или новой темы обсуждения
Open.Attend Приветствие или фразы привлечения внимания, служащие для установления контакта в начале взаимодействия. Типичные маркеры: «Hi», «Hello», «Good morning». 1)Speaker1: Hi, Jack! 2)Speaker1: Good morning!
Open.Demand.Fact Запрос фактической информации у собеседника Speaker1: Have you heard about our new project?
Open.Demand.Opinion Запрос оценки или суждения. Типичные маркеры: прилагательные с «too/very», модальные глаголы must/can/should, глаголы выражения мнения think, believe, like, hate и т.д. Speaker1: What do you think of it?
Open.Give.Fact Предоставление фактической информации Speaker1: I went to the cinema yesterday
Open.Give.Opinion Предоставление оценки или суждения. Типичные маркеры: прилагательные с «too/very», модальные глаголы must/can/should, глаголы выражения мнения think, believe, like, hate и т.д. Speaker1: The movie was fantastic.
Open.Command Запрос, команда или приглашение 1)Speaker1: Let's go for coffee. 2)Speaker1: Could you give me that book?
Sustain.React. — ходы реакции
Track.Probe Запрос подтверждения информации, необходимой для уточнения высказывания предыдущего говорящего. При этом сам говорящий выдвигает предположение о той информации, которую хочет подтвердить. Speaker1: He spoke to Anna yesterday. Speaker1: Because Anna was looking for him?
Track.Check Побуждение предыдущего говорящего повторить элемент или всё высказывание, которое текущий говорящий не расслышал или не понял. Типичные маркеры: «Pardon?», «Sorry?», «What?». Speaker1: We need to submit by Friday. Speaker2: When?
Track.Clarify Уточняющий вопрос для прояснения деталей сказанного. Типичные маркеры: «You mean... ?», «What do you mean by... ?». Speaker1: Let's meet before the bridge. Speaker1: What bridge?
Track.Confirm Запрос подтверждения информации. Типичные маркеры: «Right?», «Is that correct?», «Did he?». Speaker1: He rang Roman yesterday. Speaker2: Did he?
Reply.Accept Выражение благодарности, принятие товара или услуги. Speaker1: Here's your book. Speaker2: Thank you.
Reply.Affirm Подтверждение ранее сказанной информации. Типичные маркеры: «Yes» и его синонимы, «Exactly», «Certainly». Speaker1: He went to London. Speaker2: Yes, he did.
Reply.Acknowledge Указание на знание или понимание представленной информации. Типичные маркеры: «I see», «Got it», «Right», «Yes» и его синонимы. Speaker1: It's all set for tomorrow. Speaker2: I see.
Reply.Agree
Согласие с предоставленной информацией. В большинстве случаев информация, с которой соглашается говорящий, является для него новой. Типичные маркеры: «Yes» и его синонимы, «I agree», «Absolutely», «Sure».
Speaker1: We're gonna make it.
Speaker2: Yeah, right.
Reply.Contradict
Опровержение предыдущей информации. Говорящий зачастую опровергает информацию, которая была ему уже известна ранее. Типичные маркеры: «N0» и его синонимы.
Speaker1: Suppose he gives you a hard time, Nick?. Speaker2: Oh I like David a lot.
Reply.Disagree
Выражение несогласия через отрицание утверждения или отрицательный ответ на вопрос. В большинстве случаев информация, с которой не соглашается говорящий, является для него новой. Типичные маркеры: «No» и его синонимы, «Not really», «I don't agree».
Speakerl: David always makes a mess in our room. Speaker2: He's not so bad.
Reply.Disavow
Отрицание знания или понимания информации. Типичные маркеры: «I don't know», «I have no idea».
Speaker1: Did you finish the
task?
Speaker2: I'm not sure.
Develop.Extend
Представление информации, расширяющей либо опровергающей предыдущую. Типичные маркеры: but, and, however, on the other hand и др.
Speakerl: Your cleaner lady cleaned my place. Speaker2: She won't come back again.
Develop.Enhance
Добавление деталей к предыдущей информации: времени, места, причины. Типичные маркеры: because, so, then и др.
Speakerl: I can't believe he turned out to be so mean to others.
Speaker2: He's been under a lot of stress lately.
Develop.Elaborate
Пояснение или перефразирование предыдущей информации. Типичные маркеры: for example, I mean, like и др.
Speakerl: They had issues with quality.
Speaker2: For instance, the last batch failed testing.
Response.Resolve
Детальный ответ на вопрос.
Speaker1: What's the password?
Speaker2: It's "orange".
Response.Re-challenge
Предложение альтернативной позиции (часто в форме вопроса).
Speaker1 Speaker2 Pele?
Messi is the best. Do you mean
Response.Refute
Отказ переходить к новой теме
Speakerl: I'm out. Speaker2: You can't do that, it's my birthday.
Challenge.Rebound
Сомнение в уместности или достоверности предыдущего высказывания.
Speakerl: This conversation about football needs Alli. Speaker2: Is Alli a football expert or what?
Challenge.Counter
Отрицание права собеседника на его позицию
Speaker1: He is so good at music.
Speaker2: You don't understand, Nick.
React.Respond.Command
Команда или приглашение перейти к следующему действию. Типичные маркеры: «Let's... », «Shall we... ».
Speaker1: We've discussed enough.
Speaker2: Let's move on.
Register
Проявление эмоций или демонстрация внимания к собеседнику. Типичные маркеры: «Oh», «Wow», «Hmm», «Great!» и др.
Speaker1: The news was
shocking.
Speaker2: Oh!
Engage
Привлечение внимания собеседника или ответ на приветствие. Типичные маркеры: «Hey», «Excuse me».
1)Speaker1: Hey!
2)Speaker1: Morning!
Detach Завершение взаимодействия или темы. Типичные маркеры: «Goodbye», «See you» и др. Speaker1: That's it from me. Speaker2: Goodbye.
Sustain.Continue. — развитие обсуждения одним и тем же говорящим
Prolong.Extend Представление информации, расширяющей либо опровергающей предыдущую. Типичные маркеры: but, and, however, on the other hand и др. Speaker1: I put the report out Monday. Speaker1: But they only read it on Wednesday.
Prolong.Enhance Добавление деталей к предыдущей информации: времени, места, причины. Типичные маркеры: because, so, then и др. Speaker1: We can't finish today. Speaker1: The files are still incomplete.
Prolong.Elaborate Пояснение или перефразирование предыдущей информации. Типичные маркеры: for example, I mean, like и др. Speaker1: I don't want to get involved. Speaker1: I mean, people always expect too much.
Sustain.Continue.Monitor Проверка вовлечённости слушателя или передача хода разговора Speaker1: She is stunning. Speaker1: Yeah?
Sustain.Continue.Command Запрос, команда или приглашение Speaker1: I've explained the steps. Speaker1: Let's discuss this later.
Таблица 23 — Описание речевых функций с примерами
Матрицы ошибок по результатам аннотации речевых функций с помощью трех БЯМ (сравнение с эталонной разметкой)
Challenge.Counter - 0 0 0 0 0 1 0 0 0
Challenge.Rebound - 0 1 0 0 0 0 0 0 0
Detach - 0 0 2 0 0 0 0 0 0
Develop.Elaborate - 0 0 0 0 0 0 0 0 0
Develop.Enhance - 0 0 0 0 0 0 0 0 0
Develop.Extend - 0 0 0 2 1 0 0 0 0
Engage - 0 0 0 0 0 0 2 0 0
Open.Attend - 0 0 0 0 0 0 0 5 1
Open.Command - 0 0 0 0 0 0 0 0 0
Open.Demand.Fact - 0 0 0 0 0 0 0 1 1
Open.Demand.Oplnlon - 0 0 0 0 0 0 0 2 2
Open.Glve.Fact- 0 0 0 0 0 0 0 1 0
Open.Glve.Oplnlon - 0 0 0 0 0 0 0 1 0
Prolong.Elaborate - 0 0 0 0 0 0 0 0 0
Prolong.Enhance - 0 0 1 0 0 0 0 0 0
Prolong.Extend - 0 0 2 0 0 0 1 0 0
Register - 0 0 3 0 0 0 1 0 0
Reply. Accept - 0 0 0 0 0 0 0 0 0
Reply.Acknowledge - 0 0 0 0 0 0 0 0 0
Reply.Affirm - 0 0 0 0 1 0 0 0 0
Reply.Agree - 0 0 0 0 0 0 0 0 0
Reply.Contradlct - 0 0 0 0 0 0 0 0 0
Reply.Dlsagree - 0 0 0 0 0 0 0 0 0
Reply.Dlsavow - 1 0 0 0 0 0 0 0 0
Response.Re-challenge - 0 0 0 0 0 0 0 0 0
Response.Refute - 1 0 0 0 0 0 0 0 0
Response. Resolve - 0 0 0 0 1 1 0 0 0
Sustain.Continue.Monitor - 0 0 0 0 0 0 0 0 0
Track.Check - 0 3 0 0 0 0 0 0 0
Track.Clarlfy - 0 5 0 0 0 0 0 0 0
Track.Conflrm - 0 2 0 0 0 0 0 0 0
Track. Probe - 0 1 0 0 0 0 0 0 0
ll тэ ■С а 0J тэ а тэ тэ
Д с и л и с Ol с с
с Э о и а п 2 <ц □ о ■О т (0 ■С с S Q. oi с 1 с: Е Е о
oj Ol с V а> Ol с о. о о. о а 0 43 1 0J а. О и с: 0J
75 = > £ □ О
и с. и □ о
о о о о о о о
0
1 10 о о о о о о о о о о о о о о о о о о о о о о
0 0 0
0 0 0
0 0 0
0 0 0
0 0 0
0 1 0
0 1 0
0 0 0
0 0 0
0 0 0
0 0 0
0 3 0
0 1 0
27 30 1
11 44 0
35 ш 23
0 1 0 2
0 0 0 0
0 0 0 0
0 0 0 0
0 0 0 0
0 20 0 4
0 0 0 0
0 0 0 0
0 0 0 0
0 0 0 0
0 0 0 0
0 0 0 0
0 0 0 0
0 0 0 0
0 0 0 0
0 0 0 0
0 5 0 2
0 0 0 0
0 3 0 0
6 3 0 1
0 18 0 1
0 0 0 1
0 1 0 9
0 0 0 0
0 0 0 0
0 0 0 0
0 2 4 2
Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.