Модели и методы автоматического обнаружения, верификации и анализа недостоверной, искаженной и манипулятивной информации в текстовых данных тема диссертации и автореферата по ВАК РФ 00.00.00, кандидат наук Чернявский Антон Сергеевич

  • Чернявский Антон Сергеевич
  • кандидат науккандидат наук
  • 2025, «Национальный исследовательский университет «Высшая школа экономики»
  • Специальность ВАК РФ00.00.00
  • Количество страниц 206
Чернявский Антон Сергеевич. Модели и методы автоматического обнаружения, верификации и анализа недостоверной, искаженной и манипулятивной информации в текстовых данных: дис. кандидат наук: 00.00.00 - Другие cпециальности. «Национальный исследовательский университет «Высшая школа экономики». 2025. 206 с.

Оглавление диссертации кандидат наук Чернявский Антон Сергеевич

2.1 Базовые методы NLP

2.1.1 Методы кодирования текстов на основе мешка слов

2.1.2 Ранжирование и поиск на основе мешка слов

2.1.3 Кодирование на основе семантики

2.1.4 Именованные сущности

2.1.5 Поиск кореференций

2.1.6 Дерево составляющих

2.1.7 Дерево зависимостей

2.2 Нейросетевые методы

2.2.1 InferSent

2.2.2 Архитектура Transformer и механизм Attention

2.2.3 BERT

2.2.4 Развитие BERT (RoBERTa и XLNet)

2.2.5 SentenceBERT

2.2.6 GPT

2.3 Общие подходы машинного обучения в задачах NLP

2.3.1 Модели для ранжирования

2.3.2 CRF

2.4 Метрики качества

3 Методы проверки на основе источников

3.1 Введение

3.2 Обзор литературы

3.2.1 Задачи факт-чекинга

2

3.2.2 Методы оценки моделей

3.3 Метод

3.3.1 Пайплайн FEVER-style факт-чекинга

3.3.2 Демонстрационная система

3.3.3 Диагностическая таксономия и диагностический набор данных

3.3.4 Генеративный фреймворк

3.4 Эксперименты и результаты

3.4.1 Набор данных FEVER

3.4.2 Результаты разработанного пайплайна

3.4.3 Диагностическая аналитика набора данных FEVER

3.4.4 Результаты генеративного фреймворка

3.5 Поиск и исправление галлюцинаций языковых моделей

3.5.1 Обзор релевантных подходов

3.5.2 Метод

3.5.3 Детали реализации

3.5.4 Эксперименты и результаты

3.6 Заключение

4 Поиск ранее проверенных утверждений

4.1 Введение

4.2 Обзор литературы

4.2.1 Подходы к решению задачи поиска ранее проверенных утверждений

4.2.2 Контрастивные функции потерь

4.2.3 Наборы данных для поиска ранее проверенных утверждений

4.3 Метод

4.3.1 Batch-Softmax Contrastive loss

4.3.2 Пайплайн поиска ранее проверенных утверждений

4.3.3 Составление нового набора данных GowdChecked

4.4 Эксперименты и результаты

4.4.1 Набор данных CheckThat

4.4.2 Метрики качества

4.4.3 Установка гиперпараметров

4.4.4 Результаты предложенного пайплайна

4.4.5 Использование нового размеченного корпуса

4.5 Универсальность предложенной функции потерь

4.5.1 Наборы данных и задачи

4.5.2 Бейзлайны

4.5.3 Установка гиперпараметров

4.5.4 Результаты

4.5.5 Обсуждение результатов

4.6 Заключение

5 Поиск манипулятивных текстовых фрагментов

5.1 Введение

5.2 Обзор литературы

5.2.1 Формализация задачи и наборы данных

5.2.2 Методы решения задачи обнаружения пропаганды

5.2.3 Трансформеры как SOTA для задач вида NER

5.3 Методы

5.3.1 Выделение фрагментов с манипулятивными приемами

5.3.2 Классификация манипулятивных приемов

5.4 Новый русскоязычный корпус Zen-Propaganda

5.4.1 Классификация манипулятивного контента

5.4.2 Манипулятивные техники характерные для всего текста

5.4.3 Манипулятивные техники характерные для текстовых фрагментов

138

5.4.4 Формирование корпуса

5.4.5 Статистики набора данных

5.4.6 Сравнение с существующими связанными наборами данных

5.5 Результаты

5.5.1 Наборы данных

5.5.2 Целевые метрики

5.5.3 Базовые модели и установка гиперпараметров

5.5.4 Результаты в соревновании SemEval

5.5.5 Результаты на новом русскоязычном корпусе

5.5.6 Проверка универсальности предложенного подхода

5.6 Заключение

6 Заключение

Перечень обозначений и сокращений

Список литературы

Список рисунков

Список таблиц

1 Введение

Описание предметной области

В эпоху цифровой трансформации общества и стремительного развития интернет-технологий проблема выявления и анализа недостоверной, искаженной и манипулятивной информации в текстовых данных приобретает все большую актуальность. Растет количество легко доступных источников распространения информации, которые часто остаются без должной модерации, включая социальные сети, блоги, интернет-ресурсы. Такой неконтролируемый процесс распространения создает риски для социальной стабильности, политической обстановки и экономики. Часто недостоверные или манипулятивные сведения создаются намеренно, основываясь не на каких-то реальных фактах, а на вымыслах и искажениях, и часто являются сенсационными и эмоционально окрашенными [1]. Из этого также следует, что ложная информация распространяется гораздо быстрее, чем истинная [2]. Таким образом, появляются большие объемы фейковых утверждений и манипулятивного контента, который сложно обрабатывать и валидировать с помощью ручного анализа экспертов. Поэтому требуется разработка автоматических методов обработки естественного языка, которые могут упрощать разные этапы процесса верификации или сигнализировать о наличии подозрительных фрагментов, нуждающихся в проверке [3].

Для борьбы с распространением недостоверной информации было предложено множество постановок задач, и для решения каждой из них предпринимались различные подходы. Существует ряд обзоров, которые подробно рассматривают эту тему. Например, было проведено исследование [4], где феномен "фейковых новостей" рассматривается через призму анализа данных с особым акцентированием на социальных сетях. Похожее направление было выбрано в работе [5], где было уделено отдельное внимание распространению слухов в социальных сетях. Эти работы помогают понять

динамику распространения недостоверной информации. В обзоре [6], напротив, акцент делается на автоматической проверке фактов в контексте фейковых новостей. В свою очередь исследование [7] более широко охватывает область нахождения истины в различных сценариях. Обзор [8] направлен на общий анализ науки о "фейковых новостях", тогда как работа [2] сосредоточена на изучении процесса распространения истинной и ложной новостной информации на интернет-платформах.

Другие недавние исследования охватывают более узкие аспекты борьбы с недостоверной информацией и направлены на такие темы, как определение отношения утверждения к источнику (stance detection) [9], выявление пропаганды [10], изучение деятельности социальных ботов [11], анализ недостоверной информации [12], а также исследование предвзятости в интернете [13].

Также недавно появились работы на темы определения отношения к дезинформации [14], использования автоматических систем фактчекинга для помощи экспертам [15], предсказания достоверности и предвзятости целых новостных изданий [16], анализа мультимодальной дезинформации [17, 18], где изучалось взаимодействие текстовых и визуальных материалов при создании и распространении ложной информации, и наконец риски от появления больших языковых моделей, заключающиеся в их способности к легкой генерации недостоверных утверждений [19].

В рамках нашего исследования мы сначала фокусируемся на автоматических методах для объясняемой проверки фактов. В данном случае предполагается наличие авторитетного источника, который выбирается заранее на основании исторической надежности и используется для проверки корректности нового утверждения. В процессе верификации требуется найти релевантный фрагмент текста в источнике и определить его отношение к проверяемому утверждению. Формализация задачи определения отношения

утверждения к тексту источника была предложена в задаче Fake News Challenge, где был представлен соответствующий набор данных для обучения моделей [20]. Первый крупный корпус, предназначенный для комплексного решения задачи, включая необходимость подбора релевантной информации в источнике, был представлен в [21]. В нем предлагалась разметка утверждений против дампа Википедии.

Тем не менее, процесс проверки всех утверждений является вычислительно затратным. Однако, поскольку недостоверные утверждения часто распространяются в информационной среде через повторение и копирование, можно ускорить процесс проверки, если использовать в качестве результата итог проверки ранее верифицированного утверждения. Таким образом, следующим шагом мы покрываем область поиска ранее проверенных утверждений. Эта задача была впервые формализована в рамках соревнования CLEF CheckThat!, где был представлен набор данных для обучения автоматических моделей поиска [22]. Тем не менее в отличие от значительно более крупного набора данных FEVER, используемого для верификации, размер данного набора данных оказался небольшим, что осложняет разработку и обучение современных моделей и подчеркивает необходимость создания новых крупных наборов данных.

Наконец, важной областью является стилистический анализ текста, который может выявлять признаки недостоверной информации, а также обнаруживать манипулятивные приемы, которые направленно влияют на восприятие аудитории путем формирования эмоциональных реакций [23]. Это требует разработки отдельных методов и наборов данных (со своей спецификой для разных языков), которые основаны только на стилистике текста, и не опираются на внешние источники информации.

Таким образом, данное исследование охватывает широкий спектр задач, имеющих большую значимость для противостояния недостоверной

информации, и направлено на разработку методов, моделей и наборов данных, которые могут быть использованы для создания автоматических (или полуавтоматических) систем анализа текстовых данных. Полученные результаты исследования формируют как теоретическую, так и практическую основу для решения ключевых задач, связанных с сдерживанием распространения ложных и манипулятивных текстовых данных, что в свою очередь способствует улучшению информационной среды.

Цели и задачи исследования

Целью данной работы является разработка методов анализа текстовых данных для нахождения и анализа недостоверной, искаженной и манипулятивной информации. Основное внимание уделяется разработке специализированных пайплайнов и их отдельных модулей, основанных на усовершенствованных state-of-the-art моделях, а также разработке специализированных функций потерь, подготовке и разметке данных для обучения этих моделей. Последнее может быть достигнуто как при ручной разметке, осуществляемой экспертами, так и методами автоматической разметки, в том числе сбор потенциально шумной разметки с применением методов distant supervision. Для достижения данной цели были поставлены следующие подзадачи:

1. Опираясь на текущие state-of-the-art подходы, разработать новый пайплайн для автоматической проверки фактов на основе источников. Пайплайн должен быть применим в режиме реального времени. Для этого требуется предложить инструмент для анализа ошибок моделей, решающих задачу логического вывода (определение достоверности утверждений на основе предоставленных доказательств), проанализировать ограничения существующих обучающих наборов данных, а также подход к повышению качества существующих моделей.

Исследовать аналогичный метод для исправления тестовых искажений (галлюцинаций) в ответах генеративных моделей.

2. Разработать эффективный пайплайн для автоматического поиска ранее проверенных утверждений. Разработать новые наборы данных (в силу ограниченного объема текущих), которые будут способствовать увеличению качества финальной модели. Это также предполагает улучшение функций потерь и исследование возможности обучения моделей на новых шумных данных с разработкой соответствующих подходов для оптимизации качества.

3. Разработать подход к автоматическому анализу манипулятивных техник в текстах. Для этого необходимо расширить существующие методики классификации на русский язык, а также предложить новый набор данных для обучения соответствующих моделей. Провести анализ существующих state-of-the-art моделей, основанных на архитектуре Transformer, с целью выявления их слабых сторон. По возможности устранить обнаруженные недостатки и указать направления для дальнейшего развития моделей.

Научная новизна

• Разработан эффективный подход к evidence-based проверке фактов, включающий компоненты поиска информации и логического вывода.

• Создана диагностическая таксономия для комплексного анализа как обучающих наборов данных, так и моделей, применяемых в задаче evidence-based проверки фактов.

• Предложен генеративный фреймворк для улучшения моделей в задаче evidence-based проверки фактов.

• Предложен метод для исправления галлюцинаций в языковых моделях.

• Разработана новая функция потерь и предложены ее модификации для

значительного повышения эффективности конечной модели. Изменения

включают техники формирования батчей, обучаемый параметр

10

температуры, использование нормализации, размеченных данных, а также техники обучения на шумных данных. Универсальность и эффективность данной функции потерь подтверждена экспериментами на различных NLP задачах.

• Разработан подход к поиску ранее проверенных утверждений, включающий дообучение на шумных данных с использованием модифицированной техники self-adaptive training.

• Предложена классификационная схема для составления разметки русскоязычных текстов на манипулятивные приемы.

• Разработан подход для обнаружения и классификации манипулятивных приемов в текстовых данных, основанный на исправлении ограничений Transformer-based моделей. Эксперименты на разных набора данныхх и типах задач подтвердили универсальность выявленных недостатков и полученных выводов.

Практическая значимость

• Реализована демонстрационная система для проверки evidence-based проверки утверждений (против Википедии).

• Реализована демонстрационная система для обнаружения и исправления галлюцинаций в языковых моделях.

• Разработан специализированный диагностический набор данных, предназначенный для задачи evidence-based проверки фактов.

• Сформирован новый набор данных для задачи поиска ранее проверенных утверждений.

• Сформирован новый набор данных для русскоязычного анализа манипулятивных текстовых приемов (получен патент).

Кроме этого, наш подход для проверки фактов встроен во фреймворк центра ИИ ВШЭ1.

Публикации и апробация работы

Все результаты, представленные в рамках данной работы, были опубликованы в рамках следующих 10 статей на ведущих мировых конференциях в области NLP (CORE A*, A, B):

1. Chernyavskiy A., Ilvovsky D., Nakov P. Enhancing FEVER-Style Claim Fact-Checking Against Wikipedia: A Diagnostic Taxonomy and a Generative Framework, in: Proceedings of the 47th Europian Conference on Information Retrieval, ECIR 2025, Lucca, Italy, April 6-10, 2025, Proceedings, Part I. Springer, P. 310-325 [CORE A]

2. Galitsky B., Chernyavskiy A., Ilvovsky D. Truth-O-Meter: Handling Multiple Inconsistent Sources Repairing LLM Hallucinations, in: SIGIR '24: Proceedings of the 47th International ACM SIGIR Conference on Research and Development in Information Retrieval. Association for Computing Machinery (ACM), 2024. P. 2817-2821 [CORE A*]

3. Chernyavskiy A., Shomova S., Dushakova I., Kiriya I., Ilvovsky D. ZenPropaganda: A Comprehensive Study on Identifying Propaganda Techniques in Russian Coronavirus-Related Media, in: Proceedings of the 2024 Joint International Conference on Computational Linguistics, Language Resources and Evaluation (LREC-COLING 2024). ELRA and ICCL, 2024. P. 17795-17807 [CORE B]

4. Hardalov M., Chernyavskiy A., Koychev I., Ilvovsky D., Nakov P. CrowdChecked: Detecting Previously Fact-Checked Claims in Social Media, in: Proceedings of the 2nd Conference of the Asia-Pacific Chapter of the Association for Computational Linguistics and the 12th International Joint Conference on Natural Language Processing (Volume 1: Long Papers)

1 https://cs.hse.ru/aicenter/ai-media/

(AACL-IJCNLP 2022). Association for Computational Linguistics, 2022. P. 266-285. [CORE B]

5. Chernyavskiy A., Ilvovsky D., Kalinin P., Nakov P. Batch-Softmax Contrastive Loss for Pairwise Sentence Scoring Tasks, in: Proceedings of the 2022 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies (NAACL 2022). Association for Computational Linguistics, 2022. P. 116-126. [CORE A]

6. Chernyavskiy A., Ilvovsky D., Nakov P. Aschern at CheckThat! 2021: Lambda-Calculus of Fact-Checked Claims, in: CLEF 2021 Working Notes. CEUR Workshop Proceedings, 2021. P. 484-493. (workshop)

7. Chernyavskiy A., Ilvovsky D., Nakov P. Transformers: "The End of History" for Natural Language Processing? in: Machine Learning and Knowledge Discovery in Databases. Research Track: European Conference, ECML PKDD 2021, Bilbao, Spain, September 13-17, 2021, Proceedings. / Ed. by N. Oliver, F. Pérez-Cruz, S. Kramer, J. Read, J. Lozano. * 3. Springer, 2021. P. 677-693. [CORE A]

8. Chernyavskiy A., Ilvovsky D., Nakov P. WhatTheWikiFact: Fact-Checking Claims Against Wikipedia, in: CIKM '21: Proceedings of the 30th ACM International conference on information and knowledge management. ACM, 2021. P. 4690-4695 [CORE A]

9. Chernyavskiy A., Ilvovsky D., Nakov P. aschern at SemEval-2020 Task 11: It Takes Three to Tango: RoBERTa, CRF, and Transfer Learning, in: Proceedings of the 14th International Workshop on Semantic Evaluation (SemEval-2020). Association for Computational Linguistics, 2020. P. 14621468. (workshop)

10. Chernyavskiy A., Ilvovsky D. Extract and Aggregate: A Novel Domain-Independent Approach to Factual Data Verification, in: Proceedings of the Second Workshop on Fact Extraction and VERification (FEVER). / Ed. by J.

Thome, A. Vlachos, O. Cocarascu, C. Christodoulopoulos, A. Mittal. Association for Computational Linguistics, 2019. P. 69-78. (workshop)

Все статьи представлены в формате устных презентаций или постерных сессий на соответствующих конференциях.

Ключевые результаты выносимые на защиту

Подход к evidence-based проверке текстовой информации, включая исправление галлюцинаций в языковых моделях (GPT):

• Разработан новый подход к evidence-based проверке фактов, включающий этапы поиска релевантных документов, выделения значимых текстовых фрагментов, определения логического отношения. Все компоненты оптимизированы для работы в режиме реального времени.

• Разработаны диагностическая таксономия, набор данных и генеративный фреймворк для анализа и улучшения обучающих наборов данных и моделей. Эффективность подхода продемонстрирована на наборе данных FEVER и лучшей для решения задачи модели RoBERTa.

• Предложен подход на основе итеративного обновления для исправления ошибок генеративных моделей (реализован в виде демо-системы).

Подход к поиску ранее проверенных утверждений:

• Разработан новый подход к поиску ранее проверенных утверждений, включающий компоненты оценки лексической и семантической схожести, дополненные переранжирующей компонентой.

• Предложена новая функция потерь для обучения моделей, решающих задачу определения попарной релевантности. Каждая предложенная модификация тщательно проанализирована, а ее эффективность продемонстрирована на большом наборе NLP задач.

• Представлен новый набор данных для обучения и новый подход к обучению на этом наборе данных, который позволил существенно повысить качество полученных моделей.

Подход к выделению и классификации манипулятивных техник:

• Проведен анализ ограничений текущих state-of-the-art моделей на базе архитектуры Transformer, что позволило разработать новый усовершенствованный подход к выявлению и классификации манипулятивных техник.

• Предложена схема классификации манипулятивных приемов для русскоязычных текстов, на основе которой размечен новый корпус для обучения моделей (разработанный для задачи метод представлен в качестве базового подхода).

Личный вклад в положения, выносимые на защиту

Все пайплайны, методы и архитектуры моделей были придуманы и реализованы автором лично. Также автором были самостоятельно реализованы демонстрационные системы, включая их бэкенд и веб-интерфейс (за исключением опциональных компонент системы Truth-O-Meter). Сбор диагностического набора данных для задачи evidence-based проверки фактов был полностью выполнен автором. Сбор двух других наборов данных -CrowdChecked и русскоязычного набора данных для задачи обнаружения манипулятивных техник - проводился совместно с соавторами соответствующих публикаций (автором также были реализованы инструменты для разметки). Все экспериментальные исследования с полученными моделями и наборами данных были проведены автором самостоятельно.

Рекомендованный список диссертаций по специальности «Другие cпециальности», 00.00.00 шифр ВАК

Введение диссертации (часть автореферата) на тему «Модели и методы автоматического обнаружения, верификации и анализа недостоверной, искаженной и манипулятивной информации в текстовых данных»

Структура работы

Работа состоит из 5 основных глав, которые позволяют всесторонне рассмотреть задачу проверки и анализа текстовой информации с разных сторон. Для каждой из подзадач предлагаются как полные пайплайны решения, так и улучшения их отдельных компонентов (на основе внедрения новых архитектур и методов).

• Во второй главе представлен обзор методов и моделей, используемых как в NLP в целом, а также в решении конкретных задач, связанных с автоматическим анализом текстов. Данный обзор закладывает теоретическую базу для предлагаемых нами решений.

• В третьей главе представлен подход к проверке утверждений на основе источников. Демонстрируется успешность предложенного подхода в сравнении с существующими методами, а также возможность его применения в реальном времени (реализован в виде демо-системы). Кроме того, предложена диагностическая таксономия и соответствующий набор данных, которые помогают глубже понять ограничения обучающих данных и полученных моделей, а также генеративный фреймворк для повышения качества финальной модели определения логического отношения утверждения к тексту. Наконец, предложена демо-система для исправления галлюцинаций языковых моделей.

• В четвертой главе с целью уменьшения количества необходимых проверок предлагается новый пайплайн для поиска ранее проверенных утверждений. Пайплайн основан на лексической и семантической компонентах с дальнейшим переранжированием. Разработана новая функция потерь, оптимизированная для решения задачи определения семантической релевантности, а также ее модификации, позволяющие проводить обучение на шумных данных. Для дальнейшего увеличения качества с помощью методов distant supervision собран новый набор

данных и предложен подход его эффективного использования в процессе обучения.

• Наконец, в пятой главе рассматриваются подходы для стилистического анализа текста (без использования внешней информации). Предложен новый подход для нахождения и классификации манипулятивных техник, основанный на нахождении и устранении недостатков моделей на базе архитектуры Transformer (общность найденных ограничений подтверждена экспериментами на двух различных наборах данных и двух моделях). Отдельное внимание уделено особенностям русского языка, для которого предлагается новая классификационная схема манипулятивных техник, на основе которой был создан и размечен новый русскоязычный корпус текстов. Предложенный подход использован на данном корпусе в качестве базового подхода.

2 Обзор существующих моделей

В данной главе представлен обзор методов, которые используются в КЬР, начиная от классических алгоритмов, и заканчивая современными нейросетевыми моделями, дающими оптимальные результаты в различных задачах. На основе этих моделей мы затем разрабатываем новые пайплайны для решения подзадач.

2.1 Базовые методы NLP

2.1.1 Методы кодирования текстов на основе мешка слов

Наиболее простым способом кодирования текстов является модель "мешка слов". В ней текст представляется в виде словаря (на неупорядоченном множестве), где ключом является слово или токен (минимальная значимая единица текста), а значением - количество упоминаний этого слова в тексте. Модель допускает бинаризацию данных значений в 0 или 1, если количество упоминаний слов не является важным. Также из словаря можно исключить стоп-слова (слова, которые не несут отдельного смыслового вклада в понимание текста). Затем словарь представляется в виде вектора.

Также при составлении словаря могут применяться техники стемминга или нормализации слов. Целью стемминга является выделение основы слова. Таким образом все слова, которые отличаются суффиксом или префиксом, будут неразличимы с точки зрения словаря. Наиболее популярным алгоритмом является стеммер Портера, который последовательно модифицирует слово на основе набора ручных правил. Метод является вычислительно эффективным, но при этом валидность построения основы не гарантируется, что в целом не критично в задачах поиска информации. Нормализация (или лемматизация) приводит слова к нормальной форме. В отличие от стемминга это является более сложной задачей и ее решение основывается на использовании лингвистических баз (например, WordNet). В

процессе также часто решается подзадача определения грамматической категории слова (Part-of-Speech или POS-тэг). Таким образом, метод является более точным по сравнению со стеммингом, но одновременно и более долгим. Как правило, для языков с простыми морфологическими правилами (таких как английский), использование нормализации вместо стемминга избыточно.

Таким образом, в модели мешка слов каждый текст кодируется в виде вектора фиксированной длины, равной размеру словаря (элементами являются обработанные "токены"). После этого с векторами можно работать через классические алгоритмы машинного обучения (применять методы кластеризации, поиска похожих, классификационные модели), а также рассчитывать схожесть текстов через косинус или скалярное произведение. Метрикой сходства также может являться расстояние Жаккарда, которое рассчитывается как отношение пересечения слов к объединению. Она не учитывает частотность слов, но хорошо подходит для работы с короткими текстами, например, твитами.

2.1.2 Ранжирование и поиск на основе мешка слов

Кодирование текстов на основе мешка слов имеет важный недостаток -слова, которые встречаются часто (во всех текстах), имеют большой вес, и поэтому усложняют анализ. Решением может являться модель TF-IDF, которая учитывает важность слова относительно всего корпуса. Она состоит из двух компонент: TF - встречаемость терма (токена), равная количеству его упоминаний в тексте, деленная на длину текста; IDF - обратная частотность в документах, то есть уникальность данного слова, рассчитанная по всем текстам. IDF равен логарифму доли документов, содержащих данное слово. Здесь может также использоваться сглаживание числителя и знаменателя для увеличения стабильности алгоритма на редких словах (например, в виде добавления условного документа, содержащего все слова). Соответственно TF-IDF равен произведению TF на IDF.

Были предложены отдельные модификации данного метода, основанные на различных вариантах нормировки и логарифмирования. Одной из них является серия подходов BM25 (Best Matching 25). Метод предполагает нелинейность TF в виде сигмоидоподобной функции, за счет использования дополнительных параметров (что может исправить проблему больших значений для длинных документов). Различные функции подходов из этой серии, например Okapi, или BM25L определяются выбором этих параметров. BM25L включает еще один параметр на ограничение нижнего значения TF, и важен для коротких документов.

2.1.3 Кодирование на основе семантики

Более продвинутым шагом по сравнению с мешком слов является использование семантических векторных представлений, кодирующих смысл слов. В таком подходе слова, имеющие близкий смысл, должны иметь близкие вектора. На основе векторов слов можно получить векторное представление всего текста, например, через обычное усреднение (далее мы рассмотрим и нейросетевые методы).

Популярным подходом является модель GloVe (Global Vectors) [24], основанная на матрице совстречаемости слов (если слова встретились в одном контексте, значит они семантически близки). При построении модели минимизируется разность между скалярным произведением векторных представлений и логарифмом их совстречаемости. Совстречаемость определяется как количество упоминаний одного слова в контексте другого, деленное на суммарную длину контекстов. В оптимизации данной разности дополнительно используются сдвиги (также оптимизируемые), которые контролируют встречаемость контекстного слова и центрального слова (например, частотное слово "в" может встречаться во всех контекстах). Таким образом, модель охватывает полную статистику корпуса для обучения.

Другим популярным методом является FastText [25]. Аналогично модели Word2Vec (CBOW или Skip-Gram) FastText является вероятностной моделью, которая пытается предсказать либо слова из контекста по центральному (Skip-Gram) либо центральное слово по контексту (CBOW). Skip-gram уделяет большее внимание редким словам, так как не "усредняет" контекст. Вход кодируется через использование one-hot представлений, которые затем преобразовываются в скрытый слой (и усредняются в CBOW). Выходом является вектор, задающий вероятности слов (softmax). В отличие от Word2Vec модель оперирует не с токенами, а с сабтокенами, что делает ее более устойчивой для обработки новых слов (соответственно векторным представлением слова является сумма векторных представлений его подслов).

2.1.4 Именованные сущности

Для анализа текста часто полезно определять использованные концепты. Например, имена, организации, даты и т.д. Они представляют собой некоторые "ключевые" слова, которые могут использоваться для дальнейшего анализа (в задачах нахождения ответов на вопросы, информационного поиска, определения ключевых тем и т.п.). Задача выделения таких сущностей в NLP формализуется в виде класса задач NER (named entity recognition). Для автоматического выделения было разработано множество подходов и библиотек, основанных на нейросетевых методах, включая LSTM, BERT, CRF и другие.

2.1.5 Поиск кореференций

Часто весь текст нельзя использовать в качестве отдельной единицы при решении задачи (например, поиска), и он разбивается на отдельные составляющие. Чтобы добиться контекстной независимости требуется понимание взаимодействия между этими составляющими. Одним из подходов является определение кореферентных отношений, которые связывают упоминание одной и той же именованной сущности в разных фрагментах

текста. Таким образом, можно устранить проблему использованных местоимений (или других неполных упоминаний, например, "руководитель организации" вместо имени), дополнив фразу до полного контекста. В качестве автоматических методов нахождения кореференций используются подходы на основе правил или машинного обучения. Например, подход от Stanford NLP сначала выделяет набор текстовых фрагментов, которые относятся к сущностям, а затем определяет какие из них являются кореферентами [26].

2.1.6 Дерево составляющих

Деревья разбора являются методом для анализа синтаксической структуры предложения. Существует два основных вида таких деревьев: составляющих и зависимостей. Дерево составляющих показывает, как отдельные слов объединяются в составляющие. Вершинами дерева являются грамматические категории (например, глагольная группа VP, или именная группа NP), корнем является все предложение или анализируемая фраза. Вершины образуют иерархическую структуру, которая не обязана быть бинарной. Кроме того, группа NP может быть вложена в еще одну группу NP, например, "ключи от машины брата".

2.1.7 Дерево зависимостей

В лингвистическом анализе, наряду с методом представления синтаксической структуры через отношения составляющих, существует концепция, детального изученная в рамках Dependency Grammar (Dependency-based tree). В отличие от дерева составляющих данный подход анализирует зависимости между словами. Таким образом, слова связываются с другими направленными ребрами. Корнем также является слово ("head word"). Возможные варианты зависимостей: подлежащие с глаголом, дополнение с глаголом, прилагательное с существительным и т.п. (таким образом, вершина также может быть связана со многими).

2.2 Нейросетевые методы

На смену методам, основанным на ручных правилах, пришли статистические, а затем нейросетевые модели, что стало возможным благодаря большим объемам обучающих данных и появлению глубоких архитектур. При этом в области анализа изображений революция наступила быстрее, где довольно быстро переключились на использование больших наборов данных и больших моделей (ImageNet). Для NLP ситуация поменялась в 2018 году, когда был представлен BERT [27], который заместил все предыдущие базовые подходы и нейросетевые модели на основе LSTM. BERT основан на архитектуре Transformer, является большой языковой моделью, и большая доля успеха обусловлена применением механизма attention.

2.2.1 InferSent

Модель InferSent [28] основана на архитектуре RNN, а именно bidirectional-LSTM. Для получения финального векторного представления предложения из векторных представлений отдельных токенов авторы рассмотрели несколько вариаций. Например, может использоваться операции max-pooling и mean-pooling. В еще одном варианте предлагалось усреднять векторные представления с весами построенными аналогично механизму attention (softmax над скалярными эмбеддингами, полученными через полносвязный слой). Модель проходила обучение на задачах, связанных с выявлением логических следствий (NLI), и продемонстрировала высокую эффективность в сравнении с традиционными подходами, такими как GloVe и FastText. Однако, внедрение механизма внимания в каждый слой модели позволяет добиться еще более высоких показателей и проще учить зависимости между далекими словами. Это и было предложено в архитектуре Transformer.

2.2.2 Архитектура Transformer и механизм Attention

Архитектура Transformer [29] основана на двух частях: энкодера, который обрабатывает входную последовательность слов и представляет ее в виде некоторого эмбеддинга, и декодера, который на входе имеет полученный эмбеддинг энкодера и генерирует некоторую выходную последовательность (например, задача машинного перевода). Архитектура представлена на рисунке 2.1.

Рисунок 2.1 Архитектура модели Transformer [29].

Энкодер состоит из 6 "слоев", при этом все эти слои идентичны и

состоят из двух основных блоков: multi-head attention и полносвязной сети над

его выходом. Дополнительно в слое используются методы residual connection

(суммирование с входом для устранения проблемы затухающих градиентов) и

нормализация слоя. Декодер состоит из похожих повторяющихся "слоев", но

добавляет блок masked multi-head attention для обработки выходной

последовательности, смещенной на 1 (оперирует только с ранее доступными

24

токенами, это позволяет решить проблему заглядывания в будущее при генерации).

Итак, ключевым в данном подходе является механизм внимания (attention). В отличие от предыдущих подходов на основе LSTM он позволяет моделировать векторное представление каждого токена с учетом полного контекста. Основан на вычислении трех матриц: Query, Key, Value. Соответственно при вычислении нового эмбеддинга суммируются Value (векторные представления всех токенов) с весами (вниманием) равными softmax над скалярными произведениями эмбеддингов Query (текущего токена) и Key (всех токенов). Кроме этого, перед вычислением softmax используется масштабирующий множитель для скалярного произведения (равный 1/корень из размерности вектора), что защищает от больших значений dot-product и, соответственно, softmax не попадает в области с маленькими градиентами.

В случае мультиголового механизма внимания создаются отдельные матрицы Query, Key, Value (по количеству голов), а результаты применения стандартного attention объединяются и агрегируются через линейный слой. Это позволяет модели фокусироваться на отдельных паттернах при моделировании каждой головы.

Поскольку в архитектуре Transformer отказались от использования методов аналогичных LSTM (последовательная обработка последовательности), и все токены обрабатываются моделью одновременно, в модель добавили позиционные векторные представления. Они могут являться как синусоидальными функциями (оригинальный вариант), так и отдельными обучаемыми векторами (в последующих моделях, BERT, GPT). При использовании в модели они складываются с входными эмбеддингами токенов. Выбор функций на основе синусов и косинусов обусловлен их периодичностью и сохранением относительной информации. Так, при выборе

функций разных периодов можно отличать локальные связи от дальних зависимостей, что является относительно легкой задачей для обучаемой модели.

2.2.3 BERT

BERT [27] является языковой моделью, которая основана на архитектуре Transformer. Чтобы обучить языковую модель, используется большой корпус текстов, включающий Wikipedia и BookCorpus, и предлагается две задачи: MLM (masked language model), когда нужно угадать замаскированное слово на основе остальных (маскируются случайные 15%), что позволяет использовать как контекст до слова, так и контекст после (рисунок 2.2); NSP (next sentence prediction), когда требуется определить является ли одно предложение продолжением предыдущего.

Рисунок 2.2 Модель BERT основана на предобучении маскированной языковой модели (CLS, SEP являются специальными токенами для классификации и разделителем соответственно) [27].

После обучения языковой модели, можно обучить (провести этап fine-tuning) BERT на любую конкретную задачу. Для возможности классификации полного предложения (не на уровне токенов языковой модели), авторы добавили специальный CLS токен, векторное представление которого с последующей классификационной головой используется при получении итогового предсказания модели.

Оригинальная модель BERT была представлена в двух размерах: на 12 слоев (base) и 24 слоя (large).

2.2.4 Развитие BERT (RoBERTa и XLNet)

После большого успеха BERT стали появляться его потенциальные улучшения. Например, таким является модель RoBERTa [30], в которой убрали задачу NSP и увеличили объем данных и ресурсов для обучения. Также была изменена задача маскирования: токены маскировались не на все обучение, а динамически на каждый проход. Кроме этого, была проведена тщательная настройка гиперпараметров обучения. Полученная модель превзошла BERT и на сегодняшний день является state-of-the-art подходом в различных NLP задачах.

Были также предприняты попытки изменить определение обучения языковой модели. Так, XLNet [31] основан не на задаче MLM, а на задаче PLM (перемешанное языковое моделирование). В отличие от предсказания конкретного слова XLNet учится предсказывать все токены в предложении, но их порядок перемешивается. Таким образом, максимизируется вероятность последовательности по некоторой перестановке (каждый раз модель должна выбрать слово, которое входит в предложение). Это позволяет использовать двунаправленный контекст при обучении. Так же, как и для модели RoBERTa, авторы XLNet использовали в обучении гораздо больший объем данных по сравнению с BERT (7-кратное увеличение), что отчасти обусловлено сложностью задачи PLM.

2.2.5 SentenceBERT

Другим этапом развития стало появление модели SentenceBERT [32]. Вычислительная сложность механизма attention является квадратичная (все ко всем). В связи с этим метод является неэффективным с точки зрения применения, когда, например, требуется найти топ релевантных документов по запросу. Вместо этого можно использовать методы, основанные на векторных представлениях - рассчитать скалярное произведение векторного представления запроса и всех предварительно подсчитанных векторных представлений документов (для задачи классификации можно добавить классификационную голову с softmax над полученными эмбеддингами). Для обучения модели SentenceBERT используется сиамская архитектура, когда векторное представление каждой части вычисляется копиями модели BERT (подход в целом повторяет пайплайн InferSent, но использует BERT вместо LSTM). Соответственно обучение модели проводится на задачах попарной оценки. В качестве векторного представления предложения авторами было рассмотрено несколько вариантов: векторное представление CLS токена и агрегация векторных представлений всех токенов через усреднение. На наборе данных для оценки семантического сходства STS данный подход обошел ранее предложенные методы, включая GloVe, InferSent, а также базовый подход в виде простого усреднения векторных представлений, полученных из исходной языковой модели BERT.

2.2.6 GPT

Еще одной популярной архитектурой на базе Transformer является семейство моделей GPT [33]. В отличие от BERT данная модель предназначена для генерации текста и является авторегрессионной моделью (предсказание следующего слова). Таким образом, в то время как BERT использует Encoder из Transformer, модель GPT наоборот использует только

Decoder. Обучается модель слева направо и является "классической" языковой моделью, в отличие от двунаправленной модели BERT.

Исходная модель GPT получила множество улучшений. В каждой новой версии значительно увеличивалось количество параметров: 1.5 миллиарда параметров у GPT2 [34] против 117 миллионов у GPT, затем 175 миллиардов у GPT3 [35], 1.76 триллиона у GPT4 [36]. Версия GPT3 продемонстрировала важную способность решать множество задач NLP в режиме few-shot learning (на основе небольшого числа обучающих примеров). В более свежих версиях GPT3 и модели GPT4 были также использованы подходы обучения с подкреплением (Reinforcement Learning from Human Feedback). В этом случае модель генерировала несколько вариантов продолжения, которые оценивались асессорами. На основе оценок обучалась reward модель, и исходная модель училась максимизировать его при генерации.

2.3 Общие подходы машинного обучения в задачах NLP

В своих пайплайнах мы также используем общие методы машинного обучения, которые дополнительно могут повысить качество и в NLP задачах. Далее приводится их краткое описание.

2.3.1 Модели для ранжирования

Задача ранжирования предполагает упорядочивание списка кандидатов

по отношению к поданному на вход запросу. Подходы делятся на точечные,

парные и списочные. Pointwise (точечные) подходы предполагают

оптимизацию значений релевантности независимо. Хотя оптимальное

решение дает нужную сортировку, оптимизация теряет суть ранжирования,

поскольку штрафует за попадание в абсолютные значения, а не в нужный

порядок. В pairwise подходах для обучения используются пары примеров.

Функция потерь формулируется таким образом, чтобы значение

релевантности у "позитивной" пары было выше, чем у "негативной". В парах

также может быть зафиксирован общий элемент ("якорь"), тогда задача

29

модели - выбрать более релевантный документ из двух. Есть также и списочные подходы, которые учитывают весь сортированный список целиком при обучении, оптимизируя отклонение позиций в полученном и целевом списке.

Списочные (listwise) методы вычислительно более сложны, и поэтому сильнее распространены попарные методы. Одним из таких методов является RankNet [37], который предлагает классическую оптимизацию попарного лосса через логистическую функцию потерь (над разностью предсказаний, которая должна быть больше 0 для положительных пар). Далее было показано, что от оптимизации данного функционала можно перейти к оптимизации произвольной метрики (например, NDCG). Для этого в случае градиентного стохастического спуска достаточно каждый шаг умножать на абсолют изменения метрики, которое произойдет от перемены двух документов местами. Таким образом при обучении pairwise подхода, в градиентах были учтены особенности listwise подхода через специальные веса "лямбды". Данный подход был представлен как LambdaRank [38]. Тем не менее использование подхода на основе нейронной сети может быть дорогим и менее эффективным, поэтому метод был усовершенствован до подхода LambdaMART [39], объединяя идеи LambdaRank с моделью MART (Multiple Additive Regression Trees) [40]. Последняя в свою очередь является градиентным бустингом над деревьями решений, также известным как GBDT (Gradient Boosted Decision Trees), то есть подходом ансамблирования слабых моделей, где каждая следующая исправляет ошибки предыдущей.

2.3.2 CRF

Conditional Random Fields (CRF) [41] является статистическим методом машинного обучения, который направлен на моделирование взаимодействия между таргетами в последовательностях или структурированных данных (например, в текстах или изображениях). Метод моделирует условное

распределение меток при условии заданных наблюдаемых данных: для меток Y и данных X вероятность Р(Щ) = ехр(£к (U%(у%,Х) + Р(у%,у%-'))), где

• Ut (у% ,Х) являются унарными потенциалами и отражают совместимость метки у% с текущим словом х% (например, можно использовать логарифмы предсказанных вероятностей из обученной классифицирующей модели);

• P(Vi,yi-i) - парные потенциалы, зависящие от отношения между смежными метками, учитывающие их совместимость (могут быть статистическими, например, рассчитанной по обучающим данным статистикой, что метка Begin часто переходит к Inside в задаче NER);

• Z - нормировка, рассчитываемая как сумма вероятностей всех возможных последовательностей.

Предсказание происходит через выбор лучшей последовательности по алгоритму Витерби. Алгоритм вместо полного перебора всех последовательностей, работает итеративно, вычисляя вероятность для каждого текущего состояния с использованием вероятностей предыдущих состояний (так, для последовательности длины n и k меток требуется п* к2 операций). В данном процессе максимизации используются обученные значения для парных и унарных потенциалов.

2.4 Метрики качества

В данном разделе мы рассматриваем стандартные методы оценки качества, применяемые в задачах NLP. В своей работе мы решаем задачи классификации, регрессии и ранжирования.

Для оценки качества классификации применяются метрики accuracy и F1 score. Для их определения можно ввести понятия TP (true positive), TN (true negative), FN (false negative), FP (false positive), которые могут быть представлены в виде confusion matrix (матрицы ошибок). Accuracy = (TP +

TN) / (TP + TN + FP + FN), то есть доля правильно предсказанных меток, аналогично обобщается и на случай небинарной классификации. Precision = TP / (TP + FP) или точность, показывает долю правильно предсказанных положительных примеров среди предсказанных положительных. Recall = TP / (TP + FN) или полнота, показывает долю правильно предсказанных положительных среди всех фактических положительных. Наконец, F1 score определяется как среднее гармоническое над precision и recall: F1 = 2 * (Precision * Pecaii) / (Precision + Pecaii). Для обобщения на случай небинарной (многоклассовой) классификации есть вариации micro и macro усреднения. В macro усреднении происходит агрегация по классам, то есть можно посчитать F1 score для каждого класса по отдельности и усреднить. Также существует версия и с предварительным усреднением по классам метрик precision и recall c дальнейшим расчетом их гармонического среднего. Дополнительно можно использовать веса, равные количеству фактических примеров класса, при усреднении. В случае micro усреднения агрегация происходит на уровне вычисления TP, FP, TN, FN, что приводит к равенству FP и FN и соответственно метрике F1 score, равной accuracy (ей же равны микро-усредненные precision и recall). Важно также отметить, что данное свойство не выполняется для multi-label классификации, где каждый пример может относиться сразу к нескольким классам.

Похожие диссертационные работы по специальности «Другие cпециальности», 00.00.00 шифр ВАК

Список литературы диссертационного исследования кандидат наук Чернявский Антон Сергеевич, 2025 год

Список литературы

[1] G. Pennycook, A. Bear, E. T. Collins and D. G. Rand, "The Implied Truth Effect: Attaching Warnings to a Subset of Fake News Headlines Increases Perceived Accuracy of Headlines Without Warnings," Management Science, vol. 66, pp. 4944-4957, November 2020.

[2] S. Vosoughi, D. Roy and S. Aral, "The spread of true and false news online," Science, vol. 359, p. 1146-1151, 2018.

[3] L. Graves, "Understanding the Promise and Limits of Automated Fact-Checking," 2018.

[4] K. Shu, A. Sliva, S. Wang, J. Tang and H. Liu, "Fake News Detection on Social Media: A Data Mining Perspective," SIGKDD Explor. Newsl., vol. 19, p. 22-36, September 2017.

[5] A. Zubiaga, A. Aker, K. Bontcheva, M. Liakata and R. Procter, "Detection and Resolution of Rumours in Social Media: A Survey," ACM Comput. Surv., vol. 51, February 2018.

[6] J. Thorne and A. Vlachos, "Automated Fact Checking: Task Formulations, Methods and Future Directions," in Proceedings of the 27th International Conference on Computational Linguistics, Santa Fe, New Mexico, USA, 2018.

[7] Y. Li, J. Gao, C. Meng, Q. Li, L. Su, B. Zhao, W. Fan and J. Han, "A Survey on Truth Discovery," SIGKDD Explor. Newsl., vol. 17, p. 1-16, February 2016.

D. M. J. Lazer, M. A. Baum, Y. Benkler, A. J. Berinsky, K. M. Greenhill, F. Menczer, M. J. Metzger, B. Nyhan, G. Pennycook, D. Rothschild, M.

Schudson, S. A. Sloman, C. R. Sunstein, E. A. Thorson, D. J. Watts and J. L. Zittrain, "The science of fake news," Science, vol. 359, p. 1094-1096, 2018.

[9] D. Kuçuk and F. Can, "Stance Detection: A Survey," ACM Comput. Surv., vol. 53, February 2020.

[10] G. Da San Martino, S. Cresci, A. Barron-Cedeno, S. Yu, R. D. Pietro and P. Nakov, "A Survey on Computational Propaganda Detection," in Proceedings of the Twenty-Ninth International Joint Conference on Artificial Intelligence, 2020.

[11] E. Ferrara, O. Varol, C. Davis, F. Menczer and A. Flammini, "The Rise of Social Bots," Commun. ACM, vol. 59, p. 96-104, June 2016.

[12] S. Zannettou, M. Sirivianos, J. Blackburn and N. Kourtellis, "The Web of False Information: Rumors, Fake News, Hoaxes, Clickbait, and Various Other Shenanigans," J. Data and Information Quality, vol. 11, p. 10:1-10:37, 2019.

[13] R. Baeza-Yates, "Bias on the Web," Commun. ACM, vol. 61, p. 54-61, May 2018.

[14] M. Hardalov, A. Arora, P. Nakov and I. Augenstein, A Survey on Stance Detection for Mis- and Disinformation Identification, 2021.

[15] P. Nakov, D. Corney, M. Hasanain, F. Alam, T. Elsayed, A. Barron-Cedeno, P. Papotti, S. Shaar and G. D. S. Martino, "Automated Fact-Checking for Assisting Human Fact-Checkers," in Proceedings of the 30th International Joint Conference on Artificial Intelligence, Online, 2021.

[16] P. Nakov, H. T. Sencar, J. An and H. Kwak, "A Survey on Predicting the Factuality and the Bias of News Media," arXiv/2103.12506, 2021.

[17] F. Alam, S. Cresci, T. Chakraborty, F. Silvestri, D. Dimitrov, G. D. S. Martino, S. Shaar, H. Firooz and P. Nakov, "A Survey on Multimodal Disinformation Detection," arXiv/2103.12541, 2021.

[18] F. Alam, H. Mubarak, W. Zaghouani, G. Da San Martino and P. Nakov, "Overview of the WANLP 2022 Shared Task on Propaganda Detection in Arabic," in Proceedings of the The Seventh Arabic Natural Language Processing Workshop (WANLP), Abu Dhabi, United Arab Emirates (Hybrid), 2022.

[19] Y. Pan, L. Pan, W. Chen, P. Nakov, M.-Y. Kan and W. Wang, "On the Risk of Misinformation Pollution with Large Language Models," in Findings of the Association for Computational Linguistics: EMNLP 2023, Singapore, 2023.

[20] B. Riedel, I. Augenstein, G. P. Spithourakis and S. Riedel, "A simple but tough-to-beat baseline for the Fake News Challenge stance detection task," CoRR, vol. abs/1707.03264, 2017.

[21] J. Thorne, A. Vlachos, C. Christodoulopoulos and A. Mittal, "FEVER: a Large-scale Dataset for Fact Extraction and VERification," in Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies (NAACL-HLT '18), New Orleans, Louisiana, USA, 2018.

[22] A. Barron-Cedeno, T. Elsayed, P. Nakov, G. Da San Martino, M. Hasanain, R. Suwaileh, F. Haouari, N. Babulkov, B. Hamdan, A. Nikolov, S. Shaar and Z. S. Ali, "Overview of CheckThat! 2020 — Automatic Identification and Verification of Claims in Social Media," in Proceedings of the 11th International Conference of the CLEF Association: Experimental IR Meets Multilinguality, Multimodality, and Interaction, Thessaloniki, 2020.

[23] G. Da San Martino, A. Barron-Cedeno and P. Nakov, "Findings of the NLP4IF-2019 Shared Task on Fine-Grained Propaganda Detection," in

Proceedings of the Second Workshop on Natural Language Processing for Internet Freedom: Censorship, Disinformation, and Propaganda, Hong, 2019.

[24] J. Pennington, R. Socher and C. Manning, "GloVe: Global Vectors for Word Representation," in Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing (EMNLP), Doha, 2014.

[25] P. Bojanowski, E. Grave, A. Joulin and T. Mikolov, "Enriching Word Vectors with Subword Information," CoRR, vol. abs/1607.04606, 2016.

[26] K. Clark and C. D. Manning, "Improving Coreference Resolution by Learning Entity-Level Distributed Representations," in Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), Berlin, 2016.

[27] J. Devlin, M.-W. Chang, K. Lee and K. Toutanova, "BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding," in

Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers), Minneapolis, 2019.

[28] A. Conneau, D. Kiela, H. Schwenk, L. Barrault and A. Bordes, "Supervised Learning of Universal Sentence Representations from Natural Language Inference Data," in Proceedings of the 2017 Conference on Empirical Methods in Natural Language Processing, Copenhagen, 2017.

[29] A. Vaswani, N. Shazeer, N. Parmar, J. Uszkoreit, L. Jones, A. N. Gomez, L. Kaiser and I. Polosukhin, "Attention Is All You Need," CoRR, 2017.

[30] Y. Liu, M. Ott, N. Goyal, J. Du, M. Joshi, D. Chen, O. Levy, M. Lewis, L. Zettlemoyer and V. Stoyanov, "RoBERTa: A Robustly Optimized BERT Pretraining Approach," CoRR, 2019.

[31] Z. Yang, Z. Dai, Y. Yang, J. Carbonell, R. R. Salakhutdinov and Q. V. Le, "XLNet: Generalized Autoregressive Pretraining for Language Understanding," in Advances in Neural Information Processing Systems 32, Curran Associates, Inc., 2019, p. 5753-5763.

[32] N. Reimers and I. Gurevych, "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks," in Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing, Hong, 2019.

[33] A. Radford and K. Narasimhan, "Improving Language Understanding by Generative Pre-Training," 2018.

[34] A. Radford, J. Wu, R. Child, D. Luan, D. Amodei and I. Sutskever, "Language Models are Unsupervised Multitask Learners," 2019.

[35] T. Brown, B. Mann, N. Ryder, M. Subbiah, J. D. Kaplan, P. Dhariwal, A. Neelakantan, P. Shyam, G. Sastry, A. Askell, S. Agarwal, A. Herbert-Voss, G. Krueger, T. Henighan, R. Child, A. Ramesh, D. Ziegler, J. Wu, C. Winter, C. Hesse, M. Chen, E. Sigler, M. Litwin, S. Gray, B. Chess, J. Clark, C. Berner, S. McCandlish, A. Radford, I. Sutskever and D. Amodei, "Language Models are Few-Shot Learners," in Advances in Neural Information Processing Systems, 2020.

[36] OpenAI, J. Achiam, S. Adler, S. Agarwal, L. Ahmad, I. Akkaya, F. L. Aleman, D. Almeida, J. Altenschmidt, S. Altman, S. Anadkat, R. Avila, I. Babuschkin, S. Balaji, V. Balcom, P. Baltescu, H. Bao, M. Bavarian, J.

Belgum, I. Bello, J. Berdine, G. Bernadett-Shapiro, C. Berner, L. Bogdonoff, O. Boiko, M. Boyd, A.-L. Brakman, G. Brockman, T. Brooks, M. Brundage, K. Button, T. Cai, R. Campbell, A. Cann, B. Carey, C. Carlson, R. Carmichael, B. Chan, C. Chang, F. Chantzis, D. Chen, S. Chen, R. Chen, J. Chen, M. Chen, B. Chess, C. Cho, C. Chu, H. W. Chung, D. Cummings, J. Currier, Y. Dai, C. Decareaux, T. Degry, N. Deutsch, D. Deville, A. Dhar, D. Dohan, S. Dowling, S. Dunning, A. Ecoffet, A. Eleti, T. Eloundou, D. Farhi, L. Fedus, N. Felix, S. P. Fishman, J. Forte, I. Fulford, L. Gao, E. Georges, C. Gibson, V. Goel, T. Gogineni, G. Goh, R. Gontijo-Lopes, J. Gordon, M. Grafstein, S. Gray, R. Greene, J. Gross, S. S. Gu, Y. Guo, C. Hallacy, J. Han, J. Harris, Y. He, M. Heaton, J. Heidecke, C. Hesse, A. Hickey, W. Hickey, P. Hoeschele, B. Houghton, K. Hsu, S. Hu, X. Hu, J. Huizinga, S. Jain, S. Jain, J. Jang, A. Jiang, R. Jiang, H. Jin, D. Jin, S. Jomoto, B. Jonn, H. Jun, T. Kaftan, L. Kaiser, A. Kamali, I. Kanitscheider, N. S. Keskar, T. Khan, L. Kilpatrick, J. W. Kim, C. Kim, Y. Kim, J. H. Kirchner, J. Kiros, M. Knight, D. Kokotajlo, L. Kondraciuk, A. Kondrich, A. Konstantinidis, K. Kosic, G. Krueger, V. Kuo, M. Lampe, I. Lan, T. Lee, J. Leike, J. Leung, D. Levy, C. M. Li, R. Lim, M. Lin, S. Lin, M. Litwin, T. Lopez, R. Lowe, P. Lue, A. Makanju, K. Malfacini, S. Manning, T. Markov, Y. Markovski, B. Martin, K. Mayer, A. Mayne, B. McGrew, S. M. McKinney, C. McLeavey, P. McMillan, J. McNeil, D. Medina, A. Mehta, J. Menick, L. Metz, A. Mishchenko, P. Mishkin, V. Monaco, E. Morikawa, D. Mossing, T. Mu, M. Murati, O. Murk,

D. Mely, A. Nair, R. Nakano, R. Nayak, A. Neelakantan, R. Ngo, H. Noh, L. Ouyang, C. O'Keefe, J. Pachocki, A. Paino, J. Palermo, A. Pantuliano, G. Parascandolo, J. Parish, E. Parparita, A. Passos, M. Pavlov, A. Peng, A. Perelman, F. de Avila Belbute Peres, M. Petrov, H. P. de Oliveira Pinto, Michael, Pokorny, M. Pokrass, V. H. Pong, T. Powell, A. Power, B. Power,

E. Proehl, R. Puri, A. Radford, J. Rae, A. Ramesh, C. Raymond, F. Real, K. Rimbach, C. Ross, B. Rotsted, H. Roussez, N. Ryder, M. Saltarelli, T.

Sanders, S. Santurkar, G. Sastry, H. Schmidt, D. Schnurr, J. Schulman, D. Selsam, K. Sheppard, T. Sherbakov, J. Shieh, S. Shoker, P. Shyam, S. Sidor, E. Sigler, M. Simens, J. Sitkin, K. Slama, I. Sohl, B. Sokolowsky, Y. Song, N. Staudacher, F. P. Such, N. Summers, I. Sutskever, J. Tang, N. Tezak, M. B. Thompson, P. Tillet, A. Tootoonchian, E. Tseng, P. Tuggle, N. Turley, J. Tworek, J. F. C. Uribe, A. Vallone, A. Vijayvergiya, C. Voss, C. Wainwright, J. J. Wang, A. Wang, B. Wang, J. Ward, J. Wei, C. J. Weinmann, A. Welihinda, P. Welinder, J. Weng, L. Weng, M. Wiethoff, D. Willner, C. Winter, S. Wolrich, H. Wong, L. Workman, S. Wu, J. Wu, M. Wu, K. Xiao, T. Xu, S. Yoo, K. Yu, Q. Yuan, W. Zaremba, R. Zellers, C. Zhang, M. Zhang, S. Zhao, T. Zheng, J. Zhuang, W. Zhuk and B. Zoph, GPT-4 Technical Report, 2024.

[37] C. Burges, T. Shaked, E. Renshaw, A. Lazier, M. Deeds, N. Hamilton and G. Hullender, "Learning to rank using gradient descent," in Proceedings of the 22ndInternational Conference on Machine Learning, New York, NY, USA, 2005.

[38] C. J. C. Burges, R. J. Ragno and Q. V. Le, "Learning to Rank with Nonsmooth Cost Functions," in Neural Information Processing Systems, 2006.

[39] C. J. C. Burges, "From RankNet to LambdaRank to LambdaMART: An Overview," 2010.

[40] J. H. Friedman, "Greedy function approximation: A gradient boosting machine.," Annals of Statistics, vol. 29, pp. 1189-1232, 2001.

[41] J. D. Lafferty, A. McCallum and F. C. N. Pereira, "Conditional Random Fields: Probabilistic Models for Segmenting and Labeling Sequence Data,"

in Proceedings of the Eighteenth International Conference on Machine Learning, San Francisco, CA, USA, 2001.

[42] L. Derczynski, K. Bontcheva, M. Liakata, R. Procter, G. Wong Sak Hoi and A. Zubiaga, "SemEval-2017 Task 8: RumourEval: Determining rumour veracity and support for rumours," in Proceedings of the 11th International Workshop on Semantic Evaluation (SemEval-2017), Vancouver, 2017.

[43] G. Gorrell, E. Kochkina, M. Liakata, A. Aker, A. Zubiaga, K. Bontcheva and L. Derczynski, "SemEval-2019 Task 7: RumourEval, Determining Rumour Veracity and Support for Rumours," in Proceedings of the 13 th International Workshop on Semantic Evaluation, Minneapolis, 2019.

[44] T. Mihaylova, G. Karadzhov, P. Atanasova, R. Baly, M. Mohtarami and P. Nakov, "SemEval-2019 Task 8: Fact Checking in Community Question Answering Forums," in Proceedings of the 13th International Workshop on Semantic Evaluation, Minneapolis, 2019.

[45] P. Nakov, A. Barron-Cedeno, T. Elsayed, R. Suwaileh, L. Marquez, W. Zaghouani, P. Atanasova, S. Kyuchukov and G. Da San Martino, "Overview of the CLEF-2018 CheckThat! Lab on Automatic Identification and Verification of Political Claims," in Experimental IR Meets Multilinguality, Multimodality, and Interaction, Cham, 2018.

[46] T. Elsayed, P. Nakov, A. Barron-Cedeno, M. Hasanain, R. Suwaileh, G. Da San Martino and P. Atanasova, "CheckThat! at CLEF 2019: Automatic Identification and Verification of Claims," in Advances in Information Retrieval: 41st European Conference on IR Research, ECIR 2019, Cologne, Germany, April 14-18, 2019, Proceedings, PartII, Berlin, 2019.

[47] P. Nakov, G. Da San Martino, T. Elsayed, A. Barron-Cedeno, R. Miguez, S. Shaar, F. Alam, F. Haouari, M. Hasanain, N. Babulkov, A. Nikolov, G. K. Shahi, J. M. StruB and T. Mandl, "The CLEF-2021 CheckThat! Lab on Detecting Check-Worthy Claims, Previously Fact-Checked Claims, and Fake

News," in Proceedings of the 43rd European Conference on Information Retrieval, Lucca, 2021.

[48] A. Hanselowski, A. PVS, B. Schiller, F. Caspelherr, D. Chaudhuri, C. M. Meyer and I. Gurevych, "A Retrospective Analysis of the Fake News Challenge Stance-Detection Task," in Proceedings of the 27th International Conference on Computational Linguistics, Santa Fe, New Mexico, USA, 2018.

[49] J. Thorne, A. Vlachos, O. Cocarascu, C. Christodoulopoulos and A. Mittal, "The Fact Extraction and VERification (FEVER) Shared Task," in Proceedings of the First Workshop on Fact Extraction and VERification (FEVER '18), Brussels, 2018.

[50] J. Thorne, A. Vlachos, O. Cocarascu, C. Christodoulopoulos and A. Mittal, "The FEVER2.0 Shared Task," in Proceedings of the Second Workshop on Fact Extraction and VERification (FEVER '19), Hong, 2019.

[51] R. Aly, Z. Guo, M. S. Schlichtkrull, J. Thorne, A. Vlachos, C. Christodoulopoulos, O. Cocarascu and A. Mittal, "The Fact Extraction and VERification Over Unstructured and Structured information (FEVEROUS) Shared Task," in Proceedings of the Fourth Workshop on Fact Extraction and VERification (FEVER), Dominican Republic, 2021.

[52] Y. Bang, S. Cahyawijaya, N. Lee, W. Dai, D. Su, B. Wilie, H. Lovenia, Z. Ji, T. Yu, W. Chung, Q. V. Do, Y. Xu and P. Fung, "A Multitask, Multilingual, Multimodal Evaluation of ChatGPT on Reasoning, Hallucination, and Interactivity," in Proceedings of the 13th International Joint Conference on Natural Language Processing and the 3rd Conference of the Asia-Pacific Chapter of the Association for Computational Linguistics (Volume 1: Long Papers), Nusa, 2023.

[53] A. Borji, A Categorical Archive of ChatGPT Failures, 2023.

[54] C. Castillo, M. Mendoza and B. Poblete, "Information Credibility on Twitter," in Proceedings of the 20th International Conference on World Wide Web, Hyderabad, 2011.

[55] H. Rashkin, E. Choi, J. Y. Jang, S. Volkova and Y. Choi, "Truth of Varying Shades: Analyzing Language in Fake News and Political Fact-Checking," in

Proceedings of the 2017 Conference on Empirical Methods in Natural Language Processing (EMNLP '17), Copenhagen, 2017.

[56] W. Y. Wang, "''Liar, Liar Pants on Fire'': A New Benchmark Dataset for Fake News Detection," in Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics (ACL '17), Vancouver, 2017.

[57] N. Lee, Y. Bang, A. Madotto and P. Fung, "Towards Few-shot Fact-Checking via Perplexity," in Proceedings of the 2021 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Online, 2021.

[58] F. Petroni, T. Rocktaschel, S. Riedel, P. Lewis, A. Bakhtin, Y. Wu and A. Miller, "Language Models as Knowledge Bases?," in Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP '19), Hong, 2019.

[59] A. Rogers, O. Kovaleva and A. Rumshisky, A Primer in BERTology: What we know about how BERT works, 2020.

[60] N. Lee, B. Li, S. Wang, W.-t. Yih, H. Ma and M. Khabsa, "Language Models as Fact Checkers?," in Proceedings of the Third Workshop on Fact Extraction and VERification (FEVER '20), Online, 2020.

[61] S. Shaar, N. Babulkov, G. Da San Martino and P. Nakov, "That is a Known Lie: Detecting Previously Fact-Checked Claims," in Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics, 2020.

[62] P. Nakov, G. Da San Martino, T. Elsayed, A. Barron-Cedeno, R. Miguez, S. Shaar, F. Alam, F. Haouari, M. Hasanain, W. Mansour, B. Hamdan, Z. S. Ali, N. Babulkov, A. Nikolov, G. K. Shahi, J. M. Struß, T. Mandl, M. Kutlu and Y. S. Kartal, "Overview of the CLEF-2021 CheckThat! Lab on Detecting Check-Worthy Claims, Previously Fact-Checked Claims, and Fake News," in Experimental IR Meets Multilinguality, Multimodality, and Interaction: 12th International Conference of the CLEF Association, CLEF 2021, Virtual Event, September 21-24, 2021, Proceedings, Berlin, 2021.

[63] W. Chen, H. Wang, J. Chen, Y. Zhang, H. Wang, S. Li, X. Zhou and W. Y. Wang, "TabFact: A Large-scale Dataset for Table-based Fact Verification,"

in Proceedings of the 8th International Conference on Learning Representations, Addis, 2020.

[64] M. H. Gad-Elrab, D. Stepanova, J. Urbani and G. Weikum, "Tracy: Tracing Facts over Knowledge Graphs and Text," in Proceedings of the World Wide Web Conference, San Francisco, CA, USA, 2019.

[65] W. Otto, "Team GESIS Cologne: An all in all sentence-based approach for FEVER," in Proceedings of the First Workshop on Fact Extraction and VERification (FEVER '18), Brussels, 2018.

[66] T. Chakrabarty, T. Alhindi and S. Muresan, "Robust Document Retrieval and Individual Evidence Modeling for Fact Extraction and Verification," in

Proceedings of the First Workshop on Fact Extraction and VERification (FEVER '18), Brussels, 2018.

[67] A. Hanselowski, H. Zhang, Z. Li, D. Sorokin, B. Schiller, C. Schulz and I. Gurevych, "UKP-Athene: Multi-Sentence Textual Entailment for Claim Verification," in Proceedings of the First Workshop on Fact Extraction and VERification, Brussels, 2018.

[68] A. Alonso-Reina, R. Sepúlveda-Torres, E. Saquete and M. Palomar, "Team GPLSI. Approach for automated fact checking," in Proceedings of the Second Workshop on Fact Extraction and VERification (FEVER '19), Hong, 2019.

[69] T. Yoneda, J. Mitchell, J. Welbl, P. Stenetorp and S. Riedel, "UCL Machine Reading Group: Four Factor Framework For Fact Finding (HexaF)," in Proceedings of the First Workshop on Fact Extraction and VERification (FEVER '18), Brussels, 2018.

[70] C. Malon, "Team Papelo: Transformer Networks at FEVER," in Proceedings of the First Workshop on Fact Extraction and VERification (FEVER '18), Brussels, 2018.

[71] Y. Nie, H. Chen and M. Bansal, "Combining Fact Extraction and Verification with Neural Semantic Matching Networks," in AAAI Conference on Artificial Intelligence, 2018.

[72] C. Hidey and M. Diab, "Team SWEEPer: Joint Sentence Extraction and Fact Checking with Pointer Networks," in Proceedings of the First Workshop on Fact Extraction and VERification (FEVER '18), Brussels, 2018.

[73] D. Stammbach and G. Neumann, "Team DOMLIN: Exploiting Evidence Enhancement for the FEVER Shared Task," in Proceedings of the Second Workshop on Fact Extraction and VERification (FEVER '19), Hong, 2019.

[74] C. Shao, G. L. Ciampaglia, A. Flammini and F. Menczer, "Hoaxy: A Platform for Tracking Online Misinformation," in Proceedings of the 25th

International Conference Companion on World Wide Web, Montréal, Québec, Canada, 2016.

[75] K. Popat, S. Mukherjee, J. Strotgen and G. Weikum, "CredEye: A Credibility Lens for Analyzing and Explaining Misinformation," in Companion Proceedings of the The Web Conference 2018, Lyon, 2018.

[76] K. Popat, S. Mukherjee, A. Yates and G. Weikum, "STANCY: Stance Classification Based on Consistency Cues," in Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP '19), Hong, 2019.

[77] Y. Zhang, G. Da San Martino, A. Barron-Cedeno, S. Romeo, J. An, H. Kwak, T. Staykovski, I. Jaradat, G. Karadzhov, R. Baly, K. Darwish, J. Glass and P. Nakov, "Tanbih: Get To Know What You Are Reading," in Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP '19): System Demonstrations, Hong, 2019.

[78] M. a. F. W. a. X. B. a. M. M. a. G. J. Nadeem, "FAKTA: An Automatic End-to-End Fact Checking System," in Proceedings of the 2019 Conference of the North (Ajmerican Chapter of the Association for Computational Linguistics (Demonstrations), 2019.

[79] E. Wallace, S. Feng, N. Kandpal, M. Gardner and S. Singh, "Universal Adversarial Triggers for Attacking and Analyzing NLP," in Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP), Hong, 2019.

[80] J. Morris, E. Lifland, J. Y. Yoo, J. Grigsby, D. Jin and Y. Qi, "TextAttack: A Framework for Adversarial Attacks, Data Augmentation, and Adversarial Training in NLP," in Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing: System Demonstrations, Online, 2020.

[81] Y. Nie, A. Williams, E. Dinan, M. Bansal, J. Weston and D. Kiela, "Adversarial NLI: A New Benchmark for Natural Language Understanding,"

in Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics, Online, 2020.

[82] J. Wang, T. Zhang, S. Liu, P.-Y. Chen, J. Xu, M. Fardad and B. Li, "Adversarial Attack Generation Empowered by Min-Max Optimization," in

Advances in Neural Information Processing Systems (NeurIPS), 2021.

[83] J. Thorne, A. Vlachos, C. Christodoulopoulos and A. Mittal, "Evaluating adversarial attacks against multiple fact verification systems," in Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP), Hong, 2019.

[84] P. Niewinski, M. Pszona and M. Janicka, "GEM: Generative Enhanced Model for adversarial attacks," in Proceedings of the Second Workshop on Fact Extraction and VERification (FEVER), Hong, 2019.

[85] Y. Kim and J. Allan, "FEVER Breaker's Run of Team NbAuzDrLqg," in

Proceedings of the Second Workshop on Fact Extraction and VERification (FEVER), Hong, 2019.

[86] A. Wang, A. Singh, J. Michael, F. Hill, O. Levy and S. Bowman, "GLUE: A Multi-Task Benchmark and Analysis Platform for Natural Language Understanding," in Proceedings of the 2018 EMNLP Workshop

BlackboxNLP: Analyzing and Interpreting Neural Networks for NLP, Brussels, 2018.

[87] A. Wang, Y. Pruksachatkun, N. Nangia, A. Singh, J. Michael, F. Hill, O. Levy and S. Bowman, "SuperGLUE: A Stickier Benchmark for GeneralPurpose Language Understanding Systems," in Advances in Neural Information Processing Systems, 2019.

[88] P. Joshi, S. Aditya, A. Sathe and M. Choudhury, "TaxiNLI: Taking a Ride up the NLU Hill," in Proceedings of the 24th Conference on Computational Natural Language Learning, Online, 2020.

[89] M. T. Ribeiro, T. Wu, C. Guestrin and S. Singh, "Beyond Accuracy: Behavioral Testing of NLP Models with CheckList," in Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics, Online, 2020.

[90] P. Rottger, B. Vidgen, D. Nguyen, Z. Waseem, H. Margetts and J. Pierrehumbert, "HateCheck: Functional Tests for Hate Speech Detection Models," in Proceedings of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing (Volume 1: Long Papers), Online, 2021.

[91] S. Meyer, D. Elsweiler, B. Ludwig, M. Fernandez-Pichel and D. E. Losada, "Do We Still Need Human Assessors? Prompt-Based GPT-3 User Simulation in Conversational AI," in Proceedings of the 4th Conference on Conversational User Interfaces, New York, NY, USA, 2022.

[92] L. Bonifacio, H. Abonizio, M. Fadaee and R. Nogueira, "InPars: Unsupervised Dataset Generation for Information Retrieval," in Proceedings of the 45th International ACM SIGIR Conference on Research and Development in Information Retrieval, New York, NY, USA, 2022.

[93] Y. Wang, C. Xu, Q. Sun, H. Hu, C. Tao, X. Geng and D. Jiang, "PromDA: Prompt-based Data Augmentation for Low-Resource NLU Tasks," in Proceedings of the 60th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), Dublin, 2022.

[94] J. Park, S. Min, J. Kang, L. Zettlemoyer and H. Hajishirzi, "FaVIQ: FAct Verification from Information-seeking Questions," in Proceedings of the 60th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), Dublin, 2022.

[95] D. Wadden, S. Lin, K. Lo, L. L. Wang, M. van Zuylen, A. Cohan and H. Hajishirzi, "Fact or Fiction: Verifying Scientific Claims," in Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP), Online, 2020.

[96] S. Bird and E. Loper, "NLTK: The Natural Language Toolkit," in

Proceedings of the ACL Interactive Poster and Demonstration Sessions (ACL '04), Barcelona, 2004.

[97] P. Nakov, "Building an Inflectional Stemmer for Bulgarian," in Proceedings of the 4th International Conference on Computer Systems and Technologies, Sofia, 2003.

[98] P. Nakov, "BulStem: Design and Evaluation of Inflectional Stemmer for Bulgarian," in Proceedings of the Workshop on Balkan Language Resources and Tools, Thessaloniki, 2003.

[99] R. S. Jackendoff, Semantic Structures, Cambridge: MIT Press, 1990.

[100] H. Liu and P. Singh, "ConceptNet — A Practical Commonsense Reasoning Tool-Kit," BT Technology Journal, vol. 22, pp. 211-226, 2004.

[101] R. Speer, J. Chin and C. Havasi, "ConceptNet 5.5: an open multilingual graph of general knowledge," in Proceedings of the Thirty-First AAAI Conference on Artificial Intelligence, San Francisco, California, USA, 2017.

[102] G. A. Miller, "WordNet: A Lexical Database for English," in Human Language Technology: Proceedings of a Workshop held at Plainsboro, New Jersey, March 8-11, 1994, 1994.

[103] J. Chen, L. Chen, H. Huang and T. Zhou, "When do you need Chain-of-Thought Prompting for ChatGPT?," CoRR, vol. abs/2304.03262, 2023.

[104] M. DeHaven and S. Scott, "BEVERS: A General, Simple, and Performant Framework for Automatic Fact Verification," in Proceedings of the Sixth Fact Extraction and VERification Workshop (FEVER), Dubrovnik, 2023.

[105] N. Kandpal, H. Deng, A. Roberts, E. Wallace and C. Raffel, "Large Language Models Struggle to Learn Long-Tail Knowledge," CoRR, vol. abs/2211.08411, 2022.

[106] A. Mallen, A. Asai, V. Zhong, R. Das, D. Khashabi and H. Hajishirzi, "When Not to Trust Language Models: Investigating Effectiveness of Parametric and Non-Parametric Memories," in Proceedings of the 61st Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), ACL 2023, Toronto, Canada, July 9-14, 2023, 2023.

[107] C. Zhou, G. Neubig, J. Gu, M. T. Diab, F. Guzman, L. Zettlemoyer and M. Ghazvininejad, "Detecting Hallucinated Content in Conditional Neural Sequence Generation," in Findings of the Association for Computational Linguistics: ACL/IJCNLP 2021, Online Event, August 1-6, 2021, 2021.

[108] L. Gao, Z. Dai, P. Pasupat, A. Chen, A. T. Chaganty, Y. Fan, V. Y. Zhao, N. Lao, H. Lee, D.-C. Juan and K. Guu, "Attributed Text Generation via Post-hoc Research and Revision," CoRR, vol. abs/2210.08726, 2022.

[109] P. Lewis, E. Perez, A. Piktus, F. Petroni, V. Karpukhin, N. Goyal, H. Kuttler, M. Lewis, W.-t. Yih, T. Rocktaschel, S. Riedel and D. Kiela, "Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks," in Advances in Neural Information Processing Systems, 2020.

[110] S. Longpre, K. Perisetla, A. Chen, N. Ramesh, C. DuBois and S. Singh, "Entity-Based Knowledge Conflicts in Question Answering," in Proceedings of the 2021 Conference on Empirical Methods in Natural Language Processing, Online and Punta Cana, Dominican Republic, 2021.

[111] C. Si, Z. Gan, Z. Yang, S. Wang, J. Wang, J. L. Boyd-Graber and L. Wang, "Prompting GPT-3 To Be Reliable," in The Eleventh International Conference on Learning Representations, 2023.

[112] B. Peng, M. Galley, P. He, H. Cheng, Y. Xie, Y. Hu, Q. Huang, L. Liden, Z. Yu, W. Chen and J. Gao, "Check Your Facts and Try Again: Improving Large Language Models with External Knowledge and Automated Feedback," CoRR, vol. abs/2302.12813, 2023.

[113] B. Galitsky, "Improving open domain content generation by text mining and alignment," Artificial Intelligence for Healthcare Applications and Management; Galitsky, B., Golberg, C., Eds, 2022.

[114] B. Galitsky, A. Chernyavskiy and D. Ilvovsky, "Truth-O-Meter: Handling Multiple Inconsistent Sources Repairing LLM Hallucinations," in

Proceedings of the 47th International ACM SIGIR Conference on Research and Development in Information Retrieval, New York, NY, USA, 2024.

[115] N. Hassan, G. Zhang, F. Arslan, J. Caraballo, D. Jimenez, S. Gawsane, S. Hasan, M. Joseph, A. Kulkarni, A. K. Nayak, V. Sable, C. Li and M. Tremayne, "ClaimBuster: The First-Ever End-to-End Fact-Checking System," Proceedings of the International Conference on Very Large Data Bases, vol. 10, p. 1945-1948, 2017.

[116] M. G. a. D. B. a. M. Z. a. A. T. a. K. B. a. P. F. a. S. D. a. K. Todorov, "Exploring Fact-checked Claims and their Descriptive Statistics," in

International Workshop on the Semantic Web, 2019.

[117] M. Bouziane, H. Perrin, A. Cluzeau, J. Mardas and A. Sadeq, "Team Buster.ai at CheckThat! 2020 Insights and Recommendations to Improve Fact-Checking," in CLEF, 2020.

[118] L. C. Passaro, A. Bondielli, A. Lenci and F. Marcelloni, "UNIPI-NLE at CheckThat! 2020: Approaching Fact Checking from a Sentence Similarity Perspective Through the Lens of Transformers," in CLEF, 2020.

[119] R. Hadsell, S. Chopra and Y. LeCun, "Dimensionality Reduction by Learning an Invariant Mapping," in Proceedings of the 2006 IEEE Computer Society Conference on Computer Vision and Pattern Recognition, New York, NY, USA, 2006.

[120] K. Q. Weinberger, J. Blitzer and L. Saul, "Distance Metric Learning for Large Margin Nearest Neighbor Classification," in Advances in Neural Information Processing Systems: Annual Conference on Neural Information Processing Systems, 2006.

[121] M. Henderson, R. Al-Rfou, B. Strope, Y.-h. Sung, L. Lukacs, R. Guo, S. Kumar, B. Miklos and R. Kurzweil, "Efficient Natural Language Response Suggestion for Smart Reply," ArXiv, vol. abs/1705.00652, 2017.

[122] Y. Yang, S. Yuan, D. Cer, S.-y. Kong, N. Constant, P. Pilar, H. Ge, Y.-H. Sung, B. Strope and R. Kurzweil, "Learning Semantic Textual Similarity from Conversations," in Proceedings of the Third Workshop on Representation Learning for NLP, Melbourne, 2018.

[123] T. Chen, Y. Sun, Y. Shi and L. Hong, "On Sampling Strategies for Neural Network-Based Collaborative Filtering," in Proceedings of the 23rd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, Halifax, 2017.

[124] Z. Wu, Y. Xiong, S. X. Yu and D. Lin, "Unsupervised Feature Learning via Non-Parametric Instance Discrimination," in Proceedings of the 2018 IEEE Conference on Computer Vision and Pattern Recognition, Salt Lake City, Utah, USA, 2018.

[125] L. Logeswaran and H. Lee, "An efficient framework for learning sentence representations," in Proceedings of the 6th International Conference on Learning Representations, ICLR 2018, Vancouver, 2018.

[126] A. van den Oord, Y. Li and O. Vinyals, "Representation Learning with Contrastive Predictive Coding," CoRR, vol. abs/1807.03748, 2018.

[127] M. I. Belghazi, A. Baratin, S. Rajeshwar, S. Ozair, Y. Bengio, A. Courville and D. Hjelm, "Mutual Information Neural Estimation," in Proceedings of the 35th International Conference on Machine Learning, Stockholm, 2018.

[128] D. Hjelm, A. Fedorov, S. Lavoie-Marchildon, K. Grewal, P. Bachman, A. Trischler and Y. Bengio, "Learning deep representations by mutual information estimation and maximization," in Proceedings of the 7th International Conference on Learning Representations, New Orleans, Louisiana, USA, 2019.

[129] M. Tschannen, J. Djolonga, P. K. Rubenstein, S. Gelly and M. Lucic, "On Mutual Information Maximization for Representation Learning," in

Proceedings of the 8th International Conference on Learning Representations, ICLR 2020, Addis, 2020.

[130] T. Chen, S. Kornblith, M. Norouzi and G. Hinton, "A Simple Framework for Contrastive Learning of Visual Representations," in Proceedings of the 37th International Conference on Machine Learning, 2020.

[131] P. Khosla, P. Teterwak, C. Wang, A. Sarna, Y. Tian, P. Isola, A. Maschinot, C. Liu and D. Krishnan, "Supervised Contrastive Learning," in Advances in Neural Information Processing Systems: Annual Conference on Neural Information Processing Systems, 2020.

[132] B. Gunel, J. Du, A. Conneau and V. Stoyanov, "Supervised Contrastive Learning for Pre-trained Language Model Fine-tuning," in Proceedings of the 9th International Conference on Learning Representations, ICLR 2021, Virtual, 2021.

[133] J. Giorgi, O. Nitski, B. Wang and G. Bader, "DeCLUTR: Deep Contrastive Learning for Unsupervised Textual Representations," in Proceedings of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing (Volume 1: Long Papers), Online, 2021.

[134] H. Fang and P. Xie, "CERT: Contrastive Self-supervised Learning for Language Understanding," CoRR, vol. abs/2005.12766, 2020.

[135] Y. Meng, C. Xiong, P. Bajaj, S. Tiwary, P. Bennett, J. Han and X. Song, "COCO-LM: Correcting and Contrasting Text Sequences for Language Model Pretraining," in Advances in Neural Information Processing Systems:

Annual Conference on Neural Information Processing Systems, Virtual Event, 2021.

[136] T. Gao, X. Yao and D. Chen, "SimCSE: Simple Contrastive Learning of Sentence Embeddings," in Proceedings of the 2021 Conference on Empirical Methods in Natural Language Processing, Online and Punta Cana, Dominican Republic, 2021.

[137] N. Vo and K. Lee, "Where Are the Facts? Searching for Fact-checked Information to Alleviate the Spread of Fake News," in Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing, 2020.

[138] J. Johnson, M. Douze and H. Jegou, "Billion-Scale Similarity Search with GPUs," IEEE Transactions on Big Data, vol. 7, p. 535-547, 2021.

[139] L. a. Z. C. a. Z. H. Huang, "Self-Adaptive Training: beyond Empirical Risk Minimization," in Advances in Neural Information Processing Systems, 2020.

[140] A. Pritzkau, O. Blanc, M. Geierhos and U. Schade, "NLytics at CheckThat!-2022: Hierarchical multi-class fake news detection of news articles exploiting the topic structure," in Conference and Labs of the Evaluation Forum, 2022.

[141] H. Hashemi, M. Aliannejadi, H. Zamani and W. B. Croft, "ANTIQUE: A Non-factoid Question Answering Benchmark," in Advances in Information Retrieval, Cham, 2020.

[142] P. Nakov, D. Hoogeveen, L. Marquez, A. Moschitti, H. Mubarak, T. Baldwin and K. Verspoor, "SemEval-2017 Task 3: Community Question Answering," in Proceedings of the 11th International Workshop on Semantic Evaluation, Vancouver, 2017.

[143] W. B. Dolan and C. Brockett, "Automatically Constructing a Corpus of Sentential Paraphrases," in Proceedings of the Third International Workshop on Paraphrasing (IWP2005), 2005.

[144] Z. Chen, H. Zhang, X. Zhang and L. Zhao, "Quora Question Pairs," 2017.

[145] N. Thakur, N. Reimers, J. Daxenberger and I. Gurevych, "Augmented SBERT: Data Augmentation Method for Improving Bi-Encoders for Pairwise Sentence Scoring Tasks," in Proceedings of the 2021 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Online, 2021.

[146] D. Cer, M. Diab, E. Agirre, I. Lopez-Gazpio and L. Specia, "SemEval-2017 Task 1: Semantic Textual Similarity Multilingual and Crosslingual Focused Evaluation," in Proceedings of the 11th International Workshop on Semantic Evaluation (SemEval-2017), Vancouver, 2017.

[147] E. Bagdasaryan and V. Shmatikov, "Spinning Language Models: Risks of Propaganda-As-A-Service and Countermeasures," in 43rd IEEE Symposium on Security and Privacy, SP 2022, San Francisco, CA, USA, May 22-26, 2022, 2022.

[148] K. Wach, C. Duong, J. Ejdys, R. Kazlauskaite, P. Korzynski, G. Mazurek, J. Paliszkiewicz and E. Ziemba, "The dark side of generative artificial intelligence: A critical analysis of controversies and risks of ChatGPT,"

Entrepreneurial Business and Economics Review, vol. 11, pp. 7-30, June 2023.

[149] D. Arnaudo, S. Bradshaw, H. H. Ooi, K. Schwalbe, V. Zakem and A. Zink, "Combating Information Manipulation: A Playbook for Elections and Beyond," September 2021.

[150] G. Da San Martino, A. Barron-Cedeno, H. Wachsmuth, R. Petrov and P. Nakov, "SemEval-2020 Task 11: Detection of Propaganda Techniques in News Articles," in Proceedings of the Fourteenth Workshop on Semantic Evaluation, Barcelona (online), 2020.

[151] R. Torok, "Symbiotic radicalisation strategies: Propaganda tools and neuro linguistic programming," 2015.

[152] A. Jewett, "Detecting and Analyzing Propaganda," The English Journal, vol. 29, p. 105-115, 1940.

[153] A. Weston, A Rulebook for Arguments, Hackett Student Handbooks, 2000.

[154] J. Brennen, F. Simon, P. Howard and R. Nielsen, Types, Sources, and Claims of COVID-19Misinformation, 2020.

[155] D. Dimitrov, B. Bin Ali, S. Shaar, F. Alam, F. Silvestri, H. Firooz, P. Nakov and G. Da San Martino, "SemEval-2021 Task 6: Detection of Persuasion Techniques in Texts and Images," in Proceedings of the 15th International Workshop on Semantic Evaluation (SemEval-2021), Online, 2021.

[156] J. Piskorski, N. Stefanovitch, G. Da San Martino and P. Nakov, "SemEval-2023 Task 3: Detecting the Category, the Framing, and the Persuasion Techniques in Online News in a Multi-lingual Setup," in Proceedings of the 17th International Workshop on Semantic Evaluation (SemEval-2023), Toronto, 2023.

[157] G. Da San Martino, S. Yu, A. Barron-Cedeno, R. Petrov and P. Nakov, "FineGrained Analysis of Propaganda in News Article," in Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP), Hong, 2019.

[158] G. Da San Martino, S. Shaar, Y. Zhang, S. Yu, A. Barron-Cedeno and P. Nakov, "Prta: A System to Support the Analysis of Propaganda Techniques in the News," in Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics: System Demonstrations, Seattle, 2020.

[159] A. Fadel, I. Tuffaha and M. Al-Ayyoub, "Pretrained Ensemble Learning for Fine-Grained Propaganda Detection," in Proceedings of the Second Workshop on Natural Language Processing for Internet Freedom: Censorship, Disinformation, and Propaganda, Hong, 2019.

[160] W. Hou and Y. Chen, "CAUnLP at NLP4IF 2019 Shared Task: Context-Dependent BERT for Sentence-Level Propaganda Detection," in Proceedings of the Second Workshop on Natural Language Processing for Internet Freedom: Censorship, Disinformation, and Propaganda, Hong, 2019.

[161] Y. Hua, "Understanding BERT performance in propaganda analysis," in

Proceedings of the Second Workshop on Natural Language Processing for Internet Freedom: Censorship, Disinformation, and Propaganda, Hong, 2019.

[162] N. Mapes, A. White, R. Medury and S. Dua, "Divisive Language and Propaganda Detection using Multi-head Attention Transformers with Deep Learning BERT-based Language Models for Binary Classification," in

Proceedings of the Second Workshop on Natural Language Processing for Internet Freedom: Censorship, Disinformation, and Propaganda, Hong, 2019.

[163] T. Alhindi, J. Pfeiffer and S. Muresan, "Fine-Tuned Neural Models for Propaganda Detection at the Sentence and Fragment levels," in Proceedings of the Second Workshop on Natural Language Processing for Internet Freedom: Censorship, Disinformation, and Propaganda, Hong, 2019.

[164] P. Gupta, K. Saxena, U. Yaseen, T. Runkler and H. Schütze, "Neural Architectures for Fine-Grained Propaganda Detection in News," in Proceedings of the Second Workshop on Natural Language Processing for Internet Freedom: Censorship, Disinformation, and Propaganda, Hong, 2019.

[165] A. Ferreira Cruz, G. Rocha and H. Lopes Cardoso, "On Sentence Representations for Propaganda Detection: From Handcrafted Features to Word Embeddings," in Proceedings of the Second Workshop on Natural Language Processing for Internet Freedom: Censorship, Disinformation, and Propaganda, Hong, 2019.

[166] H. Tayyar Madabushi, E. Kochkina and M. Castelle, "Cost-Sensitive BERT for Generalisable Sentence Classification on Imbalanced Data," in

Proceedings of the Second Workshop on Natural Language Processing for Internet Freedom: Censorship, Disinformation, and Propaganda, Hong, 2019.

[167] S. Yoosuf and Y. Yang, "Fine-Grained Propaganda Detection with Fine-Tuned BERT," in Proceedings of the Second Workshop on Natural Language Processing for Internet Freedom: Censorship, Disinformation, and Propaganda, Hong, 2019.

[168] Y. Goldberg, Assessing BERT's Syntactic Abilities, 2019.

[169] N. F. Liu, M. Gardner, Y. Belinkov, M. E. Peters and N. A. Smith, "Linguistic Knowledge and Transferability of Contextual Representations," Proceedings of the 2019 Conference of the North, 2019.

[170] I. Tenney, P. Xia, B. Chen, A. Wang, A. Poliak, R. T. McCoy, N. Kim, B. V. Durme, S. R. Bowman, D. Das and E. Pavlick, What do you learn from

context? Probing for sentence structure in contextualized word representations, 2019.

[171] O. Kovaleva, A. Romanov, A. Rogers and A. Rumshisky, "Revealing the Dark Secrets of BERT," in Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP), Hong, 2019.

[172] A. Ettinger, "What BERT Is Not: Lessons from a New Suite of Psycholinguistic Diagnostics for Language Models," Transactions of the Association for Computational Linguistics, vol. 8, p. 34-48, 2020.

[173] L. Sun, K. Hashimoto, W. Yin, A. Asai, J. Li, P. Yu and C. Xiong, AdvBERT: BERT is not robust on misspellings! Generating nature adversarial samples on BERT, 2020.

[174] E. Wallace, Y. Wang, S. Li, S. Singh and M. Gardner, "Do NLP Models Know Numbers? Probing Numeracy in Embeddings," Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP), 2019.

[175] M. Popel and O. Bojar, "Training Tips for the Transformer Model," The Prague Bulletin of Mathematical Linguistics, vol. 110, p. 43-70, April 2018.

[176] I. Beltagy, M. E. Peters and A. Cohan, "Longformer: The Long-Document Transformer," ArXiv, 2020.

[177] L.-A. Ratinov and D. Roth, "Design Challenges and Misconceptions in Named Entity Recognition," in CoNLL, 2009.

[178] A. Fedorov and A. Levitskaya, "Typology and Mechanisms of Media Manipulation," International Journal of Media and Information Literacy, vol. 5, June 2020.

[179] M. E. Peters, M. Neumann, R. Logan, R. Schwartz, V. Joshi, S. Singh and N. A. Smith, "Knowledge Enhanced Contextual Word Representations,"

Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP), 2019.

[180] I. a. D. M. a. R. S. a. V. L. a. M. A. e. =. ". S. a. C. M. a. A. M. a. M. S. M. a.

Augenstein, "SemEval 2017 Task 10: ScienceIE - Extracting Keyphrases and Relations from Scientific Publications," in Proceedings of the 11th International Workshop on Semantic Evaluation (SemEval-2017), Vancouver, Canada, 2017.

[181] G. Morio, T. Morishita, H. Ozaki and T. Miyoshi, "Hitachi at SemEval-2020 Task 11: An Empirical Study of Pre-Trained Transformer Family for Propaganda Detection," in Proceedings of the Fourteenth Workshop on Semantic Evaluation, Barcelona (online), 2020.

[182] A. Roberts, C. Raffel and N. Shazeer, "How Much Knowledge Can You Pack Into the Parameters of a Language Model?," in Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP '20), Online, 2020.

[183] N. Lee, W. Ping, P. Xu, M. Patwary, P. Fung, M. Shoeybi and B. Catanzaro, "Factuality Enhanced Language Models for Open-Ended Text Generation," in NeurIPS, 2022.

[184] T. Anisimova, S. Chubai and E. Gimpelson, "Forms of manipulation in the discourse of social advertising," SHS Web of Conferences, vol. 108, p. 05001, January 2021.

Список рисунков

Рисунок 2.1 Архитектура модели Transformer [29]...........................................24

Рисунок 2.2 Модель BERT основана на предобучении маскированной языковой модели (CLS, SEP являются специальными токенами для

классификации и разделителем соответственно) [27]...............................26

Рисунок 3.1 4х-модульный пайплайн для решения задачи FEVER.

Промежуточные выходы каждого модуля указаны в желтых рамках.....45

Рисунок 3.2 Скриншот выхода модели для проверки утверждения "Napoleon

Bonaparte declared Joan of Arc a national symbol.".......................................49

Рисунок 3.3 Подробный отчет разработанной системы WhatTheWikiFact по

найденному документу Joan of Arc..............................................................50

Рисунок 3.4 Пример промпта для генерации примеров класса Relation. Он включает общее описание, описание класса и ограничения, а также список

примеров.........................................................................................................59

Рисунок 3.5 Распределение обучающих примеров c меткой SUPPORTS из набора данных FEVER по классам разработанной таксономии. Exact выделено в отдельную категорию и означает тождественное соответствие

утверждения доказательству........................................................................65

Рисунок 3.6 Распределение обучающих примеров c меткой SUPPORTS из

набора данных FEVER по классам разработанной таксономии...............66

Рисунок 3.7 Совстречаемость классов из таксономии в наборе данных FEVER, нормированная на размер класса по строкам.............................................67

Рисунок 3.8 Выход демонстрационной системы Truth-o-meter при проверке и

исправлении поданного на вход утверждения............................................80

Рисунок 4.1 Для матриц векторных представлений, состоящих из элементов q и a соответственно, функция потерь BSC рассчитывает скалярные произведения пар, затем применяет softmax по строкам и максимизирует

диагональ матрицы полученных значений.................................................93

Рисунок 4.2 Пайплайн для поиска ранее проверенных утверждений. Состоит из лексической компоненты на основе TF-IDF и семантической на основе Sentence-BERT. Над выходом этих моделей применяется

переранжирующая модель LambdaMART................................................100

Рисунок 5.1 Transformer-based архитектура с CRF классифицирующим слоем вместо обычного MLP. Сабтокены, не отвечающие началу слова,

игнорируются, как в функции потерь, так и отношениях в CRF............131

Рисунок 5.2 Transformer-based модель принимает помимо фрагмента его контекст для уточнения классификации. Классифицирующий слой использует помимо CLS токена эмбеддинг всех остальных токенов (за исключением добавленного контекста) и вручную добавленные признаки

(например, длину фрагмента).....................................................................133

Рисунок 5.3 Пример разметки манипулятивных фрагментов в Doccano......143

Список таблиц

Таблица 3.1 Выборка примеров тестов по диагностической таксономии.

Каждый пример содержит утверждение (C, claim) и "доказательство" (E,

evidence), включающее название документа, объединенное через # с

релевантным для проверки предложением.................................................52

Таблица 3.2 Матрица ошибок модели RoBERTa в задаче NLI........................63

Таблица 3.3 Результаты на тестовом наборе данных соревнования FEVER [49].

Звездой помечены команды, участвовавшие после его завершения. Для

своего подхода мы представление метрики "расширенного ответа", где в

качестве evidence передавались все найденные потенциально релевантные

предложения...................................................................................................64

Таблица 3.4 Метрики модели RoBERTa-Large обученной на наборе данных

FEVER при валидации на диагностическом наборе данных (в колонке Size

указано количество примеров в диагностической категории)..................69

Таблица 3.5 Метрики RoBERTa-Large обученной на наборе данных FEVER

при эвале на сгенерированных данных по классам диагностической

таксономии.....................................................................................................70

Таблица 3.6 Метрики RoBERTa-base модели на диагностическом наборе

данных, обученной на сгенерированных примерах каждого класса по

отдельности (без использования данных FEVER). В колонке параметров

указаны количество эпох для обучения, размер батча и learning rate

соответственно...............................................................................................71

Таблица 3.7 Метрики RoBERTa-Large модели, предобученной на наборе

данных FEVER и дообученной при помощи генеративного фреймворка.

Замер проведен по диагностическому датасету.........................................72

Таблица 4.1 Сравнение метрик для компоненты лексической релевантности на

валидационной части набора данных CheckThat......................................106

Таблица 4.2 Сравнение метрик для компоненты семантической релевантности

на валидационной части набора данных CheckThat.................................106

204

Таблица 4.3 Результаты на тестовой части набора данных CheckThat [62]. 108 Таблица 4.4 Изучение влияния каждой из добавленных компонент для нашего лучшего способа формирования обучающего пула (на валидационном и

тестовом пулах набора данных CheckThat)...............................................109

Таблица 4.5 Результаты на наборе данных CheckThat. Анализ предложенных

модификаций и сравнение с бейзлайн подходами...................................116

Таблица 4.6 Результаты на наборе данных Antique. Анализ предложенных

модификаций и сравнение с бейзлайн подходами...................................116

Таблица 4.7 Результаты на наборе данных CQA-A. Анализ предложенных

модификаций и сравнение с бейзлайн подходами...................................117

Таблица 4.8 Результаты на наборе данных CQA-B. Анализ предложенных

модификаций и сравнение с бейзлайн подходами...................................118

Таблица 4.9 Результаты на наборе данных MRPC. Анализ предложенных

модификаций и сравнение с бейзлайн подходами...................................119

Таблица 4.10 Результаты на наборе данных QQP. Анализ предложенных

модификаций и сравнение с бейзлайн подходами...................................119

Таблица 4.11 Результаты на наборе данных STS-b. Анализ предложенных

модификаций и сравнение с бейзлайн подходами...................................120

Таблица 5.1 Распределение текстов в корпусе по основным категориям. ... 144 Таблица 5.2 Распределение техник, относящихся ко всему тексту. В отдельной колонке мы выделили уникализацию по текстам (поскольку в некоторых

случаях такие приемы характерны и отдельным фразам).......................144

Таблица 5.3 Распределение манипулятивных текстов, относящихся к отдельным текстовым фрагментам, с уникализацией по текстам (# текстов), а также длина этих фрагментов в символах (длина си) и словах (длина сл), а также частота завершения символом пунктуации (пункт.).

.......................................................................................................................145

Таблица 5.4 Результаты соревнования на development корпусе (задача выделения текстовых фрагментов). В скобках дополнительно указан ранг

на тестовом корпусе. Наше решение соответствует строчке aschern [150].

.......................................................................................................................154

Таблица 5.5 Результаты соревнования на test корпусе [150].........................154

Таблица 5.6 Последовательное добавление предложенных модификаций.

Метрика F1 посчитана по development пулу.............................................155

Таблица 5.7 Результаты соревнования на development корпусе (задача классификации техник). В скобках дополнительно указан ранг на development корпусе. Наше решение соответствует строчке aschern [150].

.......................................................................................................................156

Таблица 5.8 Результаты классификации приемов модели, обученной на все 36 классов (строк в таблице меньше - для остальных классов в тесте не было

предсказаний, поэтому качество по F1 равно нулю)...............................160

Таблица 5.9 Результаты классификации манипулятивных фрагментов по метаклассам (первому уровню схемы). В колонке F1 исх. модели указано качество модели, обученной на все 36 классов (второй уровень). В колонке F1 мета модели указано качество моделей, обученной на мета-классы. 161 Таблица 5.10 Анализ исправления ограничений на примере двух моделей (с архитектурой Transformer) и двух наборов данных. Итоговое качество в первом случае указывает результат применения двух модификаций. ... 163 Таблица 5.11 Анализ исправления ошибок (ограничений) моделей XLNet и RoBERTa в задачах классификации выделенных текстовых фрагментов (манипулятивных техник и ключевых фраз). Base означает применение модели в чистом виде с дополнительной multi-label постобработкой предсказаний. В таблице указана метрика micro-F1................................164

Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.