Модели, методы и программные средства извлечения оценочных отношений на основе фреймовой базы знаний

Русначенко Николай Леонидович

Модели, методы и программные средства извлечения оценочных отношений на основе фреймовой базы знаний тема диссертации и автореферата по ВАК РФ 05.13.11, кандидат наук Русначенко Николай Леонидович

Русначенко Николай Леонидович
кандидат наук
2022

Специальность ВАК РФ05.13.11

Количество страниц 167

Русначенко Николай Леонидович. Модели, методы и программные средства извлечения оценочных отношений на основе фреймовой базы знаний: дис. кандидат наук: 05.13.11 - Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей. ФГБОУ ВО «Московский государственный технический университет имени Н.Э. Баумана (национальный исследовательский университет)». 2022. 167 с.

Оглавление диссертации кандидат наук Русначенко Николай Леонидович

Введение

Глава 1. Методы машинного обучения в задачах анализа

тональности

1.1 Применение машинного обучения в задачах анализа

тональности текстов

1.1.1 Признаки в задачах анализа тональности

1.2 Модели векторного представления документов

1.3 Классификаторы на основе векторных представлений документов

1.4 Методы глубокого обучения в задачах анализа тональности

1.4.1 Векторные представления токенов документа и признаков

1.4.2 Сверточные нейронные сети

1.4.3 Рекуррентные нейронные сети

1.4.4 Модуль с механизмом внимания для моделей на основе нейронных сетей

1.4.5 Языковые модели для извлечения отношений

1.5 Методы автоматической разметки данных для увеличения

объема обучающих коллекций

1.6 Подходы к извлечению оценочных отношений

1.7 Методы оценки моделей анализа тональности

1.7.1 Полнота, точность, ^ 1-мера

1.7.2 Усреднения результатов

Выводы по главе

Глава 2. Извлечение оценочных отношений

2.1 Формальная постановка задачи

2.2 Контекстное представление отношений

2.3 Классификаторы на основе ручных признаков обработки естественного языка

2.4 Классификатор на основе нейронных сетей

2.4.1 Векторное представление контекстов отношений

2.4.2 Архитектура модели сверточной нейронной сети РСКК

2.4.3 Архитектура модели AttCNN с механизмом внимания

на основе многослойного перцептрона

2.4.4 Архитектура модели IAN с механизмом кросс-внимания

2.4.5 Архитектура модели Att-BLSTM с механизмом

внимания Self-Attention

2.5 Работа с моделями на основе контекстного представления отношений

2.5.1 Предсказание класса тональности

2.5.2 Обучение нейронной сети

2.5.3 Вычисление оценки отношения на уровне документа

2.6 Эксперименты

2.6.1 Описание корпуса с размеченными оценочными отношениями в русскоязычных аналитических статьях RuSentRel

2.6.2 Разметка контекста

2.6.3 Составление векторов для термов контекста нейронных сетей

2.6.4 Оценка качества моделей

2.6.5 Результаты

Выводы по главе

Глава 3. Методы опосредованного обучения в задаче

извлечения оценочных отношений

3.1 Формальная постановка задачи

3.2 Используемые ресурсы

3.2.1 Фреймовая база знаний RuSentiFrames

3.2.2 Новостные коллекции

3.3 Подход автоматической разметки оценочных отношений в новостных документах с использованием лексикона RuSentiFrames

3.3.1 Обработка текста и распознавание именованных сущностей

3.3.2 Разметка на основе предварительно заданного списка оценочных отношений

3.3.3 Разметка с использованием коллекции фреймов

3.3.4 Фильтрация размеченных отношений

3.4 Улучшение подхода автоматизации в извлечении оценочных отношений

3.4.1 Автоматическое построение вспомогательных ресурсов

3.4.2 Автоматическая разметка отношений и анализ результатов

3.5 Эксперименты

3.5.1 Оценка качества и настройки обучения моделей

3.5.2 Подготовка данных

3.5.3 Результаты

3.5.4 Разбор контекста

3.5.5 Анализ оценочных фреймов и слов по частям речи в результатах моделей

3.5.6 Анализ влияния обучения на распределения весов механизма внимания в моделях нейронных сетей

3.5.7 Анализ влияния предварительного обучения на распределение весов механизма внимания в языковых моделях

Выводы по главе

Глава 4. Архитектура программного комплекса для

организации экспериментов с извлечением оценочных отношений

4.1 Возможности разработанного набора инструментов ЛИЕкй

4.2 Обработка и представления новостей

4.2.1 Архитектура представления документа

4.2.2 Архитектура отношений между упоминаемыми сущностями в рамках документа и контекстов

4.2.3 Оценка качества разметки

4.3 Организация эксперимента фреймворка ЛЯЕкй

4.3.1 Разметка документов нейтральными отношениями

4.3.2 Сериализация данных

4.4 Модуль нейронных сетей для извлечения оценочных отношений

4.5 Эксперименты и оценка производительности

4.5.1 Обучение сверточных и рекуррентных нейронных сетей

4.5.2 Обучение языковых моделей сторонними библиотеками

4.6 Возможности модуля автоматической разметки оценочных

отношений в новостных документах

4.6.1 Обработка новостных документов

4.6.2 Автоматическая обработка и разметка отношений в новостных текстах

Выводы по главе

Общие выводы и заключение

Список сокращений и условных обозначений

Список литературы

Приложения

Введение диссертации (часть автореферата) на тему «Модели, методы и программные средства извлечения оценочных отношений на основе фреймовой базы знаний»

Введение

Автоматический анализ тональности, т.е. поиск отношений (позитивных или негативных) некоторых лиц относительно содержания текста или каких-то его аспектов, является одним из наиболее востребованных приложений автоматической обработки текстов за последние годы. Значимость такой задачи во многом связана с возникновением и развитием социальных сетей, рекомендационных онлайн сервисов, содержащих огромное количество мнений пользователей по различным вопросам.

Подходы по извлечению тональности из текста зависят от типа анализируемого текста. Наиболее часто методы автоматического анализа тональности изучаются на основе отзывов пользователей по отношению к товарам и сервисам. Подобного рода тексты в основном посвящены обсуждению одной сущности (фильма, книги, ресторана), а мнение передается одним человеком - автором отзыва [1—4]. Другим популярным жанром текстов для анализа тональности являются короткие сообщения в социальных сетях, в частности сети Twitter [5—7]. Тексты таких сообщений могут требовать очень точного анализа, но передаваемое мнение также чаще всего относится к одному источнику и высказываются по отношению к одной сущности ввиду ограниченной длины текста сообщения.

Одним из самых сложных жанров документов для анализа тональности являются новостные и аналитические статьи, в которых обсуждается ситуация в некоторой области, например, в политике или экономике [8]. В тексте таких статей мнения передаются различными субъектами, включая отношение одного или нескольких авторов, а также мнение цитируемых источников. Такие тексты могут также описывать тональность отношений упомянутых сущностей (например, государств или политиков) между собой. При этом тональность отношений между сущностями может не соответствовать тональности отношения к этим сущностям автора текста.

Например, в контексте «США обвиняет Россию и Китай в игре с деноминацией валют» автор высказывает мнение, в котором можно выделить страны-сущности, среди которых «США» проявляет негативное отношение «России» и «Китаю», в то время как две последние сущности нейтральны по от-

ношению друг к другу в рамках рассматриваемого контекста. При этом мнение автора явным образом не выражено.

Кроме того, новостные и аналитические тексты обычно содержат большое количество именованных сущностей, и лишь небольшое число среди них является субъектом либо объектом тональности.

Таким образом, правильная идентификация тональности отношений между сущностями, упоминаемыми в тексте, имеет существенное значение для анализа тональности текстов. Кроме того, извлечение оценочных отношений представляет собой отдельную ценность для различных аналитических исследований.

Актуальность темы. Анализ тональности является одной из наиболее востребованных задач в автоматической обработке текстов, которая состоит в определении отношения (позитивного или негативного) некоторого лица относительно содержания текста или каких-то его аспектов. На практике анализ тональности подразделяется на множество различных подзадач, таких как определение общей тональности текста или предложения, тональность автора по отношению к упомянутым сущностям и другие.

Одной из мало исследованных подзадач анализа тональности является извлечение тональности отношений между сущностями, упомянутыми в тексте (оценочные отношения). В новостных и аналитических текстах тональность оценочных отношений сложным образом коррелирует с другими тональностями, например, с тональностью отношения автора текста к обсуждаемой тематике. Таким образом, извлечение оценочных отношений является как подвидом задачи анализа тональности, так и задачи извлечения отношений. Актуальными на настоящий момент методами в решении таких задач являются модели на основе различных методов машинного обучения, включая классические методы машинного обучения, нейронные сети сверточного и рекуррентного типов, а также нейронные сети с вниманием, в том числе языковые модели типа BERT. Основными ограничениями в организации процесса обучения таких методов являются: общий недостаток разметки и сложность ее ручного выполнения для составления обучающего корпуса.

Среди отечественных и зарубежных ученых, занимающихся исследованием задачи анализа тональности и применением методов машинного обучения в такой области, наиболее известными являются: Е. Котельников, О. Кольцова, P. Turney, D. Zeng, Y. Choi, J. Devlin и др.

Актуальность исследования заключается в том, что на настоящий момент нет универсальных методик автоматической разметки оценочных отношений, которые бы позволили увеличить объем обучающих данных. Предложенный подход по автоматической разметке данных и проведения опосредованного обучения (от англ. Distant Supervision) на их основе, позволяет повысить эффективность моделей нейронных сетей.

Объектом исследования являются комбинированные подходы, включающие базу знаний и нейросетевую модель для извлечения оценочных отношений из текстов.

Предметом исследования является структура и состав базы знаний для анализа тональности текстов на русском языке.

Целью диссертационного исследования является разработка методов извлечения оценочных отношений между именованными сущностями из текстов средств массовой информации с использованием русскоязычной базы знаний.

Для достижения поставленной цели были решены следующие задачи:

1. Разработать базу знаний для описания структуры тональностей слов-предикатов;

2. Реализовать методы машинного обучения для извлечения оценочных отношений между именованными сущностями из текстов новостных и аналитических статей;

3. Реализовать модель и методы порождения автоматически размеченных оценочных отношений на основе лексико-семантических ресурсов;

4. Реализовать методы извлечения оценочных отношений на основе подхода опосредованного обучения (от англ. Distant Supervision) и комбинированной обучающей выборки, включающей как ручную, так и автоматическую разметку;

5. Создать программные средства для обработки новостных и аналитических текстов, которые на основе текста статьи порождают список оценочных отношений между упомянутыми именованными сущностями.

Научная новизна

— Предложена структура фреймовой базы знаний RuSentiFrames для описания тональностей, ассоциирующихся со словами и выражениями русского языка, включая тональность отношений между участниками ситуации, отношение автора к участникам ситуации, позитивные и нега-

тивные эффекты, связанные с ситуацией. Такая база знаний описывает значительно более сложную структуру тональностей, ассоциированных с словом, в отличие от обычных списков оценочных слов с оценками тональностей;

— Впервые для русского языка поставлена задача и выполнено исследование методов извлечения тональности отношений между именованными сущностями, упомянутыми в текстах СМИ;

— Для обучения моделей извлечения оценочных отношений предложен новый метод автоматического порождения обучающей коллекции на основе оценочных фреймов нового лексикона RuSentiFrames и использования структуры новостных текстов. Применение опосредованного обучения с использованием RuAttitudes-2.0 повысило качество языковых моделей BERT на 10-13% по метрике F1, и на 25% при сравнении с наилучшими результатами остальных моделей на основе оценочных фреймов нового лексикона RuSentiFrames и структуры новостных текстов;

Первая глава посвящена обзору различных задач и методов анализа тональности текстов. Рассматриваются методы глубокого обучения в смежных задачах.

Во второй главе приводится постановка задачи извлечения оценочных отношений между упомянутыми именованными сущностями на уровне документа. В экспериментах, извлечение оценочных отношений рассматривается как задача машинного обучения. Используется корпус русскоязычных аналитических статей RuSentRel с ручной разметкой оценочных отношений на уровне документов. В качестве базовых подходов, приводятся эксперименты с классическими методами машинного обучения (Naïve Bayes, SVM, Random Forest). Для сравнения приведены и реализованы архитектуры: (1) сверточных нейронных сетей, адаптированные под извлечение оценочных отношений, (2) вариации таких архитектур с модулем механизма внимания, и (3) языковые модели семейства BERT.

В третьей главе представлены подходы к применению опосредованного обучения (англ. Distant Supervision) для извлечения оценочных отношений между именованными сущностями в тексте. Ставится задача разработки алгоритма автоматической аннотации коллекции новостных документов с целью увеличения обучающей выборки моделей машинного обучения. Основой проведения

оценки в алгоритме стал двухэтапный анализ заголовков на основе коллекции фреймов RuSentiFrames: (1) для составления списка пар; (2) для извлечения оценочных отношений с помощью созданного списка и выделенного в нем оценочно-достоверных пар. Результаты проведенных экспериментов показывают, что модели обученные с использованием построенной коллекции превосходят по качеству модели, для которых применялось только обучение с учителем (англ. Supervised Learning).

Четвертая глава посвящена архитектурным особенностям программной реализации базовых инструментов, используемых в задаче извлечения оценочных отношений. Приводятся инструкции по добавлению внешних коллекций и источников информации, моделей нейронных сетей с реализацией на основе библиотеки Tensorflow. С точки зрения оценки производительности программных реализаций моделей машинного обучения, проводится сравнительный анализ скорости обучения нейронных сетей и языковых моделей как в случае обучения с учителем, так и при использовани иопосредованного обучения.

В заключении перечислены основные результаты проделанной работы.

Практическая значимость. Разработаны и исследованы модели извлечения оценочных отношений, а также методы автоматической обработки внешних новостных источников информации. Впервые создана и опубликована большая база контекстов RuAttitudes-2.0 (252 тыс. примеров) с автоматической разметкой оценочных отношений, что может быть полезным для задач таргети-рованного анализа тональности текстов СМИ. Создан программный комплекс AREkit для выполнения автоматической разметки коллекции новостей, а также обучения моделей на основе нейросетевых механизмов для извлечения отношений между сущностями в текстах СМИ с возможностью интерактивного человека-машинного управления.

Методология и методы исследования. В работе применяются методы обработки и анализа текстовой информации, методы классификации размеченной информации, методы объектно-ориентированного программирования для построения инструмента и проведения работы над поставленной задачей.

Основные положения, выносимые на защиту:

1. Предложена структура фреймовой базы знаний RuSentiFrames для описания тональностей, ассоциирующихся со словами и выражениями русского языка, включая тональность отношений между участниками

ситуации, отношение автора к участникам ситуации, позитивные и негативные эффекты, связанные с ситуацией;

2. Предложен и реализован новый метод автоматического порождения обучающей коллекции для классификации оценочных отношений по двум и трем классам на основе словаря оценочных фреймов RuSentiFrames;

3. Программный комплекс AREkit для создания автоматически размеченной обучающей коллекции для извлечения оценочных отношений, с программным интерфейсом для задания настроек пользователем, а также обучения методов на основе нейронных сетей;

Соответствие научной специальности. Содержание работы соответствует паспорту научной специальности 05.13.11 «Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей» (технические науки): п.4 «Системы управления базами данных и знаний», п.7 «Человеко-машинные интерфейсы; модели, методы, алгоритмы и программные средства машинной графики, визуализации, обработки изображений, систем виртуальной реальности, мультимедийного общения». Сопоставление приведено в Таблице 1.

Апробация работы. Основные результаты работы докладывались на: Международная Конференция «Диалог» (Россия, Москва, РГГУ, 2018) [9]; 20-ая Международная Конференция Data Analytics and Management in Data Intensive Domains (Россия, Москва, МГУ, 2018) [10]; 21-ая Международная Конференция Text-Speech-Dialog (Чехия, Брно, 2020) [11]; 12-ая Международная Конференция Recent Advances in Natural Language Processing (Болгария, Варна, 2020) [12]; 25-ая Международная Конференция Natural Language & Information Systems (Германия, Саарбрюккен, 2020) [13]; 10-ая Международная Конференция Web Intelligence, Mining and Semantics (Франция, Биаритц, 2020) [14].

Личный вклад. Автором проведено исследование задачи извлечения оценочных отношений с выполнением основного объема теоретических и экспериментальных исследований, изложенных в тексте диссертационной работы. Разработана программная платформа для исследования и проведения экспериментов в предметной области на основе созданных методов. Исследование задачи извлечения оценочных отношений с применением разработанных методов рассмотрено в работах [10—18]. Лукашевич Н.В. принадлежит постановка задачи, а также практические рекомендации по исследованию предметной об-

Таблица 1.

Сопоставление направлению и результаты исследований, предусмотренных

специальностью 05.13.11 Направление Результат работы

4. Системы управления база- Впервые для русского языка поставлена ми данных и знаний задача и выполнено исследование методов

извлечения тональности отношений между именованными сущностями, упомянутыми в текстах СМИ

Предложен и реализован новый метод автоматического порождения обучающей коллекции для классификации оценочных отношений по двум и трем классам на основе словаря оценочных фреймов RuSentiFгames; человек-оператор может вручную управлять параметрами отбора оценочных отношений, и таким образом управлять процессом автоматической разметки

7. Человеко-машинные интерфейсы; модели, методы, алгоритмы и программные средства машинной графики, визуализации, обработ-

ки изображений, систем виртуальной реальности, мультимедийного общения

ласти. В работе [9] автором инициировано исследование задачи извлечения оценочных отношений за счёт применения классических методов к созданному набору данных. В [12] автором применяется разработанный подход автоматической разметки текстов СМИ для увеличения объема обучающих данных с целью совершенствования существующих моделей извлечения отношений. В [13; 14] исследуется встраивание механизма внимания в модель, что позволяет повысить качество исходных моделей.

Публикации. Основные результаты по теме диссертации изложены в 13 печатных изданиях, 2 из которых изданы в журналах, рекомендованных ВАК РФ, 8 —в изданиях, индексируемых в системах Web of Science и Scopus, 1—в тезисах докладов. Зарегистрирован 1 патент.

Объем и структура работы. Диссертационная работа состоит из введения, четырех глав, заключения и трех приложений. Полный объём диссертации составляет 167 страниц, включая 23 рисунка и 4 таблицы. Список литературы содержит 109 наименований.

Благодарности. Автор выражает глубокую признательность научному руководителю.

Глава 1. Методы машинного обучения в задачах анализа

тональности

Первые подходы в задаче анализа тональности были направлены на определение тональности текста в целом, либо его определенной части [19; 20]. Анализ документов на таком уровне предполагает, что автор является единственным источником мнения по отношению к единственной сущности, упомянутой в документе. Однако на практике, документ может включать большое количество сущностей, по отношению к которым могут быть высказаны разные мнения. Поэтому возникает задача определения тональности по отношению к заданной сущности [21; 22]. Постановка задачи такого направления также может варьироваться [23—25]:

— Объект отношения может быть выражен как упоминаемой в тексте сущностью, так и вовсе быть абстрактным (например: событие, которому посвящен текст документа);

— Задача может дополнительно включать определение тональности отношений на уровне всего документа.

Следующим уровнем детализации такого анализа стало введение аспектов, относительно которых требуется определить, что послужило появлением задачи аспектно-ориентированного анализа тональности [26—30]. Аспекты представляют собой характеристики объектов, относительно которых автор высказывает свое мнение. Примерами текстов, в которых обычно обсуждаются различные аспекты, являются отзывы посетителей о ресторанах, кинотеатрах, отзывы зрителей о фильмах и т.д.

В общем случае, авторы работ [27; 31] определяют мнение как кортеж из следующих параметров [27]:

{ег,аг] ,зг]к1 ,Нк ,11) (1.1)

где соответствует сущности, относительно которой высказывается мнение, а^ - это аспект, относительно которого предполагается определить оценку в^ы, с учетом автора в некоторый момент времени, определяемый параметром .

Однако до настоящего момента, довольно мало исследований посвящено выявлению тональности отношений между парами упоминаемых в тексте

именованных сущностей (е], е|). Такая постановка задачи близка к задаче извлечения отношений между упомянутыми в тексте сущностями [32; 33].

Однако в реальности, имея дело с большим объемом текста, можно столкнуться с ситуацией, когда в одном тексте автор выражает несколько мнений. Одним из примеров таких текстов являются аналитические статьи. Тексты таких документов насыщены упоминанием большого числа объектов (именованных сущностей), что приводит к тому, что такие объекты сами являются участниками отношений к другим упоминаемым сущностям в тексте.

1.1 Применение машинного обучения в задачах анализа

тональности текстов

Задача анализа тональности может ставиться как задача классификации, т.е. задача машинного обучения с учителем, выходными данными которой являются классы тональности. Процесс обучения подразумевает наличие пар вида (X, Y), где X - это множество входных данных, а Y - множество выходных данных (классы). В свою очередь, формат входных данных зависит как от специфики задачи, так и методов.

При дальнейшем усложнении уровня проведения анализа тональности, тип применяемых подходов может варьироваться в зависимости от предварительно известных данных, а также формата постановки задачи. Например, в задаче Targeted Sentiment Analysis, с точки зрения предварительно заданной информации об участниках отношений, возможны следующие сценарии:

— Полностью определены - проведение анализа, при условии что объект и событие определены [34; 35]; может быть рассмотрено как классификационная задача;

— Частично определены, либо не определены [23; 34] - сущности предварительно не заданы; в рамках анализа предполагается применение методов разметки либо извлечения объектов из текста (например структурированные предсказатели, CRF).

В настоящей работе основное изучение задач извлечения оценочных отношений сосредоточено на проведении классификации отношений, исследовании методов глубокого обучения для выполнения такой задачи, сравнении моделей на их основе с моделями классических методов классификации; выделении оценочных отношений, при условии что оба участника отношения определены. Для решения задачи требуется предварительная поэтапная обработка документов,

которая заключается в решении следующих задач: разметка именованных сущностей (от англ. Named Entity Extraction), а также сопоставление сущностей, представленных в различных словоформах (Entity Linking) на основе словарей.

1.1.1 Признаки в задачах анализа тональности

В задачах классификации с целью анализа тональности текст может рассматриваться как последовательность: (1) слов, (2) символов. Такие представления могут быть организованы в n-граммы - п слов/символов. Среди прочих особенностей текста, которые используются и являются значимыми в задаче анализа тональности, можно также выделить [36]:

— Подсчет количества заглавных букв;

— Подсчет количества n-грамм, входящих в рассматриваемый документ;

— Учет частей речи;

— Учет знаков препинания;

— Статистика прочих токенов текста: URL-ссылки, #Хэш-теги и др.

В качестве дополнительных источников для порождения могут использоваться словари оценочной лексики - лексиконы (англ. Sentiment Lexicons) [16; 19]. Лексиконы могут быть составлены вручную: NRCEmoticon [37], BingLiu [38], MPQA [39]; из русскоязычных: RuSentiLex [40]. Также оценочные лексиконы могут быть порождены автоматически [41].

Оценочные лексиконы дают возможность породить дополнительные наборы признаков, включая следующие: максимальная оценка слова лексикона в тексте, минимальная, средняя оценка слов из лексикона в тексте и др. Таким образом, лексиконы позволяют создавать обобщенные признаки, базирующиеся на большом объеме слов из лексикона, а не на отдельных словах или п-граммах.

В последнее время существенно возросла роль признаков на основе векторных представлений слов.

1.2 Модели векторного представления документов

Базовой моделью представления документах в задачах анализа тональности является модель мешка слов (англ. Bag Of Words). Может использоваться несколько подходов к векторизации документов.

Самой простой векторизацией является булева векторизация, в которой для составления вектора предполагается наличие множества всех допустимых слов W = {wi}, или словаря. Вектор для документа в такой модели имеет раз-

мерность ^|, где для каждого ¿-ого слова проставлено одно из двух значений: 1 - слово присутствует в тексте, и 0 если отсутствует.

Дальнейшим развитием и одной из таких метрик стала (Форму-

ла 1.2), где £ соответствует слову контекста, ё, - документ из общей коллекции документов И:

= tf(М) • м/(1.2)

Такая метрика сочетает в себе следующие функции: частоту вхождения слова £ в документ (£/, Формула 1.3), инвертированную частоту вхождения слова в документ , Формула 1.4):

ГП ■

ц (14) = щ (1.3)

к1/ (г, и) = ^

|я|

(1.4)

е 0\Ъг е ^|}|

В результате, рост значение указывает на большую частоту встречаемости слова, в то время как гй/ указывает на степень уникальности слова среди прочих среди всех документов коллекции И.

Таким образом, признаки рассмотренные в Параграфе 1.1.1 могут быть также добавлены в векторное представление, путем подсчета статистики в следующем виде: вычисление среднего значения, максимума, минимума, и т.д.

Среди недостатков векторизации на основе моделей мешка слов можно выделить следующие:

1. Зависимость от размера словаря;

2. Разреженность данных: векторное представление документа преимущественно состоит из нулей.

1.3 Классификаторы на основе векторных представлений

документов

Для произвольного документа, представленного в формате вектора признаков, ставится задача определения класса тональности. Рассмотрим основные подходы в классификации текстов на основе векторных представлений.

Метод к ближайших соседей (к-Кеагеэ! Ке1§Ьоиге, ККК) [42] является одним из базовых подходов, где в качестве метрики сходства используется

косинусное расстояние:

п

cos(u,v) = ^^ щ • Vi (1.5)

i=1

В Формуле 1.5 для классифицируемого вектора документа метод KNN предполагает поиск к ближайших векторов для принятия решения о классе. Такое решение принимается на основе головосования, т.е. выбирается класс, к которому принадлежит наибольшее количество векторов среди k ближайших.

Другим подходом к классификации на основе векторных представлений является использование метода максимального правдоподобия :

с* = argmaxc Р (с\т) (1.6)

В основе вычисления условной вероятности Р(с\т) лежит правило Байеса:

р (СИ = ^ = (1.7)

Р (m) Р (т)

Наивный Байесовский классификатор, NB-классификатор (от

англ. Naive Bayes) - классификатор, построенный на основе правила Байеса, представленного в формуле 1.7. Для оценки условной вероятности в формуле 1.7, предполагается независимость слов документа, что приводит к формуле:

Р(с) • (Щ=1Р(^е)"''"'1)

Pnb (с\т,) =-—)-

Достоинством алгоритма является простота реализации. Однако независимость термов Fi в тексте является ограничением для достижения реального правдоподобия. Работа [43] демонстрирует оптимальность NB-классификатора для большинства задач классификации, в которых присутствуют признаки, позволяющие установить тесную связь с соответствующими классами. В то же время, использование более сложных методов позволяет добиться лучших результатов в задачах классификации документов.

Метод опорных векторов (англ. Support Vector Machine, SVM) [44] предполагает поиск гиперплоскости, разделяющей документы разных классов. Построение гиперплоскости выполняется на этапе обучения модели: решается задача поиска нормали w к гиперплоскости, причем разбиение классов должно производиться с максимально возможным отступом между ними. Для поиска

нормали составляется оптимизационная задача с граничными условиями:

N

W = ^^ OiCilfii, а ^ 0 (1.8)

j=1

В уравнении 1.8, коэффициент q £ {-1,1} указывает на принадлежность сообщения mi соответствующему классу; а - коэффициент решения задачи двойной оптимизации. Вектора т, для которых выполнено условие а > 0, называются «опорными». Определения класса, к которому относится рассматриваемый документ, осуществляется на основе стороны гиперплоскости, на которую падает проекция вектора т.

В большинстве случае, классификатор, построенный на основе рассматриваемого подхода, позволяет достичь лучших результатов по сравнению с результатами NB-классификатора [45].

Список литературы диссертационного исследования кандидат наук Русначенко Николай Леонидович, 2022 год

Список литературы

1. Chetviorkin, I., Loukachevitch, N. Evaluating Sentiment Analysis Systems in Russian // Proceedings of the 4th Biennial International Workshop on Balto-Slavic Natural Language Processing. Sofia, Bulgaria, 2013. P. 12—17.

2. Liu, B. Sentiment Analysis and Opinion Mining // Synthesis Lectures on Human Language Technologies. 2012. Vol. 5, no. 1. P. 1—167.

3. Taboada, M. [et al.]. Lexicon-based methods for sentiment analysis // Computational linguistics. 2011. Vol. 37(2). P. 267-307.

4. Loukachevitch, N. [et al.]. SentiRuEval: Testing Object-oriented Sentiment Analysis Systems in Russian // Proceedings of International Conference of Computational Linguistics and Intellectual Technologies Dialog-2015. 2015. Vol. 2. P. 2-13.

5. Loukachevitch, N., Rubtsova, Y. SentiRuEval-2016: overcoming time gap and data sparsity in tweet sentiment analysis // Computational Linguistics and Intellectual Technologies. 2016. P. 416-426.

6. Pak, A., Paroubek, P. Twitter as a Corpus for Sentiment Analysis and Opinion Mining //In proceedings of LREC-2010. 2010. P. 1320-1326.

7. Rosenthal, S., Farra, N., Nakov, P. SemEval-2017 task 4: Sentiment analysis in Twitter // Proceedings of the 11th International Workshop on Semantic Evaluation (SemEval-2017). 2017. P. 502-518.

8. Rashkin, H. [et al.]. Multilingual Connotation Frames: A Case Study on Social Media for Targeted Sentiment Analysis and Forecast // Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics. Vol. 2. 2017. P. 459-464.

9. Loukachevitch, N., Rusnachenko, N. Extracting sentiment attitudes from analytical texts // Proceedings of International Conference on Computational Linguistics and Intellectual Technologies. 2018. С. 459—468. (0,63 п.л./0,25 п.л.)

10. Rusnachenko, N., Loukachevitch, N. Extracting Sentiment Attitudes from Analytical Texts via Piecewise Convolutional Neural Network // In Proceedings of CEUR Workshop, DAMDID-2018 Conference. 2018. С. 186—192. (0,44 п.л./0,25 п.л.)

11. Rusnachenko, N., Loukachevitch, N. Sentiment Attitudes and Their Extraction from Analytical Texts // International Conference on Text, Speech, and Dialogue. Springer. 2018. С. 41—49. (0,56 п.л./0,22 п.л.)

12. Rusnachenko, N., Loukachevitch, N., Tutubalina, E. Distant Supervision for Sentiment Attitude Extraction // Proceedings of Recent Advances in Natural Language Processing Conference. 2019. С. 1022—1030. (0,56 п.л./0,31 п.л.)

13. Rusnachenko, N., Loukachevitch, N. Studying Attention Models in Sentiment Attitude Extraction Task // Proceedings of the 25th International Conference on Natural Language and Information Systems. 2020. С. 157—169. (0,81 п.л./0,53 п.л.)

14. Rusnachenko, N., Loukachevitch, N. Attention-Based Neural Networks for Sentiment Attitude Extraction using Distant Supervision // The 10th International Conference on Web Intelligence, Mining and Semantics, Biarritz, France. 2020. С. 159—168. (0,63 п.л./0,5 п.л.)

15. Русначенко, Н. Л. Применение языковых моделей в задаче извлечения оценочных отношений // Труды Института системного программирования РАН, 33 (3). 2021. С. 199—222. (1,5 п.л.)

16. Русначенко, Н. Л., Лукашевич, Н. В. Методы интеграции лексиконов в машинное обучение для систем анализа тональности // Искусственный интеллект и принятие решений. 2017. С. 78—89. (0,75 п.л./0,5 п.л.)

17. Rusnachenko, N., Loukachevitch, N. Neural Network Approach for Extracting Aggregated Opinions from Analytical Articles // International Conference on Data Analytics and Management in Data Intensive Domains. Springer. 2019. С. 167—179. (0,81 п.л./0,47 п.л.)

18. Rusnachenko, N., Loukachevitch, N. Using convolutional neural networks for sentiment attitude extraction from analytical texts // EPiC Series in Language and Linguistics. Т. 4. EasyChair, 2019. С. 1—10. (0,63 п.л./0,28 п.л.)

19. Turney, P. D. Thumbs up or thumbs down?: semantic orientation applied to unsupervised classification of reviews // Proceedings of the 40th annual meeting on association for computational linguistics. Association for Computational Linguistics. 2002. P. 417-424.

20. Pang, B., Lee, L., Vaithyanathan, S. Thumbs up? Sentiment Classification using Machine Learning Techniques // Proceedings of the 2002 Conference on Empirical Methods in Natural Language Processing (EMNLP 2002). 2002. P. 79-86.

21. Amigo, E. [et al.]. Overview of RepLab 2012: Evaluating Online Reputation Management Systems. // CLEF (online working notes/labs/workshop). 2012.

22. Jiang, L. [et al.]. Target-dependent twitter sentiment classification // Proceedings of the 49th annual meeting of the association for computational linguistics: human language technologies. 2011. P. 151—160.

23. Mitchell, M. [et al.]. Open domain targeted sentiment // Proceedings of the 2013 Conference on Empirical Methods in Natural Language Processing. 2013. P. 1643-1654.

24. Zhang, M., Zhang, Y., Vo, D. T. Neural networks for open domain targeted sentiment // Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing. 2015. P. 612—621.

25. Vo, D.-T., Zhang, Y. Target-Dependent Twitter Sentiment Classification with Rich Automatic Features. // IJCAI. 2015. P. 1347-1353.

26. Popescu, A.-M., Etzioni, O. Extracting product features and opinions from reviews // Natural language processing and text mining. Springer, 2007. P. 9-28.

27. Liu, B., Zhang, L. A Survey of Opinion Mining and Sentiment Analysis // Aggarwal C., Zhai C. (eds) Mining Text Data. Springer, 2012. P. 415-463.

28. Bagheri, A., Saraee, M., Jong, F. de. An unsupervised aspect detection model for sentiment analysis of reviews // International conference on application of natural language to information systems. Springer. 2013. P. 140—151.

29. Zhang, L., Liu, B. Aspect and entity extraction for opinion mining // Data mining and knowledge discovery for big data. Springer, 2014. C. 1—40.

30. Glavas, G., KorenciC, D., Snajder, J. Aspect-oriented opinion mining from user reviews in Croatian // Proceedings of the 4th Biennial International Workshop on Balto-Slavic Natural Language Processing. 2013. P. 18—23.

31. Liu, B. [et al.]. Sentiment Analysis and Subjectivity // Handbook of Natural Language Processing. 2010. Vol. 2, no. 2010. P. 627—666.

32. Hendrickx, I. [et al.]. Semeval-2010 task 8: Multi-way classification of semantic relations between pairs of nominals // Proceedings of the Workshop on Semantic Evaluations: Recent Achievements and Future Directions. 2009. P. 94-99.

33. Alt, C., Gabryszak, A., Hennig, L. TACRED Revisited: A Thorough Evaluation of the TACRED Relation Extraction Task // Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics. Online : Association for Computational Linguistics, 07/2020. P. 1558—1569.

34. Ellis, J., Getman, J., Strassel S., M. Overview of linguistic resources for the tac kbp 2014 evaluations: Planning, execution, and results // Proceedings of TAC KBP 2014 Workshop, National Institute of Standards and Technology.

2014. P. 17-18.

35. Deng, L., Wiebe, J. Mpqa 3.0: An entity/event-level sentiment corpus // Proceedings of the 2015 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies.

2015. P. 1323-1328.

36. Mohammad, S., Kiritchenko, S., Zhu, X. NRC-Canada: Building the State-of-the-Art in Sentiment Analysis of Tweets // Second Joint Conference on Lexical and Computational Semantics (* SEM), Proceedings of the Seventh International Workshop on Semantic Evaluation (SemEval 2013). Vol. 2. 2013. P. 321-327.

37. Mohammad, S. M., Turney, P. D. Crowdsourcing a word-emotion association lexicon // Computational Intelligence. 2013. Vol. 29, no. 3. P. 436—465.

38. Hu, M., Liu, B. Mining and summarizing customer reviews // Proceedings of the tenth ACM SIGKDD international conference on Knowledge discovery and data mining. 2004. P. 168—177.

39. Wilson, T., Wiebe, J., Hoffmann, P. Recognizing contextual polarity in phrase-level sentiment analysis // Proceedings of human language technology conference and conference on empirical methods in natural language processing. 2005. P. 347-354.

40. Loukachevitch, N., Levchik, A. Creating a general russian sentiment lexicon // Proceedings of the Tenth International Conference on Language Resources and Evaluation (LREC'16). 2016. P. 1171-1176.

41. Severyn, A., Moschitti, A. On the automatic learning of sentiment lexicons // Proceedings of the 2015 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. 2015. P. 1397-1402.

42. Altman, N. S. An introduction to kernel and nearest-neighbor nonparametric regression // The American Statistician. 1992. Vol. 46, no. 3. P. 175—185.

43. Domingos, P., Pazzani, M. On the optimality of the simple Bayesian classifier under zero-one loss // Machine learning. 1997. Vol. 29, no. 2/3. P. 103—130.

44. Cortes, C., Vapnik, V. Support-vector networks // Machine learning. 1995. Vol. 20, no. 3. P. 273-297.

45. Joachims, T. Text categorization with support vector machines: Learning with many relevant features // European conference on machine learning. Springer. 1998. P. 137-142.

46. Quinlan, J. R. Induction of decision trees // Machine learning. 1986. Vol. 1, no. 1. P. 81-106.

47. Levy, O., Goldberg, Y. Neural word embedding as implicit matrix factorization // Advances in neural information processing systems. 2014. P. 2177-2185.

48. Pennington, J., Socher, R., Manning, C. D. Glove: Global vectors for word representation // Proceedings of the 2014 conference on empirical methods in natural language processing (EMNLP). 2014. P. 1532—1543.

49. Mikolov, T. [et al.]. Advances in Pre-Training Distributed Word Representations // Proceedings of the Eleventh International Conference on Language Resources and Evaluation (LREC 2018). Miyazaki, Japan : European Language Resources Association (ELRA), 05/2018. P. 52—55.

50. Kim, Y. Convolutional Neural Networks for Sentence Classification // Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing (EMNLP). Doha, Qatar : Association for Computational Linguistics, 10/2014. P. 1746-1751.

51. Zeng, D. [et al.]. Relation classification via convolutional deep neural network // Proceedings of COLING 2014, the 25th International Conference on Computational Linguistics: Technical Papers. 2014. P. 2335—2344.

52. Zeng, D. [et al.]. Distant supervision for relation extraction via piecewise convolutional neural networks // Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing. 2015. P. 1753—1762.

53. Hochreiter, S., Schmidhuber, J. Long short-term memory // Neural computation. 1997. Vol. 9, no. 8. P. 1735-1780.

54. Cho, K. [et al.]. Learning Phrase Representations using RNN Encoder-Decoder for Statistical Machine Translation // Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing (EMNLP). 2014. P. 1724-1734.

55. Yu, Y. [et al.]. A Review of Recurrent Neural Networks: LSTM Cells and Network Architectures // Neural Computation. 2019. Vol. 31, no. 7. P. 1235-1270.

56. Jozefowicz, R., Zaremba, W., Sutskever, I. An empirical exploration of recurrent network architectures // International conference on machine learning. PMLR. 2015. P. 2342-2350.

57. Shen, Y., Huang, X. Attention-Based Convolutional Neural Network for Semantic Relation Extraction // Proceedings of COLING 2016, the 26th International Conference on Computational Linguistics: Technical Papers. Osaka, Japan : The COLING 2016 Organizing Committee, 12/2016. P. 2526-2536.

58. Ma, D. [et al.]. Interactive attention networks for aspect-level sentiment classification // Proceedings of the 26th International Joint Conference on Artificial Intelligence. 2017. P. 4068-4074.

59. Zhou, P. [et al.]. Attention-Based Bidirectional Long Short-Term Memory Networks for Relation Classification // Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics. Vol. 2. Berlin, Germany : Association for Computational Linguistics, 08/2016. P. 207—212.

60. Zhou, P. [et al.]. Attention-based bidirectional long short-term memory networks for relation classification // Proceedings of the 54th annual meeting of the association for computational linguistics (volume 2: Short papers). 2016. P. 207-212.

61. Yang, Z. [et al.]. Hierarchical attention networks for document classification // Proceedings of the 2016 conference of the North American chapter of the association for computational linguistics: human language technologies. 2016. P. 1480-1489.

62. Lin, Z. [et al.]. A structured Self-attentive Sentence Embedding // Conference paper in 5th International Conference on Learning Representations (ICLR 2017). 2017.

63. Wagner, J. [et al.]. DCU: Aspect-based Polarity Classification for SemEval Task 4 // Proceedings of the 8th International Workshop on Semantic Evaluation (SemEval 2014). Dublin, Ireland, 2014. P. 223-229.

64. Vaswani, A. [et al.]. Attention is all you need // Advances in neural information processing systems. 2017. P. 5998—6008.

65. Devlin, J. [et al.]. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding // Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. Vol. 1. 2019. P. 4171-4186.

66. Radford, A. [et al.]. Improving language understanding by generative pre-training. 2018.

67. Brown, T. B. [et al.]. Language models are few-shot learners // 34th Conference on Neural Information Processing Systems (NeurIPS 2020), Vancouver, Canada. 2020.

68. Alt, C., Hubner, M., Hennig, L. Improving relation extraction by pre-trained language representations // Automated Knowledge Base Construction (AKBC). 2019.

69. Sun, C., Huang, L., Qiu, X. Utilizing BERT for Aspect-Based Sentiment Analysis via Constructing Auxiliary Sentence // Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. Vol. 1. 2019. P. 380—385.

70. Kuratov, Y., Arkhipov, M. Adaptation of deep bidirectional multilingual transformers for russian language //. 2019. P. 333—339.

71. Bowman, S. [et al.]. A large annotated corpus for learning natural language inference // Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing. 2015. P. 632—642.

72. Conneau, A. [et al.]. XNLI: Evaluating Cross-lingual Sentence Representations // Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing. 2018. P. 2475—2485.

73. Clark, K. [et al.]. Electra: Pre-training text encoders as discriminators rather than generators // International Conference on Learning Representations. 2020.

74. Liu, Y. [et al.]. Roberta: A robustly optimized bert pretraining approach // arXiv preprint arXiv:1907.11692. 2019.

75. Conneau, A. [et al.]. Unsupervised Cross-lingual Representation Learning at Scale // Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics. Online : Association for Computational Linguistics, 07/2020. P. 8440-8451.

76. Joshi, M. [et al.]. Spanbert: Improving pre-training by representing and predicting spans // Transactions of the Association for Computational Linguistics. 2020. Vol. 8. P. 64-77.

77. Wu, S., He, Y. Enriching pre-trained language model with entity information for relation classification // Proceedings of the 28th ACM International Conference on Information and Knowledge Management. 2019. P. 2361—2364.

78. Mintz, M. [et al.]. Distant supervision for relation extraction without labeled data // Proceedings of the Joint Conference of the 47th Annual Meeting of the ACL and the 4th International Joint Conference on Natural Language Processing of the AFNLP. 2009. Vol. 2. P. 1003-1011.

79. Go, A., Bhayani, R., Huang, L. Twitter sentiment classification using distant supervision // CS224N project report, Stanford. 2009. Vol. 1, no. 12.

80. Suttles, J., Ide, N. Distant supervision for emotion classification with discrete binary values // International Conference on Intelligent Text Processing and Computational Linguistics. Springer. 2013. P. 121—136.

81. Zhang, Y. [et al.]. Position-aware Attention and Supervised Data Improve Slot Filling // Proceedings of the 2017 Conference on Empirical Methods in Natural Language Processing (EMNLP 2017). 2017. P. 35-45.

82. Jia, W. [et al.]. ARNOR: attention regularization based noise reduction for distant supervision relation classification // Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics. 2019. P. 1399-1408.

83. Choi, E. [et al.]. Document-level sentiment inference with social, faction, and discourse context // Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics. Vol. 1. 2016. P. 333—343.

84. Volkova, S., Wilson, T., Yarowsky, D. Exploring sentiment in social media: Bootstrapping subjectivity clues from multilingual twitter streams // Proceedings of the 51st Annual Meeting of the Association for Computational Linguistics. Vol. 2. 2013. P. 505-510.

85. Pérez-Rosas, V., Banea, C., Mihalcea, R. Learning Sentiment Lexicons in Spanish // Proceedings of the Eighth International Conference on Language Resources and Evaluation (LREC'12). Istanbul, Turkey : European Language Resources Association (ELRA), 05/2012. P. 3077-3081.

86. Peng, J., Bo, L., Xu, J. Conditional neural fields // Advances in neural information processing systems. 2009. P. 1419—1427.

87. Mohammad, S., Yang, T. Tracking Sentiment in Mail: How Genders Differ on Emotional Axes // Proceedings of the 2nd Workshop on Computational Approaches to Subjectivity and Sentiment Analysis (WASSA 2.011). 2011. P. 70-79.

88. Han, X., Choi, E., Tan, C. No Permanent Friends or Enemies: Tracking Relationships between Nations from News // Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. Vol. 1. 2019. P. 1660—1676.

89. Loukachevitch, N. [et al.]. SentiRuEval: testing object-oriented sentiment analysis systems in Russian // Proceedings of International Conference Dialog. Vol. 2. 2015. P. 3-13.

90. Trofimovich, J. Comparison of neural network architectures for sentiment analysis of russian tweets // Computational Linguistics and Intellectual Technologies: Proceedings of the International Conference Dialogue. 2016. P. 50-59.

91. Rogers, A. [et al.]. RuSentiment: An enriched sentiment analysis dataset for social media in Russian // Proceedings of the 27th international conference on computational linguistics. 2018. P. 755—763.

92. Smetanin, S., Komarov, M. Deep transfer learning baselines for sentiment analysis in Russian // Information Processing & Management. 2021. Vol. 58, no. 3.

93. Cer, D. [et al.]. Universal Sentence Encoder //In submission to: EMNLP demonstration. Brussels, Belgium, 2018. In submission.

94. Маннинг, К. Д., Рагхаван, П., Шютце, Х. Введение в информационный поиск. 2011.

95. Van Asch, V. Macro-and micro-averaged evaluation measures [[basic draft]] // Belgium: CLiPS. 2013. Vol. 49.

96. Manning, C. D., Schütze, H., Raghavan, P. Introduction to information retrieval. Cambridge university press, 2008.

97. Kutuzov, A., Kuzmenko, E. WebVectors: A Toolkit for Building Web Interfaces for Vector Semantic Models. In: Ignatov D. et al. (eds) Analysis of Images // Social Networks and Texts. AIST 2016. Communications in Computer and Information Science. 2017. Vol. 661. P. 311—322.

98. Ben-Ami, Z., Feldman, R., Rosenfeld, B. Exploiting the Focus of the Document for Enhanced Entities' Sentiment Relevance Detection // Workshop (ICDMW), 2015 IEEE International Conference on, IEEE. 2015. P. 1284-1293.

99. Huang, X. [et al.]. Attention-based convolutional neural network for semantic relation extraction // Proceedings of COLING 2016, the 26th International Conference on Computational Linguistics: Technical Papers. 2016. P. 2526-2536.

100. Glorot, X., Bengio, Y. Understanding the difficulty of training deep feedforward neural networks // Proceedings of the thirteenth international conference on artificial intelligence and statistics. 2010. С. 249—256.

101. Zeiler, M. D. ADADELTA: an adaptive learning rate method // arXiv preprint arXiv:1212.5701. 2012.

102. Palmer, M., Gildea, D., Kingsbury, P. The proposition bank: An annotated corpus of semantic roles // Computational linguistics. 2005. Vol. 31, no. 1. P. 71-106.

103. Dowty, D. Thematic proto-roles and argument selection // Language. 1991. Vol. 67, no. 3. P. 547-619.

104. Kuznetsova, E. S., Loukachevitch, N. V., Chetviorkin, I. I. Testing rules for a sentiment analysis system // Computational Linguistics and Intellectual Technologies: Proceedings of the International Conference Dialogue. 2013.

105. Weischedel, R. [et al.]. Ontonotes release 5.0 ldc2013t19 // Linguistic Data Consortium, Philadelphia, PA. 2013. Vol. 23.

106. Loukachevitch, N., Lashevich, G., Dobrov, B. Comparing Two Thesaurus Representations for Russian // Proceedings of Global WordNet Conference GWC. 2018. P. 35-44.

107. Massey Frank, J., Jr. The Kolmogorov-Smirnov test for goodness of fit // Journal of the American statistical Association. 1951. Vol. 46, no. 253. P. 68-78.

108. Смирнов, Н. Оценка расхождения между эмпирическими кривыми распределения в двух независимых выборках // Бюллетень МГУ, серия А, Т.2. №2. 1939. С. 3—14.

109. Clark, K. [et al.]. What Does BERT Look at? An Analysis of BERT's Attention // Proceedings of the 2019 ACL Workshop BlackboxNLP: Analyzing and Interpreting Neural Networks for NLP. 2019. P. 276—286.

Приложения

П.1 Анализ значимости признаков классических методов машинного обучения в задаче извлечения оценочных

отношений

Оценка значимости признаков выполнялась с помощью классификационной модели Random Forest. Модель Random Forest рассматривается с набором параметров по-умолчанию, за исключением:

— Использования t = 10 деревьев;

— Рассмотрения равных весов классов.

Для составления значимости признаков выполняется обучение модели на обучающем множестве коллекции RuSentRel (см. Параграф 2.6.1). Под значимостью признакав рамках модели Random Forest понимается вычисление стандартного отклонения накопления примеси (от англ. Mean Decrease in Impurity, MDI), есть отношение: суммы числа разбиений, которые включают такой признак (среди всех деревьев в количестве t) к числу примеров, которое которое этот признак разбивает.

Результат вычисления значимости каждого из признаков, в порядке убывания значения значимости приведен на Рис. П.1. Среди наиболее значимых признаков в порядке убывания, следует отметить:

— Similarity - близость сущностей на основе Word2Vec модели (см. Параграф 2.1);

— EntityFrequencies - частота вхождения сущностей;

— Lexicon - признаки на основе словаря RuSentiLex;

— EntityTag - тип именованной сущности согласно Параграфу 2.1;

— Число запятых между именованными сущностями.

Признаки на основе контекстов перед первым участником пары (в частности признак части речи слова ContextPosBefore) практически не имеют значимость.

Рис. П.1.

Оценка значимости признаков моделью Random Forest (используется 10 деревьев, веса классов равны) по параметру стандартного отклонения накопления примеси (от англ. Mean Decrease in Impurity, MDI); модель предварительно обучена на обучающем множестве коллекции RuSentRel

П.2 Документация приложений к фреймворку AREkit для организации экспериментов с извлечением оценочных

отношений

Для проведения экспериментов с извлечение оценочных отношений с использованием методов машинного обучения, были составлены репозитории для нейронных сетей (https://github.com/nicolay-r/neural-networks-for-attitude-ex traction/tree/0.20.5) и языковых моделей (https://github.com/nicolay-r/bert-utils-for-attitude-extraction/tree/0.20.5).

Для сериализации данных эксперимента Предоставляется скрипт run_serialization.py. Список параметров командной строки такого сценария следующий:

— experiment - набор данных обучения моделей:

— rsr - коллекция RuSentRel для обучения с учителем;

— ra - коллекция RuAttitudes для предобучения;

— rsr+ra - объединение данных коллекций RuSentRel и RuAttitudes.

— cv_count - формат разбиения набора данных;

— 1 - использование фиксированного формата разбиения;

— к - использование кросс-валидационного разбиения на ^-частей;

— frames_versions - версия коллекции RuSentiFrames;

— v2.0 - коллекция фреймов RuSentiFrames-2.0;

— ra_ver - версия коллекции RuAttitudes, если последняя используется в наборе данных;

— v1_2 - коллекция RuAttitudes-1.0;

— v2_0_base - коллекция RuAttitudes-2.0BaSe;

— v2_0_large - коллекция RuAttitudes-2.0Large;

— v2_0_base_neut - коллекция RuAttitudes-2.0Base-Neut;

— v2_0_large_neut - коллекция RuAttitudes-2.0Large-Neut;

— emb-filepath - путь к предобученной Word2Vec модели векторных представлений слов;

— entity-fmt - тип форматирования термов сущностей в контексте.

— rus-simple - использование русскоязычных строк-масок: объект, субъект, сущость;

— sharp-simple - использование следующих масок: #O (для объектов), #S (для субъектов), #E (для остальных сущностей контекста); такой формат представления используется в языковых моделях;

— balance-samples - флаг включения/отключения балансировки коллекции контекстов по классам;

Для обучения нейронных сетей используется сценарий run_training.py.

Список параметров коммандной строки представляет собой расширение набора параметров сценария run_serialization.py. Список дополнительных параметров следующий:

— model_name - название используемого кодировщика в общей модели нейронной сети:

— cnn - сверточная нейронная сеть CNN;

— pcnn - кусочно-сверточная нейронная сеть PCNN;

— rnn - использование рекуррентной нейронной сети с кодировщиком на основе ячейки LSTM;

— bilstm - использование архитектуры BiLSTM;

— att-cnn - сверточная нейронная сеть CNN с механизмом внимания на основе многослойного перцептрона;

— att-pcnn - кусочно-сверточная нейронная сеть PCNN с механизмом внимания на основе многослойного перцептрона;

— att-bilstm - нейронная сеть c архитектурой Att-BLSTM.

— do_eval - флаг, указывает на выполнение оценки модели в процессе обучения;

— bags_per_minibatch - количество мешков в мини-партии;

— balanced_input - флаг, указывает на использование сбалансированной коллекции в обучении модели;

Прочие настройки обучения а также моделей могут быть заданы в качестве параметров при инициализации класса DefaultConfig (см. Параграф 4.4).

Для агрегации результатов моделей в таблицу Для аггрегации полученных результатов используется утилита utils_result2table.py. Список параметров такой утилиты следующий:

— result_type - тип подсчитываемого результата в ячейках таблицы;

— round - количество используемых знаков после запятой в округлении вещественных значений;

— scale - коэффициент масштабирования результатов таблицы (1 по-умолчанию);

— foldings - используемые форматы разбиения данных при составлении таблицы результатов:

— fx - фиксированный;

— cv - кросс-валидационный, с параметром числа разбиений к = 3;

П.2.1 Сериализация данных экспериментов

Например, сценарий сериализации данных эксперимента совместного обучения в трехклассовом режиме классификации (THREE-SCALE), при кросс-валидационном формате разбиения документов на 3 части, с использованием коллекции RuAttitudes-2.0Large-Neut и балансировкой объема контекстов:

1 python run_serialization.py--cv—count 3 —frames—version v2_0--experiment rsr+ra —

labels—count 3 —emb—filepath data/news_rusvectores2.bin.gz —entity—fmt rus—simple —balance—samples True

Для двуклассового режима (TWO-SCALE) тестирования, используются коллекции RuAttitudes без нейтральных отношений (т.е. без суффикса neut в значении параметра ключа ra_ver).

Составление статистики числа входных контекстов. После завершения процесса сериализации, статистика числа контекстов по каждому классу может быть сформирована в таблицу. Для агрегации результатов используется утилита utils_result2table.py Для получения оценки результатов прироста качества при использовании опосредованного обучения, необходимо выполнить следующие команды:

— Статистика для обучения с учителем и объединенного формата обучения:

1 python utils_results2table.py--result—type train—samples—pos train—samples—neg

train—samples—neu —labels 3 —foldings fx--round 0 —training—type single

--models cnn

— Статистика для предварительного обучения:

1 python utils_results2table.py--result—type train—samples—pos train—samples—neg

train—samples—neu —labels 3 —foldings fx--round 0 —training—type pt

--models cnn

П.2.2 Обучение и оценка результатов моделей сверточных и

рекуррентных нейронных сетей

В качестве параметров для листингов запуска процесса обучения, используется модель CNN для трехклассового режима классификации и кросс-вали-дационного формата разбиения данных. Используемый в листингах параметр CUDA_VISIBLE_DEVICES=X позволяет явно указать графическое устройство, предполагаемое для проведения экспериментов (либо несколько устройств; зависит от настроек, оказывающих влияние на объем требуемой памями со стороны графического ускорителя).

— Обучение на коллекции RuSentRel и тестирование:

1 2

3

4

5

— Совмещенное обучение и тестирование:

1 2

3

4

5

6

— Предварительное обучение на основе коллекции RuAttitudes:

1 2

3

4

— Дообучение на коллекции RuSentRel. Сценарий выполнения включает следующий набор дополнительных параметров:

— model-state-dir указывает на каталог с сохраненным состоянием предобученной модели;

— vocab-filepath путь к словарю, используемому в предобучен-ной модели;

— model-tag указывает на суффикс в полном наименовании модели (опционально);

CUDA_VISIBLE_DEVICES=0 python run_training.py--do-eval \

—bags-per-minibatch 32--dropout—keep-prob 0.80 —cv-count 3 \

—labels-count 3 —experiment rsr —model-input-type ctx \ —model-name cnn —test-every-k-epoch 5 —learning-rate 0.1 \ —balanced-input True —train-acc-limit 0.99 —epochs 100

CUDA_VISIBLE_DEVICES=0 nohup python run_training.py \ --do-eval --bags-per-minibatch 32 \

—dropout-keep-prob 0.8 —cv-count 3 —labels-count 3 —experiment rsr+ra \ —ra-ver v2_0_large_neut —model-input-type ctx —model-name cnn — epochs 100 \

—test-every-k-epoch 5 —learning-rate 0.1--balanced-input True \

--train-acc-limit 0.999 &> rsrra-cnn.log &

CUDA_VISIBLE_DEVICES=0 python run_training.py--bags-per-minibatch 32 \

—dropout-keep-prob 0.8 —labels-count 3 —experiment ra \ —model-input-type ctx —model-name cnn —ra-ver v2_0_large_neut \ —learning-rate 0.1 —train-acc-limit 0.999 —balanced-input True

1 2

3

4

5

6

7

8 9

Составление таблиц с результатами. После завершения процесса обучения, полученные результаты могут быть составлены в таблицу. Для агрегации результатов используется утилита utils_result2table.py. Для получения оценки результатов прироста качества при использовании опосредованного обучения, необходимо выполнить следующие сценарии: Для объединенного обучения:

— Оценка прироста качества при использовании опосредованного обучения:

1 2

— Оценка прироста качества при использовании модуля механизма внимания в кодировщиках нейронных сетей:

1 2

Для дообучения:

— Оценка прироста качества при использовании опосредованного обучения:

1 2

— Оценка прироста качества при использовании модуля механизма внимания в кодировщиках нейронных сетей:

1 2

Составление оценок производительности. Используется утилита utils_result2table.py со следующим набором параметров:

CUDA_VISIBLE_DEVICES=0 python run_training.py \ —do-eval —cv-count 3 —labels—count 3 \

—bags—per—minibatch 32 —dropout—keep—prob 0.8 —emb—filepath \ output/ra—v2_0_large_neut—balanced—tpc50_3l/term_embedding—O.npz \ —vocab—filepath output/ra—v2_0_large_neut—balanced—tpc50_3l/vocab—0.txt. npz \

—model—state—dir output/ra—v2_0_large_neut—balanced—tpc50_3l/cnn \ ——experiment rsr ——model—input—type ctx ——model—name cnn \ —test—every—k—epoch 1 —learning—rate 0.01 —balanced—input True \ —train—acc—limit 0.99 —model—tag ra20ln

python utils_results2table.py--result—type ds-diff-imp \

—round 1 —training—type single

python utils_results2table.py--result—type ds—diff—att \

—round 1 —training—type single

python utils_results2table.py--result—type ds—diff—imp \

—round 1 —training—type ft

python utils_results2table.py--result—type ds—diff—att \

—round 1 —training—type ft

— Для предварительного обучения:

1 python utils_results2table.py--result—type train—total--foldings fx —round 0 —training—type pt time epochs —labels 2 3

Для дообучения:

1 python utils_results2table.py--result—type train—total--foldings fx —round 0 —training—type ft time epochs —labels 2 3

Для объединенного процесса обучения:

1 python utils_results2table.py--result—type train—total— --foldings fx —round 0 —training—type single time epochs —labels 2 3

Таблица П.1.

Оценка прироста качества моделей нейронных сетей при использовании опосредованного обучения, в процентном соотношении (Формула 3.16) с подходами на основе обучения с учителем; для каждой версии коллекции ЯиЛШ1^е8 приводится среднее арифметическое по полученным оценкам

Дообучение

two- scale three- -scale two- scale three- scale

Модель Версия RA A(F 1%,) A(F 1t) A(F 1%,) A(F 1t) A(F 1%,) A(F 1t) A(F 1%,) A(F 1t)

CNN 2.0-Large 7.2 5.9 1.1 15.0 10.3 12.7 16.4 26.1

CNN 2.0-Base 5.5 1.4 5.0 5.4 -1.4 2.0 10.2 28.3

CNN 1.0-Base 4.7 7.4 9.9 13.7 6.7 9.3 15.7 34.7

PCNN 2.0-Large 2.7 11.8 0.6 -1.2 7.9 11.4 7.2 22.2

PCNN 2.0-Base 3.9 9.6 2.8 3.4 2.1 12.5 7.7 17.8

PCNN 1.0-Base 2.8 13.9 -3.4 3.1 3.4 11.2 8.7 20.3

LSTM 2.0-Large 13.4 7.8 9.6 6.6 10.1 15.5 13.7 25.0

LSTM 2.0-Base 7.2 -1.1 -0.7 3.5 5.8 7.0 13.4 17.7

LSTM 1.0-Base 8.5 3.8 7.4 0.3 8.8 7.2 17.5 25.6

BiLSTM 2.0-Large -0.2 -6.5 -0.9 9.3 14.3 -3.9 12.0 19.8

BiLSTM 2.0-Base 5.3 -6.7 -1.8 0.3 9.3 -3.9 12.0 21.9

BiLSTM 1.0-Base 6.3 -1.7 0.1 5.2 7.2 -4.4 19.7 16.4

AttCNN6 2.0-Large 1.4 2.0 2.0 17.8 2.8 9.8 12.4 34.3

AttCNN6 2.0-Base -3.3 -0.8 3.1 12.8 4.9 4.5 13.8 26.6

AttCNN6 1.0-Base 1.7 5.1 5.5 14.1 3.2 11.0 16.4 37.0

AttPCNN6 2.0-Large 3.8 10.0 -6.2 -0.3 9.2 7.1 8.6 22.4

AttPCNN6 2.0-Base -1.6 10.4 0.4 6.7 6.1 8.8 6.3 19.3

AttPCNN6 1.0-Base 5.5 10.9 -0.8 10.7 2.2 13.3 7.2 25.2

IANe 2.0-Large 6.6 3.5 -7.5 2.0 14.0 14.3 1.2 21.9

IANe 2.0-Base 6.6 5.4 -9.1 11.3 15.3 11.2 1.4 21.9

IANe 1.0-Base 7.2 8.2 -2.1 5.0 13.1 10.4 4.2 29.9

ATT-BLSTM 2.0-Large 7.6 -1.8 4.6 3.1 1.1 4.4 13.3 15.5

ATT-BLSTM 2.0-Base 0.0 -3.7 3.6 4.3 0.5 2.2 16.1 24.1

ATT-BLSTM 1.0-Base 3.8 5.0 6.9 5.6 8.0 4.7 18.6 17.6

Среднее-A(F 1) 2.0-Large +5.3% +4.1% +0.4% +6.5% +8.7% +8.9% +10.6% +23.4%

Среднее-A(F 1) 2.0-Base +3.0% +1.8% +0.4% +6.0% +5.3% +5.5% + 10.1% +22.2%

Среднее — 63.5 65.9 28.8 31.8 63.5 65.9 28.8 31.8

Объединенное обучение

П.3 Примеры запуска обучения языковых моделей

После того как входные контексты для обучения и тестирования модели были заготовлены (с помощью приложения AREbert), необходимо переместить каталог с подготовленными данными (output) в настоящий проект. Общий сценарий запуска экспериментов с языковой моделью BERT:

_run.sh -g <GPU_ID> -p <PART_INDEX> -t <TOTAL_PARTS_COUNT> \

-l <LABELS COUNT> -r <ROOT DIR> -c <CV COUNT> -b <BATCH SIZE>

Список обозначения флагов:

— g - Индекс графического процессора GPU используемого в экспериментах;

— p - Индекс используемой модели во всем списке моделей;

— l - Число используемых меток класса;

— d - Корневой каталог с сохраненными моделями;

— c - Кросс-валидационное число разбиенией (CV-count);

— b - Размер мини-партии (Batch size);

— P - Предзаданное имя состояния;

— T - Число итераций проведения обучения до повторного выполнения предсказания (do_predict);

— p - Флаг, указывающий на выполнение предсказания (do_predict);

— e - Число эпох обучения модели;

— C - Индекс сохраненного состояния (Checkpoint name);

— M - Тэг модели;

— L - Скорость обучения (Learning Rate);

— W - Коэффициент прогрева модели; Организация различных форматов обучения:

— Пример сценария запуска эксперимента с языковой моделью BERT для

проведения обучения с учителем:

1 ./_run.sh — g 2 —p 1 —t 3 —13 —r output/rsr-v1_1-fixed-balanced—tpc50_3l/ —c 1 -b 16 —P multi cased L—12 H—768 A—12 —e 50

Пример сценария запуска для проведения предварительного обучения модели: 1

./_run.sh —g 0,1 —p 1 — t 3 l 3 r output/ra—v2_ 0_large _neut—balanced—tpc50_31

/ —c 1 —b 32 —P multi cased_ L—12_H—768_ A—12 — e 5 —A False —T 1

— Для перехода к этапу дообучения, полученное предобученное состояние необходимо перенести в папку (ra-20-bert-large-neut-nli-pretrained-3l для листинга выше), а также дополнительно указать точку старта в сохраненном состоянии (Checkpoint) для проведения дообучения. Пример сценария запуска для проведения дообучения модели:

1 ./_run.sh —g 0 —p 0 —t 3 —13 —r output/rsr-v1_1-cv3-balanced-tpc50_3l/ —c 3 —b 16 —P ra—20—bert—large—neut—nli—pretrained—31 —e 50 —M ra—201n —W 0.1 —C model.ckpt—75596 —T 5

Таблица П.2.

Оценка прироста качества языковых моделей BERT при использовании опосредованного обучения, в процентном соотношении (Формула 3.16) с подходами на основе обучения с учителем; для каждой версии коллекции RuAttitudes приводится среднее арифметическое по полученным оценкам

Дообучение

TWO- SCALE three- -SCALE

Модель Версия RA A(F 1%,) A(F 1t) A (F 1acv) A (F 1t)

КиВЕКТ (без TEXтB) 2.0-Large 3.21 5.44 -1.10 -5.85

RuBERT (без ТехтВ) 2.0-Base 0.76 3.32 -2.73 -5.30

КиВЕКТ (без ТехтВ) 1.0-Base 3.21 3.02 -5.56 0.35

КиВЕКТ (ТЕХТВдл) 2.0-Large 0.31 3.02 9.30 4.82

КиВЕКТ (ТЕХТВдл) 2.0-Base -1.38 3.47 19.03 10.76

КиВЕКТ (ТЕХТВдл) 1.0-Base -0.89 0.00 -1.97 11.33

КиВЕКТ (ТЕХТВКы) 2.0-Large 3.30 3.37 29.69 0.56

КиВЕКТ (ТЕХТВКы) 2.0-Base -2.99 0.68 27.36 -0.63

КиВЕКТ (ТЕХТВкы) 1.0-Base -0.33 4.02 14.03 3.71

БеотКиВЕКТ (без ТехтВ) 2.0-Large 1.11 6.52 11.76 13.15

БеотКиВЕКТ (без ТехтВ) 2.0-Base 1.53 3.94 14.26 10.62

БеотКиВЕКТ (без ТехтВ) 1.0-Base 0.75 8.18 -0.59 12.27

БЕОТКИВЕКТ (ТЕХтВдл) 2.0-Large -0.73 -4.44 3.43 13.64

БЕОТКИВЕКТ (ТЕХтВдл) 2.0-Base -2.30 0.49 12.00 7.75

БЕОТКИВЕКТ (ТЕХтВдл) 1.0-Base 0.38 2.25 -8.71 0.54

БЕОТКИВЕКТ (ТЕХТВмы) 2.0-Large 0.64 0.04 17.53 16.27

БЕОТКИВЕКТ (ТЕХТВмы) 2.0-Base 1.38 2.04 6.52 24.04

БЕОТКИВЕКТ (ТЕХТВмы) 1.0-Base 0.45 0.86 -0.95 0.00

Среднее-А(^ 1) 2.0-Large +1.8% +3.7% +13.5% + 10.0%

Среднее-А(^ 1) 2.0-Base +2.8% +4.6% +11.4% +11.7%

Среднее — 68.5 65.7 31.6 35.6

Таблица П.3.

Сравнение качества работы модели КиБЕКТ относительно шБЕКТ в результате дообучения моделей; средние значения отмечены зеленым (прирост качества более 5%), серым (прирост менее 5%), и красным (прирост

отсутствует)

Дообучение

тwo- SCALE тняее-

Модель Версия РЛ Л(Р 1%,) А(Р и) ЩР1%,) А(Р и)

RuBERT/mBERT (без TEXтB) 2.0-ьаясе 1.60 3.10 16.72 13.83

RuBERT/mBERT (TEXтBQA) 2.0-ьаясе 0.00 4.60 15.61 4.23

RuBERT/mBERT (TEXтBNLI) 2.0-ьаясе 2.31 0.59 9.52 10.83

RuBERT/mBERT (без TEXтB) 2.0-BASE -6.45 -4.34 15.18 -5.32

RuBERT/mBERT (TEXтBQA) 2.0-BASE -7.80 -4.06 28.81 20.68

RuBERT/mBERT (TEXтBNLI) 2.0-BASE -3.18 -3.88 16.08 5.07

RuBERT/mBERT (без TEXтB) 1.0-BASE 2.79 -0.87 21.94 17.45

RuBERT/mBERT (TEXтBQA) 1.0-BASE -1.15 -6.76 4.35 40.36

RuBERT/mBERT (TEXтBNLI) 1.0-BASE -3.38 1.17 4.82 28.04

Среднее 2.0-ьаясе 1.30 2.76 13.95 9.63

Среднее 2.0-BASE -5.81 -4.09 20.02 6.81

Среднее 1.0-BASE -0.58 -2.15 10.37 28.61

Таблица П.4.

Сравнение качества работы модели ЗемтИиВЕКТ относительно ИиБЕИТ в результате дообучения моделей; средние значения отмечены зеленым (прирост качества более 5%), серым (прирост менее 5%), и красным (прирост

отсутствует)

Дообучение

тwo- SCALE тНЯЕЕ-

Модель Версия РЛ щр 1%,) А(Р и) МР1) А(Р и)

SENтRuBERT/RuBERT (без TEXтB) 2.0-ьаясе -1.41 1.75 2.99 -0.25

SENтRuBERT/RuBERT (TEXтBQA) 2.0-ьаясе 0.00 -5.87 10.34 13.24

SENтRuBERT/RuBERT (TEXтBNLI) 2.0-ьаясе -1.13 -1.31 5.98 -4.76

SENтRuBERT/RuBERT (без TEXтB) 2.0-BASE 3.08 -0.44 10.32 9.55

SENтRuBERT/RuBERT (TEXтBQA) 2.0-BASE 0.00 -1.46 -6.58 -14.07

SENтRuBERT/RuBERT (TEXтBNLI) 2.0-BASE 5.37 3.14 -1.94 3.05

SENтRuBERT/RuBERT (без TEXтB) 1.0-BASE -0.29 3.96 0.00 4.77

SENтRuBERT/RuBERT (TEXтBQA) 1.0-BASE 2.32 3.63 0.64 -0.51

SENтRuBERT/RuBERT (TEXтBNLI) 1.0-BASE 2.33 -1.30 0.61 -18.00

Среднее 2.0-ьаясе -0.85 -1.81 6.44 2.74

Среднее 2.0-BASE 2.82 0.41 0.60 -0.49

Среднее 1.0-BASE 1.46 2.09 0.42 -4.58

П.4 Свидетельство о государственной регистрации программы для

ЭВМ

российская федерация

RU

2021663268

ФЕДЕРАЛЬНАЯ СЛУЖБА

ПО ИНТЕЛЛЕКТУАЛЬНОЙ СОБСТВЕННОСТИ

(12) ГОСУДАРСТВЕННАЯ РЕГИСТРАЦИЯ ПРОГРАММЫ ДЛЯ ЭВМ

Номер регистрации (свидетельства): Автор:

2021663268 Русначенко Николай Леонидович (RU)

Дата регистрации: 13.08.2021 Правообладатель:

Номер и дата поступления заявки: Русначенко Николай Леонидович (RU)

2021662348 00.08,2021

Дата публикации: 13.08.2021

Контактные реквизиты:

89162429919, kolyarus@yandex.ru

Название программы для ЭВМ:

Программный комплекс для извлечения оценочных отношений между именованными сущностями из коллекций новостных документов

Реферат:

Программа предназначена для обработки новостных и аналитических текстов. Может использоваться в качестве потока/модуля (workflow) программного-an па ратного комплекса обработки текстовой информации новостного характера. Функциональные возможности программы: возможность извлечения оценочных отношений между именованными из коллекции аналитических текстов с размеченными именованными сущностями; аннотация новостных текстов с выполнением разметки именованных сущностей и извлечением оценочных отношений посредством использования лексикона RuSentiFrames; возможность применения методов машинного обучения на основе нейронных сетей и языковых моделей BERT к коллекциям аналитических текстов. Тип ЭВМ: ПК. ОС: Ubuntu Linux lß.0,4.

Язык программирования: Python

Объем программы для ЭВМ: 13,2 МБ

Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.

Оглавление диссертации кандидат наук Русначенко Николай Леонидович

Методы и алгоритмы построения информационных систем для классификации текстов социальных сетей по тональности2020 год, кандидат наук Рубцова Юлия Владимировна

Методы извлечения и резюмирования критических отзывов пользователей о продукции2016 год, кандидат наук Тутубалина Елена Викторовна

Методы сравнения и построения устойчивых к шуму программных систем в задачах обработки текстов2019 год, кандидат наук Малых Валентин Андреевич

Автоматизированное формирование базы знаний для задачи анализа мнений2013 год, кандидат физико-математических наук Четвёркин, Илья Игоревич

Введение диссертации (часть автореферата) на тему «Модели, методы и программные средства извлечения оценочных отношений на основе фреймовой базы знаний»

Похожие диссертационные работы по специальности «Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей», 05.13.11 шифр ВАК

Методы автоматизированного пополнения графов знаний на основе векторных представлений2022 год, кандидат наук Тихомиров Михаил Михайлович

Алгоритмы интеллектуального поиска на основе метода категориальных векторов2016 год, кандидат наук Бондарчук, Дмитрий Вадимович

Автоматическое распознавание точки зрения автора текста на основе ансамблей методов машинного обучения2021 год, кандидат наук Вычегжанин Сергей Владимирович

Методы и программные средства для выявления заимствований в текстах на армянском языке2021 год, кандидат наук Гукасян Цолак Гукасович

Список литературы диссертационного исследования кандидат наук Русначенко Николай Леонидович, 2022 год