Нейросетевое моделирование и машинное обучение на основе экспериментальных и наблюдательных данных

Сбоев Александр Георгиевич

Нейросетевое моделирование и машинное обучение на основе экспериментальных и наблюдательных данных тема диссертации и автореферата по ВАК РФ 05.13.18, доктор наук Сбоев Александр Георгиевич

Сбоев Александр Георгиевич
доктор наук
2021

Специальность ВАК РФ05.13.18

Количество страниц 389

Сбоев Александр Георгиевич. Нейросетевое моделирование и машинное обучение на основе экспериментальных и наблюдательных данных: дис. доктор наук: 05.13.18 - Математическое моделирование, численные методы и комплексы программ. ФГАОУ ВО «Национальный исследовательский ядерный университет «МИФИ». 2021. 389 с.

Оглавление диссертации доктор наук Сбоев Александр Георгиевич

Введение

Глава 1. Методы машинного обучения и нейронных сетей для

решения задач моделирования на основе данных

1.1 Методы машинного обучения от коннекционализма к глубокому обучению

1.2 Традиционные и глубокие методы машинного обучения в моделировании на основе данных

1.3 Традиционные методы обучения в моделировании на основе данных

1.4 Основные компоненты методов и алгоритмов глубокого обучения

1.5 Выводы по главе

Глава 2. Методы машинного обучения и нейросетевые методы для

базового анализа текстов с учетом морфологии и синтаксиса

2.1 Компоненты препроцессинга текста в ходе его базового анализа

2.2 Сегментация текста на базе его посимвольного представления и рекуррентных нейросетей

2.3 Морфологический анализ на основе двухуровневой нейронной

сети глубокого обучения

2.4 ^токсический разбор текста на базе инкрементальной схемы переходов и нейросетевого ансамбля

2.5 Семантическое представление на основе использования методов распределенной семантики

2.6 Выводы по главе

Глава 3. Алгоритм отбора тематически схожих документов с

построением контекстно-семантического графа на основе вероятностно-энтропийного подхода

3.1 Компоненты задачи отбора тематически схожих документов

3.2 Общая схема системы поиска тематически схожих документов

3.3 Методы выделения ключевых слов и словосочетаний

3.4 Методы построения контекстно-семантического графа

3.5 Оценка эффективности алгоритма по точности и полноте

3.6 Выводы по главе

Глава 4. Количественный метод оценки эмотивности текста на основе психолингвистических маркеров, основанных на морфологических признаках

4.1 Постановка задачи определения эмоционального возбуждения автора русского текста

4.2 Психолингвистические маркеры, отражающие степень эмоционального напряжения

4.3 Вычислительные эксперименты по решению задачи определения эмоционального возбуждения автора русского текста

4.4 Эксперименты и результаты оценки точности методики определения эмотивности русского текста

4.5 Выводы по главе

Глава 5. Методы машинного обучения и нейронных сетей для

решения задач авторского профилирования (определение

пола и возраста)

5.1 Цели и задачи проводимых исследований по идентификации

пола и возраста автора русскоязычного текста

5.2 Корпуса текстов для задач авторского профилирования

5.3 Формирование набора признаков для определения пола и возраста

5.4 Специализированные предобучаемые методы для определения

пола и возраста

5.5 Классифицирующие методы без предобучения

5.6 Результаты традиционных методов машинного обучения и методов глубокого обучения для случаев идентификации пола в русскоязычных текстах без его намеренного искажения

5.7 Точность традиционных методов машинного обучения и методов глубокого обучения для идентификации пола в русскоязычных текстах при наличии случаев его намеренного искажения

5.8 Сравнение результатов определения традиционными методами машинного обучения и методами глубокого обучения возрастной группы автора текста при наличии его искажения в тексте

5.9 Сопоставление точности определения традиционными методами машинного обучения и методами глубокого обучения возрастной группы автора текста в отсутствие искажения

5.10 Выводы по главе

Глава 6. Машинное обучение с использованием спайковых

нейронных сетей для анализа информационных данных

6.1 Компоненты модели спайковой нейросети

6.2 Способы кодирования входных данных для построения эффективных классификаторов на основе спайковых нейронных сетей

6.3 Локальные и нелокальные алгоритмы обучения спайковых нейронных сетей

6.4 Описание динамики спайковой нейронной сети с локальной синаптической пластичностью Spike-Timing-dependent Plasticity (STDP)

6.5 Свойства спайковых нейронов с STDP-пластичностью

6.6 Аналитическая оценка изменения веса под действием STDP

6.7 Построение алгоритма спайковой нейросети на основе весов предварительно обученной формальной нейросети

6.8 Алгоритм классификации на основе нейросети с STDP обучением

и частотным кодированием данных

6.9 Алгоритм классификации на основе нейросети с STDP обучением

с временным кодированием данных

6.10 Комбинированный алгоритм классификации на основе последовательно обучаемых нейросетей с частотным и временным кодированием данных

6.11 Выводы по главе

Глава 7. Задачи диагностики ишемической болезни сердца и

коронарного атеросклероза на основе нейросетевого метода с

использованием данных обследований сотрудников РЖД

7.1 Формирование обучающей выборки для метода, основанного на данных обследований сотрудников РЖД

7.2 Топология и параметры обучения нейронной сети для метода, основанного на данных обследований сотрудников РЖД

7.3 Результаты численных экспериментов на базе разработанного метода

7.4 Выводы по главе

Глава 8. Определение индивидуального суммарного риска ишемической болезни сердца у работников железнодорожного транспорта с помощью метода, основанного на данных их регулярных обследований

8.1 Формирование выборки для метода определения риска ИБС, основанного на данных периодических и предрейсовых осмотров сотрудников РЖД

8.2 Численные эксперименты по определению риска с помощью построенного метода

8.3 Результаты экспериментов по определению риска ИБС с

помощью построенного метода

8.4 Сравнение результатов методов, основанных на данных периодических и предрейсовых осмотров сотрудников РЖД с традиционными прогнозными средствами, принятыми в медицинской практике

8.5 Выводы по главе

Глава 9. Нейросетевые методы для анализа безопасности и эффективности лекарственных средств на основе интернет-источников

9.1 Постановка задачи нейросетевого анализа интернет-источников

для анализа эффективности лекарственных средств

9.2 Обзор существующих корпусов текстов с выделением медицински- и фармацевтически-значимых сущностей

9.3 Создание русскоязычного размеченного корпуса отзывов на лекарственные средства для алгоритмов машинного обучения

9.4 Разработанный русскоязычный корпус отзывов на лекарства

9.5 Метод извлечения медицинских именованных сущностей из

текстов отзывов

9.6 Численные эксперименты по обоснованию эффективности созданных нейросетевых методов глубокого обучения и оценки

их точности на русскоязычном корпусе

9.7 Результаты определения state of the art точности распознавания сущностей для русскоязычных отзывов на лекарства

9.8 Выводы по главе

Заключение

Список сокращений и условных обозначений

Список рисунков

Список таблиц

Введение диссертации (часть автореферата) на тему «Нейросетевое моделирование и машинное обучение на основе экспериментальных и наблюдательных данных»

Введение

Актуальность Метод математического моделирования в естественных науках базируется, как правило, на фундаментальных законах, которые лежат в основе моделируемых процессов или явлений. Однако, в ряде актуальных прикладных областей фундаментальные законы неизвестны — тем не менее, метод математического моделирования успешно применяется и в таких приложениях. Среди этих приложений лингвистика, социология, нейронауки и многие другие. Возможно, что для некоторых из этих приложений аналоги естественнонаучных фундаментальных законов в различных математических формах (например, в виде дифференциальных уравнений в частных производных) потребуют создания новых разделов математики. В настоящее же время, применение метода математического моделирования в таких приложениях основано не на фундаментальных законах, а на эффективном учете связей и структур, «зашифрованных» в наборах данных, получаемых при анализе изучаемых процессов или явлений. Такой подход в литературе получил название метод математического моделирования, основанный на данных (Data-Driven Modelling).

Эффективным инструментом для такого моделирования стали методы машинного обучения. В последние годы бурно развиваются нейросетевые методы глубокого обучения. В этих методах неявно содержащиеся внутри наборов данных связи и структуры отображаются во внутренние параметры нейросетей в процессе их обучения. Обученные нейросети применяются в задачах анализа данных, например, в задачах распознавания образов или классификации.

В настоящее время накоплены и интенсивно пополняются огромные объемы содержательной информации, доступной через Интернет и другие открытые электронные источники информации. На основе этих данных методами Big Data формируются большие коллекции обучающих выборок. С помощью этих выборок появляется возможность проводить анализ средствами машинного обучения различных процессов или явлений в таких приложениях, как социология, медицина, нейрофизиология и во многих других. Однако в литературе до настоящего времени отсутствует систематизация прикладных аспектов применения технологий машинного обучения в связи с большим разнообразием особенностей задач в разных приложениях. В диссертационной работе созданы такие методики, реализованные в виде программных алгоритмов и комплексов для задач анализа текстов

и задач по поддержке принятия экспертных врачебных решений. При этом ключевым моментом работы является применение методов машинного обучения и нейросетевого моделирования.

Методы машинного обучения, включая нейросетевое моделирование, несмотря на их успехи, ограниченно эффективны в задачах обработки динамических данных (spatio/spectro-temporal data, SSTD). Как отмечается в литературе [87], эффективными для таких задач могут быть спайковые нейронные сети. Заметим, что парадигма Data-Driven Modelling в полной мере относится к данному типу нейронных сетей. Одной из проблем спайковых нейросетей является устойчивость алгоритмов их обучения. В диссертации предлагается (в главе 6) методика применения спайковых нейросетей, как с частотным кодированием входных данных, с обучением на основе стабилизации выходной частоты нейрона, так и с временным кодированием данных, с обучением на основе запоминания нейроном повторяющихся временных паттернов входных спайков.

Таким образом, актуальной проблемой, на решение которой направлено диссертационное исследование, является разработка методик применения технологий машинного обучения в моделировании на основе данных для решения различных групп практически важных прикладных задач, в которых применение традиционных методов на основе известных законов ограничено или принципиально невозможно.

Предметом исследований в диссертационной работе является применение технологий машинного обучения в парадигме Data-Driven Modelling в таких приложениях, как анализ текстов и поддержка принятия решений врачом, а также проблема устойчивости обучения спайковых нейросетей на примере задач классификации и распознавания.

Цель диссертационной работы — разработка методик, обобщающих применение технологий машинного обучения в различных группах прикладных задач в области компьютерной лингвистики и медицины на основе решения актуальных проблем в этих приложениях.

Для достижения этой цели были поставлены и решены следующие группы задач:

анализ текстов

- разработать алгоритмы и программы высокоточных мультиязычных средств базового морфологического разбора;

- создать эффективные средства базового синтаксического разбора с построением синтаксического дерева;

- получить оценки state of the art точностей решения задач морфологического и синтаксического разбора при использовании машинного обучения, с формированием инструментальной платформы для решения мультипро-фильных задач извлечения знаний из текста;

- на основе разработанных базовых средств разбора текста построить алгоритмы верхнего уровня, с формированием инструментальной платформы для решения мультипрофильных задач извлечения знаний из текста, для тематического анализа текстов, оценки их тональности, эмотивности и элементов авторского профиля;

- разработать методы и алгоритмы решения задачи определения пола автора текста, в том числе в условиях его намеренного искажения и искажения стиля автора;

- разработать и сопоставить алгоритмы машинного обучения для определения возрастной группы автора текста и диагностики намеренного искажения возраста;

- создать методы решения задачи выделения медицинских и фармацевтических сущностей в текстах на разговорном русском языке, собранных из социальных источников и содержащих оценочные суждения пациентов о лекарственных препаратах;

поддержка принятия решений врачом

- создать эффективные нейросетевые методы для диагностики ишемической болезни сердца и коронарного атеросклероза по клинико-лабораторным данным плановых осмотров железнодорожных работников;

- разработать нейросетевые методы оценки рисков обострения сердечных заболеваний у работников локомотивных бригад по данным предрейсо-вых осмотров;

спайковые нейросети для решения классификационных задач

- исследовать устойчивость процесса обучения спайковых нейросетей на основе механизма долговременной пластичности (STDP) в задачах классификации изображений и векторов рациональных чисел.

Научная новизна. Полученные в диссертационной работе и представленные в работах автора результаты являлись новыми на момент публикации:

анализ текстов

- впервые на основе посимвольной (from scratch) обработки текста построены нейросетевые инструменты глубокого обучения для комплексного морфологического и морфо-синтаксического разбора русскоязычного текста, переносимые на другие языки, включая языки малых народностей с ограниченными языковыми корпусами (глава 2, [16]1);

- предложен новый метод с использованием вероятностно-энтропийных метрик для эффективного выделения документов, тематически схожих с заданной (эталонной) небольшой коллекцией текстов (глава 3, [5, 15]);

- разработан новый нейросетевой программный пакет для модифицированного алгоритма растущего нейронного дерева для решения задач иерархической кластеризации данных при анализе текстов. Разработана модификация этого алгоритма, адаптированная для параллельной работы на многопроцессорных системах с разделяемой памятью, а также модификация, адаптированная для работы в ГРИД-системах (глава 1, раздел 1.3; [68]);

- на основе комплекса психолингвистических признаков, выделяемых по результатам морфологического разбора текста, разработан новый метод оценки его эмотивности для анализа потока текстовых интернет-данных (глава 4, [49]);

- впервые разработаны инструменты для эффективной индикации пола автора русскоязычного текста с устраненным гендерным смещением по тематике (глава 5, раздел 5.7; [13]), в том числе в условиях намеренного искажения гендера и стиля автора (глава 5; [11]), на основе созданного и размеченного краудсорсинг-методом в ходе работы над диссертацией корпуса текстов с использованием традиционных алгоритмов машинного обучения и нейросетей глубокого обучения;

- впервые созданы методы для определения возрастной группы автора текста, в том числе в условиях намеренного искажения возраста, а также методы выявления направления искажения возраста автора текста (гла-

1 Здесь и далее в квадратных скобках даются ссылки на публикации по результатам диссертационной работы; список упомимаемых в автореферате публикаций приведён в конце автореферата, полный список публикаций — в диссертации.

ва 5, разделы 5.8 и 5.9; [8, 9]), на основе созданного и размеченного в ходе диссертационной работы корпуса текстов;

- впервые сформирован полномасштабный корпус из 2800 русскоязычных интернет-отзывов на лекарственные средства с мультитэговой разметкой (глава 7; [74, 75]). Для разметки был составлен набор сущностей, соотнесенных с номенклатурой медицинских классификаторов МКБ-10, MEDDRA или с номенклатурой фармакологического классификатора АТХ;

- для анализа русскоязычных интернет-отзывов на лекарственные средства разработаны глубокие нейросетевые алгоритмы, обучение которых проводилось на разработанном в ходе диссертационной работы корпусе текстов отзывов на лекарственные средства (глава 7; [75, 86]). В результате впервые получены оценки точности выделения сущностей в русскоязычных текстах в условиях высокой вариативности стиля написания интернет-отзывов.

поддержка принятия решений врачом

- созданы новые нейросетевые алгоритмы для поддержки принятия решения врачом при диагностике ишемической болезни сердца и коронарного атеросклероза у железнодорожных работников по данным клинико-лабораторных обследований (глава 7, [7]), а также для оценки риска обострения указанных заболеваний у работников локомотивных бригад по данным предрейсовых осмотров (глава 8, [27]). Созданные алгоритмы продемонстрировали эффективность в условиях перекоса обучающих данных между больными и здоровыми пациентами (в сторону нехватки здоровых);

спайковые нейросети для решения классификационных задач

- разработаны новые алгоритмы обучения спайковых нейронных сетей на основе биологически мотивированной локальной модели синаптической пластичности Spike-Timing-Dependent Plasticity (STDP), основыванные на стабилизации средней выходной частоты спайкового нейрона, а также на запоминании нейроном повторяющихся входных спайковых паттернов (глава 6, [1, 3]). Разработанные алгоритмы валидированы на типовых задачах классификации изображений и векторов рациональных чисел, и продемонстрировали устойчивость в широком диапазоне параметров

математической модели нейрона и синапса, обеспечивая точности, сопоставимые с точностями формальных нейросетей.

Практическая значимость. Полученные в диссертации результаты формируют основу для разработки новых программных продуктов с высокой практической значимостью для использования во многих отраслях, например, таких, как реклама, маркетинг, социология, политология, судебно-лингвистическая экспертиза, а также в задачах по выявлению заболеваний и оценка рисков их обострения в специализированных системах поддержки принятия врачебных решений. Методики использования технологий машинного обучения, сформированные на основе решения классификационных задач для определенных групп прикладных задач, способствуют разработке таких программных продуктов в производственном (поточном) режиме с достаточно высокой эффективностью, значимой для практических запросов.

Методы исследования. В диссертационной работе использовался широкий набор нейросетевых инструментов, в том числе: классические средства машинного обучения — деревья решений, радиальные базисные функции (RBF) и др.; нейронные сети ранних поколений — многослойный перцептрон (MLP) и вероятностная нейросеть (PNN); нейронные сети глубокого обучения — свёрточные нейросети (CNN) и нейросети с долгой кратковременной памятью (LSTM); а также спайковые нейронные сети с долговременной синаптической пластичностью STDP. Для обучения нейронных сетей и традиционных алгоритмов машинного обучения используются выборки данных, как подготовленные в ходе выполнения диссертационной работы (опросным и краудсорсинг-методом), так и имеющиеся в свободном доступе (Национальный корпус русского языка, Wikinews2, Отзо-вик[88] и др.). Эффективность разработанных методов проверяется расчётными экспериментами на предварительно подготовленных валидационных выборках.

Основные положения, выносимые на защиту:

1. В задаче морфологического разбора русскоязычного текста использование нейросетей глубокого обучения с посимвольной обработкой текста существенно повышает точность разбора. Предложенный метод переносим на языки малых народностей, для которых характерна ограниченность языковых корпусов.

2. Решение задачи синтаксического разбора русскоязычного текста с использованием комплекса методов, включающих:

2https://ru.wikinews.org

- ансамблевую нейросетевую классификацию с посимвольным анализом слов,

- разбиение процесса обучения на фазы с переносом весовых коэффициентов между ними,

- трансферное обучение нейронных сетей на основе предварительного обучения на больших массивах предложений без синтаксической разметки с дальнейшим дообучением на небольшой выборке размеченных предложений,

существенно улучшает точность морфо-синтаксического разбора по сравнению с последовательным методом разбора (морфологический разбор -> синтаксический разбор).

3. Использование комбинации психолингвистических признаков, вычисляемых по результатам морфологического разбора с помощью разработанного нейросетевого метода, в задачах по анализу русскоязычных текстов в социальных сетях позволяет эффективно оценивать степень социальной напряжённости по отношению к событиям, к которым относятся анализируемые тексты.

4. В задаче выделения тематически схожих документов применение машинного обучения на основе вероятностно-энтропийных и семантических методов ранжирования и взвешивания ключевых слов позволяет компактно представлять тему в виде контекстно-семантического графа для визуализации вложенных тем больших коллекций документов. Предложенный метод показал высокую эффективность для анализа динамики социальных процессов.

5. В задачах авторского профилирования применение машинного обучения и нейронных сетей глубокого обучения, разработанных в диссертационной работе, с использованием нейросетевого морфо-синтаксического разбора русскоязычных текстов, позволяет эффективно решать задачи определения пола и возрастной группы автора русскоязычного текста, в том числе при наличии намеренного искажения стиля текста или имитации принадлежности текста к иному полу или возрасту, а также определение направления искажения возраста.

6. В задачах поддержки принятия врачебных решений при диагностировании ишемической болезни сердца и коронарного атеросклероза у работников ОАО «РЖД» на основе генетических маркеров и данных

общих (неспециализированных) клинических анализов применение метода дополнения обучающей выборки путём генерации примеров класса здоровых пациентов по известным распределениям признаков позволяет создать эффективный диагностирующий алгоритм в условиях нехватки здоровых пациентов в ограниченной выборке обучающих данных.

7. В задаче оценки риска обострения сердечно-сосудистых заболеваний у работников локомотивных бригад РЖД по данным предрейсовых осмотров вероятностные нейронные сети превосходят по эффективности применяемые в настоящее время на практике методики оценки 10-летнего риска SCORE, PROCAM и Framingham.

8. Обучение спайковых нейронных сетей на основе механизма долговременной пластичности STDP с кодированием входных данных как средними частотами, так и заданными последовательностями времён входных спайков, устойчиво в широком диапазоне параметров моделей нейрона и STDP при решении задач классификации, что валидировано на типовых бенчмарк-задачах классификации изображений рукописных цифр и векторов рациональных чисел.

9. На основе сформированного в ходе диссертационной работы полномасштабного корпуса из 2800 русскоязычных отзывов интернет-пользователей на лекарственные препараты с мультитэговой разметкой возможно эффективное обучение нейронных сетей в задаче выделения упоминаний медицински- и фармакологически-значимых сущностей из интернет-отзывов. На основе этого корпуса впервые для русского языка были получены оценки точности выделения сущностей, относящихся к лекарственным препаратам, побочным эффектам и заболеваниям в условиях высокой вариативности стиля написания интернет-отзывов. Полученные точности сопоставимы с результатами, представленными в литературе для англоязычных корпусов того же профиля.

10. Разработанные методики применения технологий машинного обучения с использованием нейросетей глубокого обучения могут быть основой для тиражирования методов решения задач по анализу русскоязычных текстов, разработанных в диссертации, в различных приложениях: морфологический и синтаксический разбор, выделение тематически схожих документов, оценка эмотивности текста, определение пола и возраста автора.

11. Разработанные методики применения комплекса технологий машинного обучения на основе вероятностных и многослойных нейронных сетей являются эффективным инструментом для решения задач поддержки принятия решений врачом при оценке рисков обострения ишемической болезни сердца и коронарного атеросклероза у работников локомотивных бригад при предрейсовых обследованиях.

Достоверность полученных результатов обеспечивается математической согласованностью используемых подходов, корректностью исходных допущений, воспроизводимостью расчетов, а также сравнением результатов расчётных экспериментов с бенчмарк-данными и результатами других авторов.

Апробация работы. Основные результаты работы были представлены на российских и международных конференциях:

- National Congress on Cognitive Research, Artificial Intelligence and Neuroinformatics (CAICS 2020), 12-16 октября 2020, Москва, устный доклад (дистанционное участие);

- Brain-Inspired Cognitive Architectures for Artificial Intelligence: BICA*AI 2020, 2020 Annual International Conference on Brain-Inspired Cognitive Architectures for Artificial Intelligence: Eleventh Annual Meeting of the BICA Society (BICA*AI 2020), 10-11 октября 2020, Натал, Бразилия, устный доклад (дистанционное участие);

- Advanced Technologies in Robotics and Intelligent Systems, Advanced Technologies in Robotics and Intelligent Systems (AITR 2020), 21-23 октября 2019, Москва, устный доклад;

- Russian Conference on Artificial Intelligence (RCAI 2020), 10-16 октября 2020, Москва, устный доклад (дистанционное участие);

- Лазерные, плазменные исследования и технологии (ЛаПлаз 2020), 11-14 февраля 2020, Москва, устный доклад;

- Динамика 2019, 10-12 октября 2019, Ярославль, устный доклад;

- Computational Linguistics and Intellectual Technologies (Dialogue 2019), 29 мая - 1 июня 2019, Москва, I место на соревновании по морфологическому анализу малоресурсных языков;

- 9th Annual International Conference on Biologically Inspired Cognitive Architectures (BICA 2018), 22-24 августа 2018, Прага, Чехия, постерный доклад;

- the 16th International Conference of Numerical Analysis and Applied Mathematics (ICNAAM 2018), 13-18 сентября 2018, Родос, Греция, устный доклад;

- 8th Annual International Conference on Biologically Inspired Cognitive Architectures (BICA) (BICA 2017), 1-6 августа 2017, Москва, постерный доклад;

- Computational Linguistics and Intellectual Technologies (Dialogue 2017), 31 мая - 3 июня 2017, Москва, 3-е место на соревновании по морфологическому разбору для русского языка;

- Новые разработки в психологических, физиологических и медицинских нейроисследованиях, 30 мая - 3 июня 2017, Судак, устный доклад;

- Проблемы компьютерной и типологической лингвистики, 29-30 сентября 2017, Воронеж, устный доклад;

- Sixth International Conference on Analysis of Images, Social Networks and Texts (AIST-SUP 2017), 27-29 июля 2017, Москва, устный доклад;

- 2016 International Conference on Computational Science and Computational Intelligence (CSCI 2016), 15-17 декабря 2016, Лас-Вегас, США, устный доклад;

- III Ежегодная Всероссийская научно-практическая конференция «Исследования и разработки - 2016», 14-15 декабря 2016, Москва;

- International Conference on Computational Science (ICCS 2016), 6-8 июня 2016, Сан-Диего, США, постерный доклад;

- the International FRUCT Conference on Intelligence, Social Media and Web (ISMW FRUCT), 26 августа - 4 сентября 2016, Санкт-Петербург, устный доклад;

- 3rd International Workshop on Concept Discovery in Unstructured Data (CDUD 2016), 18-22 июня 2016, Москва;

- Пятнадцатая национальная конференция по искусственному интеллекту с международным участием, 3-7 октября 2016, Смоленск, устный доклад;

- Artificial Intelligence and Natural Language and Information Extraction, Social Media and Web Search FRUCT Conference (AINL-ISMW FRUCT 2015), 9-14 ноября 2015, Санкт-Петербург, устный доклад;

- 2015 International Conference on Computational Science and Computational Intelligence (CSCI 2015), 7-9 декабря 2015, Лас-Вегас, США, устный доклад;

- Искусственный интеллект: философия, методология, инновации, 20-22 ноября 2014, Москва, устный доклад.

Полученные в диссертации результаты обсуждались на научных семинарах «Перспективные информационные технологии» Казанского федерального университета (июль 2017 г), «Проблемы современной математики» кафедры прикладной математики НИЯУ МИФИ (март 2020 г), и на семинаре Научно-методического центра компьютерной лингвистики Воронежского государственного университета (февраль 2021 г.).

Результаты диссертационной работы были получены и использовались в ходе реализации следующих грантовых проектов:

- РНФ №20-11-20246 "Разработка комплекса нейросетевых алгоритмов выделения содержательной информации из текста для анализа эффективности фармацевтической продукции на основе отзывов интернет пользователей" (2020-2022);

- РФФИ №18-29-10084 "Развитие алгоритмов эволюционного обучения нелинейных нейросетевых моделей глубокого обучения для решения социо-лингвистических задач" (2018-2020);

- РФФИ №16-37-00214 "Исследование точности решения задачи комплексного морфо-синтаксического анализа текстов естественного языка на основе вероятностно-нейросетевых моделей" (2016);

- РНФ №16-18-10050 "Диагностирование пола и возраста автора интернет-коммуникации на основе количественных параметров его текстов" (20162018);

- РНФ №17-71-20111 "Исследование и обоснование механизмов обучения спайковых нейронных сетей на основе синаптической пластичности для создания биологически инспирированных нелинейных информационных моделей решения практических задач" (2017-2020);

- РФФИ №15-29-01173 "Компьютерные модели и математические методы для изучения взаимосвязей социогуманитарных трендов на основе анализа больших данных" (2015).

Публикации. Основные результаты по теме диссертации изложены в 87 публикациях в рецензируемых научных изданиях, 72 -- в изданиях, рекомендованных ВАК, из них 26 — индексируемых Web of Science, 47 — Scopus, 41 — РИНЦ.

В ходе диссертационной работы созданы следующие программные продукты, для которых получены Свидетельства о государственной регистрации программ для ЭВМ:

1. №2020610100 от 10.01.2020 «Программа для определения пола автора текста на базе рекуррентных сетей с использованием деревьев синтаксических зависимостей»;

2. №2019667522 от 24.12.2019 «Программа оценки изменения синаптиче-ских весов нейрона под действием STDP»;

3. №2019667230 от 20.12.2019 «Программа построения и валидации моделей машинного обучения для определения признаков пола автора русскоязычного текста»;

4. №2019667229 от 20.12.2019 «Программа классификации ирисов Фишера и Висконсинского тестового набора данных с помощью неполносвязной спайковой нейросети с STDP»;

5. №2019610840 от 18.01.2019 «Комплекс скриптов для запуска экспериментов по машинному обучению на вычислительном кластере»;

6. №2019610795 от 18.01.2019 «Программный инструментарий для подготовки данных для сервиса разметки и предварительного анализа созданных аннотаций»;

7. №2019610844 от 18.01.2019 «Программа для декодирования выхода спайковой нейросети с STDP в задаче классификации»;

8. №2019610888 от 18.01.2019 «Программа для мультиклассовой разметки слов в предложении»;

9. №2019610658 от 15.01.2019 «Программа для подбора генетическим алгоритмом параметров спайковой нейросети с STDP при популяционно-временном кодировании данных»;

10. №2019610045 от 10.01.2019 «Программа определения классов заранее выделенных слов или словосочетаний по тексту на основе глубокой нейронной сети с вниманием»;

11. №2017613463 от 20.03.2017 «Программа построения карты вложенных подтем с краткими аннотациями для заданной темы»;

12. №2016612587 от 20.04.2016 «Программа отбора тематически схожих документов на основе эталонной коллекции с использованием вероятностно-энтропийных подходов»;

13. №2016612903 от 20.04.2016 «Программа построения дерева синтаксического разбора на основе нейронных сетей»;

14. №2012615272 от 06.13.2012 «Программа кластеризации на основе алгоритма растущего нейронного дерева, адаптированная для работы в грид-сети»;

15. №2012618133 от 07.09.2012 «Нейрокомпьютерный интерфейс (NCI) 1.0».

Личный вклад автора состоял в следующем:

- постановка задач, при решении которых получены результаты, вошедшие в диссертацию;

- формирование методологии математического моделирования на основе данных для выбранных объектов и практических задач анализа текстов и поддержки принятия решений врачом;

- выбор методов и алгоритмов компьютерного моделирования для решения поставленных задач анализа текстов и поддержки принятия решений врачом;

- разработка теоретических моделей и расчётных методов обучения нейронных сетей;

- выбор методов обработки результатов численных экспериментов;

- формулировка основных результатов, выводов и научных положений диссертации и работ, опубликованных по её результатам;

Список литературы диссертационного исследования доктор наук Сбоев Александр Георгиевич, 2021 год

источником

Reviews with bad labels count

Reviews with good labels count

doctor(660)

pharmacist(127)

advertising(49)

friends(39)

acquaintances(30)

300 200 100 0 100 200 300

Рисунок 9.4 — Распределение тональности отзывов для различных источников

информации пользователя о препарате.

(т.е. отзыв включает метку «BNE-pos»). «Отрицательная» тональность отмечается, если имеет место отрицательная динамика или ухудшение здоровья или если лекарство не оказало никакого эффекта (т.е. появилась метка «Worse», «ADE-Neg» или «NegatedADE»). Из диаграммы следует, что лекарства, назначенные врачом, чаще упоминаются как имеющие положительный эффект, в то время как употребление лекарств на основе рекламы часто приводит к ухудшению здоровья.

Диаграммы на Рис. 9.5 показывают части отзывов, в которых упоминались лекарства, а также замеченные эффекты из всех отзывов с данным препаратом (только 20 лучших препаратов по количеству появлений представлены на рисунке). Следующие препараты имеют наибольшие доли для ADR в отзывах: им-муномодулятор — «Изопринозин» (57,7%), снотворное — «Донормил» (45,5%); противовирусные препараты — «Амизон» (35,7%), «Генферон лайт» 34,8%), «Амиксин» (30%) и др.

Пользователи отмечают, что некоторые лекарства вызывают отрицательную динамику после начала или некоторого периода его использования (ADE-Neg). Примерами таких препаратов являются «Донормил» (13%), «Кортексин» (9%), «Генферон лайт» (8%), ' «Амиксин» (6%), «Глицин» (6,6%). Также гомеопатические препараты были отмечены как не имеющие эффекта: «Анаферон детский» (64%), «Анаферон» (54,6%), «Тенотен» (52%).

Согласно отзывам, некоторые лекарства вызывают ухудшение здоровья после употребления алкоголя («Worse»): иммуномодулятор — «Изопринозин» (15%), «ИРС19» (13%), «Амиксин» (10%), «Парацетамол» (7%) и другие.

Современная версия корпуса содержит сообщения потребителей о 384 препаратах, упомянутых в корпусе 2360 раз и относящихся к 36 классам препаратов в соответствии с классификацией из Государственного реестра лекарств 2.

Самые популярные классы лекарств, упомянутые в корпусе — противовирусные (74 лекарства) и седативные (39 лекарств). Общее число вхождения этих препаратов состоит из числа вхождений названия препарата, равных 48,52% и 17,07% соответственно. Число вхождений наиболее популярных препаратов из всех представленных в корпусе противовирусных препаратов: «Виферон» (6,9%), «Ингаверин» (5,41%) и «Ацикловир» (4,54%) и разделы седативных препаратов: «Глицин» (16,38%), «Валериана» (14,39%) «Афобазол» (8,93%).

Корпус использовался далее для получения базовой оценки точности для задачи распознавания именованных сущностей.

Текущая версия корпуса (апрель 2021)

На основе сегментации по предложениям, токенизации и лемматизации отзывов с помощью программной библиотеки UDPipe[370] было рассчитано, что

2http://grls.rosminzdrav.ru/

О 0.20.40.60.8 0 0.20.40.60.8 0 0.20.40.60.8 0 0.20.40.60.8 0 0.20.40.60.8

Рисунок 9.5 — Распределение меток эффектов, о которых упоминают в отзывах. Представлено топ-20 препаратов по количеству вхождений. Число в скобках — это количество вхождений для каждого препарата.

среднее число предложений в отзыве 10, токенов — 152 (со стандартным отклонением 44), среднее число лемм — 95 (стандартное отклонение — 23). TTR (отношение типов к числу токенов) рассчитывалось как отношение числа уникальных лемм в отзыве к числу токенов. Среднее TTR по всем отзывом составило 0.64.

Детальная информация о размеченном корпусе представлена в таблице 49, включая:

1. число упоминаний каждого типа сущностей (колонка "Аннотированно");

2. число уникальных классов из классификаторов или уникальных нормализованных понятий, сопоставленных с изначальными упоминаниями (колонка "Классификаторы и нормализация (уникальные коды)");

3. число слов, которые относятся к упоминаниям соответствующего атрибута (колонка "Кол-во слов в упоминаниях");

4. число отзывов, которые содержат упоминания соответствующего атрибута (колонка "Отзывов покрыто").

Корпус содержит 8 236 упоминаний лекарственных препаратов. Препараты относятся к 226 кодам анатомо-терапевтическо-химической классификации (АТХ). Наиболее популярные 20% кодов АТХ (по количеству отзывов с соответствующими упоминаниями названий препаратов) содержат 45 различных кодов. Упоминания препаратов с этими кодами содержаться в 2 614 отзывах (93% от всего корпуса). Среди 45 кодов можно выделить 20, которые встречаются более чем в 50 отзывах корпуса (всего отзывов с этими 20 кодами АТХ: 2511).

Наиболее часто встречающиеся коды АТХ второго уровня: L03 "Иммуномоду-ляторы" — 662 отзыва (23.6% корпуса), J05 "Противовирусные систематического использования" — 508 (18.5%) отзывов, N05 "Психолептики" — 449 (16.0%), N02 "Анальгетики" — 310(11.1%), N06 "Психоаналептики" — 294 (10.5%). Наиболее встречаемые лекарства из категории иммуномодуляторов в отзывах — Анаферон (144), Виферон (140), Гриппферон (71). Наиболее часто встречающиеся антивирусные систематического использования: Ингавирин (99), Кагоцел (71) и Амиксин (58).

Доля отзывов об отечественных и зарубежных препаратах от общего количества отзывов составляет 44,9% и 39,7% соответственно. Остальные документы (15,4%) содержат упоминания нескольких лекарственных препаратов, как отечественных, так и зарубежных, или упоминания лекарств, происхождение которых аннотаторы не смогли определить. Среди отечественных препаратов можно вы-

Таблица 49 — Общая информация о текущей версии корпуса отзывов на лекарства.

Тип сущности Упоминания

Аннотированно Классифика и нормализация (уникальные коды) пКрл-во слов в упоминаниях Отзыво покрыто

ADR 1784 316 (MedDRA) 4211 628

Medication 32 994 47 306 2 799

Drugname 8 236 550(SRD), 226(ATC) 9 914 2 793

DrugBrand 4 653 5 296 1 804

Drugform 5 994 6 131 2 193

Drugclass 3 120 70 (ATC) 3 277 1 687

MedMaker 1 715 2 423 1 448

Frequency 614 2 478 516

Dosage 965 2 389 708

Duration 1 514 3 137 1 194

Route 3 617 7 869 1 737

Sourcelnfodrug 2 566 4 392 1 579

Disease 17 332 37 863 2 712

Diseasename 4 006 247 (ICD-10) 4 713 1 621

Indication 4 606 343 (MedDRA) 7 858 1 784

BNE-Pos 5 613 14 883 1 764

ADE-Neg 85 347 54

NegatedADE 2 798 9 028 1 104

Worse 224 1 034 134

Note 4 517 21 200 1 876

J00-J06

ш

л и и л

с; *

F51.0

Т78.4

В00

О 200 400 600 800

Количество отзывов с упоминаниями заболеваний соответствующих классов МКБ-10

Рисунок 9.6 — 5 наиболее часто встречающихся классов заболеваний МКБ-10 по количеству отзывов в текущей версии корпуса. J00-J06 — острые респираторные инфекции верхних дыхательных путей, J11 — Грипп, вирус не идентифицирован, B00 — Инфекции, вызванные вирусом герпеса [herpes simplex], F51.0 — Расстройства сна неорганической этиологии, T78.4 —

Аллергия неуточненная

делить следующие: Анаферон (144 отзыва), Виферон (140), Ингавирин (99) и Глицин (98). Примеры упомянутых зарубежных препаратов: Афлубин (93), Ами-сон (55), Антигриппин (51) и Иммунал (42).

Что касается болезней, то наиболее частыми категориями верхнего уровня классификатора МКБ-10 (Международная классификация болезней 10-го пересмотра) являются "X — Болезни органов дыхания" (1122 отзыва); "I — Некоторые инфекционные и паразитарные болезни" (300 отзывов); "V — Психические расстройства и расстройства поведения" (170 отзывов); "XIX — Травмы, отравления и некоторые другие последствия воздействия внешних причин" (82 отзыва). Топ-5 на иболее часто встречаемых в отзывах низкоуровневых кодов по классификации МКБ-10 представлены на Рис. 9.6.

Мотивация пользователя приобретать и употреблять лекарственные препараты основана на информации из "профессиональных"и "непрофесси-ональных"источников (атрибут "sourcelnfoDrug"). Последние — это советы родственников, друзей, реклама и прочее. Медицинские и фармацевтические специалисты классифицируются как "профессиональные"источники. Большая часть препаратов использовалась в соответствии с профессиональными рекомендациями: 989 отзывов содержат ссылки на рецепты врачей, 262 — рекомендации фармацевтов и 252 — рекомендации врачей. В некоторых обзорах сообщается об употреблении лекарств, рекомендованных родственниками (207 отзывов), в рекламе (97) или в Интернете (15). Тепловая карта распределения показана на рис. 2. Тепловая карта распределения появлений сущностей для различных источников составлена для 20 самых популярных лекарств. Число в ячейке означает процент появления определенного названия препарата, используемого по рекомендации из соответствующего источника информации. Если было упомянуто несколько разных источников, это считается "смешанным"источником.

Тепловая карта на рис. 9.7 показывает доли отзывов, в которых популярное лекарство встречалось вместе с другим источником (источники были вручную объединены в пять групп аннотаторами). Видно, что большинство рекомендаций исходят от профессионалов. Например, "Изопринозин" (используется в 65,85% случаев по назначению врача),"Афлубин"(44,09%), "Анаферон для детей" (47,30% ) и другие. Но для таких препаратот, как "Иммунал" (11,9%) или "Валериана" (9,18%) частота использования по советам знакомых пациентов близка к рекомендациям врачей или выше. "Амизон" (12,73%) и "Кагоцел" (11,27%) самые частоупотребимые среди препаратов, у которых в качестве источника рекомендаций указаны средств массовой информации (реклама, Интернет и др.).

На Рис. 9.8 представлено распределение отзывов по тональности (положительной или отрицательной) для разных источников информации (SourceInfoDrugs). Источник помечается как "положительный", если после употребления препарата появилась положительная динамика (т.е. в Отзыве есть сущность типа BNE-pos). "Отрицательная" тональность отмечается, если имеет место отрицательная динамика или ухудшение здоровья, или лекарство не подействовало (т.е. отзыв содержит сущности типа: "Worse", "ADE-Neg" и/или "NegatedADE" ). Отзывы, содержащие одновременно оба эффекта не учитывались. Из диаграммы следует, что лекарства, рекомендованные врачами или фармацевтами, чаще упоминают-

Рисунок 9.7 — Тепловая карта долей отзывов для разных источников информации по 20-ти самым популярным препаратам. Числа в ячейках обозначают процент отзывов о препарате с соответствующим источником информации среди всех отзывов об этом препарате. Если в отзыве упоминалось несколько источников, его относили к категории "несколько источников"

ся как имеющие положительный эффект, а использование лекарств по рекламе часто приводит к негативной динамиике.

Диаграммы на Рис. 9.9 показывают количество отзывов в %, в которых упоминались лекарства, а также замеченные эффекты из всех отзывов с данным препаратом (представлены только 20 препаратов по максимальному количеству упоминаний). Следующие препараты имеют наибольшие доли для сущностей типа ADR (побочные реакции) в отзывах: иммуномодуляторы — "Изопринозин"(в 48.8% отзывов с этим препаратом есть упоминания о ADR), "Амиксин"* (40.0%); успокоительное средство — "Афобазол"* (37.7%); противовирусные препараты — "Амизон"* (36.4%), "Римантадин"* (36,3%) и др.

Пользователи отмечают, что некоторые лекарства вызывают отрицательную динамику после начала или некоторого периода его использования (ADE-Neg). Примерами таких препаратов являются: "Анаферон", (3.5% отзывов, содержащих

Отзывы с позитивными Отзывы с негативными

эффектами

назначение врача(989)

по совету врача(251)

фармацевт(262)

знакомые(208)

Ш

Я

сми(114)

■

300 200 100 0 100 200 300

Рисунок 9.8 — Количество отзывов с позитивными и негативными эффектами для разных источников информации о лекарстве. Числа в скобках означают количество отзывов с источником информации, включая отзывы без упоминания эффектов и нейтральные отзывы (с обоими типами эффектов сразу)

упоминания этого препарата и сущностей типа "ADE-Neg"), "Виферон" (2.1%), "Глицин" (4.1%), "Эргоферон" (3.6%).

Согласно отзывам, некоторые лекарства вызывают ухудшение здоровья после употребления алкоголя ("Worse"): иммуномодулятор — "Изопринозин" (12.2%), противовоспалительное средство "Ингавирин" (10.1%), "Эргоферон" (9.1%) и другие.

Рисунок 9.9 — Соотношение свидетельств о проявлении разных типов эффектов после употребления лекарств. Представлены 20 самых популярных препаратов по количеству отзывов. Число в скобках означает количество отзывов с упоминанием препарата. На диаграммах показано отношение количества отзывов с упоминанием эффекта определённого типа к количеству отзывов с

препаратом.

9.5 Метод извлечения медицинских именованных сущностей

из текстов отзывов

Задача извлечения именованных сущностей в диссертационной работе рассматривается как задача мультиклассовой классификации токенов (слов и знаков препинания) в предложении. Границы сущностей могут пересекаться, поэтому один токен может иметь несколько тэгов сущностей.

Алгоритм принимает на вход последовательность признаков, извлеченных из токенов. Для каждого токена ожидается выходное значение в формате BIO,

где "B" — тэг, который обозначает первое слово фразы, которая является упоминанием сущности, "I" — тэг, который используется для последующих слов упоминания сущности, "O" — тэг, который обозначает слово, не принадлежащее к каким-либо сущностям.

Выделение именованных сущностей в данной диссертационной работе осуществлялось двумя методами. Первый (Метод А) основан на рекуррентной нейронной сети BiLSTM, для которой пространство входных признаков включало: словари, части речи, а также несколько вариантов векторизации слов, таких как FastText [371], ELMo [193], BERT, посимвольное кодирование на основе LSTM и так далее.

Второй (Метод Б) является нейронной сетью, поддерживающей принадлежность слова к нескольким меткам классов одновременно. Она основана на комбинации предобученной мультиязычной языковой модели XLM-RoBERTa [372] и рекуррентного слоя LSTM, который также принимает на вход дополнительные информативные признаки.

Детали реализации обоих методов с описанием используемых признаков описаны далее.

Используемые входные признаки текстов Общие признаки и части речи

Для предварительной обработки текста использовалось программное средство UDPipe [370]. После обработки для каждого слова определялась одна из 17-ти частей речи. В дальнейшем они представлялись в виде бинарного вектора, который использовался в качестве входа нейронной сети. Для Метода Б, текст разделялся на фразы с помощью UDPipe 2.5. Длинные фразы разбивались на части по 45 слов.

Общие признаки представлены в виде бинарного вектора ответов на следующие вопросы (1, если ответ положительный, 0 в обратном случае):

- являются ли все буквы заглавными;

- являются ли все буква прописными;

- является ли первая буква заглавной;

- есть ли цифры в словах;

- более половины слов состоят из цифр;

- состоит ли всё слово из цифр;

- все ли буквы слова латинские.

Эмотивные маркеры

Добавление частот эмоциональных слов как дополнительный признак обусловлено положительным влиянием данных признаков на определение пола автора, как показано, например, в [218].

Учитываются слова, содержащиеся в определённых эмоционало-эмотивных словарях, представленных в [219]. Всего в словарях представлены 37 категорий эмоций, таких, как, например, «Беспокойство», «Недовольство» и т. д;

LIWC

Помимо эмотивных словарей, используется набор специализированных словарей LIWC (англ. Linguistic Inquiry and Word Count), представленных в работе [220]. Значения LIWC рассчитываются для каждого документа на основе встречаемости слов из специализированных психосоциальных словарей, которые описывают лингвистические категории (количество слов определенных частей речи, некоторые лексико-тематические группы, частоту знаков препинания и т. д.). LIWC были адаптированы для русского языка лингвистами [221].

На основе имеющихся словарей для каждого слова формируется бинарный вектор размерностью N — число словарей, в котором отражено наличие данного слова в определенном словаре.

Психолингвистические маркеры

Психолингвистические маркеры текста, представленные в работе [26], рассчитываются как отношение определенных частот частей речи в тексте. В работе использованы следующие маркеры: соотношение количества глаголов к количеству прилагательных в единице текста; соотношение количества глаголов к количеству существительных в единице текста; отношение количества глаголов и глагольных форм (причастий и деепричастий) к общему количеству всех слов. Интегральная оценка эмотивности текста на основе психолингвистических маркеров; число вопросительных и восклицательных знаков, точек, средняя длина предложения.

яшн 1агИу = собш е(\¥ог(1_\?есТогсоп ce.pt_ve.ctoг_() Рисунок 9.10 — Схема сопоставления словам корпуса индексов из базы UMLS. Словарные признаки

В качестве дополнительных признаков для нейронной модели использовались следующие открытые базы данных и реестры:

1. вектора слов, сформированные на основе тезауруса MESHRUS по методам, описанным выше в параграфе «Нормализация». Вышеописанные два подхода далее обозначаются MESHRUS и MESHRUS-2. Полученные в результате коды СШ кодируются бинарным вектором.

2. Медицинский справочник Видаля. Для каждого слова формировался бинарный вектор, который отражал, относится ли слово к категориям медицинского справочника Видаля [373]: побочные эффекты, название лекарства на английском и на русском, болезни. Слова из корпуса сопоставлялись со словами и фразами из справочника. Чтобы установить категории, использовался подход, аналогичный MESHRUS. Разница состояла в том, что один индекс присваивался всем словам одной категории. Таким образом, слова из корпуса сопоставлялись не с отдельными терминами, но с категориями.

Векторные представления слов.

Для векторного представления слов рассматривались следующие методы: FastText [371], ELMo (Embeddings from Language Model) [193], BERT (Bidirectional Encoder Representations from Transformer) [374], XLM-RoBERTa [372].

Рисунок 9.11 — Основная архитектура нейронной сети. Входные данные поступают в двунаправленную LSTM, скрытые состояния forward LSTM и backward LSTM конкатенируются, полученный вектор идет в полносвязный слой с 3-мя нейронами на выходе и функцией активации SoftMax. Выход нейросети — pi, p2, p3 — вероятности связи слов с одним из следующих

классов: "B-XXX", "I-XXX","O"

Идея FastText состоит в следующем: за основу берутся идеи Word2Vec-моделей, то есть распределение слов предсказываются по их контексту, но в качестве базового векторного представления берутся триграммы символов. Таким образом каждое слово представляется в итоге как сумма векторов его триграмм, а на этих суммах строятся конструкции CBOW или skip-gram[375]. Данные модели проще и быстрее в обучении, так как размерность словаря уменьшается — триграмм символов на порядок меньше, чем различных слов. Плюс при данном подходе морфология учитывается автоматически. В результате получаются представления, которые показывают себя заметно лучше для языков с богатой морфологие, что важно для русского языка.

В отличие от фиксированных векторов для каждого слова (как это отражается в FastText), вектора слов в ELMo зависят от контекста предложения, в котором они находятся. Модель ELMo основана на двунаправленной языковой модели (BiLM), которая учится предсказывать следующее слово в последовательности слов. Далее полученные вектора группируются посредством конкатенации и взвешенного суммирования.

Однако предсказание следующего слова в последовательности является направленным подходом, соответственно, ограниченным в смысле учёта контекста. Данная проблема является обычной в рамках моделей NLP, её решением был BERT.

В основе BERT лежит механизм Transformer, который изучает контекстные отношения между словами в тексте. Модель BERT состоит из энкодера, который принимает на вход текст и извлекает из него информацию, и декодера, который выдает предсказания. BERT использует две стратегии обучения: маскировка отдельных слов и проверка следующего предложения на логичность. При первой стратегии 15 процентов слов заменяются на токен [MASK] и нейросеть должна научиться правильно предсказывать данные слова. При второй стратегии нейронной сети подаются на вход два предложения и она должна определить, является ли второе логичным продолжением первого или это некая случайная фраза, не имеющая никакого отношения к первой. При обучении модели BERT обе стратегии обучаются вместе с целью минимизации комбинированной функции потерь двух стратегий.

Языковая модель XLM-RoBERTa аналогична модели BERT с маскировкой отдельных слов, которая основана на архитектуре Трансформеров [376]. Основные различия между XLM-RoBERTa и BERT следующие: XLM-RoBERTa обучена

/ ■■

"kl ™tz »»га

Number of filters -4

Max pooiing

> Г

Рисунок 9.12 — Схема извлечения признаков из символов слова на основе 1D

сверточной нейронной сети.

на большем мультиязычном корпусе из проекта CommonCrawl, который содержит 2.5 Тб текстов. Русский язык является вторым после английского по представительности в данном корпусе. XLM-RoBERTa обучена только на задаче предсказания замаскированного токена, без задачи определения логики последовательности предложений. Минибатчи в ходе обучения модели включали тексты на разных языках. Использовался другой алгоритм токенизации: BERT использовал WordPiece [377], в то время, как XLM-RoBERTa — SentencePiece [378]. Словарь модели XLM-RoBERTa содержит 250000 уникальных токенов на всех языках. Существует две версии модели: XLM-RoBERTa-base, у которой 270 миллионов параметров, и XLM-RoBERTa-large, у которой 550 миллионов параметров.

Посимвольная CNN [379]

Для начала, каждое слово представляется как последовательность символов, входящих в него. Размерность числа символов задается как гиперпараметр, в данной диссертационной работе — 52. Для слов, в которых символов не хватает, недостающие символы задаются пэддингами. На основе тренировочного множества мы создаем словарь символов, в который также включены особые символы «PADDING» и «UNKNOWN» для пэддинга и неизвестных символов соответственно. Эмбеддинг для сиволов инициализируется значениями из равномерного

случайного распределения в диапазоне от [-0,5; 0,5]. Выходная размерность эм-беддинга — 30. К векторам слов далее применяется конволюция и глобальный макспуллинг. Число фильтров конволюции — 30.

Топологии нейронных сетей Метод А - нейронная сеть на основе BiLSTM

Топология нейронной сети изображена на рисунке 9.11. Набор входных признаков, используемых в данном методе, был описан выше.

Топология основана на рекуррентной нейронной сети LSTM, описанной в разделе 1.4. Дополнительно для кодирования слов использовалась нейронная свёрточная сеть для посимвольного кодирования, CharCNN [379] (см. рис. 9.13). Сначала каждое слово представляется в виде последовательности символов. Пороговая длина слова является гиперпараметром со значением 52, которое подбиралось эмпирически. Если в слове меньше симсволов, тогда оставшиеся до границы компоненты заполнялись специальным символом «PADDING». Тренировочная выборка использовалась для построения словаря символов, который также включает особые символы «PADDING» и «UNKNOWN», последний позволяет кодировать слова с символами, которые не были представлены в тренировочном множестве.

Для кодирования символов использовался слой нейронной сети Embedding [380], который заменяет каждый символ из словаря на соответствующий ему вектор действительных чисел. В начале этот вектор случайно инициализируется из равномерного распределения в диапазоне [-0.5; 0.5]. Размер вектора - 30. Далее матрица закодированных символов обрабатывается свёрточным слоем (с 30-ю фильтрами и размером ядра 3) [381] и функцией глобального максимального пулинга, которая возвращает максимальное значение для каждого фильтра [382].

На выходе модели используется или полносвязный слой [383], или описанные случайные поля событий (CRF [384]), выходные значения которых рассматриваются в качестве вероятностей токена иметь тег B, I или O для соответствующего типа сущности (например, B-ADR, I-ADR, O-ADR).

CRF является реализацией Марковских случайных полей — графовой модели для представления совместных вероятностей нескольких случайных величин.

Рисунок 9.13 — Схема извлечения посимвольных признаков на основе свёрточной нейронной сети. Каждый входной вектор после обработки слоем Embedding расширяется двумя дополнительными объектами ("белыми ящиками"), W(ki), W(k2), W(k3) - веса фильтра свёртки к.

Определение CRF следующее. Пусть X — случайные переменные над последовательностью, которую нужно разметить, а Y — случайные переменные, соответствующие меткам последовательности, и пусть G = (V,, E) такой граф, что Y = (Yv )vCv, так что Y индексируется вершинами G, тогда (X, Y) является условным случайным полем, когда каждая из случайных величин Yv, зависимая X, подчиняется свойству Маркова [384] относительно графа. CRF представляет распределение набора случайных величин следующего вида:

, eXP(E гЕj WJ fj (Уг,Уг-1,Х,г)) p(y\x; w) = =-Tv^v^-77-

Ey'cу exP(Eг E; wj fj(УгУг-iX, г))

где ^ — признаковые функции, Wj — веса для ]-й признаковой функции.

Метод Б - мультиклассовая нейронная сеть, основанная на XLM-RoBERTa

Дополнительное обучение модели XLM-RoBERTa-base проводилось для улучшения точности решения задачи, при этом было использовано два набора данных: собранных с сайта irecommend.ru и из неразмеченной части корпуса RuDReC [361]. Расчёт двух эпох в течение трёх дней для данной модели и одной эпохи в течение пяти дней для XLM-RoBERTa-large проведён с использованием одной видеокарты Nvidia Tesla v100 и программной библиотеки Huggingface Transformers.

В-МесНсайоп Метки для слов В-Ргидкзгт

Модель с выходами для каждого тэга

Признаки слов

¡-МесНсайоп 1

0

1

мульти выход \л/1 мульти выход \л/2 мульти выход \л/3 мульти выход wn

> < у < > к. > к

2 последовательных слоя ВЮ1гесИопа11_БТМ

У < > < у к. у к

Ш № fwЗ fwn

Рисунок 9.14 — Архитектура нейронной сети метода Б, fwn - слова,

закодированные признаками

Рисунок 9.15 — Архитектура нейронной сети метода Б, метод кодирования слов fwn представлен в левой части, правая часть картинки описывает категоризацию

слов

Рисунок 9.16 — Тонкая настройка языковой модели для задачи классификации

слов

Далее данные языковые модели прошли этап тонкой настройки (fine-tuning) для решение задачи выделения именованных сущностей. На рисунке 9.16 изображён алгоритм тонкой настройки языковых моделей для задачи выделения именованных сущностей. Это часто используемый алгоритм из проекта Simple Transformers [385]. Полносвязный слой с функцией активации Softmax был добавлен к модели для классификации слов. Разработанная мультиклассовая нейронная сеть реализует конкатенацию выхода языковой модели с векторами дополнительных признаков (справочника Видаля, MESHRUS, тональности и других). Полученный вектор обрабатывается с помощью рекуррентной нейронной сети LSTM, который служит основой для определения множества классов, к которым относится входной пример. Рисунки 9.14, 9.15 иллюстрируют топологию модели. Таким образом, мультиклассовый алгоритм объединяет упомянутый выше подход с тонкой настройкой модели и упрощённым вариантом Метода А (без CRF, с заменой ELMo на вектора языковой модели, настроенной на текущую задачу). В ходе обучения вышеупомянутой нейронной сети LSTM, языковая модель не обучалась. Также был использован автоматический выбор гиперпараметров с помощью сервиса Weights&Biases [386].

9.6 Численные эксперименты по обоснованию эффективности созданных нейросетевых методов глубокого обучения и оценки их точности на русскоязычном корпусе

Проведение вычислительных экспериментов преследовало следующие задачи:

1. Выбрать наиболее эффективную языковую модель из FastText, ELMo и BERT;

2. Оценить влияние различных наборов признаков на точность выделения упоминаний сущностей типа ADR;

3. Сравнить уровень точности выделения упоминаний сущностей типа ADR на нашем корпусе и доступных данных схожего типа на русском языке;

4. Исследовать влияние на выделение упоминаний сущностей типа ADR таких характеристик, как доля фраз, содержащих ADR, отношение числа сущностей типа ADR и сущностей типа INDICATION, размер корпуса и т.д.

Таблица 50 — Точность (%) распознавания сущностей ADR, Medication и Disease в первой версии корпуса (1660 отзывов) с помощью Метода A с использованием различных языковых моделей.

Векторное представле- Размерность вектора ADR Medication Disease

ние слов

FastText 300 22.4 ± 1.6 70.4 ± 1.1 44.1 ± 1.7

ELMo 1024 24.3 ± 1.7 73.4 ± 1.5 46.4 ± 0.6

BERT 768 22.1 ± 2.4 71.4 ± 3.3 45.5 ± 3.2

ELMO BERT 1024 768 18.7 ± 9.8 74.1 ± 1.1 47.9 ± 1.6

5. Оценить влияние строгости разметки ADR (включение или невключение в состав сущностей ADR упоминаний, размеченных одновременно как ADR и Note) на точность их выделения.

В данном разделе внимание акцентируется именно на сущностях типа ADR по причине их значимости в практических областях и сложности определения, обусловленных зависимостью от контекста.

Процесс создания метода для определения сущностей выполнялся параллельно сбору и аннотированию корпуса. Это позволило отчасти откалибровать методику разметки данных, а также пронаблюдать зависимость точности от объема пополнения корпуса. Т. к. корпус содержит большое количество классов сущностей различного уровня основным критерием выбора модели в рамках разработывае-мого решения была использована точность по определению сущностей типа ADR. Сущности этого типа наиболее сложны для автоматической детекции и наиболее значимы для исследований в области фармаконадзора, как показывают работы и соревнования последних лет. Другой мотивацией, с технологической точки зрения, является отсутсвие у ADR иерархии подклассов, наблюдаемых у классов сущностей Disease и Medication. Это позволило заранее не усложнять алгоритм и провести больший комплекс репрезентативных вычислительных расчетов. В результате технология определения сущностей, выбранная по результатам сравнительных исследований по точности определения ADR, легла в основу общего решения по определению всех классов и подклассов сущностей, аннотированных в созданном корпусе.

Метрики оценки точности

Для оценки модели используется метрика, представленная на соревновании Conll2000, которая используется для сравнения систем выделения именованных сущностей. Реализация доступна на сайте https://www.dips. uantwerpen.be/conll2000/chunking/. На вход скрипту подаётся файл, каждая строка которого содержит токен, правильный тег и предсказанный системой тег Теги могут быть следующих типов: "O" - если токен не относится к сущностям, "B-X", если токен является началом сущности типа Х, "I-X", если токен является продолжением сущности X. Если тег "I-X" идёт после "O" или "I-Y" (упоминания другого типа), он считается началом новой сущности типа Х: "B-X". Скрипт рассчитывает долю упоминаний, которые верно причислены к классу, от общего числа причисленных к классу упоминаний (precision), долю определённых верно из общего числа упоминаний, которые относятся к этому классу (recall), на основе которых рассчитывается метрика F1:

F 2 * precision * recall 1 precision + recall

Ввиду проблемы определения границ сущности применяются следующие две метрики:

1. Полное соответствие слов сущности F1exact;

2. Частичное соответствие F1partial.

Метрика Ffxact

Для каждой сущности из разметки мы подсчитываем precision, recall и F1 следующим образом:

[e = es]

precision=

recall =

[e = es]

\E \

eeE 1 1 Fexact = 2 . precision • recall

1 " precision + recall' где es — предсказанная сущность, e — соответствующая сущность из разметки, E — набор сущностей из разметки, Es — набор сущностей, предсказанных алгоритмом, \E\ — число элементов в E, [e = es] — скобка Айверсона, которая

означает следующее:

если все токены совпадают: [е = е3] = 1 иначе: [е = е8] = 0

В случае если перед тэгом I-tag идет тэг О, скрипт подсчета данной метрики заменяет I-tag на B-tag.

Метрика ^раг"а1

Для каждого ¿-го предложения из тестового набора данных вычисляются значения precision•, гесаП^, и , используя следующие формулы:

\и п у

рге^юп =

recall; =

\tsi\

\ti п tSi\

fii = 2 •

\ti\

precision • recall

precision + recall

где tsi — список токенов из i-го предложения, определенных алгоритмом как принадлежащих упоминаниям рассматриваемой сущности, ti — список токенов, относящихся к сущности, а \ti\ — длина этого списка (число токенов). Итоговая ^partial вычисляется как среднее по F^:

. \т\

Fpartial = ^ V F

Fi = 1г, 1 1 г=1

где T — список предложений в тексте, содержащих токены, относящиеся к рассматриваемой сущности.

В разделе 9.7 используется метрика F1 -exact, которая считает корректно определёнными сущности при полном совпадении границ.

Поиск лучшего метода векторного представления слов

Были рассмотрены следующие методы векторного представления слов: FastText, ELMo и BERT. Для обучения модели FastText использовались тексты отзывов из категории "лекарства", а также категории "больницы" сайта

"Отзовик" 3; также были использованы вектора, предварительно обученные на корпусе Common Crawl4.

Языковая модель ELMo была предварительно обучена на корпусе Russian WMT News [387] в рамках проекта с открытым исходным кодом DeepPavlov 5 [388]. Используется предварительно обученный мультиязычный BERT из репозито-рия Google 6. Данная модель затем проходила процедуру тонкой настройки на вышеупомянутых корпусах отзывов о лекарствах и больницах. Описанные предобученные модели использовались для преобразования входных данных в векторное представление, которое подавалось на вход нейронной сети, представленной на рисунке 9.11. Набор данных (первая версия корпуса, содержащая 1660 отзывов) разделялся на 5 частей для проведения кросс-ваодилации. Тренировочные данные каждой части разделялись на тренировочную и валидационную выборку в отношении 9:1. Максимальное число эпох обучения - 70, с включением раннего останова по ошибке на валидационном множестве. В качестве функции ошибки использовалась кросс-энтропия, с оптимизационной функцией Adam и механизмом циклического learning rate [389]. Результаты вычислительных экспериментов представлены в таблице 50, где лучший результат по метрике F1-exact показан нейронной сетью с векторизацией на основе ELMo. Объединение ELMo и BERT ухудшает точность. В результате, ELMo была использована ниже для оценки влияния различных признаков на точность решения задачи выделения сущностей типа ADR.

Влияние различных признаков на точность определения ADR

Для оценки влияния использования различных признаков, описанных выше, по отдельности на точность определения ADR мы провели серию экспериментов с методом A, результаты которых представлены в Таблице 51.

Выбор лучшей топологии

Далее, мы провели серию экспериментов с методом А для выбора лучшей топологии, при этом: последний полносвязный слой заменялся слоем на базе

3 https://otzovik.com/health/

4http://commoncrawl.org/

5https://deeppavlov.readthedocs.io/en/master/intro/pretrained_vectors. html

6https://github.com/google-research/bert/

CRF, а также изменялось число слоев BiLSTM. Такие модификации исследовались в комбинации с добавлением эмотивных маркеров, признаков частей речи, словарных признаков на базе MESHRUS и Видаль (см. Таблицу 51). Проведенные исследования дали возможность оценить уровень точности Модели-A. Для оценки эффективности XLM_RoBERTa-large мы не использовали дополнительные признаки (см. последнюю строку Таблицы 51). Ввиду высокой точности, превышающей точность модели A, мы использовали ее как основу для создания Модели Б.

Влияние характеристик корпуса на точность определения ADR

Для оценки влияния различных характеристик корпуса на точность определения ADR мы подготовили несколько его подвыборок (см. Табл. 52), различающихся объемом и представительностью отзывов с сущностями типа ADR. Вначале мы провели эксперименты на полном корпусе и его подвыборки из 1660 текстов (первая версия корпуса) с целью сравнения насыщенностей и оценки влияния количества отзывов на точность. Как следует из Таблицы 52 (столбцы RDRS_2800 и RDRS_1660) насыщенность в обоих корпусах схожая (0.2 против 0.22), что ниже, чем в большинстве известных мировых корпусов (см. Таблицу 44). Для исследования эффекта увеличения насыщенности мы исследовали различные подвыборки: сбалансированная по числу отзывов с и без ADR подвыборка из 1250 отзывов (в среднем 1.4 ADR сущности на 1 отзыв); подвыборка из 610 отзывов, содержащих сущности типа ADR (в среднем 2.9 ADR на 1 отзыв); подвыборка из 1136 отзывов (в среднем 1.5 ADR сущностей на 1 отзыв); подвыборка из 500 отзывов, тексты которых использованы для создания размеченной части корпуса RuDRec [361]. Во всех экспериментах нейросеть рассматривала входные тексты как набор независимых фраз.

Влияние строгости аннотирования на точность определения сущностей типа ADR

Мы провели 2 эксперимента по различному учету сущностей типа ADR при обучении нейросети: в первом использовались ADR сущности, не имеющие пересечений по границам слов с сущностями, отмеченными как Note, во втором

использовались все сущности ADR, выделенные в корпусе, включая те, которые имеют пересечения с сущностями типа Note.

Вычислительные эксперименты заняли приблизительно 24 часа на устройстве с 3-мя видеокартами Tesla K80, которые обрабатывали 6 агентов единовременно. Использовалась кросс-валидация с числом фолдов 5.

9.7 Результаты определения state of the art точности распознавания сущностей для русскоязычных отзывов на

лекарства

Таблица 51 — Точность распознавания сущностей ADR, Medication и Disease (по метрике F1-score,%) в созданном корпусе с помощью нейронных сетей с различной топологией и входными признаками

ADR

f

,partial

1

F'exact

f

Medication

partial

F'exact

f

Disease

partial

1

F1exact

ELMO + ton ELMO MESHRUS ELMO + pos ELMO + Vidal ELMO + CRF

44.9 ± 6.8 26.6 ± 3.9 85.6 ± 0.4 73.5 ± 0.5 70.8 ± 0.7 47.3 ± 1.0 + 48.6 ± 4.3 27.4 ± 2.2 85.2 ± 0.7 73.3 ± 1.5 71.3 ± 0.4 46.5 ± 1.2

46.5 ± 6.5 26.2 ± 3.0 85.6 ± 0.7 72.9 ± 0.6 71.5 ± 0.9 46.6 ± 0.9 47.1 ± 2.8 26.8 ± 1.0 85.6 ± 0.6 73.2 ± 1.1 71.5 ± 0.9 45.8 ± 1.2 51.7 ± 6.0 28.8 ± 2.7 85.6 ± 0.8 73.2 ± 1.1 71.6 ± 0.8 46.9 ± 0.4 3 layers LSTM, 44.6 ± 7.4 28.2 ± 5.1 86.7 ± 0.5 74.7 ± 0.7 73.4 ± 1.2 51.5 ± 1.8 ELMO

Результаты сравнения различных векторных представлений слов в Методе А

Результаты, представленные в Таблице 50, демонстируют лучшую эффективность при использовании ELMo в качестве векторного представления для Метода А. Использование BERT приводит к более низким значения точности с более высоким диапазоном отклонений, а самые низкие точности наблюдаются при использовании модели FastText. Композиция векторных представлений ELMo

и BERT ухудшает точность. Таким образом, далее мы исследуем влияние различных наборов признаков в рамках нейросети с ELMo векторами на точность определения сущностей типа ADR.

Результаты выбора лучшей нейросетевой топологии и набора входных признаков для Модели-A в сравнении с результатами на базе XLM-RoBERTa-large

Как показано в Таблице 51, применительно к созданному корпусу различные вариации входных признаков и топологий сети были исследованы в дополнении к базовой нейросетевой модели на базе векторов признаков, полученных с использование языковой модели ELMo. Точность при этом оценивается по метрике Ffxact, как более сопоставимой с литературными данными. Наибольший прирост точности добавление признаков дает для определения редковстречаемых сущностей типа ADR. В результате, комбинация словарных признаков и эмотивных маркеров, а также трех-слойной LSTM сети с выходным слоем CRF достигает наиболее высокой точности при определении сущностей типа ADR и Disease. Для сущностей типа Médication, несколько лучшие результаты достигаются при использовании трехслойной сети и языковой модели ELMo. Однако, результаты экспериментов с Методом А в целом хуже по сравнению с результатами XLM-RoBERTa-large, которая используется как основа для построения Метода Б. Поэтому дальнейшие эксперименты проводятся с Методом Б.

Результаты оценки влияния подвыборок корпуса текстов на точность распознавания сущностей типа ADR

Прямое увеличение объема корпуса с 1660 до 2800 отзывов приводит к увеличению точности идентификации ADR на 13% F1, 6% F1 в Disease, 4% F1 в Medication. На рисунке 9.18 показана кривая зависимости увеличения точности ADR от размера корпуса, которая становится более стабильной при размере корпуса 80%. Такое поведение для других основных подтегов демонстрирует аналогичные курсы (см. Табл. 53). Увеличение доли ADR за счет уравновешивания корпуса приводит к более значительному увеличению точности определения ADR на 21% без значительных изменений в точности идентификации заболеваний и лекарств (см. Табл. 54). Последнее обстоятельство объясняет более высокая

Таблица 52 — Точность выделения упоминаний сущностей ADR на разных подвыборках созданного корпуса RDRS с различным объемом и насыщенностью отзывов с ADR_

Корпус RDRS 2800 RDRS 1600 RDRS 1250 RDRS 610 RDRS 1136 RDRS 500

Число отзывов 2800 1659 1250 610 1136 500

Число от- 625 339 610 610 610 177

зывов,

содержащих ADR

Доля отзывов 0.22 0.2 0.49 1 0.54 0.35

содержащих ADR

Число сущностей ADR 1778 843 1752 1750 1750 709

Среднее число ADR в отзыве 0.64 0.51 1.4 2.87 1.54 1.42

Кол-во 1783 955 670 59 154 297

отзывов,

содержащих Indication

Всего сущно- 52186 27987 21807 3782 6126 9495

стей

Кол-во сущностей Indication 4627 2310 1518 90 237 720

Доля ADR 0.38 0.36 1.15 19.44 7.38 0.98

относительно

сущностей Indication

F1-exact 52.8 ± 3.8 40.1 ± 2.9 61.1 ± 1.5 71.3 ± 3.4 68.6 ± 3.3 61.6 ± 2.9

Насыщенность (*103) 4.25 3.41 9.77 72.57 42.99 9.08

706560-

5045400.00 0.01 0.02 0.03 0.04 0.05 0.06 0.07

Saturation

Рисунок 9.17 — Зависимость точности выделения сущностей типа ADR от насыщенности корпуса сущностями данного типа. Красная линия - различные подмножества оригинального корпуса (см. таблицу 52) c разметкой только по сущностям типа ADR, без сущностей типа Note. Синяя линия - различные подмножества оригинального корпуса с аннотацией, которая включала пересечение сущностей типа ADR и Note, RuDReC - опубликованная точность на корпусе RuDReC [361], RuDReC_our - полученная в ходе экспериментов точность на корпусе RuDReC, CADEC - опубликованная точность по корпусу

CADEC [365]

Рисунок 9.18 — Зависимость точности от размера обучающего множества для

разных типов сущностей в RDRS 2800

насыщенность отзывов этими тегами, которая практически не меняется после балансировки корпуса. Эксперименты с подкорпусами с насыщенностью, близкой к CADEC, показали дальнейшее повышение точности определения ADR до 71,3% F1 на подвыборке из 610 текстов с ADR (в среднем 2,9 ADR на отзыв).

Результаты экспериментов по оценке влияния строгости аннотации сущностей ADR на точность их распознавания

В этом случае результаты экспериментов со сбалансированным набором позволили оценить влияние ослабления требований к аннотации ADR с увеличением точности на 3%, как показано на рисунке 9.17.

Таблица 53 — Точность по метрике F1-exact Метода Б для корпусов RDRS 1250 и RDRS 2800. *Negative - Объединение следующих тегов: Worse, NegatedADE, ADE-Neg. _

Тип сущности/Корпус RDRS 1250 RDRS 2800

BNE-Pos 51.2 50.3

Diseasename 87.6 88.3

Indication 58.8 62.2

MedFromDomestic 61.7 76.2

MedFromForeign 63.5 74.4

MedMakerDomestic 65.1 87.1

MedMakerForeign 74.4 85.0

Dosage 59.6 63.2

DrugBrand 81.5 83.8

Drugclass 89.7 90.4

Drugform 91.5 92.4

Drugname 94.2 95.0

Duration 75.5 74.7

Frequency 63.4 65.0

MedMaker 92.5 93.8

Route 58.4 61.2

Sourcelnfodrug 66.0 67.3

Negative* 52.2 52.0

Таблица 54 — Точность определения трёх главных классов сущностей в зависимости от размера и сбалансированности корпуса

Подвыборки RDRS ADR Disease Medication

RDRS-2800 52.8 ± 3.4 63.5 ± 0.5 84.1 ± 0.8

RDRS-1250 61.1 ± 1.5 62.9 ± 1.5 84.2 ± 0.6

RDRS-1600 40.1 ± 2.7 56.9 ± 0.9 79.6 ± 1.3

9.8 Выводы по главе 9

По результатам представленного в данной главе решения задачи извлечения упоминаний медицински- и фармакологически-значимых сущностей из русскоязычного текста, общую схему применения технологий машинного обучения (раздел 1.5) можно представить в виде методики с соответствующей прикладной конкретикой:

1. Постановка и формализация задачи: для каждого типа сущности — Medication, ADR и Disease — 3-классовая задача классификации каждого токена (слова или знака препинания) текста по тому, находится ли токен в начале упоминания этой сущности, внутри упоминания или за его пределами.

2. Формирование признаков, описывающих исследуемый объект или явление: посимвольное представление текста и векторное представления слов с помощью морфологических, словарных, эмотивных признаков.

3. Кодирование сформированных признаков в машиночитаемом формате: объединение дискретных признаков, кодированных унитарным методом, и векторов, полученных с помощью предобученных языковых моделей.

4. Выбор инструментов машинного обучения: двунаправленная нейронной сети глубокого обучения с долгой краткосрочной памятью (BiLSTM).

5. Построение алгоритма, вычислительно эффективного для решения поставленной в п. 1 задачи.

6. Планирование обучения и настройки созданного алгоритма.

7. Выбор способа валидации и оценки эффективности обучения: метрики

8. Валидация, анализ и интерпретация результатов.

9. При необходимости коррекции выбранных инструментов машинного обучения — возврат к п. 4.

В данной диссертационной работе мы, прежде всего, стали формировать размеченный корпус интернет-отзывов1 с 2019 года. Эта работа выполняется до настоящего времени группой разработчиков из НИЦ «Курчатовский институт»

1https://sagteam.m/med-corpus/

под координацией диссертанта в сотрудничестве со специалистами Первого Московского государственного медицинского университета имени И.М. Сеченова. Разметка в корпусе1 мультитэговая: каждое слово могло принадлежать к упоминаниям одной или нескольких сущностей, касающихся лекарственных препаратов (Medication), заболеваний (Disease) и побочных эффектов (ADR), соотнесенных с номенклатурой медицинских классификаторов МКБ-10, MEDDRA или с номенклатурой фармакологического классификатора АТХ. При этом выделяется широкий набор атрибутов сущностей — 11 для типа Medication и 6 для типа Disease:

- для типа сущностей Medication — название препарата (DrugName) и торговая марка (DrugBrand), лекарственная форма (DrugForm), класс препарата (DrugClass), производитель (MedMaker), отечественный производитель или зарубежный (MedFrom), частота применения (Frequency), дозировка (Dosage), продолжительность применения (Duration), способ применения (Route), источник информации о препарате у автора отзыва (SourceInfoDrug);

- для типа сущностей Disease — название заболевания (DiseaseName), показания к применению препарата (Indication), положительная или отрицательная динамика после или во время приёма препарата (BNE-Pos или ADE-Neg соответственно), отсутствие эффекта от препарата (NegatedADE), ухудшение состояния после приёма препарата (Worse);

- для типа сущностей ADR, в соответствии со сложившейся практикой в литературе, атрибуты не выделяются.

Первая версия корпуса (1660 отзывов) была доложена на Международной конференции ЛаПлаз-2020 (11-14 февраля 2020, МИФИ, Москва, http://conf.laplas.mephi.ru). С использованием этой версии корпуса в наших исследованиях были получены точности 86.7% для типа сущностей Medication, 73.4% для Disease, и 51.7% для сущностей типа ADR (во всех трех случаях точность вычислялась по метрике f1-partial в оценке совпадения слов в упоминаниях сущностей). Эти результаты были опубликованы в работах [74] (дата принятия в печать 30 января 2020) и [75].

В настоящее время корпус1 включает 2800 интернет-отзывов, в которых выделены 56 627 упоминаний медицински- и фармакологически-значимых сущностей (1 784 упоминания сущностей типа ADR, 32 994 — Medication, 17 332 — Disease, 4 517 — Note). Такой размер корпуса позволил провести полноценный анализ точности выделения различных типов сущностей в русскоязычных интернет-отзывов

в условиях высокой вариативности стиля написания этих текстов в зависимости от относительного количества упоминаний сущностей различных типов. На этом корпусе [86] достигнуты точности 84.1% для сущностей типа Medication, 63.5% для Disease и 52.8% для ADR, по метрике совпадения фраз упоминаний в целом (F1-exact). После балансировки корпуса путём исключения упоминаний сущностей типа Disease и Medication, точность для выделения сущностей типа ADR повысилась до 61.1%.

По результатам, представленным в данной главе, качество предложенного комплекса нейросетей глубокого обучения с векторными представлениями слов подтверждено сравнением с известными литературными результатами. Уровень точности, полученный разработанным комплексом на созданном в диссертационной работе русскоязычном корпусе, сопоставим с уровнем точности, полученным в аналогичных англоязычных корпусах, и может рассматриваться как state of the art для поставленной задачи.

Заключение

В диссертационной работе решён ряд актуальных задач (результаты решения которых представлены в главах 2-9), имеющих прикладное значение в области анализа текстов и поддержки принятия решений врачом.

1. Разработаны новые нейросетевые методы глубокого обучения для морфологического и морфо-синтаксического разбора русскоязычного текста, повышающие эффективность разбора за счёт использования технологий посимвольного анализа слов предложения и разбиения процесса обучения на фазы с переносом весовых коэффициентов между ними, применения методов переноса знаний на основе предварительного обучения на больших массивах предложений, применения технологий ансамблевых классификаторов; создания для морфо-синтаксического разбора единого классификатора, основанного на нейронных сетях глубокого обучения, учитывающих последовательность переходов по состояниям инкрементальной схемы разбора. Разработанные методы достигают точности базового морфологического разбора (определения части речи) 98.31%, полного морфологического разбора — 97.35% по метрике F1; синтаксического разбора — 92.27% по метрике UAS и 89.71% по метрике LAS.

2. Создана система поиска документов, тематически схожих с заданной эталонной коллекцией текстов, на основе численных вероятностно-энтропийных индикаторов. Разработанная система демонстрирует точность 99% и полноту 84%, что превосходит уровень точности средства MoreLikeThis, существующего в составе программного комплекса Solr. Разработан алгоритм наглядной визуализации тематик документов в виде контекстно-семантического графа, который может использоваться как для формирования тематических выборок, например, при анализе социальных сетей, так и для визуализации результатов поиска для больших коллекций документов.

3. Создан комплекс вероятностно-нейросетевых методов авторского профилирования, демонстрирующий точность определения пола автора русскоязычного текста в 86% по метрике F1, а в случае наличия попыток намеренного искажения — 64%; точность определения возрастной группы автора текста, полученная впервые для русского языка на собранном

краудсорсинговым методом корпусе, составляет 48% (что на 15% выше случайного угадывания); точность распознавания искажения возраста автора текста с направлением искажения — 80%.

4. Разработаны новые нейросетевые алгоритмы и программные средства для диагностики сердечных заболеваний на основе данных клинических осмотров железнодорожных работников, продемонстрировавшие эффективность в условиях перекоса обучающих данных между больными и здоровыми пациентами, достигнув точности диагностики коронарного атеросклероза 96%, ишемической болезни сердца — 94%.

5. Разработаны и реализованы в программных комплексах вероятностно-нейросетевые методики, для оценки риска обострения сердечно-сосудистых заболеваний у работников локомотивных бригад РЖД по данным предрей-совых осмотров, достигающие точности 0,57 по метрике площади под ROC-кривой (в среднем для классов среднего и высокого риска), что превосходит существующие шкалы оценки кардиологического риска SCORE, PROCAM и Framingham (0,53, 0,52 и 0,50 соответственно).

6. Созданы численные алгоритмы на основе сети спайковых нейронов с механизмом локальной долговременной пластичности STDP, устойчивые в широком диапазоне констант модели нейрона и синапса. На задачах классификации изображений и векторов рациональных чисел алгоритмы достигают точности, сопоставимой с точностью формальных нейронных сетей.

7. Разработан метод и программы выделения в текстах упоминаний лекарственных препаратов, заболеваний и побочных эффектов, с помощью которого на первой версии специально собранного русскоязычного корпуса текстов отзывов на лекарственные препараты (июль 2019 года, 1660 отзывов) впервые установлен уровень точности для русского языка: 86.7% для упоминания медицински- и фармацевтически-значимых сущностей, касающихся лекарственных препаратов; 73.4% для сущностей, касающихся заболеваний; 51.7% — побочных эффектов; на второй версии корпуса (апрель 2021 года, 2 880 отзывов) — 84.1%, 63.5% и 52.8% соответственно. Полученный уровень точности сопоставим с точностями, получаемыми существующими в литературе методами на текстах на других языках.

На основе результатов, полученных в главах 2-9, были разработаны методики применения технологий машинного обучения в различных группах прикладных задач в области компьютерной лингвистики и медицины.

Список сокращений и условных обозначений

SVM LinearSVC MLP CNN LSTM BiLSTM SGD

RMSprop MSE UD OOV

UAS LAS

LIWC

ELMo

RBF

support vector machine, машина опорных векторов SVM с линейным ядром

multilayer perceptron, многослойный персептрон convolutional neural networks, сверточные нейронные сети long short-term memory, долгая краткосрочная память двунаправленная LSTM

stochastic gradient descent optimizer, стохастический градиентный спуск

метод адаптивного скользящего среднего градиентов средняя квадратическая ошибка корпус Universal dependencies

результаты сравнения на тестовом множестве с указанием точности по словам, не представленным в учебном наборе данных, в дальнейшем именуемых "вне словаря"

unlabeled attachment score, метрика оценки точности определения

синтаксической связности пары слов в рамках предложения labeled attachment score, метрика оценки точности определения

синтаксической связности пары слов совместно с типом синтаксической связи

linguistic inquiry and word count, набор психосоциальных словарей, которые описывают лингвистические категории (количество слов определенных частей речи, некоторые лексико-тематические группы, частоту знаков препинания, доли слов обозначающих положительные или отрицательные эмоции, восприятие, когнитивные процессы и т. д.), адаптированных для русского языка embeddings from language models, контекстный подход для представления слов. С помощью данного подхода векторное представление слов получают путём извлечения внутреннего состояния обученной двунаправленной языковой модели, которая основывается на глубокой рекуррентной нейронной сети (LSTM) radial basis functions, радиальные базисные функции

TF-IDF term frequency-inverse document frequency, статистическая мера, используемая для оценки важности слова в контексте документа, являющегося частью коллекции документов или корпуса. Вес некоторого слова пропорционален частоте употребления этого слова в документе и обратно пропорционален частоте употребления слова во всех документах коллекции КТ коэффициент Трейгера, соотношение количества глаголов к количеству прилагательных в тексте

КОД коэффициент определенности действия, соотношение количества

глаголов к количеству существительных в единице текста КА коэффициент агрессивности, отношение количества глаголов и глагольных форм (причастий и деепричастий) к общему количеству всех слов

LDR low-dimensionality representation, признаки низкоразмерного представления

TTR type-token ratio, индекс лексического разнообразия

PCA principal component analysis, метод главных компонент GB gradient boosting, модель с символическим n-грамменным представлением входного текста RF random forest, случайный лес - алгоритм машинного обучения с

учителем, основанный на построении композиции (ансамбля) деревьев решений.

DT decision tree, решающие деревья - класс методов машинного обучения с учителем, предназначенный для решения задач классификации и регрессии, позволяющий восстанавливать нелинейные зависимости произвольной сложности GI gender imitation, корпус, созданный для исследования особенностей текстов, написанных с намеренным искажением гендерных

признаков письменной речи IF нейрон Integrate-and-Fire - релаксационный пороговый интегратор

Bias - значение смещения для нейронов

PNN probabilistic neural network, вероятностная нейронная сеть CS - краудсорс корпус гендерного искажения

GRM-1 каждое слово кодируется в виде бинарного вектора размерностью 49, отражающего морфологические признаки данного слова. Размер документа ограничен 300 словами, документы большего размера обрезаются, меньшего размера дополняются нулевыми векторами

GRM-2 каждое слово кодируется в виде бинарного вектора размерностью 49, отражающего морфологические признаки данного слова. Размер документа ограничен 300 словами, документы большего размера обрезаются, меньшего размера дополняются нулевыми векторами. Итоговый вектор для документа составляется как конкатенация 300 векторов слов и его размерность равна 14700 PoS Part of Speech, метка части речи

CBOW Continious Bag of Words, «непрерывный мешок слов»: модельная архитектура, которая предсказывает текущее слово, исходя из окружающего его контекста

Публикации автора по теме диссертации

В изданиях, входящих в международные базы цитирования WoS и/или Scopus

[1] Alexander Sboev и др. — «Solving a classification task by spiking neural network with STDP based on rate and temporal input encoding». — В: Mathematical Methods in the Applied Sciences 43.13 (янв. 2020), с. 7802—7814. — DOI: 10.1002/mma.6241. — URL: https://onlinelibrary. wiley.com/doi/abs/10.1002/mma.6241.

Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.

Оглавление диссертации доктор наук Сбоев Александр Георгиевич

Рекомендованный список диссертаций по специальности «Математическое моделирование, численные методы и комплексы программ», 05.13.18 шифр ВАК

Модели, методы и программные средства извлечения оценочных отношений на основе фреймовой базы знаний2022 год, кандидат наук Русначенко Николай Леонидович

Распознавание редких дорожных знаков с использованием синтетических обучающих выборок2021 год, кандидат наук Шахуро Владислав Игоревич

Введение диссертации (часть автореферата) на тему «Нейросетевое моделирование и машинное обучение на основе экспериментальных и наблюдательных данных»

Похожие диссертационные работы по специальности «Математическое моделирование, численные методы и комплексы программ», 05.13.18 шифр ВАК

Применение нейросетевых методов в теории функционала плотности2024 год, кандидат наук Рябов Александр Александрович

Спайковые модели динамики и обучения локальных сетей нейронов мозга2021 год, доктор наук Лобов Сергей Анатольевич

Нейросетевой механизм кросс-внимания в задачах извлечения информации из текстов на примере биомедицинских данных2021 год, кандидат наук Алимова Ильсеяр Салимовна

Топология поиска нейросетевой модели с помощью генетических алгоритмов2013 год, кандидат наук Чистик, Игорь Константинович

Cетевые модели управления динамическими режимами синапсов в реализации обучения и памяти2024 год, доктор наук Стасенко Сергей Викторович

Список литературы диссертационного исследования доктор наук Сбоев Александр Георгиевич, 2021 год