Методы преобразования информационных сигналов, распространяемых в информационном поле, для решения задач оценки кризисных ситуаций тема диссертации и автореферата по ВАК РФ 00.00.00, кандидат наук Улизко Михаил Сергеевич

  • Улизко Михаил Сергеевич
  • кандидат науккандидат наук
  • 2025, «Санкт-Петербургский государственный университет»
  • Специальность ВАК РФ00.00.00
  • Количество страниц 135
Улизко Михаил Сергеевич. Методы преобразования информационных сигналов, распространяемых в информационном поле, для решения задач оценки кризисных ситуаций: дис. кандидат наук: 00.00.00 - Другие cпециальности. «Санкт-Петербургский государственный университет». 2025. 135 с.

Оглавление диссертации кандидат наук Улизко Михаил Сергеевич

ВВЕДЕНИЕ

Раздел 1. Анализ проблемной области и постановка задачи исследования

1.1 Современнные средства обработки текстовой информации

1.2 Информационное поле как среда распространения информации

1.3 Современные модели распространения информации

1.4 Постановка задачи исследования

Выводы по разделу

Раздел 2. Модели информационного распространения и методы их анализа

2.1 Модель информационного поля

2.2 Особенности информационного поля как сети взаимодействия агентов

2.3 Методы сравнения и анализ отдельных путей распространения информационных сообщений

2.4 Анализ тематической направленности агентов информационного поля

2.5 Задача формирования мнений агентов

Выводы по разделу

Раздел 3. Программная реализация преобразования информационных сигналов в решении задач оценки кризисных ситуаций

3.1 Функциональные требования к разрабатываемому программному обеспечению

3.2 Методы и алгоритмы сбора и предобработки информационных сигналов

3.3 Методы хранения информационных сигналов

3.4 Методы преобразования информационных сигналов

Выводы по разделу

Глава 4. Экспериментальные исследования методов преобразования информационных сигналов в задачах оценки кризисных ситуаций

4.1 Анализ сети взаимодействия агентов информационного поля

4.1.1 Сеть агентов с небольшим количеством информационных сигналов

4.1.2 Сеть агентов с большим количеством информационных сигналов

4.1.3 Анализ информации о заболевании COVID-19

4.2 Анализ отдельных путей распространения информационных сообщений

4.3 Анализ текста информационных сообщений

4.4 Вычисление мнений агентов

Выводы по разделу

ЗАКЛЮЧЕНИЕ

Словарь терминов

СПИСОК ЛИТЕРАТУРЫ

Приложение 1. Список каналов по тематике

Приложение 2. Список каналов с наибольшей аудиторией

Приложение 3. Список каналов для тематического моделирования

Приложение 4. Количество просмотров

Приложение 5. Описание наиболее значимых информационных сигналов... 123 Приложение 6. Результаты моделирования

Приложение 7. Акт о внедрении результатов диссертационного исследования

Приложение 8. Свидетельства о регистрации интеллектуальной собственности

ВВЕДЕНИЕ

Рекомендованный список диссертаций по специальности «Другие cпециальности», 00.00.00 шифр ВАК

Введение диссертации (часть автореферата) на тему «Методы преобразования информационных сигналов, распространяемых в информационном поле, для решения задач оценки кризисных ситуаций»

Актуальность темы исследования

Развитие информационно-коммуникационных средств доставки информации и упрощение возможности публикации информации отдельным человеком привели к существенному увеличению количества социальных данных. Появление социальных сетей, мессенджеров в 2000-х гг. привело к взрывному росту контента в виртуальной среде. Так, по данным исследовательской компании TechJшy, количество генерируемой и потребляемой человечеством информации на 2022 год составляет 94 Зеттабайта в день [1].

Генерируемая информация может быть как правдивой, так и ложной, может распространяться хаотически, а может иметь заданные траектории, может оставаться статической на протяжении времени, а может изменяться.

В диссертации рассматривается среда Интернет как информационное поле, в котором присутствуют информационные сигналы, под которыми понимаются текстовые, видео- и аудиосообщения, обладающие путем распространения в заданном информационном поле. Рассматривается сегмент глобальной сети Интернет, в котором возможно появление кризисных ситуаций, под которыми подразумевается непрогнозируемое и критическое обострение противоречий, проблем или конфликтов, которое нарушает обычный порядок вещей, угрожает безопасности, стабильности и нормальному функционированию общества, а также требует немедленных мер для их разрешения и преодоления [2].

Для анализа информационных сигналов, вызывающих кризисные ситуации, необходима разработка специальных программных средств, осуществляющих сбор, обработку, преобразование и анализ сообщений информационного поля.

В диссертации разрабатываются модели распространения отдельных информационных сообщений в среде Интернет, а также методы программно-технической реализации идентификации путей распространения информации.

В диссертации обобщаются научные труды автора, выполненные в аспирантуре НИЯУ МИФИ на кафедре «Анализ конкурентных систем» в 2020-2024 гг.

За последние пять лет актуальность работ по исследованию информационного поля существенно возросла, что обусловлено геополитическими процессами, развитием генеративных алгоритмов и увеличением присутствия пользователей в информационном поле. Исследование информационных сообщений, путей их распространения в отечественных и зарубежных социальных сетях и мессенджерах стало важным для обеспечения технологического и социального суверенитета Российской Федерации.

Степень разработанности проблемы

Первое упоминание анализа распространяющейся информации относится к 90-м годам XX века. За прошедшие 30 лет произошло существенное развитие информационных технологий, цифровизация многих сфер человеческой деятельности, в том числе СМИ, увеличение количества информации, что привлекло интерес многих научных коллективов.

Например, коллектив Институт проблем управления имени В. А. Трапезникова РАН занимается проблемами распространения информации с теоретической точки зрения. Ученые рассматривают модели влияния, управления и противоборства при анализе социальных сетей. Однако в их работах не рассматриваются процессы преобразования входящих потоков информации в графы.

Качество анализа критических ситуаций и получаемых выводов напрямую зависит от исходных данных, поэтому определяющую роль играет процесс нахождения массивов данных и их преобразования к виду, необходимого для анализа. Рассмотрение информационных сигналов с нескольких сторон позволяет давать более четкие выводы.

Поэтому тема диссертации, посвященная решению вопросов идентификации путей распространения информации, является актуальной.

Цель и задачи исследования

Целью работы является разработка, экспериментальное исследование моделей информационного поля и распространения информационных сообщений в неоднородной среде с оценкой характеристик времени, охвата и путей распространения.

Для достижения поставленной цели необходимо решить следующие задачи:

1. Проведение обзора существующих методов исследования информационного поля в целом и по отношению к распространению информационных сообщений.

2. Рассмотрение существующих моделей распространения информации в сети.

3. Построение математических моделей информационного поля для участников поля и информационных сигналов.

4. Проектирование и разработка программных средств по преобразованию информационных сигналов.

5. Апробация моделей на примере нескольких кризисных ситуаций.

6. Разработка методики анализа информационного поля и распространения информационных сообщений в нем для решения задач оценки кризисных ситуаций.

Научная новизна

Новые научные результаты, полученные лично автором, состоят в следующем:

1. Построена математическая модель, описывающая информационное поле и информационные сигналы. Информационное поле описывается как сеть взаимодействия агентов, в которой распространяются информационные сообщения. Информационные сигналы описываются как древовидная структура распространения сообщений.

2. Разработана формула сведения сети взаимодействия агентов к матрице влияния (матрица, элементами которой являются вероятности цепи Маркова).

3. Разработан алгоритм приведения единичного информационного сигнала к графовому виду. В частности, рассмотрено построение метрического пространства для взвешенных пронумерованных графов.

4. Разработан алгоритм разделения тематик информационного поля. Проведено сравнение алгоритмов кластеризации при помощи argmax, ^ средних, DBSCAN, HDBSCAN с учетом снижения размерности алгоритмами PCA и t-SNE.

5. Разработана и апробирована методика анализа информационного поля для решения задач оценки кризисных ситуаций.

Теоретическая значимость

Теоретическая значимость исследования заключается в развитии методов исследования информационного поля. В частности, реализован алгоритм приведения единичного информационного сигнала к графовому и введено метрическое пространство для взвешенных пронумерованных графов, соответствующих информационным сигналам.

Доказана применимость разработанной в диссертации методологии для решения задач оценки кризисных ситуаций на основе преобразования исходных информационных сигналов. Практическая значимость

Теоретические и практические результаты работы использованы при выполнении аванпроекта Фонда Перспективных Исследований «Оракул» №7/196/2020ав от 24.09.2020 г. и НИР ФГУП «РФЯЦ-ВНИИТФ им. академ. Е.И. Забабахина» «Создание методики обнаружения признаков нарушения обязательств по ядерному нераспространению на основе компьютерного анализа открытой информации» № 23313/13 от 26.09.2023 г.

Программные разработки автора использованы в грантах МГИМО «Глобальные пространственные аспекты реализации человеческого капитала»

и НИР Министерства науки и высшего образования РФ «Создание учебно-методических материалов по финансовой безопасности для школьников и студентов, в том числе для передачи указанных учебно-методических материалов в зарубежные страны-партнеры Международного сетевого института в сфере противодействия отмыванию доходов, полученных преступным путем, и финансированию терроризма» №3466-22.

Автором разработан курс «Информационно-аналитические системы» для студентов магистратуры Института Международных отношений НИЯУ МИФИ. С 2021 года курс является обязательным в рамках учебного плана. Практические занятия проводятся на основе учебно-методического пособия «Современные технологии и средства построения графа знаний» и разработанных в рамках диссертационной работы материалов.

Предложенные автором методы анализа информационного поля и разработанные программные средства внедрены в деятельность исследовательского центра по искусственному интеллекту НИЯУ МИФИ в части построения модели международной транспортной логистической системы (Приложение 7).

Методология и методы исследования

Теоретические исследования построены на реализации принципов системного подхода и методов системного анализа при исследовании связей социальных сетей, которыми являются сети распространения информации. В рамках работы использованы методы машинного обучения, методы обработки естественного языка, теория графов.

Практические результаты получены на основе использования современных архитектурных решений и средств для разработки программного обеспечения и баз данных.

Степень достоверности

Достоверность результатов диссертации обеспечивается корректным применением принципов системного подхода и методов системного анализа

при исследовании закономерностей функционирования сложных информационных систем.

Предложенные решения опираются на изучении научных трудов по теории графов, сетевого анализа, обработке естественного языка и машинного обучения.

Достоверность выводов по результатам диссертационного исследования подтверждается практикой применения разработанных методов при разработке программного обеспечения по сбору, обработке и анализу данных. Апробация результатов

Основные результаты работы докладывались и обсуждались на следующих международных и всероссийских конференциях и семинарах:

1. 30-я Международная конференция по компьютерной графике и машинному зрению ГрафиКон-2020 / Санкт-Петербург, Сентябрь 2020.

2. 2020 Annual International Conference on Brain-Inspired Cognitive Architectures for Artificial Intelligence (BICA*AI 2020) / Бразилия, Натал, Октябрь 2020.

3. 2nd International Conference "Communication in Multicultural Society" (CMSC) / Москва, Декабрь 2020.

4. 31-я Международная конференция по компьютерной графике и машинному зрению ГрафиКон-2021 / Нижний Новгород, Сентябрь 2021.

5. 32-й Международная конференция по компьютерной графике, обработке изображений и машинному зрению, системам визуализации и виртуального окружения ГрафиКон-2022 / Рязань, Сентябрь 2022.

6. 2022 Annual International Conference on Brain-Inspired Cognitive Architectures for Artificial Intelligence (BICA*AI 2022) / Мексика, Гвадалахара, Сентябрь 2022.

7. The 10th International Conference "Distributed Computing and Grid Technologies in Science and Education" (GRID' 2023) / Дубна, 2023.

8. 2023 Annual International Conference on Brain-Inspired Cognitive Architectures for Artificial Intelligence (BICA*AI 2023) / Китай, Нинбо, Октябрь 2023.

9. III международная конференция «Цифровые международные отношения 2024» / Москва, Россия, Октябрь-Ноябрь 2024.

Публикации

Основные научные результаты диссертации были опубликованы в перечисленных ниже работах.

1. Ulizko M.S., Antonov E.V., Artamonov A.A., Tukumbetova R.R. Graph Visualization of the Characteristics of Complex Objects on the Example of the Analysis of Politicians // Proceedings of the 30th International Conference on Computer Graphics and Machine Vision (GraphiCon 2020), December 2020, pp. short8-1-short8-9.

2. Ulizko M.S., Antonov E.V., Artamonov A.A., Tukumbetova R.R. Visualization of Graph-based representations for analyzing related multidimensional objects // Scientific Visualization, November 2020, Vol. 12(4), pp.133-142.

3. Ulizko M.S., Tretyakov E.S., Tukumbetova R.R., Artamonov A.A., Esaulov M.N. Visualization of Dataflows: a Casestudy of COVID-19 Rumors // CEUR Workshop Proceedings, November 2021, Vol. 3027. pp. 259-267.

4. Ulizko M.S., Antonov E.V., Grigorieva M.A., Tretyakov E.S., Tukumbetova R.R., Artamonov A.A. Visual Analytics of Twitter and Social Media Dataflows: a Casestudy of COVID-19 Rumors // Scientific Visualization, November 2021, Vol. 13(4). pp. 144-163.

5. Ulizko M.S., Artamonov A.A., Tukumbetova R.R., Antonov E.V., Vasilev M.I. Critical Paths of Information Dissemination in Networks // Scientific Visualization, June 2022, Vol. 14(2), pp. 98-107.

6. Ulizko M.S., Artamonov A.A., Fomina J.E., Antonov E.V., Tukumbetova, R.R. Clustering Thematic Information in Social Media // Proceedings of the 32nd International Conference on Computer Graphics and Vision, December 2022. pp. 403-413.

7. Ulizko M.S., Tukumbetova R.R., Artamonov A.A., Antonov E.V., Ionkina K.V. Data preparation for advanced data analysis on Elastic Stack // Studies in Computational Intelligence, February 2024, Vol. 1130, pp. 884-893.

Получены свидетельства о государственной регистрации программы для ЭВМ №2024668072 «Программа бинарной классификации текстовой информации на основе современных нейросетевых технологий» (от 1 августа 2024 года), №2024690021 «Мультиагентная система сбора, обработки и анализа слабоструктурированных массивов данных» (от 11 декабря 2024 года), №2024690979 «Аналитический фреймворк обработки и представления научно-технической информации» (от 18 декабря 2024 года).

Издано учебно-методическое пособие «Современные технологии и средства построения графа знаний».

Структура и объем диссертационной работы

Диссертационная работа состоит из введения, четырех глав, заключения, словаря терминов, списка использованной литературы и восьми приложений.

Во введении обосновывается актуальность темы диссертационной работы, ставятся цель и задачи исследования, приводится научная новизна работы, сформулированы положения, выносимые на защиту, показана практическая значимость полученных результатов.

В первом разделе дан обзор литературы и проводится анализ состояния предметной области. Для этого рассматриваются анализ текстовой составляющей информационных сигналов, информационное поле как среда распространения информации и происходящие в нем процессы распространения информации.

Во втором разделе приведена разработанная автором методология оценки кризисных ситуаций на основе анализа информационных сигналов, находящихся в информационном поле. Для проведения комплексной оценки автором предложено рассмотрение информационных сигналов с трех сторон: рассмотрение их по отдельности, в совокупности и с точки зрения тематической направленности.

Третий раздел посвящен программной реализации алгоритмов конвертации информационных сигналов. Представлены функциональная схема программного обеспечения и предъявляемые к нему функциональные требования. Предложена модель хранения информационного сигнала и особенности представления в графовом виде.

В четвертом разделе проведено экспериментальное исследование разработанной методологии на примере пяти кризисных ситуаций. Рассмотрены сеть взаимодействия агентов с небольшим числом информационных сигналов, сеть взаимодействия агентов с наибольшей аудиторией, ситуация «распространение слухов про заболевание COVID-19», сравнение путей распространения и тематическое моделирование информационного поля.

В заключении подведены итоги исследования, сформулированы основные выводы и возможные перспективы развития данного исследования.

Общий объем диссертации составляет 135 страниц, включая 41 рисунок, 3 таблицы и 26 формул. Список литературы включает 92 наименования.

Основные научные результаты

1. Описана модель информационного поля как сети взаимодействующих агентов. Разработаны методы преобразования информационных сигналов и информационных сообщений для случаев отдельных сигналов, информационного поля в совокупности и тематического моделирования. Описаны способы обработки данных для повышения качества анализа. Рассмотрен способ приведения информационного поля взаимодействующих агентов к задаче формирования мнения агентов. Результаты изложены в следующих публикациях: Ulizko M.S., Antonov E.V., Artamonov A.A., Tukumbetova R.R. Graph Visualization of the Characteristics of Complex Objects on the Example of the Analysis of Politicians // Proceedings of the 30th International Conference on Computer Graphics and Machine Vision (GraphiCon 2020), December 2020, pp. short8-1-short8-9 (на странице 39); Ulizko M.S., Antonov E.V., Artamonov A.A., Tukumbetova R.R. Visualization of Graph-based representations

for analyzing related multidimensional objects // Scientific Visualization, November 2020, Vol. 12(4), pp.133-142 (на странице 39); Ulizko M.S., Artamonov A.A., Tukumbetova R.R., Antonov E.V., Vasilev M.I. Critical Paths of Information Dissemination in Networks // Scientific Visualization, Jun. 2022, Vol. 14(2), pp. 98107 (на страницах 45, 83); Ulizko M.S., Artamonov A.A., Fomina J.E., Antonov E.V., Tukumbetova, R.R. Clustering Thematic Information in Social Media // Proceedings of the 32nd International Conference on Computer Graphics and Vision, 2022, pp. 403-413. doi: 10.20948/graphicon-2022-403-413 (на страницах 48, 50, 86); Ulizko M.S., Tukumbetova R.R., Artamonov A.A., Antonov E.V., Ionkina K.V. Data preparation for advanced data analysis on Elastic Stack // Studies in Computational Intelligence, February 2024, Vol. 1130, pp. 884-893 (на страницах 15, 56).

2. На основе созданных модели, методов и алгоритмов разработано программное обеспечение, позволяющее проводить сбор, обработку и анализ данных для распространяющихся сигналов. Получены свидетельства о государственной регистрации программы для ЭВМ №2024668072 «Программа бинарной классификации текстовой информации на основе современных нейросетевых технологий» (от 1 августа 2024 года), №2024690021 «Мультиагентная система сбора, обработки и анализа слабоструктурированных массивов данных» (от 11 декабря 2024 года), №2024690979 «Аналитический фреймворк обработки и представления научно-технической информации» (от 18 декабря 2024 года).

3. Проведена апробация методологии и программного обеспечения на примере кризисной ситуации «распространение слухов про заболевание COVID-19». Адекватность результатов доказана успешным закрытием аванпроекта «Оракул». Результат изложен в следующих публикациях: Ulizko M.S., Tretyakov E.S., Tukumbetova R.R., Artamonov A.A., Esaulov M.N. Visualization of Dataflows: a Casestudy of COVID-19 Rumors // CEUR Workshop Proceedings, November 2021, Vol. 3027. p. 259-267 (на странице 79); Ulizko M.S., Antonov E.V., Grigorieva M.A., Tretyakov E.S., Tukumbetova R.R., Artamonov

A.A. Visual Analytics of Twitter and Social Media Dataflows: a Casestudy of COVID-19 Rumors // Scientific Visualization, November 2021, Vol. 13(4). pp 144163 (на странице 79).

Основные положения, выносимые на защиту:

1. Предложена математическая модель описания информационного поля, основанная на взаимодействии агентов между собой посредством информационных сигналов. Введена классификация агентов и участков сети с выделением наиболее значимых элементов.

2. Разработаны методы преобразования информационных сигналов для рассмотрения отдельных информационных сигналов, информационных сигналов в совокупности и тематической направленности.

3. Разработана и апробирована методика анализа сети взаимодействующих агентов для решения аналитических задач обнаружения наиболее значимых агентов для оценки влияния и публикационной активности.

4. Разработан алгоритм приведения пути информационного сигнала к векторному виду. С математической точки зрения разработан алгоритм приведения пронумерованного ориентированного взвешенного графа к метрическому пространству.

5. Разработаны методика и программный комплекс оценки кризисных ситуаций в социальной среде на основе разработанных лично автором методов, способов преобразования и хранения данных информационных сигналов.

Раздел 1. Анализ проблемной области и постановка задачи

исследования

1.1 Современнные средства обработки текстовой информации

Сеть распространения информации неразрывно связана с ее содержанием. Поскольку информация часто включает текст, необходимо рассмотреть подходы к его анализу.

Основной научной дисциплиной по обработке текстовых данных является обработка естественного языка (natural language processing, NLP), совмещающая как разделы искусственного интеллекта, так и компьютерной лингвистики. На верхнем уровне обработка естественного языка может быть разделена на понимание естественного языка (natural language understanding) и его создание (natural language generation) [3]. Поскольку в работе рассматривается анализ существующего текста, большее внимание уделяется первой области, то есть пониманию языка.

В общем случае процесс обработки естественного языка выглядит следующим образом [4,5] (Рисунок 1). На рисунке входом и выходом являются источники данных и результат работы соответственно. При этом предполагается, что источники данных либо являются текстом, либо его содержат.

Источники данных

Предобработка данных

Выделение признаков Работа модели

Результат работы

Рисунок 1. Процесс обработки текста на естественном языке Первым этапом при работе с текстом является предобработка данных. Предобработка данных влияет на итоговый результат работы, при этом затраченное на предобработку данных время может составлять более 50% от всего затраченного на обработку текста времени [6, 7]. Данный этап включает работу с текстом (приведение к нижнему регистру, удаление знаков пунктуации, обработка с помощью регулярных выражений, удаление незначимых слов и т.д.), с отдельными словами (стемминг - сокращение слова до корня; лемматизация - приведение слова в начальную форму), токенизацию

(разбиение текста на токены (лексемы), в качестве которых могут выступать слова, N-граммы, предложения и т.д.) и др. В результате завершения этапа получается не только обработанный текст, но и его корпус (обработанный набор текстов), необходимый для следующего этапа.

Следующий этап - выделение признаков - основан на том, что для обработки текста требуется его численное представление. Для этого используется векторизация текста - процесс сопоставления вектора тексту по имеющемуся корпусу. Однако векторизация текста не учитывает значения слов и их синонимичность, поэтому в настоящее время для векторизации используются векторные представления слов (word embedding), предложений и всего текста. Векторное представление слов - это отображение токена в некотором многомерном пространстве, в котором близкие по смыслу токены располагаются близко друг к другу. Выбор метода векторизации текста может значительно сказываться на качестве решения задачи [8-10]. Перечислим некоторые из методов векторизации и векторного представления слов [8]:

1. Мешок слов (bag of words). Метод заключается в кодировании каждого токена и подсчете его упоминания [8, с. 9].

2. TF-IDF. Метод заключается в кодировании каждого токена и последующем вычислении значимости каждого токена в тексте [8, с. 9].

3. Word2Vec. Метод отображает слова в некотором векторном пространстве таким образом, чтобы близкие по смыслу слова находились рядом (по метрике расстояния) [11]. Метод основан на использовании малослойной искусственной нейронной сети и может быть реализован одним из двух способов:

• skip-gram - нейронная сеть учится по имеющемуся целевому слову определять контекст (предыдущие и последующие слова);

• непрерывный мешок слов (Continuous Bag of Words, CBOW) -нейронная сеть учится по имеющемуся контексту определять целевое слово.

4. GloVe. Метод основан на предположении, что близкие по смыслу слова встречаются в схожих контекстах [12]. С точки зрения машинного обучения это алгоритм обучения без учителя для получения векторных представлений слов. GloVe минимизирует разницу между произведением векторов слов и логарифмом вероятности их совместного появления с помощью стохастического градиентного спуска.

5. FastText. Метод является улучшением метода Word2Vec. Обучение происходит не для цепочек слов, а для N-грам символов, что позволяет сократить время на обучение и строить векторное представление для слов, не имеющихся в обучающей выборке [13].

По итогам получения векторного представления текста проводится основной этап - работа модели - который позволяет решать следующие задачи

[9]:

• классификация текста;

• извлечение именованных сущностей;

• синтаксический разбор;

• анализ тональности;

• машинный перевод;

• краткий пересказ текста;

• тематическое моделирование (построение модели коллекции текстовых документов, которая определяет, к каким тематикам относится каждый из документов) [14].

Для каждой задачи существуют свои устоявшиеся способы решения. Например, для извлечения именованных сущностей для большинства языков используется библиотека spacy [15], для русского языка также применимы библиотека Stanza, проект Natasha и фреймворк DeepPavlov [16,17]; для тематического моделирования применяются латентный семантический анализ (Latent Semantic Analysis, LSA) и латентное размещение Дирихле (Latent Dirichlet Allocation, LDA) [18]; для классификации текста применяются стандартные методы классификации по типу наивного байесовского

классификатора (Naive Bayesian classifier), метода опорных векторов (support vector machine), построения деревьев решений, ансамблирования, логистической регрессии и других методов.

В задачах обработки естественного языка применимы искусственные нейронные сети. Особое развитие в использовании нейронных сетей в задачах NLP связано с появлением сверточных нейронных сетей, рекуррентных нейронных сетей, краткой долгосрочной памяти, генеративно-состязательных сетей, механизмов внимания и трансформеров [19]. В настоящее время лучшие результаты показывают большие языковые модели (large language model, LLM), такие как двунаправленный кодировщик представлений трансформера (Bidirectional Encoder Representations from Transformer, BERT) [20], экстремальная мультиязычная языковая модель (eXtreme MultiLingual Language Model, XlNet) [21], генеративный предобученный трансформер (Generative pre-trained transformer, GPT) [22] и др. Большие языковые модели - это класс нейросетевых моделей, обучаемый на больших объемах данных и способный решать задачи обработки естественного языка общего назначения . В будущем развитие NLP связано именно с использованием LLM, так как их использование позволяет гарантированно решать каждую из перечисленных ранее задач [23,24].

Существует большой набор средств и технологий, позволяющих решать многие задачи анализа текстов на естественном языке. Несмотря на то, что основой NLP являются статистические методы, все большее внимание уделяется большим языковым моделям, обучение которых стало возможным благодаря развитию архитектур нейросетей и аппаратной части, а результаты их использования сравнимы с результатами человеческой деятельности.

1.2 Информационное поле как среда распространения информации

Информационные сигналы неразрывно связаны с информационным полем, в котором происходит их распространение. В частности, у каждого сигнала есть источник или агент, который при помощи данного сигнала

осуществляет преднамеренное или непреднамеренное влияние на других участников поля.

Возникает задача оценки информационного поля как сети агентов, которые при помощи информационных сигналов влияют на других агентов. Задача в данной формулировке наиболее полно описывается в работе «Социальные сети: модели информационного влияния, управления и противоборства» [25]. Согласно авторам, в частном случае информационного поля (социальной сети) ключевыми свойствами агента являются «мнение», «влияние/доверие» и «репутация».

Под «влиянием» в работе понимается способность воздействовать на чьи-либо представления или действия [26]. Причем влияние может быть направленным, то есть воздействие субъекта на другого субъекта с целью добиться определенного результата, и ненаправленным [27].

Похожие диссертационные работы по специальности «Другие cпециальности», 00.00.00 шифр ВАК

Список литературы диссертационного исследования кандидат наук Улизко Михаил Сергеевич, 2025 год

Источники данных

Предобработка данных

Векторизация Тематическое моделирование

Результат работы

Рисунок 14. Схема тематического моделирования В работе в качестве предобработки и векторизации используются следующие методы: приведение в нижний регистр, удаление стоп-слов и векторизация с использованием меры tf-idf. Использование метода векторизации обусловлено его достаточной точностью для выбранных впоследствии информационных сообщений, однако для более общих случаев он может быть заменен на модели типа FastText и другие.

Для выбора алгоритма тематического моделирования рассмотрим два наиболее распространенных алгоритма: латентно-семантический анализ и латентное размещение Дирихле.

Латентно-семантический анализ - это метод обработки текста на естественном языке, анализирующий взаимосвязь между документами и встречающимися в них терминами, и выявляющий характерные факторы (тематики), присущие всем документам и терминам [62]. Исходными данными является матрица индексируемых слов, в которой строками выступают термины, а столбцами - документы. Элементами матрицы служат элементы некоторого векторного представления, полученного, например, подсчетом слов или вычислением статистической меры tf-idf. Для матрицы проводится приближенное сингулярное разложение по первым к сингулярным значениям, где число к определяет желаемое число измерений (тематик). Результатом приближенного разложения являются три матрицы: ик

(к-мерный вектор для каждого термина), (к-мерный вектор для каждого документа), Бк (диагональная матрица первых k сингулярных значений).

Латентное размещение Дирихле (LDA) - это вероятностная модель, способная разделить коллекцию дискретных данных по некоторым тематикам [63]. В основе LDA лежит предположение, что каждый объект коллекции состоит из нескольких тематик, а каждая тематика, в свою очередь, моделируется как набор из базового набора вероятностей тематик. С точки зрения архитектуры LDA - это трехуровневая иерархическая байесовская модель, в которой каждый элемент коллекции моделируется как конечная смесь по базовому набору тематик. Каждая тематика, в свою очередь, моделируется как бесконечная смесь по базовому набору вероятностей тематик. В контексте моделирования текста тематические вероятности обеспечивают явное распределение документа по тематикам.

В работе [64] проводился эксперимент по выделению тематик с помощью методов LSA и LDA на данных новостных анонсов, в результате чего сделан выбор в пользу LDA. Кроме того, метод LSA предполагает близкое к нормальному распределение документов по тематикам, что не всегда соответствует действительности. В силу данных факторов для тематического моделирования выбирается метод LDA [61].

Пусть имеется вероятностное распределений тематик текстов с помощью латентного размещения Дирихле (Таблица 2). Строками данной таблицы являются тексты, столбцами - полученные тематики. Элементами таблицы р+.

является вероятность принадлежности текста i к тематике j.

Таблица 2. Вероятностное распределение текстов по тематикам

Тематика 1 Тематика К

Текст 1 Р1& Р,'

Текст М Рм& РмК

Распределение вероятностей является нормированным (12):

* _ (12)

gp+. = l,vi е 1,м,

j=,

где K - число тематик;

M - число сообщений.

В алгоритме LDA число тематик K задается заранее, поэтому возможны ситуации, когда несколько тематик совпадают или в одной тематике содержится несколько тем. Для нивелирования подобных ситуаций проводится кластеризация результатов алгоритма.

В качестве алгоритмов кластеризации в работе рассматриваются алгоритмы K-средние, DBSCAN и HDBSCAN, применяемые к вероятностям распределения. Поскольку выбранная сеть агентов и, соответственно, информационных сообщений в общем случае не является равномерно распределенной по тематикам, предпочтение отдается алгоритмам DBSCAN и HDBSCAN, которые потенциально могут выявить превалирующие кластеры [65,66].

Для метода LDA каждому тексту соответствует не конкретная тематика, а вектор вероятностей, поэтому альтернативой алгоритмам кластеризации является функция argmax, позволяющая найти тематику с наибольшей вероятностью (13):

номер тематики х для текста i = агдтах (р+%) (13)

При латентном размещении Дирихле число тематик обычно больше 2, поэтому для визуализации текстов и тематик необходимо понижение размерности. В качестве алгоритмов понижения размерности в работе используются алгоритмы t-SNE и PCA, чтобы определить, какой алгоритм лучше способен показать близкие по тематике тексты и нагляднее представляет результаты.

Для проверки адекватности результатов распределения текстов информационных сообщений по тематикам необходима интерпретация

результатов. В работе предлагается метод проверки адекватности результатов на основе построения облаков ключевых слов тематик. При удовлетворительном результате строится сводная таблица распределения количества информационных сообщений к агенту и тематике для проведения анализа тематической направленности информационного поля.

2.5 Задача формирования мнений агентов

Рассмотрим задачу анализа влияния агентов друг на друга - чем больше влияние одного агента на другого, тем выше вероятность распространения информационного сигнала между агентами в сети. Для описания процесса влияния агентов друг на друга используются марковские цепи. Марковской цепью называется последовательность случайных событий, с конечным или счетным числом исходов, где вероятность наступления каждого события зависит только от состояния, достигнутого в предыдущем событии [67]. Представим, что в информационном поле находятся 4 агента - ему соответствует следующая цепь Маркова (Рисунок 15).

Ргз

Рзг

Рисунок 15. Цепь Маркова

В данном случае Рц - это доверие агента i агенту j. Согласно определению

марковской цепи справедлива формула (14):

ы __(14)

= 1 VI = 1, Ы,

I

;=1

где N - число агентов.

Для построения такой цепи Маркова, именующейся матрицей влияния, воспользуемся следующим отображением. Пусть имеется К информационных сигналов (15):

к= а=1 к+, (15)

где i - номер агента;

к+ - количество информационных сигналов агента i.

Тогда вероятности Рц могут быть вычислены по формуле (16):

к+ (16) —,при I =]

р+. = <

I Си} . ф /

,при I Ф ]

где К - число информационных сигналов, в которых агент i -первоисточник, или находится от первоисточника на глубине 1 (входит в сеть первоисточника);

к] I С+. - число сигналов к], для которых агент j является первоисточником информационного сигнала, и агент i распространяет этот сигнал напрямую (на глубине 1).

При такой формулировке выполняется условие (14), поэтому данные вероятности образуют матрицу влияния. Формула (16) учитывает, что влияние первоисточника (и агентов в цепи) ослабевает по мере увеличения глубины распространения. При необходимости учета влияния агента-источника на весь путь распространения формула (16) принимает вид (17):

- ,при I =; *и = ' (17)

где D - глубина распространения;

= .. б)

К =к+ + - взвешенное количество информационных сигналов,

дошедших до агента ц

- максимальная глубина, на которой сигнал дошел от вершины j до вершины Г;

к< - количество информационных сигналов, дошедших от вершины j до вершины i на расстоянии d;

е 1,ЛЛ

При использовании только сигналов при d=1 используется формула (13). При имеющейся матрице влияния Р разрешима задача вычисления окончательных мнений агентов в сети для различных начальных условий [25]. Выводы по разделу

1. Предложены математические модели информационного поля, сети взаимодействия агентов и пути распространения информационного сигнала. Приведены характеристики агентов и информационных сигналов.

2. Приведен способ визуализации информационного поля как сети взаимодействия агентов. Введена классификация агентов и участков сети с выделением наиболее значимых элементов. Автором предложены важные статистические характеристики агентов на основании информационных сигналов.

3. Выбрано графическое представление пути распространения информационного сигнала. Рассмотрены метрики сравнения путей распространения взвешенных и невзвешенных графов. Выбраны метрика расстояния между путями распространения (на основании строкового представления и расстояния Левенштайна) и метод кластеризации для

случая конечного числа элементов графов и представления информационного сигнала на основании исключительно посещенных вершин с учетом времени распространения.

4. Поставлена задача тематического моделирования информационного поля на основе текстового содержания информационных сигналов (выбран метод LDA для тематического моделирования). Предложен способ кластеризации и визуализации полученных тематик с целью интерпретации результатов, сравнения различных алгоритмов кластеризации и подтверждения их применимости.

5. Предложен способ решения задач оценки кризисной ситуации. Особый акцент делается на возможности приведения имеющегося информационного поля к цепи Маркова, что позволяет использовать ее математический аппарат для установления наиболее влиятельных агентов и способов влияния на агентов для достижения желаемого от них действия.

Раздел 3. Программная реализация преобразования информационных сигналов в решении задач оценки кризисных

ситуаций

3.1 Функциональные требования к разрабатываемому программному обеспечению

Разработка программного обеспечения (ПО) зависит от используемой модели. Выделяют следующие модели разработки ПО [68,69]:

• каскадная модель;

• v-модель;

• инкрементная модель;

• модель быстрой разработки приложений (rapid application development

model, RAD);

• гибкая модель (Agile).

В перечисленных моделях первым этапом является предъявление требований к разрабатываемому обеспечению, причем преимущественно бизнес-требований. Вне зависимости от наличия бизнес-требований далее идут требования, предъявляемые к программному обеспечению. В частности, эти требования могут быть разделены на функциональные (какими функциями должна обладать система) и нефункциональные (свойства и ограничения системы, не относящиеся к ее поведению). Таким образом, поскольку функциональные требования описывают функциональность системы, они влияют на все последующие этапы разработки от проектирования до тестирования.

Для введения функциональных требований рассмотрим исходную поставленную задачу, то есть задачу сбора, обработки и анализа информационных сигналов. Классическим решением данной задачи является программное обеспечение, включающее ETL-процесс (E - extract, извлечение, T - transform, преобразование или обработка, L - load, загрузка) [7,70] и

инструменты визуализации и/или анализа. Схематично ETL-процесс представим в следующем виде (Рисунок 16).

Рисунок 16. ETL-процесс Опишем функциональные требования к разрабатываемой системе:

1. Система должна иметь возможность осуществлять сбор информационных сигналов с целевых источников информационного поля.

2. Система должна обрабатывать собранные информационные сигналы с целью приведения к виду, соответствующему описанным моделям.

3. Система должна хранить данные в виде, позволяющем оперативно манипулировать данными.

4. Система должна позволять визуализировать и анализировать модели в соответствии с их свойствами и ограничениями.

Рассмотрим каждое из функциональных требований. Требование возможности сбора данных с целевых источников говорит о том, что необходимо выбрать целевые источники информационного поля (классификация источников и выбранные источники приведены далее), с которых необходимо осуществить сбор. В силу ограниченности ресурсов по памяти, большого объема данных в некоторых источниках и ограничений на время обработки необходимо, в ряде случаев, рассматривать информационные источники частично, что заключается в ограничении как по числу участников, так и по времени. Необходимо иметь возможность выделять информационные сигналы, начиная от первоисточника и заканчивая листьями дерева распространения.

Требование обработки собранных данных говорит о том, что извлеченные с источников данные должны быть обработаны для фильтрации пустых сообщений и соединения сообщений одного пути информационного сигнала. Кроме того, данные должны быть обработаны для приведения к виду, соответствующему моделям сети взаимодействия агентов, информационного сигнала и тематической направленности поля либо к виду, который требует для приведения к виду указанных моделей небольших временных и ресурсных затрат.

Требование хранения данных описывает, что данные должны храниться в виде, позволяющем их использовать в последующих задачах анализа. Хранение возможно в виде, сводимом к сети взаимодействия, отдельным путям распространения и тематическим распределением тематик. При этом хранилище может быть представлено реляционными базами данных, нереляционными базами данных и/или обычными файлами.

Требование визуализации и анализа говорит о возможности системы приведения данных из хранилища к виду, соответствующему моделям информационного поля и пути распространения (для случая незначительных затрат выше), а также анализа полученных моделей с применением средств визуализации или без них.

С учетом функциональных требований представим функциональную схему программного обеспечения (Рисунок 17).

Рисунок 17. Функциональная схема программного обеспечения

В связи с независимостью элементов между собой, наличием нескольких источников сбора и множеством решаемых задач, архитектурой программного обеспечения является микросервисная архитектура [71], в которой сервисам соответствуют модули.

3.2 Методы и алгоритмы сбора и предобработки информационных сигналов

Источником данных является медиа-пространство, которое является разнородным, при этом модели распространения информации различаются в зависимости от среды распространения. Можно выделить следующие крупные среды [72,73]:

• онлайновые новостные порталы (Yandex.News, Rambler.News, РИА

Новости и т.д.);

• социальные сети (Vkontakte и др.);

• микроблог Twitter;

• видеохостинги (YouTube, RuTube, и др.);

• платформы обмена мгновенными сообщениями (Telegram).

В работе рассматриваются два основных источника данных: платформа обмена мгновенными сообщениями Telegram и СМИ. Выбор первого источника обусловлен большой активной аудиторией, в то время как СМИ является основным источником новостей. При этом данные понятия пересекаются, так как многие СМИ представлены в том числе в Telegram. Рассмотрим сбор данных для первого источника.

Существует три основных способа взаимодействия с Telegram: при помощи приложений (мобильное и десктопное), при помощи браузера или с помощью программного интерфейса - API. Согласно Telegram API, каждое сообщение имеет 29 характеристик, однако наиболее существенными для исследования распространения информации являются:

• Id - идентификатор сообщения в канале;

• peer_id - информация о канале;

• date - дата и время публикации;

• message - текст информационного сообщения;

• fwd_from - информация о переадресованных сообщениях.

Параметр fwd_from состоит из 10 характеристик, из них существенными являются:

• date - дата и время публикации;

• from_id - информация о канале-первоисточнике;

• channel_post - идентификатор переадресованного сообщения в канале источника.

Данные характеристики позволяют привести исходные сообщения к виду информационных сигналов, заданных ранее. Поставим следующую гипотезу: исходное информационное сообщение является последним в цепи распространения. При использовании данной гипотезы и Telegram API алгоритм сбора информационных сигналов выглядит следующим способом (Рисунок 18).

Рисунок 18. Алгоритм сбора данных с использованием Telegram API

Сбор данных с использованием Telegram API осуществляет пользователь или Telegram-бот - в дальнейшем будет именовать эту сущность программный агент сбора. Достоинством данного алгоритма является то, что использование Telegram API ограничено 30 запросами в секунду, что дает возможность сбора данных в приемлемое время без блокировок. Сбор данных по указанному алгоритму приведен в репозитории Github [74]. Недостатками алгоритма являются:

1. Алгоритм исходит из предположения, что сообщение является конечным в пути распространения. На практике сообщение может находиться любом этапе пути от первоисточника до конечной вершины.

2. Алгоритм не позволяет напрямую осуществлять сбор сигналов, для которых для некоторой вершины источника существует несколько вершин получателя.

3. Для сбора полного пути информационного сигнала необходимо быть подписанным на все каналы, кроме разве что первоисточника. Устранение недостатков возможно двумя способами:

1. Прослушивание всех агентов в информационном поле и отслеживание пересекающихся сигналов. На практике данный подход не реализуем.

2. Осуществление сбора данных с помощью сторонних средств вместо Telegram API.

Сторонним средством выступает сервис аналитики TGStat, хранящий статистику по более чем 1,5 млн каналов. С точки зрения сбора сервис позволяет искать публикации, что делает его пригодным для поставленной задачи. Алгоритм сбора в данном случае выглядит следующим образом (Рисунок 19).

На представленном алгоритме для каждого сообщения при помощи сервиса TGStat ищется сообщение первоисточника информационного сигнала. Далее осуществляется сбор всех потомков исходного сообщения при помощи поиска в глубину (DFS, depth-first search) - данный алгоритм поиска позволяет

обойти всех потомков, сохраняя полный путь распространения информационного сигнала.

Также как и в случае с Telegram API, данный алгоритм не учитывает пересекающиеся сигналы - этот учет происходит на этапе первичной обработки данных согласно рисунку (Рисунок 17). Недостатком данного подхода является ограничение потокового сбора данных с TGStat по двум причинам:

1. Сбор данных за произвольный промежуток времени возможен только при оформлении подписки.

2. Интенсивный сбор данных влечет за собой блокировку IP-адреса.

Код алгоритма по сбору данных с помощью TGStat приведен в Github

Перебор каждого из N агентов

Перебор каждого из М сообщений агента

Поиск сообщения первоисточника в TGStat

Поиск всех потомков с помощью DFS

Рисунок 19. Алгоритм сбора данных с использованием TGStat

Сбор данных в общем случае может являться непрерывным, по востребованию и по расписанию. В случае непрерывного сбора программный агент начинает работу один раз и, после сбора данных, имеющихся в момент запуска агента, начинает прослушивание целевого сегмента. Как только в сегменте появляется новое сообщение, агент рассматривает данное сообщение как новый информационный сигнал и осуществляет для него сбор по обычным правилам.

В случае сбора по востребованию пользователь запускает программного агента сбора несколько раз. При этом важно предотвратить дублирование данных, поскольку различные запуски средства сбора могут теоретически осуществлять сбор одних и тех же информационных сигналов. В работе это достигается за счет того, что при запуске программного агента для каждого из собранных каналов из базы данных выбираются последние собранные информационные сообщения при предыдущем запуске. Таким образом, сбор проводится от более новых сообщений до более старых до тех пор, пока не будет найдено последнее собранное сообщение.

Сбор по расписанию является автоматизацией сбора по востребованию. Расписание в этом случае достигается такими инструментами, как Cron, Celery, Apache Airflow и т.д.

Следующий процесс - обработка данных - связан со следующими обстоятельствами:

1. Непосредственная обработка данных: приведение строковых дат к датам, фильтрация пустых сообщений, фильтрация текста с помощью регулярных выражений и т.д.

2. При сборе данных с различных информационных ресурсов необходимо унифицировать их между собой.

3. При хранении в базе данных необходимо преобразовать данные к соответствующему ей виду.

4. При сборе данных на нескольких устройствах следует следить за их объединением.

5. При сборе информационных сообщений, относящихся одному и тому же информационному сигналу, происходит дублирование данных. Первые четыре случая имеют стандартные решения, поэтому опишем обработку дублирующихся данных. Рассмотрим некоторый путь распространения информационного сигнала (Рисунок 20). На данном рисунке вершина 0 - первоисточник, а вершины 1-6 - некоторые вершины информационного сигнала. Вершины пронумерованы в порядке времени появления в информационном поле.

Рисунок 20. Путь распространения Допустим, в первый раз агент начал сбор с информационного сообщения 1. Тогда при первом сборе информационный сигнал включает сообщения 0 и 1. При следующей итерации сбор начинается, например, с вершин 5 и 6. В обоих случаях исходный информационный сигнал должен быть дополнен новыми вершинами, начиная с изначального пути.

3.3 Методы хранения информационных сигналов Собранные информационные сигналы представляют собой цепочку связанных информационных сообщений, что не позволяет одновременно рассматривать отдельные пути распространения, сеть взаимодействия агентов и тематическую направленность сегмента. Рассмотрим хранение данных, позволяющее свести собранные данные к решению поставленных задач.

Для решения сформулированных в подразделе 2.5 задач предложена модель хранения информационного сигнала (Рисунок 21), где у каждого сообщения на любом участке возможно наличие нескольких потомков или их отсутствие. Алгоритмы преобразования для решения данных задач приведены разделе 3.4.

Сообщение Сообщение Сообщение

1с1 Агент Текст Распространение Дата и время публикации Число просмотров ■ ■ ■ ... — ■ ■ ■

■ ■ ■ ■ ■ ■

Сообщение Сообщение

■ ■ ■ ■ ■ ■

Рисунок 21. Модель хранения информационного сигнала

Хранение данных согласно данной модели нереализуемо в реляционной базе данных в силу наличия вложенных связей и отсутствия точного числа потомков, в связи с чем хранение осуществляется в нереляционной базе данных. Теоретически хранение возможно в графовой базе данных Neo4j для дальнейшего построения графа знаний [76], однако в этом случае невозможно оперативное рассмотрение всех информационных сигналов одновременно. Поэтому выбрана другая нереляционная база данных - MongoDB.

Апробация методики оценки кризисных ситуаций проводилось на собранных из Telegram-среды наборах данных, характеризующих следующие процессы:

1. Разделение Православной Церкви в 2022 г.

2. Определение наиболее влиятельных в информационном поле агентов за заданный период.

3. Освещение религиозной тематики в Telegram.

4. Распространение информации про заболевание COVID-19.

По первой ситуации собраны 123 информационных сигнала за период с 27 по 31 мая 2022 г. с 24 каналов мессенджера Telegram и каналов их распространения. Всего упомянуто 342 канала, сделано 490 репостов. Перечень исходных сообщений представлен в Приложении 1.

По второй ситуации с мессенджера Telegram было собрано 395 795 информационных сигналов с 30 каналов, с общей аудиторией более 3,5 млн пользователей, за 3 месяца 2021 года. Каналы отобраны по численности

аудитории и не связаны тематической направленностью. Перечень каналов представлен в Приложении 2.

Третья ситуация посвящена тематическому моделированию предметной области. В работе выбрано 16 каналов с религиозной тематикой, с которой осуществляется сбор за 2022 год (всего собрано 25 885 сообщений). Для оценки алгоритма разделять тексты на тематики к ним добавлено еще 2 канала с неизвестным числом сообщений. Список каналов представлен в Приложении 3.

Последняя ситуация рассматривает слухи, связанные с распространением заболевания COVID-19. Данные включают русскоязычные интернет-издания СМИ. За рассматриваемый временной промежуток с 1 декабря 2019 года по 31 августа 2020 года собрано 195 793 новостных сообщений по тематике «COVID-19».

Реализованные алгоритмы сбора и предобработки данных используются в действующих системах интеллектуального анализа данных [77-79].

3.4 Методы преобразования информационных сигналов

Хранимые информационные сигналы сводимы к задачам:

1. Анализа сети взаимодействия агентов.

2. Анализа отдельных путей распространения.

3. Анализа тематической направленности агентов.

В качестве средства визуализации графов выбрано средство визуализации сетевых структур Gephi [80], которое использует для построения графов список вершин и ребер/дуг. В качестве формата данных используются файлы в формате CSV. Поэтому необходимо преобразование исходных информационных сигналов в связи между агентами (преобразование из исходной записи JSON в MongoDB в список вершин и ребер/дуг в CSV).

Преобразование возможно двумя способами:

• с сохранением отношений между парами «источник-прямой приемник»;

• с сохранением отношений между парами «источник-приемник».

Различие между преобразованиями состоит в следующем - в первом

случае агенты считаются связанными только в том случае, если агент-приемник

непосредственно сослался на агент-источник. Во втором случае агенты считаются связанными, если агент-приемник находится на любом расстоянии от агента-источник. Первый случай не учитывает, что агент-источник влияет на всех своих агентов-приемников. Однако второй случай имеет 2 недостатка:

1. Учет влияния должен быть обратно пропорционален расстоянию между источником и приемником, однако коэффициент пропорциональности определяется экспериментально.

2. Влияние даже на глубине 2 может отсутствовать - приемник может явно не знать о существовании источника на две вершины выше по пути распространения информационного сигнала.

В работе показано [25], что агенты влияют друг на друга даже в том случае, если между ними нет прямой связи, а есть только путь между ними. В связи с данным утверждением и сравнением двух подходов выбрано преобразование, в котором учитываются только связи типа источник и его прямой приемник.

Запишем процесс преобразования информационных сигналов в список вершин и дуг. Вершины - это все агенты, которые встретились в информационных сигналах. Вершина имеет следующие характеристики:

1. Идентификатор агента (служит для построения графа).

2. Метка агента (служит для отображения данных).

3. Метаданные.

Метаданные позволяют управлять построением графа и/или его раскраской. Так, в качестве метаданных указываются дата появления в сети взаимодействия агентов, фаза добавления в сеть, интервал присутствия вершины в сети, тип вершины (первоисточник, агрегатор и т.д.), суммарное количество опубликованных сообщений.

Дуга имеет следующие характеристики:

1. Идентификатор дуги.

2. Идентификатор начальной вершины дуги (агент-источник).

3. Идентификатор конечной вершины дуги (агент-получатель).

4. Тип дуги.

5. Вес дуги.

6. Метаданные - в качестве метаданных выступают:

6.1. Дата появления дуги в сети.

6.2. Время действия дуги в сети.

6.3. Метка дуги.

6.4. Цвет дуги.

Выбор метаданных зависит от задачи. Согласно правилу преобразования, дуга от вершины i к вершине j существует тогда и только тогда, когда существует информационный сигнал, в котором агент i является источником и его прямым потомком является агент j. Пример приведения информационных сигналов в список вершин и дуг представлен в репозитории Github [81]. Существует два подхода к взвешиванию дуг:

• вес каждой дуги равен единице;

• вес дуги вычисляется.

В первом случае подразумевается ситуация, когда информационные сигналы независимы. Тогда каждая дуга имеет дополнительную характеристику «дата появления дуги в сети» и, при необходимости, характеристику «время» действия вершины в сети. Подход имеет два достоинства:

1. Общее количество информационных сигналов, связанных с вершиной, совпадает со степенью вершины. Это благоприятно сказывается на визуализации, поскольку в Gephi размер вершины прямо пропорционален его степени.

2. Возможно рассмотрение активности сети. Поскольку дуга содержит время, возможна фильтрация по времени и извлечение целевых срезов. Недостатком данного подхода является то, что с точки зрения графов

вершины должны быть соединены между собой не более чем одним ребром/дугой. Это, в свою очередь, негативно влияет на визуализацию графов силовыми алгоритмами.

Во втором случае вес дуги от вершины X к вершине Y равен количеству информационных сигналов, включающих дугу Х^. Это благоприятно влияет на укладку графа силовыми алгоритмами, но негативно сказывается на визуализации размеров вершины и анализе активности.

В зависимости от задачи в приводимых примерах используется первый или второй принцип взвешивания дуг. Данное замечание справедливо только для сети взаимодействия агентов, поскольку при анализе отдельных путей распространения объектом рассмотрения является исключительно один сигнал.

Второй задачей является анализ отдельных путей распространения. В качестве инструмента визуализации также используется Gephi, поэтому список характеристик вершин и дуг не изменяется, за исключением изменения метаданных. Рассмотрим принцип построения графа для пути распространения информационного сигнала.

Пусть имеется некоторый информационный сигнал. Тогда:

• вершинами графа являются все вершины, присутствующие в его пути распространения;

• дуга от вершины i к вершине j существует тогда и только тогда, когда в данном сигнале существует звено, в котором агент i является источником и его прямым потомком является агент j.

Для путей распространения в качестве метаданных для вершин используется глубина распространения. В качестве метаданных дуги - время распространения от источника до приемника и вес дуги. Вес дуги обратно пропорционален времени распространения, значение коэффициента пропорциональности определяется эмпирическим путем. Разработанный программный код для построения вершин приведен в репозитории Github [82].

Заключительной задачей является анализ тематической направленности выбранного сегмента. Тематическая направленность определяется только текстом информационных сообщений, поэтому для каждого информационного сигнала выделяются идентификаторы агентов и тексты непустых сообщений и загружаются в отдельную коллекцию MongoDB.

Предложенное автором математическое описание информационного поля, способы преобразования, хранилище данных вместе образуют методику оценки кризисной ситуации в социальной среде, состоящей из:

1. Модели информационного поля.

2. Способов преобразования информационных сигналов в информационном поле с введением понятия критического пути.

3. Структуры хранения данных информационных сигналов для последующего преобразования.

4. Разработанного программного комплекса для реализации всех этапов от сбора данных до получения результатов.

5. Разработанных методов анализа полученных результатов для решения задач оценки кризисных ситуаций.

В разделе 4 приводится апробация предложенной методики для оценки и анализа конкретных кризисных ситуаций.

Выводы по разделу

1. Предложена функциональная схема разрабатываемого программного обеспечения сбора, обработки и анализа информационных сигналов для решения задач анализа отдельный путей распространения информационных сигналов, сети взаимодействия агентов и информационного поля при тематическом моделировании.

2. Рассмотрен сбор данных из социального сегмента сети Интернет. Предложены и реализованы два средства сбора данных: с использованием фиксированной глубины распространения информационного сигнала и с применением алгоритма поиска в глубину.

3. Предложена схема хранения информационных сигналов в нереляционной базе данных. Сформированы 4 набора данных, по которым произведены сбор и загрузка данных в базу данных MongoDB для последующего решения поставленных задач.

4. Разработан процесс преобразования информационных сигналов, хранящихся в MongoDB, к графовому виду (для сети взаимодействия агентов, отдельных путей распространения) и тематическому виду (для отдельных информационных сообщений). Особое внимание уделено описанию вершин и дуг для построения графа.

Глава 4. Экспериментальные исследования методов преобразования информационных сигналов в задачах оценки

кризисных ситуаций. 4.1 Анализ сети взаимодействия агентов информационного поля

4.1.1 Сеть агентов с небольшим количеством информационных сигналов В период с 27 мая 10 июня 2022 года одной из главенствующих тем в русскоязычном сегменте Telegram являлась тематика разделения Православной Церкви. Данную ситуацию можно отнести к кризисным, так как нарушает привычное функционирования общества и требует мер реагирования для разрешения ситуации.

Для решения задачи анализа сети собрано 123 информационных сигнала с полными путями распространения (Рисунок 22). Моделирование проводилось на стенде со следующими характеристиками:

1. Процессор: Intel Core i7 2.3 ГГц.

2. Оперативная память: 16 Гб.

3. Емкость жесткого диска: 512 Гб.

Сеть содержит 342 вершины и 490 дуг (средняя степень взвешенности составляет 1,433). Сеть имеет 5 слабых компонент связности (1 сеть активного распространения, 3 изолированные сети и 1 изолированный агент). В исходном графе 263 тупиковых вершины с общим охватом более 12,5 млн пользователей (не уникальных). Общий охват по каждой из тупиковых вершин представлен в Приложении 4.

Статистически важными являются следующие характеристики сети:

1. Число просмотров пользователями отдельного информационного сигнала (число просмотров равняется сумме числа просмотров сообщения у первоисточника и числа просмотров по всему пути распространения информационного сигнала) для первоисточников и агрегаторов.

2. Общее число просмотров по всем информационным сигналам (определяется как сумма просмотров по каждому из информационных сигналов).

3. Число подписчиков рассматриваемой сети.

Рисунок 22. Сеть агентов информационного поля Число просмотров отдельного информационного сообщения в пути говорит о числе уникальных пользователей, которые просмотрели сообщение, в то время как их сумма в пределах одного пути распространения теоретически может не учитывать дубликаты, так как технически реализовать поиск дубликатов невозможно. Однако общее число просмотров дает понимание того, насколько канал пользуется популярностью у пользователей.

Рассмотрим подсеть распространения для трех информационных сигналов (Рисунок 23). Тексты информационных сообщений первоисточника и пути их распространения приведены в Приложении 5.

Рисунок 23. Сеть активного распространения 3 сообщений На графе присутствуют следующие особенности:

• тупиковые вершины участвуют только в охвате аудитории и не влияют на распространение;

• агенты «1» и «2» (область А на рисунке) участвуют во всех (трех) путях распространения;

• агенты 3-6 (область В на рисунке) агрегируют информацию с нескольких агентов и не участвуют в распространении - их можно назвать распространителями первого уровня;

• при анализе статистической информации выявлено, что репост агентом «8» (область С на рисунке) имеет больше просмотров, чем исходное сообщение агента «9».

Из данных особенностей видно, что, помимо первоисточников, наибольший вклад в распространение информационных сигналов вносят агенты «1», «2» и «8». Рассмотрим сеть, в которой присутствуют все сигналы, проходящие через данных агентов (Рисунок 24). Размер вершины пропорционален количеству пользователей, прочитавших информационные сообщения у данного агента.

Рисунок 24. Сеть распространения 3 критических агентов

На рисунке используется следующая раскраска вершин:

• красный - первоисточник;

• фиолетовый - звено распространения;

• голубой - агрегатор;

• синий - агрегатор и звено распространения;

• черный - тупиковая вершина.

Согласно алгоритму ForseAtlas 2 [50] наиболее значимые вершины находятся в центре. Для рисунка (Рисунок 24) у пяти первоисточников большая сеть тупиковых вершин, в то время как в центре сети имеется первоисточник без тупиковых вершин - информационные сигналы такой вершины с точки зрения распространения можно считать наиболее значимые. Среди агентов «1», «2» и «8» наибольшую роль играет последний - он имеет наибольший размер, то есть опубликовал сообщения, имеющие наибольшее число просмотров. Кроме того, выделяется агент «10» - он является тупиковой вершиной, однако имеет второе по величине число просмотров.

Рассмотрим активность распространения информационных сообщений (Рисунок 25). По оси ординат отложено количество ссылок на конкретное информационное сообщение в единичном информационном сигнале. Это позволяет выявить значимые сообщения с точки зрения распространения информационного сигнала. В данном случае наибольшее распространение

получили информационные сообщения, опубликованные 28 мая в промежуток с 15:00 до 16:00, в особенности сообщение, опубликованное агентом X в 15:42 и охватившее 68 других агентов информационного поля.

Общая активность распространения

J к л , А Л ь к.к

1-1-1-1-1-г

2022-05-27 2022-05-28 2022-05-29 2022-05-30 2022-05-31 2022-06-01 Время публикации информационных сообщений

Рисунок 25. Активность распространения Динамический анализ позволяет определить отдельные этапы распространения, инициаторов распространения и т.д. Построим сеть распространения для всех информационных сигналов, начавшихся 25 мая не раньше 15:00 (Рисунок 26). Агент X находится в левом нижнем углу -большинство ссылающихся на него агентов являются тупиковыми (60 из 68), то есть данный информационный сигнал не получил «активного

распространения».

Рисунок 26. Сеть распространения информационных сигналов, начавшихся 28

мая 2022 года не ранее 15:00 Таким образом, проведение визуального анализа сети и динамического анализа распространения информации позволяют выделить ключевые агенты, оказывающие наибольшее влияние в сети созданием и распространением информации.

4.1.2 Сеть агентов с большим количеством информационных сигналов Рассмотрим применимость предложенных методов анализа для сети с большим количеством информационных сигналов (ситуация «Определение наиболее влиятельных в информационном поле агентов за заданный период»). Построим сеть взаимодействия агентов с наибольшей аудиторией (Рисунок 27). На рисунке зеленым цветом выделены агенты, для которых осуществлялся сбор информационных сообщений и путей их распространения, красным - те агенты, с которых шла переадресация. Размер вершины прямо пропорционален количеству сообщений, которые были переадресованы с данного канала.

Рисунок 27. Сеть агентов с большой аудиторией Сравним сеть агентов в первом и втором случаях. Схожесть сетей состоит в следующем:

1. Наличие первоисточников и тупиковых вершин как в центральной части сети, так и на периферии. Большое количество тупиковых вершин на периферии указывает на то, что эти вершины выступают в роли пассивных наблюдателей, не генерирующих собственные информационные сообщения, даже несмотря на то, что сбор их собственных информационных сообщений не проводится.

2. Присутствие всех типов вершин (первоисточник, агрегатор, звено распространения, тупиковая вершина). Данное обстоятельство подтверждает применимость введенной типологии.

3. Однородность сети в наиболее плотной части. Несмотря на то, что на обеих сетях присутствуют агенты на периферии, в центральной части вершины располагаются плотно.

Между сетями имеется 2 различия:

1. Сеть агентов с большой аудиторией имеет большую плотность агрегаторов и звеньев распространения. Однако данное обстоятельство связано с различием в количестве охватываемых информационных сообщений на 3 порядка.

2. Первоисточники сети агентов с большой аудиторией имеют рефлексивные дуги, то есть некоторые первоисточники ссылаются на свои же сообщения. Это может подтвердить авторитетность агентов, однако негативно влияет на общее восприятие информационного поля. Сеть агентов с большой аудиторией имеет несколько больших по размеру красных вершин, что показывает их сильное участие в информационном поле по сравнению с остальными красными вершинами. Добавим к первоисточникам 5 красных вершин с наибольшем количеством связей. Построим расширенную сеть агентов с измененной раскраской вершин (Рисунок 28).

Во-первых, выделяются явные лидеры мнений (агенты «8», «3», «23»), на которые чаще всего ссылаются другие агенты. С другой стороны, можно отследить, что агент «4» чаще всего ссылается на агента «5», а остальные сообщения берет от агентов, к которым более никакой агент не обращается.

4.1.3 Анализ информации о заболевании COVID-19

Рассмотрим ситуацию «Распространение информации про заболевание СОУГО-19» [83, 84]. Для этого введем понятия слуха и фейковой информации.

Слух - это широко циркулирующая неподтвержденная информация [85].

Щ Агенты до расширения

■ Общие агенты

Агенты после расширения Агенты до расширения

■ Агенты после расширения

Рисунок 28. Расширенная сеть агентов с большой аудиторией

Фейковые новости (фейковая информация) - это ложная или вводящая в заблуждение информация, выдаваемая за реальные новости [86].

Распространение слухов и фейковой информации может оказывать серьезное деструктивное влияние на общество, вследствие чего рассматриваемые сети распространения могут быть отнесены к кризисной ситуации согласно введенному определению.

Слухи, получившие распространение в России, разделяются на несколько категорий:

1. Данные о распространении заболевания. Информационный массив включает в себя фейки о фальсификации масштабов распространения вируса и количества заболевших с целью контроля населения правительством страны. Сообщения содержат информацию как о сильном преувеличении цифр, так и о их занижении. В данную категорию попадают сообщения о переполненных больницах и моргах, очередях из медицинских машин и т.д.

2. «Добрые советы». Блок включает в себя информацию о различных способах самостоятельного диагностирования у себя СОУГО-19, о народных методах лечения данного заболевания, таких как употребление определенных продуктов, напитков или медицинских препаратов. Также сюда относятся фейки о мерах борьбы с заболеванием, например, введении режима самоизоляции, дополнительных ограничений и штрафов.

3. Информация о природе вируса. Данный кластер включает новостные сообщения об искусственном происхождении вируса, а также другие конспирологические теории о его происхождении, такие как чипирование граждан посредством прививок с целью контроля и сокращения населения Земли, связи 5G и СОУГО-19.

Рассмотрим слух о том, что сеть 5G способствует распространению заболевания. На рисунке (Рисунок 29) представлен граф распространения информации по данному слуху.

Рисунок 29. Распространение слуха о 5G Размер вершины, который представлен информационным источником, отображает количество входящих и выходящих из него дуг. Чем ближе вершина находится к центру графа, тем чаще ее цитировали. Фиолетовый цвет вершины обозначает иностранные информационные источники, зеленый цвет вершины -российские государственные источники, оранжевый цвет вершины -оставшиеся российские информационные источники. Направление дуги, представленной указателем со стрелкой на конце, указывает на тот источник, который был процитирован в публикации.

Отдельно проведен анализ текстовых сообщений на предмет опровержения информации о наличии связи между заболеванием СОУГО-19 и радиоизлучения от антенн 5G.

На рисунке (Рисунок 29) помимо вершин раскрашены дуги. Дуги, обозначенные зеленым цветом, говорят о том, что представленный информационный материал содержал опровержение слуха о СОУГО-19; дуги, представленные черным цветом, говорят о том, что не удалось установить, является ли информация опровержением слуха.

Таким образом, в контексте распространения слуха о влиянии 5G на заболеваемость СОУГО-19 наибольшей цитируемостью от уникальных

источников обладают такие информационные источники, как ТАСС (tass.ru), RT (russian.rt.com), Газетами (gazeta.ru), Lenta.ru (lenta.ru) и РИА Новости (ria.ru). При этом Lenta.ru часто ссылалась и на другие источники. Также часто цитировали другие информационные издания, но не цитировались другими СМИ, такие как РБК (rbc.ru), Life.ru (life.ru) или Медиазона (zona.media).

График ниже (Рисунок 30) отображает общее количество ссылок на источник, в том числе и повторяющихся.

htertax.ru zen.yandex.ru

reuters.com theguardian.com ста.пеи/в kp.ru vedomosti.ru ria.ru twitter.com rbc.ru telegram.org russian.rt.com Kommersant.ru 360tv.ru tass.ru kfe.ru gazeta.ru lenta.ru

2 2 2 || 1

4 3

1 II 1 1 4

2 4 2

3 1 2 1

III 3 2 3

3 5 5

5 5 3

3 3 3 4 1

1 8 7 1

1 I11 2 7 5 1

1 6 6 4

3 8 9

12 6 4 1

4 7 13

1 1 4 14 4 1

1 1 1 3 9 9

1 Ц 2 3 14 в 1

1 1 1 2 3 5 5 12 3

1 3 11 17 9 4

йес 2019 иап 2020 РеЬ 2020 Маг 2020 Арг 2020 Мау 2020 иип 2020 .М 2020 Месяц

Рисунок 30. Количество ссылок на информационные источники о мифе 5G в

русском сегменте

На данном рисунке видно, что первыми на связь между сетью 5G и заболеванием СОУГО-19 отреагировали Gazeta.ru и Lenta.ru, а пик информационной активности приходился на апрель-июня 2020 года. При этом чаще всего ссылаются на Газета^ (gazeta.ru), и Lenta.ru (lenta.ru).

4.2 Анализ отдельных путей распространения информационных сообщений

Распространение информационного сообщения может быть описано с помощью вероятностной модели. При этом одним из возможных способов для анализа выступает каскадная модель заражения [41]. Работа направлена на получение предсказательной модели и обнаружение аномальных явлений в

графе, а время распространения может занимать от нескольких минут до нескольких дней, то данная модель является недостаточной для проведения анализа. С другой стороны, можно сравнить пути распространения с точки зрения редакционного расстояния и визуально. При этом графическое представление, теоретически, позволит оперативно выделять аномалии на отдельно взятом примере [52].

Распространение информационного сигнала в Telegram рассматривается для ситуации «разделение Православной Церкви в 2022 г.». Для каждой дуги в пути распространения вычисляется значение времени распространения, как разница по времени (в минутах) между публикацией сообщения в канале i и его переадресацией в канале j, а вес дуги определяется по формуле (18):

к (18) щ> = ¿¡Т+г

где k - коэффициент пропорциональности (в работе k=10);

d+j - разница по времени (в минутах) между публикацией сообщения в канале i и его переадресацией в канале j;

I,) е 1 , Ы;

N - количество агентов.

Для анализа выбрано 170 графов распространения отдельных информационных сигналов. Из 170 объектов обнаружено 48 пар (0.4%) (в среднем 12 вершин в одном графе), для которых редакционное расстояние удовлетворяет условию (19):

<|с$1М) (19)

ri,j <

maxi

где i, j е 1 , К;

К = 170 - количество графов распространения отдельных информационных сигналов.

Рассмотрим несколько полученных примеров (Рисунок 31, Рисунок 32). На каждом из приведенных графов используется цветовая гамма для разделения вершин по глубине распространения, а числовое обозначение является меткой дуги.

о

г

Рисунок 32. Представление графа распространения методом ForceAtlas2 На первом графе (Рисунок 31) можно выделить две особенности. Во-первых, некоторые сообщения передаются практически сразу, в то время как другие передаются значительно позднее. С другой стороны, некоторые посты передаются с точностью до минуты, хотя занимают достаточно длительное время. Так, например, на первом графе выделяются дуги с временами переадресации 231 минута на уровне 2; с временами переадресации 74 и 533 минут на уровне 3. Поскольку из 18 дуг присутствует 3 пары полностью

идентичных дуг (по времени и отсутствию дочерних элементов) возникает предположение о связи каналов-приемниках в парах между собой или же о намеренном переадресации информационных сигналов.

Второй граф (Рисунок 32) представляет одну из самых больших сетей распространения, содержит 165 вершин и максимальную глубину 7. Алгоритм визуализации ForceAtlas 2 адекватно разместил вершины по глубине распространения. На данном примере выделена цепочка вершин, которая отвечает главному распространению. В подавляющем числе случаев переадресация сообщений происходит именно с этих вершин, что говорит об авторитетности данных каналов. Выявленная цепочка ассоциативно похожа на критический путь диаграммы Ганта [87,88], используемый в теории управления проектами.

Введем характеристику времени. Для этого построим граф, для которого у каждой вершины будет метка «время с начала распространения» (в часах) (Рисунок 33).

Рисунок 33. Критический путь распространения информационного сигнала

На данном графе 2 критических пути - они содержат по 8 вершин, время до переадресации в концевые вершины составили 858 минут и 778 минут что говорит о том, что на любое сообщение реагируют не более, чем за 13 часов.

4.3 Анализ текста информационных сообщений

Анализ текстовой информации проводится для ситуации информационного поля в период ситуации «Освещение религиозной тематики в Telegram» [61].

Информационная среда является неоднородной, поэтому одной из первостепенной задач является разработка и реализация методов классификации/кластеризации информационного поля для решения задач идентификации способов распространения, лидеров мнений и т.д. Для этого можно использовать различные алгоритмы. Поскольку исходные данные представляют собой текст, будем использовать следующую последовательность действий для кластеризации данных:

1. Матричное представление набора документов на основе частоты

терминов.

2. Определение тематик с помощью алгоритма LDA [89].

3. Кластеризация данных (алгоритмы K-средних, DBSCAN и HDBSCAN) [90,91].

4. Представление данных на плоскости (алгоритмы t-SNE и PCA) [92].

Следует сделать оговорку о применении модели LDA. Данный алгоритм

для каждой найденной тематики определяет вероятность принадлежности текста Ti к тематике Pj (Таблица 3) (желтым цветом выделены значения, максимальные для строки). В работе используется следующее предположение: тематикой (кластером) текста Ti является та тематика J, вероятность которой (Pj) для данного текста максимальна.

Таблица 3. Фрагмент определения тематик текста

№ P1 P2 P3 P4 P5 P6 P7 P8 P9 P10

1 0.02 0 . 02 0.42 0.02 0.02 0.02 0.02 0.02 0.42 0.02

2 0.01 0.14 0.64 0.01 0.01 0.01 0.12 0.01 0.01 0.06

3 0.1 0.1 0.1 0.1 0.1 0.1 0.1 0.1 0.1 0.1

4 0.01 0.01 0.13 0.01 0.01 0.01 0.19 0.01 0.39 0.25

5 0.34 0.01 0.01 0.01 0.01 0.07 0.01 0.01 0.01 0.54

После обработки получаем возможное разбиение по кластерам. Заранее зададим 10 тематик для LDA и 20 кластеров для алгоритма К-средних. Поскольку различные комбинации алгоритмов дают различные результаты, рассмотрим все возможные комбинации кластеризации (Рисунок 34):

1. Тематики LDA после преобразования ^КЕ (Рисунок 34а).

2. Тематики LDA после преобразования РСА (Рисунок 34б).

3. Кластеризация К-средних к вероятностям LDA и преобразование ^КЕ (Рисунок 34в).

4. Кластеризация К-средних к вероятностям LDA и преобразование РСА (Рисунок 34г).

5. Преобразование ^КЕ и кластеризация К-средних к проекциям тематик LDA (Рисунок 34д).

6. Преобразование РСА и кластеризация К-средних к проекциям тематик LDA (Рисунок 34е).

7. Кластеризация DBSCAN к вероятностям LDA и преобразование ^КЕ (Рисунок 34ж).

8. Кластеризация DBSCAN к вероятностям LDA и преобразование РСА (Рисунок 34з).

9. Преобразование t-SNE и кластеризация DBSCAN к проекциям тематик LDA (Рисунок 34и).

10.Преобразование РСА и кластеризация DBSCAN к проекциям тематик LDA (Рисунок 34к).

11.Кластеризация HDBSCAN к вероятностям LDA и преобразование ^^Е (Рисунок 34л).

12.Кластеризация HDBSCAN к вероятностям LDA и преобразование РСА (Рисунок 34м).

13.Преобразование ^^Е и кластеризация HDBSCAN к проекциям тематик LDA (Рисунок 34н).

14.Преобразование РСА и кластеризация HDBSCAN к проекциям тематик LDA (Рисунок 34о).

Рисунок 34. Результаты кластеризации

Продолжение рисунка 34

Из точечных графиков видно, что результаты кластеризации сильно отличаются друг от друга. Однако можно заметить, что разбиение по тематикам при помощи LDA «хорошо» отображается при переходе в двумерное пространство (Рисунок 34а и Рисунок 34б). При этом больше всего на тематики LDA похожи результаты кластеризации К-средних (Рисунок 34в и Рисунок

34г), что связано с заранее указанным числом кластеров. Результаты кластеризации DBSCAN (Рисунок 34ж и Рисунок 34з) и HDSCAN (Рисунок 34н и Рисунок 34о), наоборот, не походят на результаты LDA и выделяют из него один кластер (если исключить шумный кластер «-1»).

Данные результаты подтверждаются сводными таблицами (Рисунок 35, Рисунок 36, Рисунок 37) (по оси абсцисс указан номер кластера алгоритма кластеризации, по оси ординат - номер тематики LDA). Для кластеризации К-средних (построена по вероятностям тематик LDA) (Рисунок 35) существует несколько взаимо-однозначных соответствий между кластерами. Например, 6 кластер К-средних соответствует 4 тематике LDA, 14 кластер - 5 тематике, 9 кластер - 6 тематике и т.д.

Рисунок 35. Сводная таблица LDA - кластеры К-средних С другой стороны, алгоритмы DBSCAN (Рисунок 36) и HDBSCAN (Рисунок 37) располагают большую часть данных не более чем в 2 кластера, причем наибольший кластер алгоритмов равномерно распределяется по тематика LDA.

Кластер ОВБСАМ для вероятностей ЮА

Рисунок 36. Сводная таблица LDA - кластеры DBSCAN

Кластер НЮВБСАМ для вероятностей ША

Рисунок 37. Сводная таблица LDA - кластеры HDBSCAN Так как результаты кластеризации отличаются между собой, необходимо сравнить полученные кластеры по их содержанию. Для оценки построим облако ключевых слов. Пример облака ключевых слов для тематики LDA №2 представлен ниже (Рисунок 38), что доказывает возможность выделения отдельных тематик с помощью LDA. Несмотря на различие в количестве кластеров между собой, каждый кластер может быть отнесен к одному из 3 тематик:

• тексты, связанные с религией;

• тексты на украинском языке, связанные с религией;

остальное.

называть патриарх Кирилл являться ,

православный церковь

| р..,«. „по пои мех.. раскольник

к-у п I I V. I апиоИТЬСЯ

рпц митрополит автокефалия

гтлмтуыопапьсом пат| упц МП

Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.