Методы и алгоритмы семантической структуризации текстовой информации на основе логико-онтологических преобразований тема диссертации и автореферата по ВАК РФ 05.25.05, кандидат наук Мизюков Григорий Сергеевич

  • Мизюков Григорий Сергеевич
  • кандидат науккандидат наук
  • 2021, ФГАОУ ВО «Южный федеральный университет»
  • Специальность ВАК РФ05.25.05
  • Количество страниц 131
Мизюков Григорий Сергеевич. Методы и алгоритмы семантической структуризации текстовой информации на основе логико-онтологических преобразований: дис. кандидат наук: 05.25.05 - Информационные системы и процессы, правовые аспекты информатики. ФГАОУ ВО «Южный федеральный университет». 2021. 131 с.

Оглавление диссертации кандидат наук Мизюков Григорий Сергеевич

ВВЕДЕНИЕ

1. ОБЗОР СУЩЕСТВУЮЩИХ РЕШЕНИЙ В ОБЛАСТИ АНАЛИЗА ТЕКСТОВЫХ ДАННЫХ. ПОСТАНОВКА ЗАДАЧИ ИССЛЕДОВАНИЯ

1.1 Существующие подходы к процессу обнаружения знаний в текстовой информации на естественном языке

1.2 Методы, модели и алгоритмы нормализации, кластеризации

и классификации текстовой информации

1.3 Оценка перспектив использования существующих способов для определения информационной близости текстовой информации

1.4 Постановка задачи диссертационного исследования

Выводы по главе

2 РАЗРАБОТКА МЕТОДОВ СЕМАНТИЧЕСКОЙ СТРУКТУРИЗАЦИИ ТЕКСТОВОЙ ИНФОРМАЦИИ

2.1 Метод регуляризации структуры текстовой информации на основе объектно-признакового подхода

2.2 Метод определения информационной близости на основе спектрального преобразования текстовой информации

2.3 Метод динамического формирования онтологической карты текстовой информации на основе объектно-ориентированного подхода

Выводы по главе

3 РАЗРАБОТКА АЛГОРИТМИЧЕСКОГО ОБЕСПЕЧЕНИЯ ДЛЯ СЕМАНТИЧЕСКОЙ СТРУКТУРИЗАЦИИ

3.1 Разработка алгоритма регуляризации структуры текстовой информации на основе объектно-признакового подхода

3.2 Разработка алгоритма определения информационной близости на основе спектрального преобразования текстовой информации

3.3 Разработка алгоритма формирования динамической онтологической карты текстовой информации

Выводы по главе

4 ПРОВЕДЕНИЕ ЭКСПЕРИМЕНТАЛЬНЫХ ИССЛЕДОВАНИИ И СРАВНЕНИЕ ПОКАЗАТЕЛЕЙ ТОЧНОСТИ ОПРЕДЕЛЕНИЯ ИНФОРМАЦИОННОЙ БЛИЗОСТИ

4.1 Оценка точности определения информационной близости с помощью расчёта меры близости текстовой информации

4.2 Программная реализация разработанных методов и алгоритмов

Выводы по главе

ЗАКЛЮЧЕНИЕ

СПИСОК ИСПОЛЬЗОВАННЫХ ИСТОЧНИКОВ

ПРИЛОЖЕНИЕ А Программный код функции «Формирование лексического

словаря»

ПРИЛОЖЕНИЕ Б Программный код функции «Регуляризация и сжатие

текстовых файлов»

ПРИЛОЖЕНИЕ В Программный код функции «Определение

информационной близости»

ПРИЛОЖЕНИЕ Г Программный код функции «Формирование

онтологической карты текстовой информации»

ПРИЛОЖЕНИЕ Д Акты внедрения и использования результатов работы .. 128 ПРИЛОЖЕНИЕ Е Свидетельства о государственной регистрации программ для ЭВМ

Рекомендованный список диссертаций по специальности «Информационные системы и процессы, правовые аспекты информатики», 05.25.05 шифр ВАК

Введение диссертации (часть автореферата) на тему «Методы и алгоритмы семантической структуризации текстовой информации на основе логико-онтологических преобразований»

ВВЕДЕНИЕ

Актуальность темы исследования. Современные тенденции, связанные с оцифровкой (переводом в цифровой формат) большого количества информации в разных предметных областях знаний, приводят к существенному увеличению объёмов информации в массивах данных в различных хранилищах. Основным типом данных в таких массивах выступает неструктурированная информация. Данная информация включает в себя огромное количество аудио, видео и текстовых файлов с различным расширением и языковой вариативностью. Наличие в массивах данных гетерогенной информации приводит к усложнению процесса анализа информации, которое выражается в увеличении времени обработки данных, неэффективном использовании ресурсов вычислительных машин, а также невалидности результатов [1]. При этом одним из перспективных и актуальных направлений в области анализа гетерогенной информации является анализ текстовой информации, который относится к классу задач интеллектуального анализа данных. К ключевым задачам интеллектуального анализа относят классификацию, кластеризацию и поиск закономерностей [2 - 5].

Одной из важных задач в рамках интеллектуального анализа текстовках? mining) [6, 7] считается задача семантического анализа текста [8 - 9]. К основным задачам семантического анализа текста можно отнести следующие: поиск документов, классификация и рубрикация документов, синтез и валидация текстов, формирование онтологий и тезаурусов, автоматическое реферирование и аннотирование текстов [10]. Все существующие на текущий момент времени решения и подходы, которые используются для семантического анализа текста, неспособны удовлетворить современным требованиям бизнеса. В основном это связано с определением нечетко выраженных семантических связей между анализируемыми объектами, которые чаще всего представлены в виде неструктурированной текстовой информации. Основной отличительной чертой такой информации, является отсут-

ствие структуры, которая описывает данные, хранящиеся в файле, а также её антропогенных характер.

Поэтому решение описанной выше проблемы требует семантической структуризации, выражаемой в регуляризации структуры текстовой информации, с помощью которой возможно сохранить семантическое описание анализируемого документа в независимости от языковой составляющей и обеспечить качественный процесс установления информационного сходства между информационными объектами, что является актуальной задачей. Следовательно, возникает потребность в модификации и модернизации существующих методов, разработке новых алгоритмов анализа текстовой информации, применимых для задач семантического анализа в интеллектуальных системах.

В связи с этим, изложенный в диссертационной работе подход семантической структуризации для определения информационной близости в текстовых коллекциях является актуальным. Отличительной особенностью предлагаемых методов и алгоритмов от существующих в рассматриваемой области научного исследования является способ семантической структуризации текстовой информации для определения информационной близости при анализе больших массивов текстовой информации, базирующийся на спектральном преобразовании информации и онтологическом проектировании, а также концептуально новом подходе для регуляризации структуры.

Востребованность диссертационного исследования подтверждается тем фактом, что она поддержана грантами Российского фонда фундаментальных исследований (РФФИ):

- 16-01-00597-а «Приближенные гранулярные вычисления и принятие решений в интерактивных интеллектуальных системах» (2016 - 2018гг.);

- 18-01-00402-а «Разработка моделей и методов мультигранулярных вычислений для группового принятия решений в интеллектуальных системах ситуационной осведомленности» (2018 - 2020 гг.);

19-01-0024б-а «Интерактивное принятие решений в мультиагентных интеллектуальных системах с привлечением динамической дескрипционной логики» (2019 - 2020 гг.).

Степень разработанности темы исследования. Большой вклад в развитие технологий анализа данных внесли исследовательские подразделения таких компаний как: Yandex, Google, Microsoft, IBM, Amazon [11]. В области анализа данных также ведутся работы и в ведущих российских университетах, среди которых можно отметить: Федеральное государственное бюджетное образовательное учреждение высшего образования «Московский государственный университет имени М.В. Ломоносова» (МГУ) - Центр технологий хранения и анализа больших данных; Национальный исследовательский университет «Высшая школа экономики» (НИУ ВШЭ) - Департамент анализа данных и искусственного интеллекта; Национальный исследовательский ядерный университет «МИФИ» (Московский инженерно-физический институт) - лаборатория анализа данных. Вклад в исследование проблем и подходов анализа данных отражён в работах Chun-Wei Tsai, Chin-Feng Lai, Han-Chieh Chao и Athanasios V. Vasilakos [12], Zongben Xu и Yong Shi [1З], Ковалева А.А., Игнатенко В.А., Ядченко А.А. [14], Гнатюк Е.С., Рыбанова А.А. [15], Муха В.С. [1б], Kiran Adnan и Rehan Akbar [1l], Waleed Zaghloul и Silvana Trimi [1S]. Применение онтологического проектирования при классификации текстовой информации освещено в работах Oliver Thomas и Michael Fellmann M.A. [19], Kwangho Eum, Mujin Kang, Gyungha Kim, Myon Woong Park и Jae Kwan Kim [20], Смирнова С.В. [21], Гусарова Н.Ф., и Сысоева В.В. [22]. Способы кластеризации неструктурированной информации представлены в работах Ulrike von Luxburg [2З], Бова В.В., Щеглова С.Н., Лещанова Д.В. [24], Бирюкова А.С., Рязанова В.В., Шмакова А.С. [25].

Цель диссертационной работы состоит в разработке и исследовании методов и алгоритмов, которые позволяют осуществить семантическую структуризацию текстовой информации путем регуляризации структуры и

обеспечения целостности данных для выполнения процесса быстрой пере-

б

классификации при обработке больших коллекций текстов. На основе разработанных методов и алгоритмов должна осуществляться разметка поступающих текстов и определение их схожести для повышения качества обработки текстовой информации.

Для достижения поставленной цели решаются следующие задачи:

1. Исследование современных подходов и решений в области анализа качества представления текстовой информации, оценка перспектив использования семантической структуризации для переклассификации и эффективного хранения текстовых данных.

2. Разработка метода и алгоритма регуляризации текстовых файлов для осуществления процесса трансформации текстовой информации путем нанесения семантической ссылочной разметки и придания ей фиксированной структуры для эффективного хранения в базе данных.

3. Разработка метода и алгоритма определения информационного сходства поступающей информации с семантически структурированными и классифицированными текстами с целью отслеживания изменений и обеспечения возможности быстрой переклассификации.

4. Разработка метода и алгоритма динамического формирования онтологической карты для отслеживания истории изменений входящей текстовой информации, а также исключения нерелевантной информации из выявленных классификационных групп.

5. Проведение экспериментальных исследований для подтверждения адекватности и применимости разработанных методов и алгоритмов для задач семантической структуризации текстовых коллекций.

Научная новизна. В диссертационной работе получены следующие новые научные и практические результаты:

1. Предложены метод и алгоритм регуляризации структуры текстовой информации, который состоит из этапов извлечения лексических единиц из текстов и замены дублирующих лексических единиц ссылками. Отличительной особенностью является применение контейнеров семантической ссылоч-

7

ной разметки. Предложенный метод и алгоритм позволяют исключить избыточность и уменьшить исходный объём.

2. Предложены метод и алгоритм определения информационной близости, основанный на спектральном представлении текстовой информации, заключающийся в подсчёте частот встречаемости лексических единиц. Предложенный метод и алгоритм позволяют повысить скорость переклассификации в больших коллекциях текстов.

3. Предложены метод и алгоритм построения динамической онтологической карты. Отличительной особенностью является использование темпоральных меток. Каждая метка включат группу свойств описывающих состояние объекта. Предложенные метод и алгоритм позволяют повысить релевантность поиска в больших коллекциях текстов.

Методы исследования. В процессе выполнения диссертационной работы использовались исследования в области теории интеллектуального анализа данных, онтологического, семантического и спектрального представления знаний в информационных системах, языков описания и манипулирования данных, методов анализа формальных понятий и дескрипционной логики.

Достоверность и обоснованность научных результатов и выводов подтверждается математическим аппаратом разработанных методов и составленных на их основе алгоритмов, эмпирическими примерами и результатами, полученными с помощью разработанных алгоритмов.

Объектом исследования в диссертационной работе является информационный процесс анализа текстовой информации на естественном языке.

Предмет исследования - методы и алгоритмы анализа текстовой информации на естественном языке.

Соответствие паспорту специальности. Материалы диссертации соответствуют:

- п. 1 паспорта специальности 05.25.05 в части «... средства анализа и

выявления закономерностей в информационных потоках ...». В работе

8

представлены методы анализа текстовой информации, которые позволяют выявлять закономерности из текстов для выполнения процесса быстрой переклассификации.

- п. 4 паспорта специальности 05.25.05 в части «... Методы семантического, синтаксического и прагматического анализа текстовой информации с целью ее формализации для представления в базах данных и организации интерфейсов информационных систем с пользователями .»

В работе представлены методы семантического анализа текстовой информации, выражающиеся в регуляризации структуры для оптимального хранения в базах данных.

Практическая значимость работы заключается в том, что методы и алгоритмы, разработанные автором, позволяют структурировать текстовую информацию и определить информационную близость. За счет таких преобразований достигается: сокращение избыточности и уменьшение исходного объема текстовых файлов без потери семантических связей; исключение нерелевантной информации в массиве регуляризованных данных. Разработанные методы и алгоритмы имеют прикладной характер. Результаты внедрены на предприятиях в конкретных подсистемах, отвечающих за хранение и обработку текстовой информации.

Основные положения, выносимые на защиту:

1. Метод и алгоритм регуляризации текстовой информации, который позволяет исключить избыточность лексических элементов в текстах, а также уменьшить исходный объём за счет семантической ссылочной разметки структуры текстов.

2. Метод и алгоритм определения информационной близости, который повышает скорость переклассификации в больших коллекциях текстов.

3. Метод и алгоритм динамического формирования онтологической карты, который позволяет повысить релевантность поиска в больших коллекциях текстов.

Апробация работы и публикации. Основные результаты, полученные в ходе работы, докладывались и обсуждались:

- 5 - 7 сентября 2016 г. VII Международная научно-практическая конференция «Технологии разработки информационных систем» (ТРИС - 2016), г. Геленджик. Россия. Выступление с докладом.

- 4 - 5 сентября 2017 г. VIII Международная научно-практическая конференция «Технологии разработки информационных систем» (ТРИС -2017), г. Геленджик. Россия. Выступление с докладом.

- 18 - 21 апреля 2017 г. Международная научно-практическая конференция «Транспорт: наука, образование, производство» (Транспорт - 2017), г. Ростов-на-Дону. Россия. Выступление с докладом.

- 17 - 20 апреля 2018 г. Международная научно-практическая конференция «Транспорт: наука, образование, производство» (Транспорт - 2018), г. Ростов-на-Дону. Россия. Выступление с докладом.

- 28 - 29 мая 2019 г. Всероссийская научно-практическая конференция (с международным участием) «Технологии построения когнитивных транспортных систем», г. Санкт-Петербург. Россия. Выступление с докладом.

- 6 - 13 сентября 2019 г. IX Международная научно-практическая конференция «Технологии разработки информационных систем» (ТРИС - 2019), г. Геленджик. Россия. Выступление с докладом.

- 4 - 5 декабря 2019 г. Научный семинар «Модели информационных систем на транспорте и методы их расчета» в рамках Бетанкуровского международного инженерного форума (International Engineering Forum), г. Санкт-Петербург. Россия. Выступление с докладом.

Публикации. По материалам диссертации опубликовано 16 печатных работ, из них 6 опубликовано в научных журналах, которые входят в издания из Перечня рецензируемых научных изданий ЮФУ по научной специальности 05.25.05 и ВАК, 1 статья в издании, входящем в базу цитирования Scopus, получено 2 свидетельства о государственной регистрации ПрЭВМ.

Структура и объем работы. Диссертационная работа состоит из введения, четырех разделов, заключения, списка используемой литературы и приложений, изложенных на 131 странице, содержит 33 рисунка, 6 таблиц, список литературы из 132 наименований и 6 приложений.

Во введении обоснована актуальность диссертационного исследования, обозначен объект и предмет исследования, изложены цели, задачи и основные научные достижения, выносимые на защиту с указанием характеристик, которые отличают предложенные методы от ранее известных. Отображено соответствие паспорту специальности, а также теоретическая, практическая значимость диссертационного исследования.

В первой главе проведен обзор существующих моделей и методов в области семантического анализа текстовых массивов информации. Проведен сравнительный анализ методов, моделей, а также алгоритмов интеллектуального анализа данных. Осуществлена оценка перспектив использования существующих решений для класса задач, ориентированных на анализ текстовой информации, при которой установлено, что существующие решения имеют узкую направленность в области семантического анализа текстовой информации и не позволяют в полной мере решать задачи регуляризации структуры текстовой информации и определения информационной близости между анализируемыми объектами на естественном языке. Приведены модифицированные модели существующих решений, ориентированные на анализ больших текстовых коллекций. Сформулированы постановка задачи и цели диссертационного исследования.

Во второй главе предлагается группа методов и алгоритмов, комплексно описывающих процесс семантической структуризации и определения информационной близости в больших текстовых коллекциях в рамках задач интеллектуального анализа данных. Первый метод состоит из этапов извлечения лексических единиц из текстов и замены дублирующих лексических единиц ссылками. Отличительной особенностью является применение

контейнеров семантической ссылочной разметки. Предложенный метод поз-

11

воляет исключить избыточность и уменьшить исходный объём. Второй метод основан на спектральном представлении текстовой информации, заключающийся в подсчёте частот встречаемости лексических единиц. Предложенный метод позволяет повысить скорость переклассификации в больших коллекциях текстов. Третий метод направлен на динамическое формирование темпоральной онтологической карты. Отличительной особенностью является использование темпоральных меток. Каждая метка включат группу свойств описывающих состояние объекта. Предложенный метод позволяет повысить релевантность поиска в больших коллекциях текстов.

В третьей главе на основе предложенных методов из второй главы были разработаны и описаны алгоритмы, которые представляют полный процесс семантической структуризации текстовой информации. Рассмотрены алгоритмы, которые реализованы на языке программирования С#. На разработанные алгоритмы получены свидетельства о Государственной регистрации программ для ЭВМ. Эффективность разработанных алгоритмов оценивается в четвертой главе.

В четвёртой главе описаны условия и предложена мера информационной близости. Для проведения сравнительных экспериментов было разработано приложение, которое включает в себя все представленные ранее алгоритмы. В процессе проведения эксперимента были выполнены следующие шаги: подготовлено несколько текстовых коллекций различного содержания и типа, были установлены основные признаки классификации и предметные области, произведен качественный анализ полученных результатов.

В заключении освещаются проблемы, которые требуют концептуально нового подхода к их решению, излагаются и объясняются новые научные результаты работы.

1. ОБЗОР СУЩЕСТВУЮЩИХ РЕШЕНИЙ В ОБЛАСТИ АНАЛИЗА ТЕКСТОВЫХ ДАННЫХ. ПОСТАНОВКА ЗАДАЧИ ИССЛЕДОВАНИЯ

1.1 Существующие подходы к процессу обнаружения знаний в текстовой информации на естественном языке

Развитие средств вычислительной техники ускорило процесс накопления цифровых массивов информации. Каждый цифровой массив состоит из информации различных видов, например изображений, текстовых документов, аудио/видео файлов и так далее. Условно весь спектр информации, который содержится в массивах, можно разделить на три типа: структурированный, слабоструктурированный и неструктурированный. Все перечисленные типы информации характеризуются структурой представления информации, так например, данные, хранящиеся в реляционных базах данных, относятся к структурированному типу; данные, представленные в форматах JavaScript Object Notation (JSON) и eXtensible Markup Language (XML) - слабоструктурированные; изображения, текстовые документы, аудио/видео файлы классифицируют как неструктурированный тип. Согласно проведённому исследованию международной аналитической компании International Data Corporation (IDC) совместно с Hitachi Vantara в 2019 году было установлено, что неструктурированный тип информации является преобладающим типом в цифровых массивах. Поэтому, данный тип информации представляет собой особый интерес для задач интеллектуального анализа данных (Data Mining), связанных с выявлением закономерностей в данных, классификации, кластеризации и так далее. Впервые данный термин использовал в 1992 году Григорий Пятецкий-Шапиро. В его интерпретации Data Mining представляет собой процесс обнаружения в «сырой» информации данных, которые ранее были неизвестны, нетривиальны и являлись практически полезными [26]. Технологии, применяемые в Data Mining, представляют собой набор статистических, алгоритмических и иных средств, с помощью которых достигается более эффективное обнаружение закономерностей в данных [27 - 37].

13

Особое внимание при анализе информации в рамках интеллектуального анализа уделяется процессу и модели обнаружения знаний. В качестве основной модели для описания последовательности этапов обнаружения знаний используется концепция Knowledge Discovery in Databases (KDD) (рис. 1.1). Основоположниками концепции KDD считаются Григорий Пятецкий-Шапиро и Усама Файад (Usama Fayyad) [38, 39].

Рисунок 1.1 - Процесс обнаружения знаний на основе концепции KDD

Процесс KDD состоит из пяти этапов [40 - 45, 83]:

1. Выбор источника данных и консолидация.

2. Предобработка данных.

3. Нормализация данных.

4. Обнаружение знаний в данных.

14

5. Постобработка данных.

Для более детального понимания этапов концепции KDD рассмотрим каждый из этапов подробнее.

Выбор источника данных и консолидация - это совокупность методов и процедур, применяемых к различным источникам информации (локальным архивам данных, базам данных, стриминговым сервисам) с целью её извлечения и преобразования в единый формат. Данный этап является первым в концепции KDD, так как с помощью него формируется целостный (единый) цифровой массив информации из различных источников. Также на данном этапе осуществляются первичные процедуры поддержки целостности и непротиворечивости данных. Это необходимо вследствие того, что данные могут иметь различную структуру и формат представления информации, могут быть разрознены или храниться в децентрализованных базах данных, могут быть избыточны или наоборот содержать недостаточное количество информации, или же в данных может присутствовать информационный шум, затрудняющий процесс обработки информации. Поэтому на начальном этапе необходимо осуществить ряд задач, которые приведут данные к приемлемому уровню.

К основным задачам консолидации данных относят (рис. 1.2):

- высокую скорость доступа к данным;

- компактность хранения;

- поддержку целостности данных;

- непротиворечивость данных.

Рисунок 1.2 - Процесс консолидации данных

Предобработка данных. Основное назначение этапа заключается в ва-лидации данных, находящихся в едином цифровом массиве. Валидация данных - это процесс выявления аномалий в данных с целью улучшения качества информации. Аномалии в данных могут возникать вследствие следующих причин:

- человеческий фактор: то есть ошибки, допущенные при вводе данных пользователями, которые могут делать опечатки в словах, делать сокращения, заносить сведения не в те поля, пропускать не обязательные поля;

- в конечных программных продуктах, с помощью которых производится ввод данных: отсутствуют ограничения для вводимых значений;

- сбор информации осуществляется несколькими подразделениями, вследствие чего, при слиянии информации, в данных могут оказаться дубликаты или же может произойти конфликт типов данных.

Для валидации данных используется следующая последовательность действий:

- анализ данных;

- определение порядка и правил преобразования данных;

- подтверждение;

- преобразования;

- противоток очищенных данных.

Анализ данных позволяет обнаружить записи с ошибками. Для этого используются либо автоматизированные средства систем управления базами данными (СУБД), либо такие записи удаляются вручную. Также данный шаг дает представление о качестве данных.

Второй шаг предобработки данных заключается в определении порядка и правил преобразования данных. Порядок и правила зависят от структуры данных и от степени присутствия в них информационного шума и различных аномалий.

Подтверждение. Здесь определяется эффективность второго шага предобработки данных путем проведения различных тестов и оценок.

Шаг преобразования помогает осуществить процесс приведения полученного набора данных к структуре необходимой для корректного анализа данных и последующего их хранения в различных базах данных. На данном шаге выявляются следующие наиболее распространённые ошибки: противоречивость, пропуски и аномалии в данных, информационный шум, ошибки ввода и дубликаты.

Противоречивость в данных - это информация, не соответствующая или противоречащая законам, правилам или действительности. Процесс устранения противоречивости может решаться двумя способами: удаление противоречивой информации или вычисление вероятности появления каждого противоречия. Первый вариант представляет быстрое решение, но менее деликатное, так как при удалении могут пострадать и ключевые данные. Второй вариант является более правильным при работе с противоречивыми данными, но требует больше времени и вычислительных мощностей.

Пропуски в данных - эта ошибка очень распространена для большинства баз данных вследствие допущения при разработке структуры хранения, возможности оставлять поля незаполненным. Для решения проблемы можно использовать аппроксимацию или метод определения наиболее правдоподобного значения. Аппроксимация наиболее эффективна в тех случаях, когда данные имеют упорядоченный вид, в случае с неупорядоченными наборами данных используется второй метод, при котором берутся не окрестности, а все наборы данных.

Аномалии в данных - это информация, которая не вписывается или выбивается из общего представления. Наличие аномалий в данных может сильно исказить результирующий набор данных. Для ликвидации данной ошибки применяются робастные оценки. Это методы, устойчивые к сильным возмущениям, они оценивают входящие данные, и, в случае выхода за допу-

стимые границы, применяют следующие действия: удаление или замена значения.

Шум - это информация, не несущая в себе никакой ценности, но при этом затрудняющая процесс анализа данных в силу избыточности информации. Существуют два способа устранения информационного шума из данных: спектральный анализ и авторегрессионые методы. В зависимости от того, какого типа данные подвергаются анализу, используется тот или иной метод.

Ошибки ввода и дубликаты. Ошибки данного рода очень распространены в силу влияния человеческого фактора в момент ввода информации. Решение данной ошибки в частности сводится к установке ограничений и шаблонов ввода в структуре данных.

Противоток очищенных данных - это процесс замены аномальной информации на очищенные данные. Данный шаг является завершающей задачей процесса предобработки данных и необходим для того, чтобы сохранить очищенные данные в базе данных, чтобы в последствии не возвращаться к процессу предобработки данных в случае повторной работы с одним и тем же набором данных, что существенно сокращает время операции при анализе.

Похожие диссертационные работы по специальности «Информационные системы и процессы, правовые аспекты информатики», 05.25.05 шифр ВАК

Список литературы диссертационного исследования кандидат наук Мизюков Григорий Сергеевич, 2021 год

СПИСОК ИСПОЛЬЗОВАННЫХ ИСТОЧНИКОВ

1. Мизюков Г.С. Основные подходы в области аналитики больших массивов текстовой неструктурированной и квазиструктурированной информации [Печатная] // Труды Ростовского государственного университета путей сообщения. 2017. № 2. С. 41-44.

2. Магеррамов З. Т., Абдуллаев В. Г., Магеррамова А. З. Big Data: проблемы, методы анализа, алгоритмы // Радиоэлектроника и информатика. 2017. №3. - C. 42-52.

3. Цымблер М.Л. Обзор методов интеграции интеллектуального анализа данных в СУБД // Вестник ЮУрГУ. Серия: Вычислительная математика и информатика. 2019. Т. 8, № 2. - С. 32-62. DOI: 10.14529/cmse190203.

4. Freitas A.A. Data Mining Tasks and Concepts. // In: Data Mining and Knowledge Discovery with Evolutionary Algorithms. Natural Computing Series. Springer, Berlin, Heidelberg, 2002. - P. 13-43.

5. Wan C. Data Mining Tasks and Paradigms. // In: Hierarchical Feature Selection for Knowledge Discovery. Advanced Information and Knowledge Processing. Springer, Cham, 2019. - P. 7-15.

6. Quasthoff U., Goldhahn D., Eckart T. Building Large Resources for Text Mining: The Leipzig Corpora Collection. // In: Biemann C., Mehler A. (eds) Text Mining. Theory and Applications of Natural Language Processing. Springer, Cham, 2014. - P. 3-24

7. Алексеев А.А., Катасёв А.С., Кириллов А.Е., Кирпичников А.П. Классификация текстовых документов на основе технологии text Mining // Вестник Казанского технологического университета. 2016. №18. C. 116-119.

8. Kang BY., Kim HJ., Lee SJ. Performance Analysis of Semantic Indexing in Text Retrieval. // In: Gelbukh A. (eds) Computational Linguistics and Intelligent Text Processing. CICLing 2004. Lecture Notes in Computer Science, vol. 2945. Springer, Berlin, Heidelberg, 2004. - P. 433-436.

9. Hendrik, Anjomshoaa A., Tjoa A.M. Towards Semantic Mashup Tools

for Big Data Analysis. // In: Linawati, Mahendra M.S., Neuhold E.J., Tjoa A.M.,

104

You I. (eds) Information and Communication Technology. ICT-EurAsia 2014. Lecture Notes in Computer Science, vol 8407. Springer, Berlin, Heidelberg. 2014. - P. 129-138.

10. Галина А.В., Есина Е.А. Обзор технологии Text Mining // Аллея Науки. 2018. №1. - С. 393-396.

11. Веретенников А.В. BigData: анализ больших данных сегодня // Молодой ученый. 2017. №32. - С. 9-12.

12. Tsai, C., Lai, C., Chao, H. et al. Big data analytics: a survey. Journal of Big Data vol. 2, 21. 2015.

13. Xu, Z., Shi, Y. Exploring Big Data Analysis: Fundamental Scientific Problems. Ann. Data. Sci. Vol. 2. 2015. - P. 363-372.

14. В. В. Котлярова, А. М. Бабаев Этические проблемы больших данных // Международный журнал гуманитарных и естественных наук. 2019. №5-2. - C. 113-115.

15. Гнатюк Е.С, Рыбанов А.А. Исследование и разработка алгоритмов анализа неструктурированной и слабоструктурированной информации // Форум молодых ученых. 2017 №3 (7). - С. 411-418.

16. В. С. Муха Анализ многомерных данных: Проблемы, состояние, перспективы // Доклады БГУИР. 2004. №1 (5). 2004. - С. 38-49.

17. Adnan, K., Akbar, R. An analytical study of information extraction from unstructured and multidimensional big data. J Big Data 6, 91 (2019)

18. Zaghloul, W., Trimi, S. Developing an innovative entity extraction method for unstructured data. Int J Qual Innov 3, 3 (2017)

19. Thomas, O., Fellmann M.A., M. Semantic Process Modeling - Design and Implementation of an Ontology-based Representation of Business Processes. Bus. Inf. Syst. Eng. 1, 438 (2009).

20. Eum, K., Kang, M., Kim, G. et al. Ontology-based modeling of process selection knowledge for machining feature. Int. J. Precis. Eng. Manuf. 14, 2013. -P. 1719-1726.

21. Смирнов С. В. Онтологический анализ предметных областей моделирования // Известия Самарского научного центра РАН. 2001. №1. - С. 6270.

22. Гусарова Н.Ф., Сысоева В.В. Онтологическое моделирование слабоструктурированной предметной области с применением нечеткой логики // Научно-технический вестник информационных технологий, механики и оптики. 2017. №4. - С. 711-718.

23. von Luxburg, U. A tutorial on spectral clustering. Stat Comput 17, 2007. - P. 395-416.

24. Бова В.В., Щеглов С.Н., Лещанов Д.В. модифицированный алгоритм EM-кластеризации для задач интегрированной обработки больших данных // Известия ЮФУ. Технические науки. 2018. №4 (198). - С. 154-166.

25. Biryukov, A.S., Ryazanov, V.V. & Shmakov, A.S. Solving clusterization problems using groups of algorithms. Comput. Math. and Math. Phys. 48, 2008. -P. 168-183.

26. Дюк В.А., Флегонтов А.В., Фомина И.К. Применение технологий интеллектуального анализа данных в естественнонаучных, технических и гуманитарных областях // Известия РГПУ им. А.И. Герцена. 2011. №138.

27. Runkler T. Daten und Relationen. // In: Data Mining. Computational Intelligence. Springer Vieweg, Wiesbaden. (2015).

28. Aggarwal C. Privacy-Preserving Data Mining. // In: Data Mining. Springer, Cham. (2015).

29. Gorunescu F. Classification Performance Evaluation. // In: Data Mining. Intelligent Systems Reference Library, vol 12. Springer, Berlin, Heidelberg. (2011).

30. Milosz M. Data mining as a modern method of data analysis // Известия КазГАСУ. 2008. №1 (9). - C. 162-167.

31. Нечипорук Д.В. Особенности технологии Data Mining // Молодой исследователь Дона. 2017. №1 (4). - C. 62-65.

32. Maimon O., Last M. Advanced data mining methods. // In: Knowledge Discovery and Data Mining. Massive Computing, vol 1. Springer, Boston, MA. (2001).

33. Васильев И.В. Применение методов Data Mining для поиска знаний в структурированных текстах // Вестник ИрГТУ. 2004. №1 (17). - C. 174-175.

34. Garg H., Lal N. Data Analysis: Opinion Mining and Sentiment Analysis of Opinionated Unstructured Data. // In: Singh M., Gupta P., Tyagi V., Flusser J., Oren T. (eds) Advances in Computing and Data Sciences. ICACDS 2018. Communications in Computer and Information Science, vol. 906. Springer, Singapore. 2018. - P. 249-258.

35. Hussain S., Atallah R., Kamsin A., Hazarika J. Classification, Clustering and Association Rule Mining in Educational Datasets Using Data Mining Tools: A Case Study. // In: Silhavy R. (eds) Cybernetics and Algorithms in Intelligent Systems. CSOC2018 2018. Advances in Intelligent Systems and Computing, vol 765. Springer, Cham. 2019. - P. 196-211.

36. Han J. Research Frontiers in Advanced Data Mining Technologies and Applications. In: Zhou ZH., Li H., Yang Q. (eds) Advances in Knowledge Discovery and Data Mining. PAKDD 2007. Lecture Notes in Computer Science, vol. 4426. Springer, Berlin, Heidelberg. 2007. - P. 1-5.

37. Мосягин А.Б. Использование методологии Data Mining при решении задач обработки социальных данных // Мониторинг. 2015. №3 (127). - С. 143-145.

38. Usama Fayyad. From Data Mining to Knowledge Discovery in Databases / Usama Fayyad, Gregory Piatetsky-Shapiro, Padhraic Smyth // AI Magazine. - 1996. - Vol. 17, № 3. - P. 37-54.

39. Бондаренко И.Б., Иванов А.И. Организационная модель много-агентной системы извлечения знаний из распределенных гетерогенных баз данных систем автоматизированного проектирования // Известия ВУЗов. Поволжский регион. Технические науки. 2015. №4 (36). - С. 54-63.

40. Асеев Г. Г. Проблема обнаружения нового знания в хранилищах данных методами Knowledge Discovery in Databases / Г. Г. Асеев // Вестник НТУ «ХПИ». - 2006. № 19. - С. 62-70.

41. Sharafî A. Knowledge Discovery in Databases im Anwendungskontext Ànderungsmanagement. // In: Knowledge Discovery in Databases. Informationsmanagement und Computer Aided Team. Springer Gabler, Wiesbaden. (2013).

42. Carlson A., Schafer C. Bootstrapping Information Extraction from Semi-structured Web Pages. // In: Daelemans W., Goethals B., Morik K. (eds) Machine Learning and Knowledge Discovery in Databases. ECML PKDD 2008. Lecture Notes in Computer Science, vol 5211. Springer, Berlin, Heidelberg. 2008. - P. 195-210.

43. Adhikari A., Adhikari J. Synthesizing Conditional Patterns in a Database. // In: Advances in Knowledge Discovery in Databases. Intelligent Systems Reference Library, vol. 79. Springer, Cham. (2015).

44. Gertosio, C., Dussauchoy, A. Knowledge discovery from industrial databases. // Journal of Intelligent Manufacturing 15, 2004. - P. 29-37.

45. Vagin, V., Fomina, M. Problem of knowledge discovery in noisy databases. // Int. J. Mach. Learn. & Cyber. vol. 2, 135. (2011).

46. Rajman M., Besançon R. Text Mining: Natural Language techniques and Text Mining applications. // In: Spaccapietra S., Maryanski F. (eds) Data Mining and Reverse Engineering. IFIP — The International Federation for Information Processing. Springer, Boston, MA. 1998. - P. 50-64.

47. Чернышова Г.Ю., Овчинников А.Н. Применение методов интеллектуального анализа данных для кластеризации текстовых документов // Информационная безопасность регионов. 2015. №4 (21). - С. 5-12.

48. Boire R. Text Mining: The New Data Mining Frontier. // In: Data Mining for Managers. Palgrave Macmillan, New York. 2014. - P. 221-227.

49. Sato I., Nakagawa H. (2007) Semi-structure Mining Method for Text

Mining with a Chunk-Based Dependency Structure. // In: Zhou ZH., Li H., Yang

108

Q. (eds) Advances in Knowledge Discovery and Data Mining. PAKDD 2007. Lecture Notes in Computer Science, vol 4426. Springer, Berlin, Heidelberg. 2007. - P. 777-784.

50. Sinoara, R., Antunes, J. & Rezende, S. Text mining and semantics: a systematic mapping study. // J Braz Comput Soc 23, 9 (2017).

51. Бондарчук Д.В. Векторная модель представления знаний на основе семантической близости термов // Вестник ЮУрГУ. Серия: Вычислительная математика и информатика. 2017. №3. - С. 73-83.

52. Пархоменко П.А., Григорьев А.А, Астраханцев Н.А. Обзор и экспериментальное сравнение методов кластеризации текстов. Труды ИСП РАН, том 29, вып. 2, 2017. - С. 161-200.

53. Оськина К. А. Оптимизация метода классификации текстов, основанного на tf-idf, за счет введения дополнительных коэффициентов // Вестник Московского государственного лингвистического университета. Гуманитарные науки. 2016. №15 (754). - С. 175-187.

54. Михайлов Дмитрий Владимирович, Козлов Александр Павлович, Емельянов Геннадий Мартинович Выделение знаний и языковых форм их выражения на множестве тематических текстов: подход на основе меры tf-idf // КО. 2015. №3. - С. 429-438.

55. Fomin S.A., Belousov R.L. Detecting semantic duplicates in short news items // Бизнес-информатика. 2017. №2 (40). - С. 47-56.

56. Пархоменко П.А., Григорьев А.А, Астраханцев Н.А. Обзор и экспериментальное сравнение методов кластеризации текстов. Труды ИСП РАН, том 29, вып. 2, 2017. - С. 161-200.

57. Хомоненко А.Д., Краснов С.А. Применение метода латентно-семантического анализа для автоматической рубрикации документов // Известия Петербургского университета путей сообщения. 2012. №2 (31). - С. 124132.

58. Бондарчук Д.В. Использование латентно-семантического анализа в задачах классификации текстов по эмоциональной окраске // БРНИ. 2012. №3 (2). - С. 146-152.

59. Kim Y., Chung M. An Efficient Clustering Technique for Unstructured Data Utilizing Latent Semantic Analysis. // In: Park J., Loia V., Yi G., Sung Y. (eds) Advances in Computer Science and Ubiquitous Computing. CUTE 2017, CSA 2017. Lecture Notes in Electrical Engineering, vol 474. Springer, Singapore. 2018. - P. 227-232.

60. Мизюков Г.С. Нахождение подобия между неструктурированными объектами данных на основе метода сингулярного разложения спектра графа [Электронная] // Инженерный вестник Дона, 2018. № 1(48). С. 36. URL: http://www.ivdon.ru/ru/magazine/archive/n1y2018/4651.

61. Zhang Y., Xu G. Singular Value Decomposition. // In: Liu L., Ozsu M.T. (eds) Encyclopedia of Database Systems. Springer, New York, NY. (2018).

62. Ершов К.С., Романова Т.Н. Анализ и классификация алгоритмов кластеризации // Новые информационные технологии в автоматизированных системах. 2016. №19. - С. 274-279.

63. Шумская А.О. Оценка эффективности метрик расстояния Евклида и расстояния Махаланобиса в задачах идентификации происхождения текста // Доклады ТУСУР. 2013. №3 (29). - С. 141-145.

64. Горшков С.Н. Исследование модели кластерного анализа контента web ресурсов. / Горшков С.Н., Калашникова В.А., Соломонов Д.В. // Инновации в науке, 2019. №1. - С. 7-10.

65. Половикова О.Н., Фокина В.В. Использование евклидова и манхэт-тенского расстояний в качестве меры близости для решения задачи классификации // Известия АлтГУ. 2010. №1-1. - С. 101-102.

66. Луценко Е.В., Коржаков В.Е. Некоторые проблемы классического кластерного анализа // Вестник Адыгейского государственного университета. Серия 4: Естественно-математические и технические науки. 2011. №2. - С. 91-102.

67. Егоров А.В., Куприянова Н.И. Особенности методов кластеризации данных // Известия ЮФУ. Технические науки. 2011. №11. - С. 174-178.

68. Шокина М.О. Применение алгоритма k-means++ для кластеризации последовательностей с неизвестным количеством кластеров // Новые информационные технологии в автоматизированных системах. 2017. №20. - С. 160163.

69. Кокорева Я. В., Макаров А. А. Поэтапный процесс кластерного анализа данных на основе алгоритма кластеризации k-means // Молодой ученый. 2015. №13. - С. 126-128.

70. Stanberry L. Clustering, k-Means. // In: Dubitzky W., Wolkenhauer O., Cho KH., Yokota H. (eds) Encyclopedia of Systems Biology. Springer, New York, NY. 2013. - P. 430-431.

71. Zhao D., Liu X. A Genetic K-means Membrane Algorithm for Multirelational Data Clustering. // In: Zu Q., Hu B. (eds) Human Centered Computing. HCC 2016. Lecture Notes in Computer Science, vol 9567. Springer, Cham. 2016. - P. 954-959.

72. Kramer O. K-Nearest Neighbors. // In: Dimensionality Reduction with Unsupervised Nearest Neighbors. Intelligent Systems Reference Library, vol 51. Springer, Berlin, Heidelberg. 2013. - P. 13-23.

73. Böhm C., Krebs F. Supporting KDD Applications by the k-Nearest Neighbor Join. // In: Marik V., Retschitzegger W., Stepankova O. (eds) Database and Expert Systems Applications. DEXA 2003. Lecture Notes in Computer Science, vol 2736. Springer, Berlin, Heidelberg. 2013. - P. 504-516.

74. Кернога А.Л., Бурак Т.И. Сравнение подходов к прогнозированию методом ближайших соседей // Вестник ПНИПУ. Электротехника, информационные технологии, системы управления. 2015. №13. - C. 26-33.

75. Hamraz S.H., Feyzabadi S.S. .General-Purpose Learning Machine Using K-Nearest Neighbors Algorithm. // In: Bredenfeld A., Jacoff A., Noda I., Takahashi Y. (eds) RoboCup 2005: Robot Soccer World Cup IX. RoboCup 2005.

Lecture Notes in Computer Science, vol 4020. Springer, Berlin, Heidelberg. 2005. - P. 529-536.

76. Rathore M.S., Saurabh P., Prasad R., Mewada P. Text Classification with K-Nearest Neighbors Algorithm Using Gain Ratio. // In: Das H., Pattnaik P., Rautaray S., Li KC. (eds) Progress in Computing, Analytics and Networking. Advances in Intelligent Systems and Computing, vol 1119. Springer, Singapore. 2020. - P. 23-31.

77. Ichihashi H., Notsu A., Honda K. Fuzzy and Semi-hard c-Means Clustering with Application to Classifier Design. // In: Huynh VN., Nakamori Y., Lawry J., Inuiguchi M. (eds) Integrated Uncertainty Management and Applications. Advances in Intelligent and Soft Computing, vol 68. Springer, Berlin, Heidelberg. 2010. - P. 465-476.

78. Ichihashi H., Honda K., Notsu A. Postsupervised Hard c-Means Classifier. // In: Greco S. et al. (eds) Rough Sets and Current Trends in Computing. RSCTC 2006. Lecture Notes in Computer Science, vol 4259. Springer, Berlin, Heidelberg. 2006. - P. 918-927.

79. Endo Y., Taniguchi A., Takahashi A., Hamasuna Y. On Hard c-Means Using Quadratic Penalty-Vector Regularization for Uncertain Data. // In: Torra V., Narakawa Y., Yin J., Long J. (eds) Modeling Decision for Artificial Intelligence. MDAI 2011. Lecture Notes in Computer Science, vol 6820. Springer, Berlin, Heidelberg. 2011. - P. 126-138.

80. Рукавицын А.Н. Кластеризация данных в распределенных системах мониторинга // Информационно-управляющие системы. 2019. №2 (99). - С. 35-43.

81. Madan, S., Dana, K.J. Modified balanced iterative reducing and clustering using hierarchies (m-BIRCH) for visual clustering. // Pattern Analysis and Applications vol. 19, 2016. -P. 1023-1040.

82. Zhang, T., Ramakrishnan, R. & Livny, M. BIRCH: A New Data Clustering Algorithm and Its Applications. // Data Mining and Knowledge Discovery vol. 1, 1997. - P. 141-182.

83. Чернов А.В., Мизюков Г.С. Сравнительный анализ технологий определения подобия в больших массивах неструктурированной информации [Печатная] // В сборнике: Технологии построения когнитивных транспортных систем. Материалы всероссийской научно-практической конференции с международным участием. - СПб: ИПТ РАН. 2019. С. 228-231.

84. Мизюков Г.С. Метод регуляризации текстового потока информации [Печатная] // Вестник Ростовского государственного университета путей сообщения. 2019. № 4 (76). С. 93-100.

85. Козлов П.Ю. Методы автоматизированного анализа коротких неструктурированных текстовых документов // Программные продукты и системы. - 2017. - №1. - С. 100-1002.

86. Мизюков Г.С. Роль Big data в информационной инфраструктуре транспортного сектора [Печатная] // Сб. научных трудов междунар. научно-практ. конф. «Транспорт: наука, образование, производство. (ТРАНСПОРТ 2018)». - Ростов н/Д.: ФГБОУ ВО РГУПС. 2018. Т. 3. С. 142-145

87. Коновалов А.А. Текстовый поиск. Работа с неструктурированными данными // Математика и информационные технологии в нефтегазовом комплексе. - 2015. - №2. - С. 115- 126.

88. Ивженко С. П. Семантический анализ текстов. Основные проблемы и методы решения / Ивженко, С. П., Изофатов, К. А. // Информационная безопасность регионов. - 2011. - №1. - С. 90- 94.

89. Смагин А. А. Модель потока текстовых сообщений тематических интернет-форумов / Смагин, А. А., Полетаев, В. С. // Вестник НГИЭИ. -2017. - №10 (77) - С. 16-24.

90. Тишина А.В. Анализ текстового потока на выявление событий и тенденций. / Тишина, А.В., Игнатьева, О.В. // Сборник научных трудов «Транспорт: наука, образование, производство» Сборник трудов Международной научно-практической конференции. -2017. - С. 204-207.

91. Бутакова, М.А. Иерархический алгоритм кластерного анализа с использованием атрибутов. В сборнике: Математические основы разработки и

113

использования машинного интеллекта Сборник научных статей, посвященный 70-летию со дня рождения доктора технических наук, профессора Ляба-ха Николая Николаевича. Майкопский государственный технологический университет. Майкоп, - 2018. - С. 19-28.

92. Добров Б. В. Формирование базы терминологических словосочетаний по текстам предметной области / Добров, Б. В., Лукашевич Н. В., Сыромятников С. В. // Труды V Всеросс. науч. конф. «Электронные библиотеки: перспективные методы и технологии, электронные коллекции» (RCDL-2003). СПб., - 2003. - С.201-210.

93. Богатырев М.Ю. Методы анализа формальных понятий в информационных системах технической поддержки / Богатырев, М. Ю., Нуриахметов,

B. Р., Вакурин В. С. // Известия ТулГУ. Технические науки. - 2013. - №2. -

C. 25-36.

94. Климанская Е.В. Формализованные представления разнородной информации для эффективной организации графовых баз данных в специализированных АСУ // Вестник РГУПС. - 2014. - № 1. - C. 40-51.

95. Чернов А.В., Мизюков Г.С., Тимофеева М.С., Глазунов Д.В. Модель выявления ключевой информации в массивах неструктурированных данных на примере СКО ФОС [Печатная] // Вестник Транспорта Поволжья. 2019. №1. С. 94-100.

96. 1. Chung F.R.K. Spectral graph theory. - AMS. - 1997. - P. 207.

97. Zakharov A., Zhiznyakov A. Synthesis of threedimensional models from drawings based on spectral graph theory // Applied Mechanics and Materials. -2015. - vol. 756. - P. 598 - 603.

98. Тужилкин А.Ю. Распознавание и реконструкция 3 D-объектов по спутниковым изображениям на основе сравнения спектров графов // Фундаментальные исследования. - 2015. - № 2-17. - С. 3727-3732.

99. Шушакова А. Г. Решение задач представления и обработки знаний средствами дескриптивной логики // Программные продукты и системы. 2002. №3. - С. 14-19.

100. Малых А.А., Манцивода А.В. Объектно-ориентированная дескриптивная логика // Известия Иркутского государственного университета. Серия: Математика. 2011. №1. - С. 57-72.

101. Krisnadhi A., Hitzler P. Description Logics. // In: Alhajj R., Rokne J. (eds) Encyclopedia of Social Network Analysis and Mining. Springer, New York, NY. 2018. - P. 572-581.

102. Butakova M.A, Chernov A.V., Miziukov G.S. Method for determining information proximity based on spectral conversion of text documents [ Электронная] // Proceedings of Models and Methods of Information Systems Research Workshop 2019, St. Petersburg, Russian Federation, Dec. 4-5, 2019. URL: http://ceur-ws.org/Vol-2556/paper17.pdf

103. Бутакова М.А., Чернов А.В., Мизюков Г.С. Метод определения информационной близости на основе спектрального преобразования текстовых документов // Интеллектуальные технологии на транспорте. 2020. № 1 (21) С. 40-46

104. Lijun, C., Hongkui, Y., Yuxiang, L. & Xiyin, L.: Research and exploration of text mining technology. // 2nd International Conference on Advanced Computer Control, vol. 5. 2010. - P. 435-439.

105. Jiang, Mingyang & Zhou, Yuxin & Fan, Xiaojing & Wang, Qinghu & Zhang, Xinhong & Zhang, ZhiFeng & Lian, Jie & Pei, Zhili.: A Variety of Text Mining Technology and Tools Research. // 2014 International Conference on Mechatronics, Electronic, Industrial and Control Engineering, 2014. - P. 918-92.

106. Sarkar D.: Semantic Analysis. // In: Text Analytics with Python. Apress, Berkeley, CA. 2019. - P. 519-566.

107. Bouaziz A., Dartigues-Pallez C., da Costa Pereira C., Precioso F., Llo-ret P.: Short Text Classification Using Semantic Random Forest. // In: Bellatreche L., Mohania M.K. (eds) Data Warehousing and Knowledge Discovery. DaWaK 2014. Lecture Notes in Computer Science, Springer, Cham, vol. 8646, 2014. - P. 288-299.

108. Ma H., Zhou R., Liu F., Lu X.: Effectively Classifying Short Texts via Improved Lexical Category and Semantic Features. // In: Huang DS., Bevilacqua V., Premaratne P. (eds) Intelligent Computing Theories and Application. ICIC 2016. Lecture Notes in Computer Science, Springer, Cham, vol. 9771, 2016. - P. 163-174.

109. Tandel, Sayali Sunil, Abhishek Jamadar and Siddharth Dudugu.: A Survey on Text Mining Techniques. // 2019 5th International Conference on Advanced Computing & Communication Systems (ICACCS), 2019. - P. 1022-1026

110. Fadiya, Samson & Sari, Arif.:. The importance of big data technology. // International Journal of Engineering & Technology, vol. 7, 2018. - P. 485.

111. Oussous, Ahmed & Benjelloun, Fatima-Zahra & Ait Lahcen, Ayoub & Belfkih, Samir: Big Data Technologies: A Survey. // Journal of King Saud University - Computer and Information Sciences, vol. 30, 2017. - P. 431-448.

112. Justicia, Consuelo & Sánchez, Daniel & Blanco, Ignacio & Martín-Bautista, Maria: Text Mining: Techniques, Applications, and Challenges. // International Journal of Uncertainty Fuzziness and Knowledge-Based Systems, vol. 26, 2018. - P. 553-582.

113. Zhan Z., Lin F., Yang X.: Semantic Similarity Calculation of Short Texts Based on Language Network and Word Semantic Information. // In: Wu J., Chen H., Wang X. (eds) Advanced Computer Architecture. Communications in Computer and Information Science, Springer, Berlin, Heidelberg, vol. 451, 2014. - P. 215-228.

114. Fishbein J.M., Eliasmith C.: Methods for Augmenting Semantic Models with Structural Information for Text Classification. // In: Macdonald C., Ounis I., Plachouras V., Ruthven I., White R.W. (eds) Advances in Information Retrieval. ECIR 2008. Lecture Notes in Computer Science, Springer, Berlin, Heidelberg , vol. 4956, 2008. - P. 575-579.

115. Vasudeva H.L.: Spectral Theory and Special Classes of Operators. // In: Elements of Hilbert Spaces and Operator Theory. Springer, Singapore. 2017. - P. 233-371.

116. Godsil C., Holton D.A., McKay B.: The spectrum of a graph. // In: Little C.H.C. (eds) Combinatorial Mathematics V. Lecture Notes in Mathematics, vol. 622. Springer, Berlin, Heidelberg. 1977. - P. 91-117.

117. Бутакова М.А., Мизюков Г.С., Чубейко С.В. Способ построения маршрута общественного транспорта в реальном времени на основании отношения подобия [Печатная] // Автоматизация. Современные технологии. 2019. Т. 73. № 5. С. 206-210.

118. Мизюков Г.С. Модель управления инцидентами на транспорте на основе графо-ориентированного подхода [Печатная] // Сб. научных трудов междунар. научно-практ. конф. «Транспорт: наука, образование, производство. (ТРАНСПОРТ 2017)». - Ростов н/Д.: ФГБОУ ВО РГУПС. 2017. Т. 2. С. 137-140.

119. Мизюков Г.С., Семенов В.Н. Построение графо-аналитической модели на основе реестра наборов открытых данных [Печатная] // Сб. научных трудов междунар. научно-практ. конф. «Транспорт: наука, образование, производство. (ТРАНСПОРТ 2017)». - Ростов н/Д.: ФГБОУ ВО РГУПС. 2017. Т. 2. С. 141-144.

120. Бутакова М.А., Мизюков Г.С. Разработка подходов онтологического моделирования ситуаций на основе методологии анализа формальных понятий [Печатная] // В сборнике: Технологии разработки информационных систем (ТРИС-2019) материалы IX междунар. научно-практ. конференции: в 2-х томах. - Ростов н/ Д.: ФГАОУ ВО ЮФУ. 2019. С. 71-75.

121. Гуда А.Н., Мизюков Г.С., Панфилова Н.М., Чернов А.В. Анализ неструктурированных данных на основе модели распределенной обработки информации mapreduce [Печатная] // Успехи современной науки. 2016. Т. 1 № 10 С 144-149.

122. Митрофанова О.А. Онтологии как системы хранения знаний / О.А. Митрофанова, Н.С. Константинова // Всероссийский конкурсный отбор обзорно-аналитических статей по приоритетному направлению «Информационно-телекоммуникационные системы», 2008. - 54 с.

117

123. Игнатов Д.И. Анализ формальных понятий: от теории к практике / Анализ изображений, сетей и текстов // Доклады Всероссийской научной конференции АИСТ'12. Модели, алгоритмы и инструменты анализа данных; результаты и возможности для анализа изображений, сетей и текстов. Екатеринбург, 16 - 18 марта 2012 г. - Вып. 1. - М.: Национальный открытый университет «ИНТУИТ», 2012. - C. 3-15.

124. Ganter Bernhard. Formal Concept Analysis: Mathematical Foundations / Bernhard Ganter, Rudolf Wille. - Springer-Verlag New York, 1997

125. Chernov A.V., Kartashov O.O., Butakova M.A., Karpenko E.V. Incident data preprocessing in railway control systems using a rough-set-based approach // Proceedings of 2017 XX IEEE International Conference on soft computing and measurements (SCM), 2017. - P. 248-251.

126. Ворожцова Т.Н. Онтологии, моделирование ситуаций и ситуационное исчисление в ситуационном управлении // Информационные и математические технологии в науке и управлении. №1(5). 2017. - C.77-85.

127. Елсуков П.Ю. Принципы верификации информационных моделей и алгоритмов // Образовательные ресурсы и технологии. 2017. №2 (19). - C. 81-86.

128. Дядичев В.В. Задачи и методы интеллектуального анализа данных / В.В. Дядичев, Е.В. Ромашка, Т.В. Голуб // Геополитика и экогеодинамика регионов. - 2015. - Т. 1, вып. 3. - С. 23 - 29.

129. Бутакова М.А., Климанская Е.В., Янц В.И. Мера информационного подобия для анализа слабоструктурированной информации // Современные проблемы науки и образования. - 2013. - № 6.

130. Бутакова М.А., Мизюков Г.С. Мера и условия определения информационной близости текстовых потоков информации [Печатная] // Информатизация и связь. 2020. № 2. С. 114-118.

131. Бутакова М.А., Мизюков Г.С., Федосеева Н.И. Оценка перспектив использования современных решений в области анализа неструктурированной информации [Печатная] // Сб. научных трудов Междунар. научно-практ.

118

конф. «Транспорт: наука, образование, производство. (ТРАНСПОРТ 2020)». -Ростов н/Д.: ФГБОУ ВО РГУПС. 2020. Т. 1. С. 39-42.

132.Бутакова М.А., Мизюков Г.С., Федосеева Н.И. Повышение качества информационных агрегаторов неструктурированных данных на основе разработанного программного продукта Semantic-Structuring [Печатная] // Информационные ресурсы России. 2021. № 1(179). С. 39-43.

Программный код функции «Формирование лексического словаря»

static void CreateLexicalDictionary(Queue<Stream> streams, ref List<LexicalDictionary> lexicalDictionary, ref List<StreamChars>

streamChars) {

foreach (var stream in streams) {

var chars = stream.TextData.ToCharArray();

streamChars.Add(new StreamChars() {

TextChars = chars,

StreamIdentity = stream.StreamIdentity

});

for (int i = 0; i < chars.Length; i++) {

var result = lexicalDictionary.Find(x => x.LexicalUnit == Convert.ToString(chars[i]));

if (result == null) {

lexicalDictionary.Add(new LexicalDictionary() {

LexicalUnit = Con-vert.ToString(chars[i]),

LexicalCode = Convert.ToString((i + 1),

2) });

}

}

}

var myUniqueFileName = string.Format(@"{0}.txt", Guid.NewGuid());

StreamWriter sw = new StreamWrit-

er(string.Concat(Path.GetDirectoryName(System.Reflection.Ass embly.GetExecutingAssembly().Location), @"\data\LexicalDictionary\") + myUniqueFileName);

foreach (var item in lexicalDictionary) {

sw.Write("[ LexicalUnit = {0}, LexicalCode = {1} ]",

item.LexicalUnit, item.LexicalCode); }

sw. Close ();

}

Программный код функции «Регуляризация и сжатие текстовых файлов»

static void TextStreamRegularization(List<StreamChars> stream-Chars, ref List<LexicalDictionary> lexicalDictionary, ref List<RegularizationSruct> regularizationSructs, bool

isWriteToFile) {

string baseRepresentation = null; string binaryRepresentation = null;

int positionWordInText = 0; int proposalPositionInText = 0;

bool isEndProposal = false;

foreach (var item in streamChars) {

for (int i = 0; i < item.TextChars.Length; i++) {

if (item.TextChars[i] != ' ' && item.TextChars[i] {

baseRepresentation += item.TextChars[i];

}

if (item.TextChars[i] == ' ' && baseRepresentation

!= null) {

++positionWordInText;

var lexicalDictionaryData = lexicalDiction-ary.Find(x => x.LexicalUnit == baseRepresentation);

if (lexicalDictionaryData != null {

binaryRepresentation = lexicalDiction-

aryData.LexicalCode; }

else {

var chars = baseRepresenta-tion.ToCharArray();

for (int j = 0; j < chars.Length; j++) {

lexicalDictionaryData = lexicalDic-tionary.Find(x => x.LexicalUnit == Con-vert.ToString(chars[j]));

binaryRepresentation += lexicalDic-

tionaryData.LexicalCode; }

lexicalDictionary.Add(new LexicalDic-

tionary() {

LexicalUnit = baseRepresentation, LexicalCode = binaryRepresentation

});

}

var regularizationSructsData = regulariza-tionSructs.FindAll(x => x.StreamIdentity == item.StreamIdentity);

var data = regularizationSructsData.Find(x => x.LexicalCode == binaryRepresentation);

regularizationSructs.Add(new Regulariza-

tionSruct() {

LexicalCode = binaryRepresentation, IsRef = (data == null) ? false : true, IsEndProposal = isEndProposal, PositionWordInText = positionWordInText, ProposalPositionInText = proposalPosi-tionInText,

StreamIdentity = item.StreamIdentity

});

baseRepresentation = null; binaryRepresentation = null;

}

if (item.TextChars[i] == {

++proposalPositionInText; isEndProposal = true;

}

else {

isEndProposal = false;

}

}

if (isWriteToFile) {

var sructs = regularizationSructs.FindAll(x => x.StreamIdentity == item.StreamIdentity);

var myUniqueFileName = string.Format(@"{0}.sds", Guid.NewGuid());

StreamWriter sw = new StreamWrit-er(string.Concat(Path.GetDirectoryName(System.Reflectio n.Assembly.GetExecutingAssembly().Location), @"\data\RegularizationSruct\") + myUniqueFileName);

foreach (var sruct in sructs) {

sw.Write("[ LexicalCode = {0}, IsRef = {1}, IsEndProposal = {2}, PositionWordInText = {3}, ProposalPositionInText = {4}, StreamIdentity = {5} ]", sruct.LexicalCode,sruct.IsRef, sruct.IsEndProposal, sruct.PositionWordInText, sruct.ProposalPositionInText,

sruct.StreamIdentity); }

sw.Close();

FileStream stream = File.Create(string.Concat(Path.GetDirectoryName(System. Reflection.Assembly.GetExecutingAssembly().Location), @"\data\RegularizationSruct\Serialize\") + myUnique-FileName);

BinaryFormatter formatter = new BinaryFormatter(); formatter.Serialize(stream, sructs); stream.Close();

}

baseRepresentation = null; binaryRepresentation = null;

positionWordInText = 0; proposalPositionInText = 0;

}

}

Программный код функции «Определение информационной близости»

static void DeterminaionInformaionProximi-ty(List<RegularizationSruct> regularizationSructs, ref List<SingularValues> singularValues, ref List<IntersectionAreas> intersectionAreas, ref List<OntologicalMap> ontologicalMaps, List<LexicalDictionary> lexicalDictionaries, List<Dictionary>

dictionary, ref List<Results> results) {

for (int i = 0; i < regularizationSructs.Count; i++) {

for (int j = (1 + i); j < regularizationSructs.Count;

j++)

{

var row = regularizationSructs.FindAll(x => x.StreamIdentity == i).Count();

var column = regularizationSructs.FindAll(x => x.StreamIdentity == j).Count();

if(row != 0 && column != 0) {

var matrix = new double[row, column];

var firstStruct = regulariza-tionSructs.FindAll(x => x.StreamIdentity == i);

var secondStruct = regulariza-tionSructs.FindAll(x => x.StreamIdentity == j);

CreateOntologicalMap(ref ontologicalMaps, lexicalDictionaries, firstStruct, i, dictionary);

CreateOntologicalMap(ref ontologicalMaps, lexicalDictionaries, secondStruct, j, dictionary);

var firstStructArea = regulariza-tionSructs.Select(x => x.LexicalCode).ToArray();

var secondStructArea = regulariza-tionSructs.Select(x => x.LexicalCode).ToArray();

intersectionAreas.Add(new IntersectionAreas() {

CountCommonElements = firstStruc-tArea.Intersect(secondStructArea).Count(),

CountAllElementsFirstStruct = firstStructArea.Count(),

CountAllElementsSecondStruct = sec-ondStructArea.Count(), StreamIdentity = i

for (int rowIndex = 0; rowIndex <

firstStruct.Count; rowIndex++) {

for (int columnIndex = 0; columnIndex <

secondStruct.Count; columnIndex++) {

matrix[rowIndex, columnIndex] = (firstStruct[rowIndex].LexicalCode == secondStruct[columnIndex].LexicalCode) ?

1 : 0;

}

}

var adjacencyMatrix = DenseMa-trix.OfArray(matrix);

var svd = adjacencyMatrix.Svd(true);

foreach (var sv in svd.S) {

singularValues.Add(new SingularValues() {

Item = Math.Round(sv, 2), StreamIdentity = i

});

}

IsSimilar(svd, firstStruc-tArea.Intersect(secondStructArea).Count(), firstStructArea.Count(), secondStructArea.Count(),

i, ref results); }

}

}

}

Программный код функции «Формирование онтологической карты текстовой информации»

static void CreateOntologicalMap(ref List<OntologicalMap> onto-logicalMap, List<LexicalDictionary> lexicalDictionaries, List<RegularizationSruct> regularizationStruct, int stremId,

List<Dictionary> dictionary) {

var parentId = ontologicalMap.Count;

ontologicalMap.Add(new OntologicalMap() {

VertexId = parentId, Vertex = stremId.ToString(), IsRoot = true, TimeStamp = DateTime.Now, streamId = stremId

});

foreach (var item in regularizationStruct) {

var childId = ontologicalMap.Count;

var data = lexicalDictionaries.Find(x => x.LexicalCode == item.LexicalCode);

ontologicalMap.Add(new OntologicalMap() {

VertexId = childId,

Vertex = data.LexicalUnit,

Edge = new int[] { parentId, childId },

IsRoot = false,

TimeStamp = DateTime.Now,

StreamId = stremId

});

var homonyms = DefinitionHomonyms(data.LexicalUnit, childId, dictionary);

var synonyms = DefinitionSynonyms(data.LexicalUnit, childId, dictionary);

if(homonyms.Count != 0) {

parentId = childId;

for (int i = 0; i < homonyms.Count; i++) {

if (i < 3) {

childId = ontologicalMap.Count;

ontologicalMap.Add(new OntologicalMap() {

VertexId = childId,

Vertex = homonyms [i],

Edge = new int[] { parentId, child-

Id },

IsRoot = false, TimeStamp = DateTime.Now, StreamId = stremId

});

}

else {

break;

}

}

}

if(synonyms.Count != 0) {

parentId = childId;

for (int i = 0; i < synonyms.Count; i++) {

if (i < 3) {

childId = ontologicalMap.Count;

ontologicalMap.Add(new OntologicalMap() {

VertexId = childId, Vertex = synonyms[i], Edge = new int[] { parentId, child-Id },

IsRoot = false, TimeStamp = DateTime.Now, StreamId = stremId

});

}

else {

break;

}

}

Акты внедрения и использования результатов работы

Настоящим подтверждаю, что основные результаты диссертации на соискание ученой степени кандидата наук Мизюкова Григория Сергеевича по семантической структуризации текстовых потоков информации являются актуальными, представляют практический, научный интерес и были использованы в работе Центра мониторинга качества образования (ЦМКО) РГУПС. В функции ЦМКО входит наполнение баз данных тестовых банков заданий по различным дисциплинам. Как сами тестовые задания, гак и возможные варианты ответов студентов предполагают в том числе и развернутые ответы на поставленные вопросы, которые представляют собой слабоструктурированную информацию, которая нуждается в верной обработке для принятия решения о верности / неверности ответа при сопоставлении с заданным вопросом теста. Кроме того, составляемые преподавателями тесты нуждаются в классификации перед записью их в базу данных.

В частности, в работе ЦМКО использовались следующие результаты, полученные Г.С. Мизюковым:

1. Метод и алгоритм регуляризации текстовых потоков информации на основе объектно-признакового подхода.

2. Метод и алгоритм определения информационной близости между анатизируемыми объектами для онтологической классификации и кластеризации на основе методов спектрального представления информации и средств дескрипционной логики.

Реализованные алгоритмы были интегрированы в систему контроля обеспеченности ФОС (свидетельство о государственной регистрации программы для ЭВМ № 2017613764 от 29.03.2017 г.), которая используется в ЦМКО. Внедрение данных алгоритмов существенно уменьшило исходный объем хранимых документов и время их обработки, повысило эффективность обнаружения противоречивой и дублирующийся информации.

УТВЕРЖДАЮ

Директор Центра мониторинга качества образования

АКТ

об использовании в работе Центра мониторинга качества образования (ЦМКО) результатов кандидатской диссертации Мизюкова Г.С.

Администрация города Ростова-на-Дону Управление по делам ГО и ЧС

МУНИЦИПАЛЬНОЕ КАЗЕННОЕ

УЧРЕЖДЕНИЕ «ЗАЩИТА И БЕЗОПАСНОСТЬ»

(МКУ «Защита и безопасность»)

пер. Доломановский. 122, г. Ростов-на-Дону 344018

АКТ

о внедрении результатов кандидатской диссертации Мизюкова Г.С.

Настоящим подтверждаю, что в работе Муниципального казенного учреждения «Защита и безопасность» используются результаты диссертационной работы Мизюкова Г.С. по семантической структуризации текстовых потоков информации.

В диссертационной работе Мизюкова Г.С. проанализированы современные подходы и решения в области семантического анализа текстовых данных, а также осуществлена оценка перспектив их использования для определения информационной близости между текстовыми потоками. Спроектирована модель семантической структуризации текстовых потоков информации, которая отражает процесс модификации существующих решений. Реализовано программное обеспечение с поддержкой логического вывода в процессе определения информационной близости между анализируемыми неструктурированными объектами (текстовыми потоками).

Предложенная технология по семантической структуризации текстовых потоков информации позволяет решить проблемы связанные с динамической классификацией входных потоков текстовой информации, хранением и интероперабельности за счет единого формата обмена информации.

Результаты диссертационной работы Мизюкова Г.С. представляют научный интерес, позволяют повысить эффектир*евта»«^<ачество современных решений в области семантического анализа.

Начальник управления

В.Г. Юрченко

Свидетельства о государственной регистрации программ для ЭВМ

Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.