Технология информационно-аналитической поддержки принятия решений на основе федерализации разнородной информации в концепции многомерного представления данных тема диссертации и автореферата по ВАК РФ 00.00.00, доктор наук Коробко Анна Владимировна
- Специальность ВАК РФ00.00.00
- Количество страниц 250
Оглавление диссертации доктор наук Коробко Анна Владимировна
Оглавление
ВВЕДЕНИЕ
Глава 1. ПРОЦЕСС ИНФОРМАЦИОННО-АНАЛИТИЧЕСКОЙ ПОДДЕРЖКИ ПРИНЯТИЯ РЕШЕНИЙ
1.1. Принятие решений
1.2. Поддержка принятия решений
1.3. Информационно-аналитическая поддержка
1.4. Формальная постановка исследовательской задачи
Выводы к главе
Глава 2. МЕТОД NO-CODE РАЗРАБОТКИ МОДЕЛЬНО-ОРИЕНТИРОВАННЫХ СИСТЕМ СБОРА ДАННЫХ
2.1. Информационная база принятия решений
2.2. Задача сбора и хранения данных
2.3. No-code подход к разработке программного обеспечения
2.4. Модельно-ориентированная разработка
2.5. Метод no-code разработки модельно-ориентированных систем сбора данных
Выводы к главе
Глава 3. УНИФИЦИРОВАННОЕ АНАЛИТИЧЕСКОЕ ОПИСАНИЕ РАЗНОРОДНЫХ ИНФОРМАЦИОННЫХ РЕСУРСОВ
3.1. Концепция многомерного представления данных
3.2. Спецификация исследовательской многомерной модели разнородных источников
3.2. Генерация исследовательской многомерной модели для XML-документов
3.3. Генерация исследовательской многомерной метамодели для
реляционных источников
Выводы к главе
Глава 4. МЕТОД ПОСТРОЕНИЯ ГЕТЕРОГЕННОЙ МНОГОМЕРНОЙ МОДЕЛИ
4.1. Задача аналитического объединения данных
4.2. Метод построения гетерогенной многомерной модели
4.3. Сопоставление измерений источника с референтным множеством
Выводы к главе
Глава 5. МЕТОД ПОСТРОЕНИЯ КЛАСТЕРНОЙ МНОГОМЕРНОЙ МОДЕЛИ ПРЕДМЕТНОЙ ОБЛАСТИ
5.1. Поддержка исследовательского анализа данных
5.2. Анализ формальных понятий
5.3. Гибридизация метода анализа формальных понятий и гетерогенной многомерной модели
5.4. Поддержка построения аналитического запроса
Выводы к главе
Глава 6. ИНФОГРАФИЧЕСКОЕ МНОГОМЕРНОЕ МОДЕЛИРОВАНИЕ
6.1. Визуализация данных
6.2. Построение инфографической модели запроса
Выводы к главе
Глава 7. ПРАКТИЧЕСКОЕ ИСПОЛЬЗОВАНИЕ РЕЗУЛЬТАТОВ ДИССЕРТАЦИОННОЙ РАБОТЫ
7.1. Управление результативностью научной деятельности учреждения
7.2. Анализ результатов научных исследований
7.2.1. Исследование экологического состояния Красноярского водохранилища
7.2.2. Поддержка сбора и анализа данных исследования состояния почвенного покрова
7.2.3. Поддержка исследования формирования углеродных слоев в наноструктурированных материалах
7.3. Сопровождение муниципального заказа
7.4. Мониторинг оперативной сводки ГО и ЧС
Выводы к главе
ЗАКЛЮЧЕНИЕ
СПИСОК ЛИТЕРАТУРЫ
Приложение А. ШКАЛЫ ОЦЕНОК ВАРИАНТОВ РЕАЛИЗАЦИИ 'ЭТАПОВ ИАППР
Приложение Б. ФРАГМЕНТЫ ПРОГРАММНОГО КОДА
Приложение В. ОПИСАНИЕ МЕТАДАННЫХ СИСТЕМЫ УЧЕТА РЕЗУЛЬТАТОВ НАУЧНОЙ ДЕЯТЕЛЬНОСТИ
Приложение Г. ПИСЬМО О ВНЕДРЕНИИ РЕЗУЛЬТАТОВ ДИССЕРТАЦИИ В ДЕПАРТАМЕНТЕ МУНИЦИПАЛЬНОГО ЗАКАЗ Г. КРАСНОЯРСКА
Приложение Д. СПРАВКА О ВНЕДРЕНИИ РЕЗУЛЬТАТОВ ДИССЕРТАЦИИ В АГЕНТСТВЕ ГО И ЧС
Приложение Е. АКТ О ВНЕДРЕНИИ РЕЗУЛЬТАТОВ ДИССЕРТАЦИИ В ФИЦ КНЦ СО РАН
Приложение Ж. АКТ О ВНЕДРЕНИИ РЕЗУЛЬТАТОВ ДИССЕРТАЦИИ В СФУ
Приложение З. АКТ О ВНЕДРЕНИИ РЕЗУЛЬТАТОВ ДИССЕРТАЦИИ В СурГУ
Рекомендованный список диссертаций по специальности «Другие cпециальности», 00.00.00 шифр ВАК
Разработка интегрированных моделей и алгоритмов обработки слабоструктурированной информации для автоматизированной поддержки принятия решений на основе мультиагентного подхода2015 год, кандидат наук Хованских, Александр Анатольевич
Методология проектирования аналитических программных систем для организации их функционального взаимодействия на основе формальных моделей предметной области2015 год, кандидат наук Антонов, Вячеслав Викторович
Алгоритмы и онтологические модели информационно-аналитической поддержки процессов создания и применения космических средств2019 год, кандидат наук Охтилев Павел Алексеевич
Метод и алгоритмы ансамблевой кластеризации разнородных данных в информационных системах2025 год, кандидат наук Бочкарёв Пётр Владимирович
Создание единой среды для интеграции информационных ресурсов в природопользовании2005 год, доктор технических наук Чесалов, Леонид Евгеньевич
Введение диссертации (часть автореферата) на тему «Технология информационно-аналитической поддержки принятия решений на основе федерализации разнородной информации в концепции многомерного представления данных»
ВВЕДЕНИЕ
Актуальность темы исследования. В преддверии эры зеттабайтов возрастает актуальность обработки больших данных и извлечения из них полезных знаний в режиме реального времени. Технология OLAP - современный стандарт многомерного оперативного анализа данных. Объем рынка OLAP-средств впечатляет. Tableau, Looker, Periscope, Mode analytics, Qlik, MS Power BI - это далеко не полный список современных аналитических инструментов. Их число свидетельствует о несомненном спросе на оперативный анализ, а создание все новых и новых систем - о динамическом развитии области и поиске новых форм представления данных и способов их обработки.
Ключевое направление развития технологии разработки программного обеспечения в целом и систем информационно-аналитической поддержки принятия решений, в частности, заключается в упрощении сложных систем - их «демократизации». Мощные функциональные возможности программных продуктов, основанные на сложном математическом аппарате и передовых информационных технологиях, должны быть «обернуты» в простейшие интерфейсы чатов или нативных приложений. Проверка аналитических гипотез должна выполняться лицом, принимающим решения, самостоятельно, без программирования и предварительной обработки данных в режиме конструктора -с помощью новых «no-code» технологий. Широкое распространение получили конструкторы программных продуктов с простой бизнес-логикой: для сайтов (Битрикс24, Tilda, WordPress) и CRM-приложений, обеспечивающих управление взаимодействием с клиентами (Backendless, DronaHQ). Создание «no-code» технологии для аналитической обработки разнородных данных в режиме реального времени - более сложная задача, требующая разработки теоретических и методологических основ.
Актуальность создания теоретических основ аналитической интеграции гетерогенных данных обусловлена постоянным увеличением объемов
накапливаемой информации, ростом числа открытых источников и расширением списка форматов, используемых для хранения и передачи данных, начиная с государственных информационных ресурсов и заканчивая Интернетом вещей. Объем и разнообразие доступных данных, с одной стороны, представляет собой бесценный ресурс, способный стать ключевым конкурентным преимуществом, а с другой стороны, требует разработки новых технологий и средств анализа, обеспечивающих нативную информационно-аналитическую поддержку принятия решений на множестве всех доступных данных в режиме реального времени.
Степень разработанности темы исследования. В научной литературе активно обсуждаются подходы к интеллектуальному и оперативному анализу гетерогенных данных (Ю. И. Шокин, И. В. Бычков, А. М. Федотов, О. Л. Жижимов, А. А. Захарова, А. Кашников, Л. Лядова, Н. Г. Загоруйко, М. Н. Фаворская, Л. В. Массель, Е. П. Истомин). Предложен ряд концепций, представляющих видение ведущих современных ученых об актуальных направлениях развития технологии OLAP в будущем и формально описывающих требования к ожидаемым решениям (E. F. Codd, M. Golfarelli, Л. Ф. Ноженкова, Ю. В. Вайнштейн, Е. М. Хрусталев, J. Han, В. В. Миронов, A. Cuzzocrea, T. B. Pedersen). Концепция создания инструментов доступной бизнес-аналитики (Self-service Business Intelligence) (P. Alpar, M. Schulz, А. А. Барсегян, М. С. Куприянов, S. Rizzi) [73; 143] делает акцент на смягчении требований к квалификации аналитиков за счет упрощения инструментов анализа. Концепция поддержки исследовательского (эксплоративного) анализа данных (Exploratory OLAP) (S. Mansmann, Gamazo A. Abello) [144] заключается в обеспечении возможности построения поисковых аналитических запросов на лету на множестве всех доступных разнородных данных. Теоретическое описание подходов задает актуальные направления для дальнейших исследований и критерии достижимости поставленных целей, но оставляет простор для выбора конкретных путей реализации.
Исследованиям в области совместной обработки гетерогенных данных в разной степени посвящено достаточно много научных работ. Исследуются теоретические и практические основы модельно-ориентированной разработки (О.
А. Николайчук, Н. О. Дородных, А. Ю. Юрин, А. А. Коробко, Timothy C. Lethbridge,
A. Л. Ткаченко, А. Д. Холопова, E. Seidewitz, H. H. Do). Предложены способы и алгоритмы извлечения, преобразования и загрузки данных в единое хранилище данных, предполагающие сопоставление разнородных концептов на этапе проектирования силами квалифицированных специалистов и физическое перемещение данных (W. H. Inmon, R. Kimball, A. A. Vaisman, S. Luján-Mora) [1; 132]. Разработаны стандарты и форматы обмена данными между гетерогенными системами, обеспечивающие передачу данных в унифицированном виде и как следствие - возможность их совместной обработки (D. T. Chang, Т. Г. Пенькова) [152]. Однако разработка и реализация алгоритмов приведения данных к выбранному стандарту является сложной технической задачей и решается по-разному. Решение задачи анализа «больших данных», как правило, связывают с развитием алгоритмических и программных средств оперативной аналитической обработки данных больших стационарных, или «облачных», хранилищ однородной информации (B. Ganter, R. Wille, Д. И. Игнатов, С. О. Кузнецов, С.
B.Смирнов, M. Liu, S. Ferré, A. Braud) [2]. Современные научные исследования в области совместной обработки разнородных данных (Bimonte, S., Chouder, M. L., E. Gallinucci, F. Ravat) [3-10] можно разделить по следующим критериям: объединяемые форматы данных (RDB, XML, RDF), модель представления объединенных данных (онтология, тезаурус, многомерный куб, интегральная модель), уровень интеграции (физический, логический) и степень автоматизации (нет, при участии пользователя). Авторы рассмотренных работ решают поставленные перед ними задачи, но не предлагают единой концептуальной модели для совместной оперативной обработки гетерогенных данных и не учитывают современных требований к подобным решениям.
Идея настоящего диссертационного исследования заключается в том, что исходные схемы хранения структурированных и слабоструктурированных информационных ресурсов содержат достаточно информации для автоматического определения аналитических свойств элементов данных в концепции многомерного представления, а современные принципы моделирования и технические
возможности позволяют создать технологическую основу для федерализации разнородных данных и OLAP-обработки сразу всех доступных данных без предобработки.
Объектом диссертационного исследования является процесс информационно-аналитической поддержки принятия решений на основе совместной оперативной аналитической обработки разнородных данных, представленных нормализованными реляционными источниками и XML-документами со схемой XSD, а предметом исследования - методы, модели и алгоритмы (теоретические и методологические основы) федерализации разнородных информационных ресурсов и их OLAP-обработки для поддержки проверки аналитических гипотез лицом, принимающим решение в режиме реального времени.
Цель диссертационного исследования состоит в создании теоретических и методологических основ федерализации разнородной информации для оперативной аналитической обработки и поддержки исследовательского анализа объединенного множества данных.
Поставленная цель сопряжена с решением следующих задач:
1. Выполнить комплексное исследование процесса информационно-аналитической поддержки принятия решений и выявить современные требования к процессу. Предложить формальную постановку задачи усовершенствования рассматриваемого процесса.
2. Обеспечить формирование структурированного источника данных для включения в общую информационную базу принятия решений фрагментов неструктурированной информации за счет разработки метода no-code построения модельно-ориентированных систем сбора данных.
3. Разработать метод унифицированного аналитического описания разнородных структурированных и слабоструктурированных информационных ресурсов, обеспечивающий автоматическое определение аналитических ролей элементов данных источника и связей между ними в концепции многомерного представления (OLAP).
4. Разработать метод аналитического объединения разнородных данных за счёт построения гетерогенной многомерной модели, объединяющей описание разнородных источников и обеспечивающей их последующую совместную аналитическую обработку без физического перемещения данных.
5. Разработать метод построения модели объединенного множества разнородных информационных ресурсов, обеспечивающей поддержку исследовательского (эксплоративного) анализа больших данных в реальном масштабе времени и комплексное представление всей доступной информации в концепции многомерного представления.
6. Разработать алгоритм поддержки построения инфографической модели для визуализации результата выполнения произвольного пользовательского запроса.
Научная новизна результатов, представленных в диссертации, заключается в следующем:
1. Предложен новый метод no-code разработки модельно-ориентированных систем сбора данных, основанный на развитии подхода Model Driven Development. Отличие метода от существующих решений заключается в предложенной метамодели сбора информации, ориентированной на последующий анализ данных, и автоматической генерации схем хранения и пользовательского интерфейса системы. Метод обеспечивает построение систем сбора данных в режиме конструктора взаимосвязанных форм ввода для структурирования ранее не упорядоченной информации.
2. Разработан новый метод построения исследовательских многомерных моделей разнородных источников на основе концепции многомерного представления данных. В отличие от аналогов, метод обеспечивает автоматическую генерацию унифицированного описания возможных аналитических ролей и связей для всех элементов данных структурированных и слабоструктурированных источников. Исследовательская многомерная модель обеспечивает поддержку построения произвольных аналитических запросов с сохранением
консистентности результатов анализа и представляет собой основу для последующего слияния разнородных информационных ресурсов.
3. Разработан новый метод построения гетерогенной многомерной модели, объединяющей исследовательские многомерные модели разнородных источников. Метод отличается тем, что основан на принципах федерализации, то есть не предусматривает физическое перемещение данных и трансформацию исходных схем хранения (выполнение процедур Extract Transformation Load) и отражает аналитические свойства информации. Гетерогенная многомерная модель объединяет разнородные источники данных и выявляет аналитические связи между разнородными источниками.
4. Впервые предложен метод построения кластерной многомерной модели объединенного множества разнородных информационных ресурсов в виде алгебраической решетки кубов-концептов. Метод позволяет автоматически формировать единую модель гетерогенных данных в отличие от существующей фрагментарной OLAP-модели, состоящей из витрин данных и требующей их предварительной подготовки силами специалистов-аналитиков. Кластерная многомерная модель, построенная путем кластеризации элементов гетерогенной многомерной модели методом анализа формальных понятий, обеспечивает поддержку исследовательского (эксплоративного) анализа больших данных в режиме реального времени.
5. Впервые разработан алгоритм манипулирования кластерной многомерной моделью с учетом отношения частичного порядка между кубами-концептами. Предложенный алгоритм отличается возможностью рекомендовать, какие элементы данных могут быть добавлены в текущий пользовательский запрос с выполнением требования консистентности данных в части сохранения функциональных зависимостей. Алгоритм обеспечивает генерацию рекомендаций по возможным аналитическим сочетаниям между разнородными элементами данных.
6. Впервые предложен алгоритм поддержки построения инфографической модели для визуализации результата выполнения произвольного пользовательского запроса. Алгоритм предлагает пользователю наиболее информативный способ представления выбранного набора данных для информационно-аналитической поддержки принятия решений в отличии от существующих подходов, оставляющих выбор и настройку визуализации за пользователем.
Теоретическая значимость работы заключается в изложении новых научно обоснованных технологических решений задачи усовершенствования процесса информационно-аналитической поддержки принятия решения на базе разнородной информации без предобработки данных и программирования, внедрение которых вносит значительный вклад в развитие области знаний, связанных с обработкой и исследованием больших данных. Полученные в настоящей работе результаты послужат теоретическим фундаментом для развития технологий no-code разработки, извлечения и анализа информации в больших базах данных, в том числе с использованием концепции многомерного представления (OLAP).
Практическая значимость работы заключается в создании технологии, обеспечивающей качественно новые возможности для лиц, принимающих решения на основе исследовательского анализа разнородной информации. Полученные результаты отвечают на современные вызовы, связанные с бурным ростом объема информации, возникновением новых форматов и ростом числа пользователей аналитических систем. Полученные знания легли в основу разработки высокотехнологичного отечественного программного обеспечения, ориентированного на эксплоративный (исследовательский) анализ данных для информационно-аналитической поддержки принятия решений. Результаты диссертационного исследования и их программная реализация внедрены в образовательный процесс Сибирского государственного университета науки и технологий имени академика М. Ф. Решетнева. Разработанная в рамках настоящей работы технология легла в основу программной реализации no-code платформы
app.multiforms.ru, обеспечивающей сбор и анализ данных личных тематических дневников и научных исследований.
Практическая реализация результатов настоящей работы позволила решить задачи:
- аналитического сопровождения организации государственных закупок (Департамент муниципального заказа администрации города Красноярска), письмо о внедрении в приложении Г;
- анализа публикационной активности научных сотрудников, экологического мониторинга Красноярского водохранилища и исследования формирования углеродных слоев в наноструктурированных материалах (Институт вычислительного моделирования СО РАН), свидетельство о государственной регистрации программы для ЭВМ № 2018614158 от 02.04.2018 г.);
- анализа загрязнения почв Красноярского края (Сибирский федеральный университет), свидетельство о регистрации программы для ЭВМ №2020660956 от 15.09.2020 г.;
- предупреждения и ликвидации последствий чрезвычайных ситуаций (Агентство по гражданской обороне, чрезвычайным ситуациям и пожарной безопасности Красноярского края), справка о внедрении в приложении Д. Методы исследования основываются на применении методологии
системного анализа, методов моделирования информационных процессов в графических нотациях, теории реляционных баз данных, теории множеств, алгебры, технологии хранилищ данных (Data Warehouse), технологии оперативной аналитической обработки данных (OLAP - On-Line Analytical Processing), метода анализа формальных понятий - FCA (Formal Conceptual Analysis), MDD (Model Driven Development) - методологии модельно-ориентированной разработки, стандарта MOF (Meta Object Facility), методов интеллектуального анализа данных (в зарубежной научной школе Data Mining) и методов объектно-ориентированного программирования.
Положения, выносимые на защиту
1. Предложенный новый метод no-code разработки модельно ориентированных систем сбора данных обеспечивает формирование структурированного источника данных для включения ранее неструктурированной информации в общую информационную базу принятия решений.
2. Новый метод построения исследовательских многомерных моделей разнородных источников на основе концепции многомерного представления данных позволяет генерировать унифицированное аналитическое описание всех элементов структурированного или слабоструктурированного информационного ресурса на примере реляционных баз данных и XML-документов.
3. Новый метод построения гетерогенной многомерной модели обеспечивает слияние исследовательских многомерных моделей разнородных источников данных и их последующую совместную аналитическую обработку без физического перемещения.
4. Предложенный впервые метод построения и манипулирования кластерной многомерной модели обеспечивает поддержку исследовательского (эксплоративного) анализа гетерогенных данных в реальном масштабе времени и комплексное представление всей доступной информации в концепции многомерного представления.
5. Предложенный впервые алгоритм поддержки построения инфографической модели позволяет рекомендовать способ визуализации результатов выполнения произвольных пользовательских запросов к кластерной многомерной модели разнородных источников.
Соответствие паспорту научной специальности. Тема и содержание исследования соответствуют научной специальности «2.3.8 - Информатика и информационные процессы» и технической отрасли науки согласно пункту 1 паспорта специальности «Разработка компьютерных методов и моделей описания, оценки и оптимизации информационных процессов и ресурсов, а также средств
анализа и выявления закономерностей на основе обмена информацией пользователями и возможностей используемого программно-аппаратного обеспечения», пункту 7 паспорта специальности «Разработка методов обработки, группировки и аннотирования информации, в том числе, извлеченной из сети интернет, для систем поддержки принятия решений, интеллектуального поиска, анализа» и пункту 12 паспорта специальности «Разработка технологий извлечения и анализа информации в больших базах данных, в том числе, с использованием концепции многомерного представления (OLAP) и интеллектуального анализа данных (Data Mining) статического и в реальном масштабе времени, реализация моделей баз знаний».
Степень достоверности полученных в работе результатов и выводов обеспечивается корректным применением методов системного анализа, теоретико-множественного аппарата, теорией алгебраических решеток и дискретной математики, результатами решения прикладных задач, а также апробацией на международных и всероссийских конференциях.
Апробация. Основные положения и результаты диссертационного исследования представлялись и прошли всестороннюю апробацию на всероссийских, международных и зарубежных научных и научно-практических конференциях и семинарах:
- XXVIII Байкальская всероссийская конференция с международным участием «Информационные и математические технологии в науке и управлении» (Иркутск, 2023),
- Siberian Scientific Workshop on Data Analysis Technologies with Applications (Krasnoyarsk, 2020-2022),
- International Conference on Management of Digital EcoSystems (MEDES, Кипр, 2019),
- International Conference on Computational Science and Its Applications (Санкт-Петербург, 2019),
- All-Russian Conference on Spatial Data Processing for Monitoring of Natural and Anthropogenic Processes (Новосибирск, 2017, 2019),
- VII Международный конференции Знания - Онтологии - Теории (ЗОНТ-2019, Новосибирск, 2019),
- International Multidisciplinary Scientific GeoConference SGEM (Болгария, 2016, 2018),
- IEEE 10th International Conference on Application of Information and Communication Technologies (Азербайджан, 2016),
- International Conference on Artificial Intelligence and Industrial Engineering (AIIE, Китай, 2016),
- International Conference on Advances in Knowledge-based and Intelligent Information and Engineering Systems (Испания, 2012, Польша, 2014),
- Международная научно-практическая конференция «Актуальные задачи математического моделирования и информационных технологий» (Сочи),
- International Convention on Information and Communication Technology, Electronics and Microelectronics (MIPRO, Хорватия, 2011-2013),
- Всероссийская научно-техническая конференция «Теоретические и прикладные вопросы современных информационных технологий» (ТиПВСИТ, Улан-Удэ, 2012),
- Международная научно-практическая конференция «Технологии разработки информационных систем» (ТРИС, Геленджик, 2011),
- International Conference on Computational Science (Нидерланды, 2010),
- International Conference on Conceptual Structures (Москва, 2009).
Метод построения гетерогенной многомерной модели объединенного множества разнородных информационных ресурсов разработан в рамках гранта № 12-07-31143, теоретический подход к совместному оперативному анализу данных из гетерогенных источников путем слияния исследовательских многомерных моделей разнородных структурированных и слабоструктурированных информационных ресурсов предложен в ходе выполнения работ по гранту РФФИ № 16-07-01001. При поддержке РФФИ и Красноярского краевого фонда науки в ходе исследования РФФИ № 18-47-240005
разработаны методические и программные средства конструирования модельно-ориентированных систем сбора данных, в том числе для поддержки экспериментальных научных исследований на примере задачи диагностики загрязнения почв Красноярского края. Работы по указанным проектам выполнялась под руководством автора диссертации.
Личный вклад автора. Все выносимые на защиту научные положения получены соискателем лично. В основных научных работах по теме диссертации, опубликованных в соавторстве, лично соискателем получены все методы, модели и алгоритмы, относящиеся к оперативной аналитической обработке разнородной информации. Соавторы статей выступали как эксперты в прикладных областях исследований и как разработчики программного обеспечения. В работах, выполненных студентами и исполнителями проектов, автор отвечал за формальную постановку задач, планирование экспериментов, разработку архитектуры баз данных и программных комплексов, интерпретацию и систематизацию результатов исследования.
Публикации. По материалам диссертации опубликовано 66 работ, в том числе 11 статей в российских рецензируемых периодических изданиях, рекомендуемых ВАК РФ для опубликования основных научных результатов диссертационных исследований, 18 работ в зарубежных изданиях, включенных в международную базу цитирования Scopus, 9 работ в зарубежных изданиях, включенных в международную базу цитирования Web of Science. В Роспатенте зарегистрированы 3 программы для ЭВМ. Подготовлен 1 лабораторный практикум по материалам диссертации.
Структура и объем работы. Диссертация изложена на 250 страницах, состоит из введения, 7 глав, заключения, списка литературы из 313 наименований и 8 приложений.
Во введении дана общая характеристика решаемой научной проблемы, проанализирован современный уровень, обоснована актуальность темы исследования, определены цели и задачи, сформулированы основные положения,
выносимые на защиту, научная новизна и практическая значимость полученных результатов.
Первая глава посвящена изучению и подробному описанию процесса информационно-аналитической поддержки принятия решений (ИАППР) как объекта исследования. В главе определены основные термины и дан контекст исследования, что послужило теоретическим фундаментом для изложения авторских решений и сравнения их с существующими средствами и подходами. Выявление современных требований к ИАППР и описание ее классических этапов задало структуру для последующих глав и для формальной постановки задачи усовершенствования рассматриваемого процесса. В главах со 2 по 6 изложена суть работы, заключающаяся в последовательном рассмотрении этапов процесса информационно-аналитической поддержки принятия решений, анализе существующих решений и описании предлагаемых методов, моделей и алгоритмов. Глава 2 призвана исследовать и решить задачу упорядочивания существующей информационной базы, доступной ЛПР, и формирования структурированного источника данных для включения в общее информационное поле фрагментов неструктурированной информации за счет разработки метода no-code построения модельно-ориентированных систем сбора данных. Третья глава посвящена анализу проблем и существующих решений для этапа структурирования данных в процессе ИАППР и выработке нового метода унифицированного аналитического описания для разнородных структурированных и слабоструктурированных информационных ресурсов, обеспечивающего автоматическое определение аналитических ролей элементов данных источника и связей между ними в концепции многомерного представления (OLAP). Четвертая глава посвящена исследованию задачи аналитического слияния данных и разработке метода построения гетерогенной многомерной модели, объединяющей исследовательские многомерные модели разнородных источников и обеспечивающей их совместную аналитическую обработку без физического перемещения данных. Глава 5 описывает формализацию задачи поддержки построения аналитического запроса к глобальной многомерной модели,
представляющей единое информационное поле для разнородных источников, исследование методов генерации рекомендаций и разработке метода построения модели объединенного множества разнородных информационных ресурсов, обеспечивающей поддержку исследовательского (эксплоративного) анализа больших данных в реальном масштабе времени и комплексное представление всей доступной информации в концепции многомерного представления. Шестая глава посвящена исследованию понятия инфографики и инфографического моделирования, анализу подходов и решений для визуализации результатов аналитической обработки данных и выработки оригинального алгоритма поддержки построения инфографической модели.
Похожие диссертационные работы по специальности «Другие cпециальности», 00.00.00 шифр ВАК
Моделирование и информационная поддержка аналитической деятельности специалистов Центрального банка Российской Федерации2000 год, кандидат технических наук Медведев, Сергей Юрьевич
Развитие информационно-аналитического инструментария поддержки принятия стратегически ориентированных решений в многоуровневой экономике2012 год, кандидат экономических наук Плетняков, Вадим Александрович
Методы и алгоритмы интеллектуальной поддержки принятия решений в медицинской практике на основе обработки естественных языков2024 год, кандидат наук Гришина Любовь Сергеевна
Методика проектирования интегрированных программных систем многомерного анализа данных2007 год, кандидат технических наук Ровкин, Игорь Олегович
Исследование и разработка автоматизированных информационных распределенных систем управления производственными процессами медицинских комплексов2017 год, кандидат наук Мутин, Денис Игоревич
Список литературы диссертационного исследования доктор наук Коробко Анна Владимировна, 2024 год
источников
В качестве консолидирующей основы для будущего слияния источников данных разработана оригинальная реализация спецификации многомерной модели данных, которая, с одной стороны, разделяет аналитические концепты на аспекты анализа (измерения) и числовые характеристики анализируемого процесса (показатели), обеспечивая возможность оперативной агрегации и детализации данных OLAP-куба, а с другой стороны, сохраняет аналитические связи между ними, поддерживая возможность адаптивного манипулирования концептами и построения произвольных аналитических запросов к объединенной модели гетерогенных данных.
Предложенная в работе формальная спецификация исследовательской многомерной модели (уровень M2 в архитектуре MOF) разработана как расширение индустриального стандарта обмена данными Common Datawarehouse Metamodel (CWM) для хранилищ данных [69]. В отличие от базовой спецификации «пакета OLAP» стандарта CWM, оригинальное расширение позволяет создавать концепт MeasureObject (показатель) как самостоятельный класс схемы (Scheme) и устанавливать аналитические связи между показателями и измерениями (Dimension) с помощью ассоциативного класса MeasureDimensionAssociation (рисунок 3.4).
Рисунок 3.4 - Формальная спецификация аналитической объектной модели (классы предложенного расширения спецификации обведены пунктирной линией)
Предложенное расширение спецификации С^М позволяет построить исследовательскую, предназначенную для эксплоративного анализа, многомерную модель сразу всего источника данных, в отличии от существующей фрагментарной модели, и обеспечивает возможность использования преимуществами стандарта в части моделирования физического уровня (схем хранения исходных данных) и управления доступом к ним [296].
Кроме создания самостоятельного класса Мва^игвОЫвс1, построение оригинальной исследовательской многомерной модели предполагает отказ от уровней измерений спецификации CWM. Предложено считать потенциальные уровни самостоятельными измерениями, так как при формировании исследовательской модели различные уровни могут участвовать в формировании нескольких иерархий и могут быть связаны с разными показателями. Выявление иерархий измерений позволяет использовать опосредованную аналитическую сопоставимость между показателями и измерениями.
Различия в форматах источников, выбранных для построения информационного поля для проверки гипотезы Н, потребовали разработки спецификации вспомогательной объектной модели источника (решение P_Int_l. а), которая позволит описать аналитические свойства исходных структурных элементов источников данных и послужит мостом между форматом информационного ресурса и исследовательской многомерной моделью (решение P_Int_l. b). Метамодель исследовательской многомерной модели выступит в качестве модели MInt, а описанный ниже порядок построения спецификации вспомогательной объектной модели и ее последующее преобразование в М1Ш составит морфизм р1ш.
Анализ структуры исходных схем хранения данных с целью выявления аналитических концептов (измерений и показателей) и решения задачи сопоставления позволил выделить следующие характерные множества атрибутов структурных элементов: описательные (строковые) - DAttributes, числовые -FAttributes и ассоциативные - HierarchyAssociation (рисунок 3.5). Описательные (строковые) атрибуты, принадлежащие одному структурному элементу, расцениваются как порождающие измерение (один из атрибутов будет считаться основным, остальные вспомогательными). Числовые атрибуты формируют множество показателей, описывающих отдельный факт исходной базы данных (согласно классическому подходу к построению аналитической многомерной модели данных). Внешние ключи и вложенные структурные элементы, в реляционных и XML источниках соответственно определяют ассоциативные атрибуты, участвующие в формировании иерархии измерений.
«Class» AssociationClass (from metadata)
«Scheme» Scheme (from metadata) {collection-'List"} +c lasses
+name: String +descriptions: String +id: String +typeName: String +classType: ClassType
+name: String +type: String +settings: String
+className
«constructor»~Class(name: String, description: String) +addHierarchy(hierarchy: HierarchyAssociation): HierarchyAssociation +addD(dAttribute: DAttribute): DAttribute +addF(fAttribute: FAttribute): FAttribute +addDescription(String description): void +isDimensionQ: boolean
«constructor»+Scheme(type: String, settings: String) +addClass(name: String): AssociationClass
«enumeration» HierarchyType
ONE
UNBOUNDED NONE
«Hierarchy» HierarchyAssociation
(from metadata)
+classlD: String +identifiers: Map +type: HierarchyType
{collection-'List"} +hierarchies
«MeasureObject: FAttribute
(from metadata)
+precision: int +scale: int
«enumeration» ClassType
REGULAR ENUM
CHOICE
{collection-'List"} +d Attributes
«Attribute» Attribute
(from metadata)
+name: String +description: String +type: Type +isPk: Boolean +typeName: String +typeDescription: String +address: String
Hsld(String: name, String: description): Boolean HsMeasure(String: name, String: type, String: description): Boolean HsAdditional(String: name, Attribute.Type: type, String: description): Boolean
DAttribute
(from metadata)
+length: int
Рисунок 3.5 - UML-диаграмма вспомогательной метамодели источника данных
AssociationClass представляет собой описание сложных структурных элементов, объединяющих другие элементы схемы хранения. Экземпляры класса AssociationClass создаются для каждой таблицы в реляционном источнике данных и для элементов сложных типов в XSD-файлах. Простые вложенные элементы и столбцы реляционной таблицы ассоциируются с классами DAttribute (описательные атрибуты) и FAttribute (числовые атрибуты), в зависимости от аналитических свойств, и связываются отношением «Композиции» с экземплярами класса AssociationClass. Экземпляры класса Hierarchy описывают возможные аналитические связи между элементами и соответствуют внешним ключам в реляционном источнике и отношениям родитель-потомок в XSD-файле.
В терминах теории множеств структурные элементы clt Е С1 (экземпляры класса AssociationClass) вспомогательной объектной модели хранения данных из Src представляют собой четверку множеств (Ai,dAi,fAi,Hri), где At -
упорядоченный набор значений собственных свойств элемента , йА^ -множество описательных (строковых и логических) атрибутов элемента , fAi -множество числовых атрибутов элемента , Нг^ - множество атрибутов, определяющих ассоциативные (иерархические) связи элемента . А^ =
{«¿у],где ] = 1,Ыа, ац является значением ] — го свойства элемента с^. Ыа-фиксированное число служебных свойств, характерных для структурных
элементов. = {йа^} где] = 1,А¿|, йа^ представляет] — й атрибут класса с (экземпляр класса «ВАИпЬ^еБ»). Каждый описательный атрибут структурного
элемента обладает Nd свойствами datj = {datjk}, где к = 1,Nd. Аналогично, члены множества fAt описываются Nf свойствами, а для Hrt определено число свойств экземпляров — Nh. Значение констант задающих количество свойств структурных элементов и их атрибутов определяется в соответствии с задачами реализации. На текущем этапе реализации предложенных алгоритмов константам присвоены следующие значения: Na = 5, Nd = 9,
Nf = 8 и Nh = 4.
На основе вспомогательной объектной модели происходит формирование исследовательской многомерной модели EMMt = (Dt, M^Ri) для каждого источника данных Srct Е Src+, в соответствии с предложенной метамоделью, где Dt - множество измерений источника, каждый из которых соответствует одному классу из С1 и объединяет его описательные атрибуты, (класс Dimension в ИММ), Mi - множество показателей источника, описанных в FAttribute (класс MeasureObject ИММ) и Rt - отношение аналитической сопоставимости между элементами двух типов (класс MeasureDimensionAssociation ИММ). Особенность такого представления заключается в том, что показатель и измерение находятся в отношении аналитической сопоставимости, если между классом AssociationClass, содержащим показатель и классом, описывающим измерение, можно построить путь из классов Hierarchy во вспомогательной объектной модели. Такое решение позволяет зафиксировать в модели аналитическую связность элементов и обеспечить поддержку построения произвольных консистентных запросов к
исследовательской и гетерогенной многомерным моделям. Множество экземпляров метамодели MInt обозначим как EMMSrc = {EMMt}, i = 1 , \Src+ | .
Предложенная метамодель ориентирована на программную реализацию, учитывает требования хранения данных в динамической памяти и дополняет соответствующие классы предложенной ранее спецификации рядом утилитарных свойств и методов. Порядок построения вспомогательной метамодели зависит от исходного формата и представлен ниже.
3.2. Генерация исследовательской многомерной модели для XML-документов
Разработаны алгоритмические средства построения исследовательской многомерной модели для XML-документов на основе анализа и авторской интерпретации объектной модели документа (DOM) спецификации XML Schéma Définition (XSD) с помощью алгоритма SEDOM (Space Efficient DOM) [142]. Спецификация XSD задает правила (принципы) формирования и обработки XML-документов, позволяет определять структурные свойства элементов документа, связи между ними и атрибуты. Предложен подход к построению упрощенной структурной объектной модели XML-документа в нотации UML, сохраняющей аналитические связи между элементами. При этом каждый элемент типа complexType определяет самостоятельный класс; атрибуты сложных типов и элементы типа simpleType определяют свойства родительского класса; а значения операторов (choice, sequence, extension, restriction, annotation, maxOccurs, minOccurs) характеризуют структурные ограничения и связи между элементами документа.
Построение исследовательской многомерной модели (ИММ) позволяет преобразовать простые типы в атрибуты и определить классы, входящие в качестве композиции в несколько сложных типов. Соответствие между элементами вспомогательной моделью и XSD схемой XML документа представлены в таблице 3.1.
Таблица 3.1 - Соответствие между элементами ИММ и исходной схемой XML
Элемент модели XSD схема XML документа
1 2
class AssociationClass - элементы сложного типа (complexType), включающие элементы сложного типа; - элементы простого типа с перечислением (enumeration); - структура, описывающая выбор одного из нескольких элементов (choice). *для элементов с совпадающим именем создается общий класс при условии, что кроме имени совпадает внутренняя структура элемента (sequence) и имя пользовательского типа (атрибут name), при наличии
+name: String имя элемента
+descriptions: String [0..*] описания элементов, ассоциированных с классом, из аннотации (annotation::documentation)
+id автоинкрементное число, уникальное в рамках схемы
+altNames: String [0..*] имя пользовательского типа данных для сложного типа, при наличии
+classType: [REGULAR, ENUM, CHOICE] REGULAR - элементы сложного типа; ENUM - элементы простого типа с перечислением; CHOICE - структура описывающая выбор одного из нескольких элементов
1 2
class DAttribute простые элементы встроенных типов String, Boolean и Integer (либо их ограничения)
+name: String имя элемента
+descriptions: String [0..*] - описание элемента из аннотации; - описание пользовательского типа (при наличии)
+type: [BOOLEAN, DATE, DATETIME, INTEGER, NUMERIC, STRING] приведение оригинальных типов к системным типам
+isPK: Boolean TRUE - для уникальных и обязательных элементов, иначе FALSE
+altName имя пользовательского типа для ограничения (restriction) встроенного типа, при наличии
+values допустимые значения для перечисляемого типа
+address физический адрес элемента для формирования аналитического запроса
+length в соответствии с ограничением встроенных типов: - facets maxLength, maxExclusive-1, maxInclusive; - длина, определенная pattern. - иначе 0 - не ограничено
1 2
class FAttribute простые элементы встроенных типов Double и Décimal (либо их ограничения)
+name имя элемента
+descriptions: String [0..*] - описание элемента из аннотации; - описание пользовательского типа (при наличии)
+type NUMERIC - "xs:double", "xs:detimal"
+isPK FALSE - поумолчанию
+altName имя пользовательского типа для ограничения (restriction) встроенного типа, при наличии
+address физический адрес элемента для формирования аналитического запроса
+precision в соответствии со значением - facets totalDigits, pattern - иначе 0 - не ограничено
+scale в соответствии со значением - facets fractionDigits, pattern - иначе 0 - не ограничено
class HierarchyAssociation отношение родитель-потомок
+className имя вложенного элемента сложного типа
+classID уникальный идентификатор вложенного элемента сложного типа
+identifiers не заполняется
+type мощность связи
Разработан алгоритм построения ИММ (Р_1Ш_1. Ь) на основе вспомогательной объектной модели (Р_1Ш_1. а) (рисунок 3.3).
Ввиду отсутствия ключевых атрибутов, определяющих функциональные зависимости, предложено рассматривать все атрибуты, описывающие класс, как равноправные. Тогда показатель (элемент числового типа) может быть совместно проанализирован со своими соседними измерениями (находящимися с ним на одном уровне иерархии) и со всеми измерениями предков, учитывая транзитивность. Семантическое наполнение файла спецификации XSD позволяет обнаружить идентификаторы (счетчики) и ограничить для них выбор функций агрегирования.
Главная функция алгоритма обеспечивает генерацию объектов вспомогательной модели - С1 (рисунок 3.6). Она вызывает рекурсивные функции getClasses() и getElements(). Функция getClasses() (рисунок 3.7) вызывается сразу после создания нового объекта и отвечает за наполнение объекта свойствами и определение связей между ними.
Рисунок 3.6 - Основная процедура алгоритма генерации исследовательской многомерной модели на основе вспомогательной
Рисунок 3.7 - Процедура getClasses
Функция getElements() (рисунок 3.8.) генерирует элементы аналитической объектной модели (рисунок 3.1): D - измерения (Dimension), F - показатели (MeasureObject) и R- связи между ними (MeasureDimentionAssociation).
Возможные функции агрегации, ассоциированные с показателем, определяются в соответствии с типом и назначением отдельного элемента: для ключевых атрибутов (isPK=TRUE) устанавливается функция агрегирования count, для остальных элементов доступны все функции агрегирования - all.
Рисунок 3.8 - Процедура getElements
Далее вызывается ряд служебных функций, чьё назначение понятно из их названия: getParent (v) возвращает список родительских узлов; GetChild (v) возвращает список дочерних узлов; ElemType (v) позволяет определить тип элемента в XSD-документе; NewClass (v) создает новый объект; Class (x) создает виртуальный класс с именем x для поиска в списке объектов CI; AddAttributes () возвращает атрибуты объекта; TypeOf() определяет тип элемента; IsIndex() возвращает логический признак того, что элемент относится к ключевым. Предложенный алгоритм положен в основу программного модуля генерации ИММ для XML-документов по их XSD схеме. Фрагмент программного кода приведен в приложении Б на рисунке Б. 2.
Предложенный порядок построения вспомогательной объектной модели обеспечивает определение аналитических ролей элементов XML-документов по описанию схемы хранения (валидации) в формате XSD. Результат сопоставления сложных и простых элементов XML-схемы с объектами модели позволит выполнять запросы к данными работы алгоритмов, а основная модель обеспечивает унифицированное описание структуры слабоструктурированного источника в концепции многомерного представления.
3.3. Генерация исследовательской многомерной метамодели для реляционных источников
Для нормализованного реляционного источника данных, полагаем, что первичный ключ каждой подсхемы является детерминантом функциональной зависимости, а остальные поля подсхемы формируют ее правую часть. Рассматривая поочередно функциональные зависимости и анализируя тип данных атрибутов, мы формируем множество элементов исследовательской многомерной модели.
Столбцы таблицы, имеющие шкалу значений номинального или порядкового типа, относятся к Измерению. Как правило, это столбцы строкового или
логического типа, исключением являются числовые поля, в которых хранятся данные, соответствующие идентификаторам, кодам, баллам, т. е. тоже относятся к порядковому типу, когда разница между числами семантически не значима. Например, большее значение идентификатора не может быть аналитически интерпретировано относительно меньшего идентификатора. Причем считаем, что все описательные поля одной таблицы относятся к одному Измерению. Столбцы типа данных Дата автоматически связываются с единым Измерением времени. Числовые поля относятся к множеству Показателей, причем каждое поле порождает самостоятельный Показатель. Функциональные зависимости между таблицами задают иерархические связи между Измерениями.
Соответствие между элементами вспомогательной объектной модели и схемой реляционного источника представлены в таблице 3.2.
Таблица 3.2 - Соответствие между элементами вспомогательной объектной модели
и схемой реляционного источника
Элемент модели Метаданные реляционной БД
1 2
class AssociationClass таблицы данных
+name: String название таблицы
+descriptions: String [0..*] - название таблицы на русском языке; - русские наименования полей других таблиц, содержащих внешние ссылки на описываемую таблицу
+id автоинкрементное число, уникальное в рамках схемы
+altNames: String [0..*] названия полей других таблиц, содержащих внешние ссылки на описываемую таблицу
+classType: [REGULAR, ENUM, CHOICE] значение по умолчанию - REGULAR
1 2
class DAttribute поля таблицы строкового типа, логического типа и первичные ключи
+name: String название поля
+descriptions: String [0..*] русское название поля
+type: [BOOLEAN, DATE, DATETIME, INTEGER, NUMERIC, STRING] приведение оригинальных типов к системным типам
+isPK: Boolean TRUE - для первичного ключа, иначе FALSE
+altName не заполняется
+values не заполняется
+address физический адрес поля для формирования аналитического запроса
+length длина строки
class FAttribute поля таблицы числовых типов, за исключением первичных ключей
+name название поля
+descriptions: String [0..*] русское название поля
+type приведение оригинальных типов к системным типам, соответствующим классу
+isPK FALSE - поумолчанию
+altName не заполняется
+address физический адрес поля для формирования аналитического запроса
+precision Общее количество цифр в числе
+scale количество цифр в числе после запятой
class HierarchyAssociation внешние ключи
+className название таблицы, указанной во внешнем ключе
+classID уникальный идентификатор таблицы, указанной во внешнем ключе
+identifiers имена полей для связи таблиц (FK, PK)
+type мощность связи
Алгоритм формирования ИММ на основе анализа графа функциональных зависимостей, представленного объектами (класс AssociationClass) и их иерархическими атрибутами (класс Hierarchy) вспомогательной объектной модели, состоит из двух функций, одна из которых описывает порядок определения узлов,
являющихся отправными точками анализа графа (рисунок 3.9), а другая выполняет рекурсивный обход дочерних элементов выбранного узла (рисунок 3.10).
Рисунок 3.9 - Основная функция алгоритма построения аналитической объектной модели для нормализованной реляционной базы данных
Анализ графа начинается с узлов, которые не имеют родительских элементов: в реляционной базе данных такие узлы соответствуют детерминантам функциональных зависимостей, описывающих таблицы фактов.
Глобальные переменные: Р, ГЗ
Функция: РОВ_Го_АОМ()
Вход:V Вы:
Рисунок 3.10 - Функция getDimensions() алгоритма построения аналитической объектной модели для нормализованной реляционной базы данных
В зависимости от типа данных узел относится к множеству Показателей или Измерений искомой аналитической объектной модели, а аналитические зависимости устанавливаются между обнаруженными показателями и теми измерениями, которые либо являются дочерними относительно рассматриваемой вершины, либо имеют общего с ней родителя. Фрагмент программного кода приведен в приложении Б на рисунке Б. 1.
Порядок построения объектной модели и алгоритмы формирования обеспечивают автоматическое определение аналитических ролей элементов реляционных источников и их структурирование в концепции многомерного представления данных.
Выводы к главе 3
Предложен морфизм р1ш в форме метода, определяющего порядок формирования вспомогательной исследовательской многомерной модели источника (решение Р_1п1_1. а) в табличном виде для ХМЬ-документов и реляционных источников, и содержащего комплекс алгоритмов, обеспечивающих построение объектной модели (модели экземпляров) исследовательской многомерной метамодели для гетерогенных источников (решение Р_1п1_1. Ь). Вспомогательная модель содержит всю необходимую информацию для поддержки выполнения произвольных аналитических запросов без физического перемещения данных. Объектная модель метамодели определяет возможность последующей интеграции унифицированного описания источников Бгс. Результатом преобразования полученного на входе списка источников Бгс будет обновленный список (М1Ш), где каждому источнику Бгс^ Е Бгс+ поставлена в соответствие объектная исследовательская многомерная модель ЕММ1 = ф1, М^Я^), описывающая элементы исходной структуры хранения данных в концепции многомерного представления. Множество экземпляров метамодели М1Ш представлено ЕММ5гс = {ЕММ^, I = 1, |5гс+| . Таким образом, Бгс+ Я Ы5гс X
ТБгс X Б15гс X ЕММ5гс . М1Ш поступает на вход искомому морфизму следующего этапа исследования рМгд, призванного обеспечить слияние исследовательских многомерных моделей источников из Бгс+.
Предложенное решение для этапа структурирования данных удовлетворяет требованию обеспечения однородности REQHm9n за счет применения единой предложенной спецификации для описания аналитических свойств разнородных источников. Требование консистентности REQCnss выполняется за счет ограничения на качество информационных ресурсов на предыдущем этапе исследования. За счет отказа от физического перемещения данных и автоматизации построения аналитической объектной модели выполняется требование оперативности REQ0nln. Доступность REQslfs предлагаемого решения достигается благодаря возможности выявления аналитических ролей элементов исходных схем хранения данных без привлечения аналитиков и других специалистов. Построение аналитической объектной модели сразу всего источника обеспечивает выполнение требования информационной полноты REQCmpr, возможность проведения аналитических экспериментов и выхода за рамки первоначальной гипотезы.
В соответствии со шкалами оценок функции £ для сравнения вариантов реализации этапов ИАППР получаем:
С(Р_1Ш_1) = (2,3,3,3,3) С(Р_1Ш_2) = (1,1,1,1,1) С(Р_1Ш_3) = (2,2,2,2,1).
Следовательно, предложенное решение Р_1п1_1 для текущего этапа предпочтительнее существующих, так как \\С(Р_1п1_1)\\ > \\С(Р_1п1_2)\\ и \\С(Р_1Ш_1)\\ > \\С(Р_1Ш_3)\\.
Глава 4. МЕТОД ПОСТРОЕНИЯ ГЕТЕРОГЕННОЙ МНОГОМЕРНОЙ МОДЕЛИ
Настоящая глава посвящена исследованию задачи аналитического объединения данных и разработке метода построения гетерогенной многомерной модели, объединяющей исследовательские многомерные модели разнородных источников и обеспечивающей их совместную аналитическую обработку без физического перемещения данных. Формально задача настоящего этапа исследования заключается в построении модели ММгд, описывающей результат объединения исследовательских многомерных моделей источников Src+, отобранных ЛПР для проверки гипотезы Н = (О, F), и разработке морфизма рМгд, обеспечивающего слияние.
4.1. Задача аналитического объединения данных
Ключевые тренды обработки данных заключаются в объединении (пересечении) внутренних и внешних данных относительно предприятия для целей их совместной обработки и демократизация OLAP. Цель современных исследователей - расширить информационную базу принятия управленческих решений и увеличить гибкость и доступность аналитических инструментов для рядового пользователя. Как правило, сегодня задача интеграции гетерогенных данных решается путей физического объединения источников данных в едином хранилище данных - Data Warehouse (DW), проектируемом и поддерживаемом вручную.
Зарубежными авторами предлагается ряд концепций, представляющих их видение актуальных направлений развития технологии OLAP и формально описывающих требования к ожидаемым решениям. Концепция создания инструментов доступной бизнес-аналитики (Self-service Business Intelligence) [74;
143] делает акцент на смягчение требований к квалификации аналитиков. Концепция поддержки исследовательского (эксплоративного) анализа данных (Exploratory OLAP) [144] заключается в обеспечении возможности построения поисковых аналитических запросов налету на множестве всех доступных разнородных данных. Визионерские концепции задают направление для современных исследователей, позволяют по-новому взглянуть на инструменты OLAP-анализа и задуматься о автоматизированной предобработке данных и интеллектуальной поддержке разведочного анализа обширного информационного поля.
Одной из основных задач становится преодоление разнородности гетерогенных источников данных и их аналитическая интеграция. Решение поставленных задач основывается на разработке глобальной (global or mediated) модели (схемы) унифицированного доступа к данным [145; 146]. Ключевой моделью аналитической обработки данных является многомерный куб (модель). Многомерная модель используется для проектирования [66], хранения [132; 147; 148], обработки запросов [149, 150], информационного обмена между системами [151; 152] и, конечно, для интеграции гетерогенных данных [5]. Процедура Extract-Transformation-Load - практически единственный инструмент объединения разнородных данных на основе многомерной модели данных [153] (решение Р_Мгд_2).
Существующие решения предполагают физическое перемещение данных, что не вполне соответствует концепции обработки больших данных. Устаревший подход требует участия опытных проектировщиков и дизайнеров для того, чтобы сопоставить большое множество разнообразных схем хранения данных.
Несколько лет назад начал набирать популярность подход к виртуальной интеграции данных [154]. Современные ученые ищут способы оседлать волну взрывного роста объема доступной информации, предлагая онтологическую модель в качестве виртуальной глобальной схемы [155; 156] (решение Р_Мгд_3). Однако онтологический подход не нацелен на отражение аналитических связей между элементами данных. Автором настоящей работы предложена гетерогенная
многомерная модель, сочетающая в себе преимущества многомерной модели данных и возможности виртуальной глобальной схемы (решение Р_Мгд_1).
4.2. Метод построения гетерогенной многомерной модели
Метод построения гетерогенной многомерной модели основывается на гибридизации современных подходов к логическому и семантическому сопоставлению схем хранения данных (сравнение объектных деревьев, семантический, синтаксический анализ множеств принимаемых значений) [158160] и последующей экспертизы результатов объединения. Использование, полученного на предыдущем этапе ИАППР унифицированного аналитического описания разнородных источников данных в виде исследовательских многомерных моделей, учитывающих исходные схемы хранения данных и их аналитические свойства, позволило поставить и решить задачу автоматического формирования гетерогенной многомерной модели (рисунок 4.1).
Первый этап предлагаемого метода рМгд заключается в сопоставлении измерений каждого объединяемого источника из Бгс с референтным множеством вновь создаваемой или дополняемой гетерогенной многомерной модели. Референтное множество предложено как развитие концепции магистральной архитектуры хранилища данных [132; 157], которое, в отличие от аналога, формируется автоматически и содержит данные из различных источников. Исследовательские многомерные модели разнородных источников данных содержат множество измерений, объединяющих атрибуты в терминах вспомогательной объектной модели. Элемент вспомогательной объектной модели считается измерением, если его множество категориальных атрибутов (DAttribute) не пусто и значения хотя бы одного из них уникальны и обязательны. Сопоставление заключается в попарном сравнении атрибутов измерения и расчете числовой оценки степени схожести измерений. Окончательное формирование референтного множества выполняется только после этапа ручного модерирования
для того, чтобы исключить возможность ошибочного слияния (подробнее процесс описан в параграфе 4.3).
—И ММ источника-^
Референтное
- множество —*■
измерений
Рисунок 4.1 - Диаграмма интеграции исследовательских многомерных моделей разрозненных источников в гетерогенную многомерную модель в нотации ГОЕБО
Сопоставление измерений вновь добавляемого источника с элементами референтного множества дополняет и расширяет его, обеспечивая добавление новых атрибутов к существующим измерениям или создание нового измерения. Реализация предложенной концепции позволяет сопоставлять структурные элементы, принадлежащие различным схемам хранения данных, не друг с другом, а с постепенно дополняемым эталонным множеством и только в части определения совпадающих аспектов анализа. А определение общих для различных источников измерений позволяет формировать общее для проверки аналитической гипотезы ЛПР информационное поле.
Метод формирования гетерогенной многомерной модели завершается процессом добавления в модель измерений объединяемых источников с сохранением связи с источником данных и установлением отношения
аналитической сопоставимости с измерениями референтного множества. Считаем, что показатели объединяемых источников уникальных в рамках формируемого общего информационного поля. Такой подход позволяет объединить источники на уровне аналитической структуры и сохранить многомерное представление данных.
Для описания множества гетерогенных многомерных моделей разработана спецификация (уровень M2 в архитектуре MOF) гетерогенной многомерной модели. Спецификация определяет набор объектов и их свойства, позволяющие описывать частные гетерогенные модели (рисунок 4.2). Спецификация гетерогенной модели отличается от спецификации исследовательской наличием множеств допустимых значений атрибутов, которые формируются по результатам модерируемой интеграции источников в единую модель. Так, структурный элемент, описывающий справочник или классификатор источника, имеет конкретное имя, а соответствующий атрибут измерения референтного множества представляет собой множество возможных имен, которые используются в других источниках данных.
Здесь класс Source соответствует расширенному описанию источников данных Src, полученных на предыдущих этапах исследования. Свойства класса определяют: name - имя источника (NSrc), format - формат (TSrc), настройки подключения (StSrc) и EMM - модель экземпляров спецификации исследовательской многомерной модели в формате JSON (EMMSrc).
Рисунок 4.2 - Метамодель гетерогенной многомерной модели объединенных источников данных
Класс Measure соответствует классу MeasureObject в ИММ. Класс Relation расширяет класс MeasureDimentionAssociation, описывая не только отношение аналитической сопоставимости между измерением и показателем, но и сохраняя роль измерения, как называется атрибут исходной сущности, задающий иерархическое отношение между двумя классами вспомогательной объектной модели. Несмотря на то что показатель в ГММ связан с измерением из референтного множества, модель «помнит», как называлось это измерение в том источнике, откуда взят показатель. Такой подход позволяет сохранить исходную
семантику объединяемого источника данных и дает возможность расширить информационное поле ЛПР. Сохранение адреса измерения в классе Relation, адреса показателя в классе Measure и адресов атрибутов измерения в классе Path обеспечивает возможность построения консистентных запросов на получение данных. Блок «Референтное множество измерений» представляет объединенные измерения ГММ. Использование в диаграмме ассоциации типа «Композиция» между Relation и Measure говорит о том, что отношение входит в описание показателя и может быть представлено как перечисление ролей и адресов измерений референтного множества для совместного анализа именно с этим показателем. Свойство level указывает на длину «пути» до измерения от показателя. Если измерение и показатель ассоциированы с одним структурным элементом в исходной схеме хранения, то значение уровня будет 0, если они связаны через один атрибут, отражающий иерархию между измерениями, то значение уровня равно 1 , и т. д. В реальных задачах нередки ситуации, когда пара показатель-измерение связана несколькими путями. Например, у человека есть адрес прописки, значит все показатели, характеризующие человека, могут быть проанализированы в разрезе адреса. Также человек работает в организации, у которой есть юридический адрес. С точки зрения ГММ и тот, и другой адрес соответствует измерению «Адрес». Получается, что персональные характеристики человека могут быть проанализированы как в разрезе адреса как места прописки (имеет смысл если у нас есть информация о других прописанных по этому же адресу), так и в разрезе юридического адреса организации, в которой он работает. В модели это будет отражено двумя экземплярами класса Relation, связывающими одну и ту же пару показатель-измерение, но с разными ролями и разным значением уровня.
Метамодель гетерогенной многомерной модели в виде теоретико-множественного описания представлена ниже. По аиналогии со структурными элементами модели источника данных, измерения референтного множества dt Е D представляют собой пару множеств (Af, dAt), где Af - упорядоченный набор множеств значений собственных свойств элемента dt, dAt - множество
описательных (строковых и логических) атрибутов элемента йг. А? определяет множества значений для каждого свойства, то есть йот(а^) - множество значений У — го свойства, которое формируется автоматически при интеграции новых источников данных по результатам модерации. Перечень названий свойств измерений фиксирован и определяется метамоделью. Множество атрибутов измерения является подмножеством множества всех атрибутов ГММ йА^ с ¿А,
= {йщ^.где у = 1,1йА11., йа^ представляет ] — й атрибут измерения ^. Каждый описательный атрибут измерения обладает свойствами йа^ = {^а^^^},
где к = l,Nd. При чем значение daijk может быть выражено одним элементом (name, type, length, isPk, isNonDimension) или множеством (descriptions, altNames, values) - dom(daijk). Свойство values содержит множество принимаемых значений для этого атрибута, которое формируется при добавлении или сопряжении структурных элементов из разнородных источников. Отношение аналитической сопоставимости R Q M X D X АК, где M и D множества показателей и измерений соответственно, а множество AR представляет собой множество упорядоченных наборов значений собственных свойств отношения. Показатель M описывается парой множеств (AM,R), где Ам - множество упорядоченных наборов значений собственных свойств показателя, а R - описанное выше отношение аналитической сопоставимости показателя и измерения. Список источников, подобранных ЛПР для проверки своей гипотезы Src+, входит в ГММ с новыми компонентами: Srct = (Afrc,Mi), где Afrc Е NSrc X TSrc X StSrc, M\ - множество показателей i — го
источника и П^ ' = 0. Каждый показатель т^ Е Mt, где j = l, \ M t | , содержит описание порядка доступа к измерениям, с которыми сопоставим т^, и его описательным атрибутам. Patht - множество адресов доступа к данным описательных атрибутов измерений референтного множества при выполнении аналитических запросов с участием пары показатель-измерение.
Так как показатели уникальны в рамках ГММ и показатель однозначно определяет источник данных, представим гетерогенную многомерную модель как
СММ = ф,М,Я), то есть множество измерений ф), показателей (М) и Я = агде ^ Е й и 1 = 1, \т^ Е М и] = 1, \ М\, а к = 1, \ Щ - отношение аналитической сопоставимости между ^ и т^ со свойствами . Экземпляр модели источника из ЕММ5гс сохранен для решения последующих задач актуализации гетерогенной многомерной модели при изменении исходной структуры хранения данных.
Результативность предложенного метода автоматического слияния исследовательских многомерных моделей на базе построения референтного множества измерений зависит от используемых методов и алгоритмов сравнения атрибутов измерений. Исследованию этого вопроса и описанию предлагаемого подхода посвящен следующий параграф.
4.3. Сопоставление измерений источника с референтным множеством
В качестве реализации процесса «Сопоставление измерений источника с референтным множеством» метода построения гетерогенной многомерной модели разрозненных источников разработан алгоритм сопоставления структурных элементов источника с элементами референтного множества. Алгоритм представляет собой каскад вложенных циклов, обеспечивающих сопоставление каждого элемента из источника с каждым элементом референтного множества, включая их внутренние свойства и атрибуты. В ходе выполнения алгоритма для каждой пары элементов из источника и референтного множества вызываются функции простого SimpleSimilarity() и сложного сравнения ComplexSimilarity() для сопоставления внутренних, описательных и иерархических свойств элемента. Функция SmpleSmilarity() обеспечивает проверку схожести внутренних свойств интегрируемого элемента с множеством допустимых значений аналогичных свойств рассматриваемого элемента референтного множества. Функция ComplexSimilarity() отвечает за сопоставление двух множеств атрибутов, которые в свою очередь обладают заданным набором свойств. Функция SetSimilarity()
выполняет проверку схожести значения с множеством допустимых значений. При сопоставлении двух множеств элементов (как структурных элементов, так и атрибутов) формируется матрица оценок схожести, а при помощи функции MaxCombination() определяется комбинация соответствий элементов с максимальной схожестью. Блок-схема предложенного алгоритма представлена на рисунке 4.3.
В качестве методической основы сопоставления элементов источника и референтного множества предложена определенная экспериментальным путем последовательность применения методов (алгоритмов) оценки схожести строк для оценки схожести элементов в целом. Предложенная последовательность сравнения строк включает: разделение на слова с учетом различных конвенций именования [161], выделение трехбуквенных Q-грамм [162] и применение метода косинусного сходства (cosine similarity) [163]. Пары наиболее релевантных друг другу структурных элементов определяются, исходя из требования максимизации суммарной оценки схожести, автоматически и предоставляются пользователю для экспертизы.
Рисунок 4.3 - Алгоритм сопоставления структурных элементов источника с элементами референтного множества
По результатам экспертизы дополняется (расширяется) референтное множество измерений, включая допустимые значения внутренних свойств и свойств отдельных атрибутов. С целью выявления непрямых аналитических зависимостей разработан Алгоритм формирования иерархических измерений, представляющих разные уровни детализации одного аспекта анализа (рисунок 4.4), который вызывается в виде функции getFullHierarchy() при формировании аналитического контекста.
Рисунок 4.4 - Алгоритм формирования иерархических измерений
Работа алгоритма заключается в последовательной проверке иерархических связей между объектами исследовательской многомерной модели. Обнаруженные цепочки функциональных зависимостей в данных, представленные
иерархическими атрибутами, определяют отношения аналитической сопоставимости между показателями и измерениями, которые могут быть совместно проанализированы только при построении сложных запросов с подзапросами. В реляционной модели это означает, что в запросе участвуют несколько таблиц, а в ХМЬ-источниках потребуется совмещение результатов, полученных разными путями.
Метод построения гетерогенной интегральной OLAP-модели подводит черту под результатами первого раздела, создавая теоретическую основу объединения больших разнородных данных без их физического перемещения, путем определения аналитических ролей отдельных структурных элементов исходных схем хранения данных, автоматической генерации объектной аналитической модели каждого ресурса и построения гетерогенной многомерной модели.
Выводы к главе 4
Предложен новый метод построения гетерогенной многомерной модели, объединяющей исследовательские многомерные модели гетерогенных источников данных в качестве морфизма рМгд (решение Р_Мгд_1). Предлагаемый метод основан на развитии концепции магистральной архитектуры построения хранилища данных (решение Р_Мгд_2) в сторону отказа от физического перемещения данных, замены ручного слияния структурных элементов разных источников автоматическим сопоставлением с модерацией и построения виртуальной глобальной схемы взамен фрагментарной многомерной модели. Как и в решении Р_Мгд_3 (онтологический подход), метод обеспечивает построение виртуальной глобальной схемы, но при этом позволяет сохранить аналитические связи между элементами данных одного источника и автоматически определить возможные связи между элементами разных источников.
Благодаря использованию полученных на предыдущем этапе исследовательских многомерных моделей при построении гетерогенной
многомерной модели и автоматическому сопоставлению атрибутов измерений выполняются критерии однородности (REQHmgn) и информационной полноты (REQCmpr). Критерий оперативности (REQ0nln) на этапе слияния в части сопоставления исходных схем хранения и актуализации ГММ выполнен до уровня полной автоматизации с модерацией. Свойства элементов гетерогенной многомерной модели обеспечивают возможность построения произвольных консистентных запросов к объединенным источникам данных и выполнение критерия получения качественных достоверных данных (REQCnss). Инициация и модерация результатов автоматического слияния гетерогенных источников данных требуют знаний в предметной области и навыков уверенного пользователя, что позволяет выполнить критерий демократизации средств обработки данных (REQslfs) и сделать этап доступным для выполнения ЛПР самостоятельно.
Результатом выполнения настоящего этапа в рамках ИАППР является объектная модель, построенная по спецификации (метамодели) ММгд, которая объединяет все структурные элементы произвольного числа гетерогенных источников, что заведомо делает ее «большой» в части объема и разнородности. Следующий этап обработки данных связан с поиском способа компактного отображения ГММ и способов навигации по ней с целью поддержки построения произвольных аналитических запросов.
В соответствии со шкалами оценок функции £ для сравнения вариантов реализации этапов ИАППР получаем:
в(Р_Мгд_1) = (3,3,2,3,3) в(Р_Мгд_2) = (3,1,1,2,1) в(Р_Мгд_3) = (3,0,2,2,0).
Формально предложенное в работе решение Р_Мгд_1 для этапа слияния разнородных источников предпочтительнее существующих, так как \\С(Р_Мгд_1)\\> \\С(Р_Мгд_2)\\ и \\С(Р_Мгд_1)\\> \\С(Р_Мгд_3)\\.
Глава 5. МЕТОД ПОСТРОЕНИЯ КЛАСТЕРНОЙ МНОГОМЕРНОЙ МОДЕЛИ ПРЕДМЕТНОЙ ОБЛАСТИ
Настоящая глава посвящена формализации задачи поддержки построения аналитического запроса к гетерогенной многомерной модели, представляющей единое информационное поле для разнородных источников, исследованию методов генерации рекомендаций и разработке метода построения модели объединенного множества разнородных информационных ресурсов, обеспечивающей поддержку исследовательского (эксплоративного) анализа больших данных в реальном масштабе времени и комплексное представление всей доступной информации в концепции многомерного представления. Формально в рамках настоящего этапа исследования необходимо построить модель МС1Ь, представляющую элементы гетерогенной многомерной модели в виде структуры и обеспечивающую возможность построения произвольных аналитических запросов к «большой» модели для проверки гипотезы Н = (О, Р) на множестве всех доступных данных. Переход от ММгд к МС1Ь с учетом выполнения критериев REQ - искомый морфизм рс1Ъ.
5.1. Поддержка исследовательского анализа данных
Задача настоящего этапа исследования заключается в том, чтобы найти способ представления гетерогенной многомерной модели, который бы обеспечивал поддержку построения произвольных аналитических запросов для проверки гипотезы лица принимающего решения. Проверка гипотез в общем случае заключается в поиске зависимостей и закономерностей между критериями достижения целей управленческой деятельности и факторами, характеризующими управленческие рычаги, которые есть у лица, принимающего решения.
Полученная гетерогенная многомерная модель имеет огромный информационно-аналитический потенциал, представляет большой объем полезной информации, которая может быть использована для поддержки принятия управленческих решений. В рамках процесса информационно-аналитической поддержки принятия решений ЛПР сформулировал гипотезу, выделил объект управления и определил набор факторов влияния. Для анализа объекта и факторов влияния ЛПР подобрал источники информации, подготовив таким образом фактологическую базу для обоснованного информированного принятия управленческого решения. В соответствии с предлагаемой технологией для каждого источника данных формируется исследовательская многомерная модель, которая включает все имеющиеся в источнике структурные элементы. Одна часть этих элементов относится непосредственно к характеристикам объекта или факторов, а другая часть содержит дополнительную информацию, которая может быть полезна ЛПР, позволяет иначе охарактеризовать объект управления или отразить другие факторы, оказывающие влияние на анализируемый процесс. При федерализации источников данных путем слиянии их исследовательских моделей часть элементов, относящихся к аналитическим измерениям, будут объединены, но несмотря на это, число доступных для построения аналитического запроса элементов существенно превышает объем информации, которую человек способен удержать в поле своего внимания в силу особенностей мыслительного процесса. Решение задачи построения МС1Ь сопряжено с поиском или выработкой порядка ассистирования ЛПР в ходе исследования обширного информационного пространства, представленного гетерогенной многомерной моделью.
Отношение аналитической сопоставимости Я = {(й^т.],^)}, где
(11 Е Б и I = 1, \Б\, т.] Е М и ] = 1, \М\, а к = 1 , \Д|, гетерогенной многомерной модели описывает возможность построения запроса, содержащего одновременно пару показатель-измерение ^ и т^ со свойствами а%. Будем говорить, что йЯт, если 3 аКш. (й, т, аК) Е Я .
Для поддержки построения произвольных аналитических запросов необходимо найти решение, обеспечивающее возможность оперативно (REQ0nln) подсказывать, рекомендовать принимающему решения элементы, которые он может самостоятельно (REQslfs) добавить в формируемый запрос без нарушения целостности данных (REQCnss).
Задача поддержки человека в выборе нужного объекта среди множества доступных [164] беспокоит в первую очередь маркетологов. С ростом числа предложений на рынке в общем и интернет-торговли, в частности, [165] люди встают перед сложным выбором - сделать обоснованный выбор среди большого числа предложений. Специалисты по продажам и владельцы бизнеса не намерены оставлять потенциальных покупателей один на один с этой проблемой [166]. Рекомендательные системы стали одним из популярных направлений развития методов анализа данных и разработки программных средств. Алгоритмы формирования рекомендаций стараются предсказать какие объекты (фильмы, музыка, книги, новости, веб-сайты) будут интересны пользователю. Предложение товаров в интернет-магазине, ранжирование результатов выдачи в поисковых системах, поиск подходящего контента в музыкальных сервисах и средств массовой информации - задачи, решаемые рекомендательными системами [167]. Оттолкнувшись от задачи ассистирования покупателю алгоритмы формирования рекомендаций сегодня применяются для поддержки выполнения поисковых запросов [168], постановки медицинских диагнозов [169] и выстраивания образовательных траекторий [170].
Традиционная рекомендательная система (решение P_Glb_2) имеет дело с двумя видами сущностей: пользователи и объекты. Пользователь - это получатель рекомендации и источник данных о предпочтениях, а объект - то, что предлагается пользователю в качестве рекомендации. В общем виде задачу рекомендательной системы можно сформулировать как «определение объекта, ранее неизвестного пользователю, но полезного или интересного ему в текущем контексте». Рекомендательные системы делятся на три основных типа: фильтрация содержимого, коллаборативная фильтрация и гибридные системы. При
фильтрации содержимого (content base filtering) создаются профили пользователей и объектов. Профили пользователей могут включать персональную информацию или ответы на определенные вопросы. Профиль объекта содержит информацию о его свойствах в зависимости от типа объекта. Пользователю рекомендуется объекты, похожие на те, которые этот пользователь уже приобретал или использовал. Похожести оцениваются по признакам объектов. Основные проблемы такого подхода заключаются в сильной зависимости от предметной области и ограниченной полезности рекомендаций [167; 171].
Коллаборативная фильтрация предполагает использование информации о покупках и их оценках пользователем. Основное допущение метода заключается в предположении, что людям с одинаковыми вкусами нравятся одинаковые вещи. Для формирования рекомендации достаточно знать оценку пользователя хотя бы одного объекта из выборки, а другие определяются исходя из частоты аналогичного оценивания других объектов другими пользователями совместно с выбранным. Преимущество этого подхода заключается в его универсальности: метод не зависит от предметной области. Основная проблема этого типа рекомендательных систем - сложность холодного старта: отсутствие оценок пользователя затрудняет формирование рекомендаций [172]. Гибридный подход сочетает коллаборативную и контентную фильтрацию, повышая эффективность (и сложность) рекомендательных систем [173].
Особенность задачи поддержки построения аналитического запроса к ГММ отличается от распространенных задач, решаемых рекомендательными системами, требованием сохранения целостности данных: рекомендуемые ЛПР элементы данных должны быть гарантированно аналитически совместимы. Распространенные алгоритмы формирования рекомендаций предлагают решение с высокой, но не 100%-й точностью [174].
Анализ формальных понятий (АФП) [175] — это метод анализа данных, который является прикладной ветвью алгебраической теории решеток. Анализ формальных понятий совмещает в себе мощный математический аппарат и философию, которые нашли широкое применение в решении прикладных задач.
Стремительное развитие подхода обусловлено изяществом теории и простотой реализации алгоритмов. Данный метод получил широкое применение в задачах классификации, информационного поиска, построения онтологий, формирования рекомендаций [176].
5.2. Анализ формальных понятий
АФП позволяет анализировать зависимости между подмножествами объектов и признаков. В качестве отношения «объект-признак» могут выступать данные, которые описывают любую область человеческой деятельности. Пары взаимосвязанных множеств объектов и признаков образуют решетку понятий, частично упорядоченную отношением «быть более общим понятием, чем». С точки зрения философии науки, формальное понятие является естественным способом описания группы объектов через их характерные свойства, которое определяется объемом - величиной всех объектов, принадлежащих понятию и содержанием -совокупностью всех признаков, общих для объектов [175; 177; 178]. Первая задача АФП заключается в формировании формального контекста в виде тройки из множеств объектов, признаков и отношений их инцидентности. Обычно формальный контекст представляют в виде объектно-признаковой таблицы, в которой столбцам соответствуют признаки, а строками - объекты. Наличие крестика в таблице на пересечении столбца и строки означает вхождение соответствующей пары «объект, признак» в отношение инцидентности. Воздействуя на контекст оператором Галуа, представленным парой отображений объектов на признаки и признаков на объекты, получаем (формальные) понятия. Для упорядочивания понятий строится решетка понятий. Вершинам решетки соответствуют (формальные) понятия, с соответствующими им объемами и содержаниями, а ребрам - отношения соседства между самими понятиями.
Адаптивность и актуальность представленного Б. Гантером и Р. Вилле [175] математического аппарата отражена в работах современных ученых,
занимающихся развитием искусственного интеллекта, математики, логики и т. д. Помимо устоявшегося теоретического аппарата данный подход нашел свое применение в практических задачах. На сегодняшний день данное направление активно развивается учеными разных стран. В России научная школа АФП сложилась под руководством профессора С. О. Кузнецова [179-184] на базе Национального исследовательского университета «Высшая школа экономики». В статьях приводится подробное описание построения решеток формальных понятий и их использование на прикладном уровне. Авторы [185] агрегировали труды ученых в совершенно разных направлениях исследований и показали многообразие решаемых задач с использованием АФП путем построения решетки понятий, в которой в качестве объектов выступают научные работы, а признаками являются современные подходы искусственного интеллекта. Теория АФП успешно применяется для классификации, информационного поиска, построения онтологий, формирования рекомендаций и в прочих целях [179-181].
Задача информационного поиска описывает процесс выделения из неструктурированной текстовой информации той, которая соответствовала бы конкретному критерию (теме) или заранее утвержденному поисковому запросу. В настоящее время одним из самых популярных методов решения проблемы поиска «интересной» информации является латентно-семантический анализ (Latent semantic analysis, LSA). Также распространение получила порождающая модель латентного размещения Дирихле (Latent Dirichlet allocation, LDA), основанная на классификации множества текстов по различным тематикам. Еще в 80-е годы были выдвинуты основные подходы, решающие проблему информационного поиска с помощью АФП. В своей обзорной статье [183] авторы излагают в хронологическом порядке развитие теории АФП в задачах информационного поиска. Помимо теоретической составляющей АФП, где авторы подчеркивают уникальность подхода, они также подробно описывают рекомендации для эффективного проектирования приложений: детальный анализ задачи информационного поиска, интеграция с передовыми методами информационного поиска, использование оценочных метрик, тестирование исходных данных [184]. Таким образом, задача
информационного поиска в случае АФП решается следующим образом: формируется формальный контекст, в котором множество объектов - это разнообразие текстов «мешок слов» и признаков, это набор ключевых слов. Тогда решетка будет состоять из упорядоченных концептов, включающих некоторый набор текстов, которым свойствен один набор ключевых слов. Соответственно, анализируя решетку сверху вниз, а именно - переходя от вершины к вершине, мы можем определить источники информации, удовлетворяющие поисковому запросу. С помощью АФП решаются задачи анализа сообщений микроблогов или запросов в системах интернет-поиска. Так, в статье [185] описана задача информационного поиска с акцентом на аспекты визуализации, подходы машинного обучения, интеллектуальный анализ данных и текстов. Преимущества метода АФП в задачах информационного поиска заключаются в следующем: преодолении ситуаций с отсутствием результатов поиска и избытком информации; возможности совместить режим выполнения запроса и навигации; возможности учесть иерархические зависимости и близость по значению между ключевыми словами (терминами); гибком поиске за счет определения приоритета признаков и ограничения пространства поиска.
На основе теории АФП предложен ряд алгоритмов классификации. ДСМ-метод генерации гипотез, представляющий модель автоматического обучения по положительным и отрицательным примерам, изначально был сформулирован В. К. Финном в [186], как теория правдоподобного вывода на основе бесконечнозначной логической теории первого порядка с кванторами по кортежам переменной длины. Установление соответствия между ДСМ-гипотезами и формальными понятиями привело к взаимному влиянию теории ДСМ-метода и АФП [180; 181; 184]. Метод порождения ДСМ-гипотез описывается в работах [184; 186], где авторы определяют основное понятие гипотезы как некоторый набор признаков, который описывает объекты конкретного класса. При постановке задачи устанавливаются «положительные», «отрицательные» и «недоопределенные» формальные контексты, которые определяют отношения объектов к какому-либо классу, положительному или отрицательному по отношению к целевому признаку. В свою
очередь, нейтральный контекст характеризует неопределённый объект, то есть объект, который нужно отнести к положительному или отрицательному классу. Далее рассчитываются формальные понятия для положительных, отрицательных и нейтральных контекстов, где для первого определяются положительные формальные объем и содержание, для второго - отрицательные объем и содержание, для третьего - соответственно, нейтральные. Таким образом, при классификации необходимо определить вхождение содержания нейтрального контекста в положительное или отрицательное содержание целиком и полностью. При условии, если в нейтральном содержании находятся как положительные, так и отрицательные признаки, устанавливаем объект как «отказ от классификации». В работах [187; 188] авторы применяют подход, основанный на реальных данных, как пример приводится заболевание печени, где выборка содержит объекты -пациентов и признаки - результаты анализов из 6 показателей (средний объем эритроцитов, щелочная фотосинтеза, аламиновая трансаминаза, средний объем употребляемого алкоголя в крови и т. д.). Авторы подчеркивают, что данный метод не уступает другим методам классификации, но существуют явные проблемы со скоростью работы алгоритма. В [189] представлена новая таксономия методов классификации, основанных на АФП. Для их сравнения приводятся две сводные таблицы - исчерпывающие методы классификации и комбинаторные, в которых алгоритмы классификации сравниваются по следующим параметрам: концептуальная структура, тип данных, концепция, вычислительная сложность. В свою очередь, одним из наиболее распространенных алгоритмов классификации, использующих решетку понятий, является Ruleamer. Он предназначен для поиска логических закономерностей в данных. С этой целью используется вся решетка понятий как пространство поиска для вывода логических правил. Таким образом, на вход алгоритма подается решетка и обучающая выборка, состоящая из множества объектов и признаков, причем каждый объект обладает определенным количеством признаков. Каждый объект в соответствии с его множеством признаков помечается меткой класса, которая указывает на принадлежность конкретного объекта к определенному классу. Тогда при отнесении объекта к
определенному классу генерируется правило, которое проверяется на соответствие признаков. Данный алгоритм был разработан в 1995 году. Автор [190] приводит псевдокод подхода, а также сравнивает точность с другими алгоритмами классификации на разных наборах данных. Методы классификации на основе АФП опираются на базовые свойства решетки формальных понятий, а именно: выявление объектов с одинаковыми свойствами. Разметка объектов относительно принадлежности к определенному классу позволяет определить свойства, характерные (определяющие) для класса, и тем самым обнаружить новые знания. К недостаткам подхода можно отнести сложность интерпретации смешанных понятий, которые содержат объекты, отнесенные к разным классам в обучающей выборке.
Представление о решетке понятий, обладающей таксономическими свойствами, пересекается с онтологической концепцией. В настоящее время популярными задачами, которые решаются с помощью АФП, являются: извлечение онтологических понятий и выявление иерархий или сетей, построение и уточнение онтологий, исследование атрибутов в целях получения экспертных знаний [191], а также слияние онтологий. В статье [192] представлена унифицированная платформа (фреймворк) для работы с онтологиями среды описания ресурса Resource Description Framework (RDF). RDF - часть концепции семантической паутины, является моделью для представления данных, в особенности метаданных, и обладает средствами для построения информационных моделей. Данная платформа позволяет эффективно извлекать знания из семантических веб-онтологий и баз данных, контролируя их лаконичность в соответствии с правилами. В работах [193; 194] описывается процесс слияния онтологий с помощью метода «снизу-вверх». Каждую из онтологий можно представить в виде формального контекста со множеством объектов и признаков. Суть подхода слияния онтологий заключается в выявлении похожих объектов со схожими признаками что позволяет объединить онтологии одной предметной области. Далее строится решетка понятий, связывающая концепты исходных онтологий. Данный алгоритм получил название FCA-Merge, который предполагает
отношения эквивалентности и подкласс-суперкласс. Полученный результат -решетка понятий - анализируется экспертом и используется как руководство для создания объединенной онтологии. В задаче построения онтологических моделей концепт решетки интерпретируется в философском смысле, объединяя объекты со схожими свойствами. Такой подход позволяет исследовать существующие и создавать новые онтологии, извлекая новые знания о моделируемой предметной области. Решение задачи слияния онтологических моделей с помощью АФП опирается на классические свойства решетки за счет выявления в разных моделях похожих объектов, обладающих схожими признаками.
Классическим примером применения АФП для определения значимых признаков является теория неточных множеств, предложенная польским ученым З. Павляком в начале 1990-х годов. Суть данной теории заключается в представлении множества объектов в виде множества подмножеств, определенных ключевыми свойствами объектов, а не конкретными объектами. Ученый дает понятие неточного множества как пары двух множеств - нижнего и верхнего приближений, построенных из элементарных множеств объектов. Эта идея является ключевой для решения многих других задач: классификации, оценки зависимостей между признаками и классификацией объектов, определения степени такой зависимости, вычисления важности признаков, сокращения количества признаков и порождения решающих правил по исходным данным. В силу того что реальные базы данных обычно содержат избыточную информацию, перед аналитиками стоит задача оценки важности атрибутов. Сокращение малоинформативных признаков позволяет увеличить скорость выполнения пользовательского запроса и предоставить только релевантную информацию. В работах [195-197] благодаря тесной связи между теорией неточных множеств (Rough Set, RST) и АФП решается задача приближения неточных множеств. Операцию аппроксимации неточных множеств можно реализовать с помощью АФП, выбирая в решетке формальные понятия, удовлетворяющие определенным условиям. Реализация операции аппроксимации неточных множеств на решетке понятий может быть разделена на два шага. На первом необходимо преобразовать многозначную информационную
систему с несколькими ключевыми свойствами объектов в формальный контекст с одним ключевым свойством объектов. На втором шаге выполняется операция аппроксимации неточного множества с помощью решетки понятий [198] путем вычисления наименьшей верхней и наибольшей нижней граней. Рассматривая объем формальных понятий как показатель значимости вершин диаграммы решетки, с помощью АФП можно определить ключевые признаки, характеризующие рассматриваемое множество объектов. Такая интерпретация решетки хорошо сочетается с теорией неточных множеств, позволяя повысить эффективность выполнения запросов к большим данным.
Множество задач интеллектуальной поддержки принятия решений опирается на рекомендательный подход. В современных работах ученых наблюдается тенденция к анализу веб-контента, интересов пользователей, взаимосвязей между пользователями [209]. В статье [199] авторы выявляют зависимости в наборе данных из социальных сетей, используя АФП как инструмент формализации данных. В частности, ученые используют логические методы для определения деятельности пользователя в социальной сети. Кроме того, представленная в работе платформа позволяет выявить группы влияния и лидеров в этих группах. В работах [200; 201] авторы описывают решение прикладной задачи выявления рекламных ключевых слов, которые могут быть интересны рекламодателю в области электронной коммерции, контекстная интернет-реклама. В статье [202] описывается задача рекомендации, в которой анализируется суточная активность пользователей и в соответствии с выбранным промежутком времени предлагается определенная деятельность исходя из его личных интересов в конкретный промежуток времени. При решении данной задачи авторы использовали сочетание АФП и теории нечетких множеств. АФП широко применяется для решения задачи рыночной корзины. В данном подходе в формальном контексте признаками являются товары (предметы), а объектами - чеки (транзакции). По сути, импликация определяет отношения между набором предметов. Пространство поиска решетки позволяет анализировать смежные группы товаров путем просмотра объема и содержания вершин диаграммы решетки - формального
понятия. В рекламной сфере [203] одной из классических задач является подбор релевантных и «горячих» слов, которые могут поднять рейтинг компании в поисковой системе. Допустим, при поиске компанией рекламных терминов, которые описывают определенные товары и услуги, целесообразно найти термины, схожие с тематиками конкурирующих компаний. Таким образом, при анализе данных в роли объектов выступают рекламные кампании, а признаками являются рекламные термины (ключевые слова), что по сути является формальным контекстом. Рассмотрение решетки понятий, а именно определенных вершин, позволяет сформировать набор правил, по которым будут строиться рекламные кампании. Также можно определить самые популярные слова в контексте использования их в рекламных лозунгах. В статье [204] авторы описывают концепцию айсберга, применяемую к решетке формальных понятий, которая представляет частые наборы элементов, располагающихся в верхней части решетки. Рассматриваемая концепция позволяет сформировать ассоциативные правила на основе решетки путем введения ограничения на количество концептов. Этот тип решеток может быть вычислен модифицированной версией алгоритма Next-Closure или алгоритмом Титаника [204; 205]. Задача формирования рекомендаций решается за счет использования отношения частичного порядка на множестве концептов решетки. Импликация между объемами и содержаниями концептов позволяет сформировать пространство поиска и находить объекты со смежными характеристиками. Класс решаемых задач значительно расширяется при совместном использовании АФП с теорией нечетких множеств и ассоциативными правилами [206-208].
5.3. Гибридизация метода анализа формальных понятий и гетерогенной многомерной модели
В настоящее время многие ученые в сфере информационных технологий занимаются вопросами интеграции технологических подходов анализа
формальных понятий и оперативной аналитической обработки данных. Авторами [210] разработана убедительная теория упорядочения OLAP-кубов на основе функциональных зависимостей базы данных и иерархии измерений. Исследование посвящено разработке теории отношений функциональных зависимостей и их соответствия стандартным операциям над OLAP-кубами. Интеграция с технологией FCA упомянута лишь как один из вариантов анализа множества функциональных зависимостей. Однако стоит отметить, что теоретические результаты этой работы могут быть использованы для обоснования подхода, разрабатываемого в настоящем проекте. Этой же группой исследователей [211] был предложен подход к представлению классических концептов (кластеров) в виде фактов OLAP-куба через рассмотрение их в разрезе нескольких измерений, что расходится с задачами настоящего проекта. Наиболее традиционное применение технологии FCA предложено в работе [212]. Авторы используют FCA для кластеризации аналитических запросов к сайту и выявления профилей пользователей, но не для поддержки формирования аналитических запросов на основе интегральной OLAP-модели.
В основе предлагаемой кластерной многомерной модели (решение P_Glb_l) лежит интеграция концепции многомерного моделирования технологии и метода формального концептуального анализа [304-307]. Отношение R гетерогенной многомерной модели между показателями и измерениями может быть представлено в виде двудольного графа с двумя непересекающимися множествами вершин: измерения D = [d1d2,^ ,dn} и показатели М = [т1,т1,^ ,тк] [213]. Тогда матрицу смежности R, где столбцы соответствуют показателям, а строки измерениям, можно интерпретировать как формальный контекст в соответствии с теорией анализа формальных понятий К = (D, М, R) [214]. ГММ в виде контекста отражает информацию об элементах анализа объединенной предметной области и о возможности их совместной аналитической обработки.
На основе формального контекста K определяется множество кубов-концептов по признаку сопоставимости объектов анализа. Для произвольных X с D и Y С М определяется операция «штрих» (derivation) следующим образом:
122
X' = [dEDI VmEM, dRm] Y' = {mE Ml Vd E D, dRm] Пара (А, В), где А Я D, В Я M, такие что A = В' и В = А', называется кубом-концептом контекста K. Множество В состоит из показателей одинаковой размерности, которые могут быть проанализированы по всем измерениям из А. (А, В) - многомерный куб, полный относительно добавления показателей той же размерности и состава измерений. Это означает, что невозможно включить в такой OLAP-куб дополнительный показатель без уменьшения числа измерений, то есть в рамках построенного формального контекста не существует других показателей, сопоставимых с тем же набором измерений. Множество измерений А представляет объем куба-концепта, а множество показателей В - содержание куба-концепта.
Множество всех кубов-концептов частично упорядочено отношением подкуб-надкуб по аналогии с отношением Галуа в классической теории алгебраических решеток [215]:
(А1, Вг) < (А2, В2) если А1 Я А2 и В2ЯВ1. В этом случае будем говорить, что (А1,В1) - подкуб (А2,В2), а (А2,В2) -надкуб для (А1,В1). Множество измерений надкуба включает множество измерений подкуба, в свою очередь, множество показателей подкуба включает множество показателей надкуба. Упорядоченное отношением подкуб-надкуб множество всех кубов-концептов образует решетку OLAP-кубов, которая представляет собой кластерную многомерную модель предметной области. Пусть Ъ(К) - множество кубов-концептов, а £(К) - решетка кубов-концептов, построенная по контексту К, которая может быть представлена в виде диаграммы Хассе. Для формирования решетки кубов-концептов в терминах многомерной модели данных выполнена адаптация [216] алгоритма формирования решетки концептов In-Close [217-219] из теории анализа формальных понятий (рисунок 5.1). Алгоритм предполагает постепенное наполнение множества кубов-концептов Ъ(К), начиная с куба-концепта (D,0), у которого объем содержит все возможные измерения, а содержание - пусто. Этот концепт является точной верхней границей решетки кубов-концептов L(K) (супремумом).
Рисунок 5.1 - Блок-схема алгоритма формирования множества кубов-концептов Ъ(К)
По мере формирования Ъ(К) содержание всех найденных концептов пересматривается? и для некоторых (небольших) контекстов супремум £(К) может иметь непустое содержание. В случае кластерной многомерной модели это очень
редкое явление, так как предполагает, что существует показатель, аналитически сопоставимый со всеми измерениями модели. Инфимумом £(К) считаем куб-концепт, у которого содержание совпадает с М, а объем определяется в соответствии с контекстом. Для нижней границы объем может быть непустым, так как часто все показатели КММ аналитически сопоставимы с общим измерением «Дата», которое выполняет разные роли в различных источниках и структурах, но может быть использовано как общее измерение при исследовательском анализе ГММ. Формирование кубов-концептов происходит путем добавления новых показателей в содержание ранее найденных кубов-концептов и проверки выполнения условий полноты полученного концепта. Если добавление показателя в содержание приводит к невыполнению требования полноты, то формируется новый концепт с расширенным содержанием, для которого рассчитывается объем.
Алгоритм заключается в последовательном обнаружении кубов-концептов в формальном контексте предметной области и их закрытии (наполнении). Обнаружение кубов-концептов происходит путем определения уникальных (канонических) объемов Апеы на основе сравнительного анализа объема у-го показателя {т^}' (результат выполнения операции деривации), где у принимает значения от 1 до |М|, и объемов Ак ранее найденных концептов (Ак,Вк) из В(К).
Работа алгоритма начинается с добавления в пустое множество кубов-концептов В(К) точной верхней границы множества кубов-концептов (супремум) (О, 0), где Б - множество всех измерений контекста К. Затем объем каждого куба-концепта (Ак,Вк) из В(К) в цикле сравнивается с объемом каждого показателя, индекс которого больше максимального индекса показателя из первоначального содержания Вк текущего к-го концепта (сравнительный анализ концепта с остальными показателями происходит на этапе проверки на каноничность объема концепта). Анализ текущего к-го куба-концепта со всеми показателями контекста позволяет полностью сформировать содержание концепта и закрыть его.
Для сравнительного анализа кубов-концептов и измерений контекста рассматривается к, принимающее значения от тах(Вк) до 1В(К)1, где 1В(К)1 -мощность множества концептов;у - принимает значения от 1 до |М|.
В качестве объема Апею потенциально нового куба-концепта рассматривается пересечение множества измерений Ак текущего к-го концепта и объема показателя [т^}'.
Если множество Апею пусто, то алгоритм переходит к проверке следующего показателя. Иначе - алгоритм переходит к сравнению мощностей множеств Апею и Ак.
Если мощности множеств Апею и Ак совпадают, то можно сделать вывод, что множества равны и показатель т^ добавляется к содержанию Вк текущего к-го куба-концепта. Далее алгоритм переходит к проверке следующего показателя. Иначе - происходит проверка уникальности (каноничности) потенциально нового куба-концепта.
Для каждого показателя т^, предшествующего показателю т^, выполняется проверка вхождения /-го показателя в содержание Вк текущего к-го куба-концепта, и затем выполняется проверка идентичности объемов /-го показателя [т^}' и Апею.
При совпадении объемов [т^}' и Апею считаем потенциально новый куб-концепт не уникальным (неканоническим) и переходим к сравнительному анализу текущего к-го куба-концепта и следующего у+1-го показателя. Иначе - продолжаем проверять уникальность потенциально нового куба-концепта и переходим к рассмотрению следующего /-го показателя.
Если объем Апею потенциально нового куба-концепта не совпал ни с одним рассмотренным объемом [т¿}', то считаем Апею каноническим объемом нового куба-концепта и формируем его начальное содержание Впею как объединение содержания текущего к-го куба-концепта и у-го показателя. Полученный новый куб-концепт (Апеы, Впем/) с начальным содержанием добавляем в множество Ъ(К) для последующего анализа и закрытия.
В настоящий момент существуют более эффективные алгоритмы расчета множества концептов для формального контекста АФП, при необходимости они могут быть адаптированы для совместного использования с КММ [217].
Алгоритм формирования концептуальной решётки кубов-концептов основан на алгоритме NEIGHBORS [220; 221]. Блок-схема алгоритма формирования концептуальной решетки OLAP-кубов представлена на рисунке 5.2. Цель алгоритма задать отношение частичного порядка на множестве кубов-концептов, формируя множество £(К) = Ъ(К) X Ъ(К) содержащее связи между кубами-концептами. Свойства решетки таковы, что если кубы-концепты X = (Ах, Вх) и Y = (Ау,Ву) находятся в отношении подкуб-надкуб X < Y, то Ах < Ау и Ву < Вх. Следовательно, если рассматривать решетку снизу вверх, начиная с точной нижней границы множества Ъ(К) (инфимум), то кубы-концепты являются надкубами для текущего куба-концепта (Ak,Bk) и имеют больший объем по сравнению с Ак. Алгоритм поиска родительских кубов (надкубов) для текущего куба-концепта (Ак, Вк) основан на поочередном добавлении измерений к объему Ак и проверки полученного объема на каноничность, на соответствие условиям отношения частичного порядка и на степень близости сгенерированного концепта к текущему k-му кубу-концепту.
Работа алгоритма начинается с инициализации множества L(K) и ассоциации его с пустым множеством. Затем, для каждого найденного ранее куба-концепта (Ак,Вк) из Ъ(К) формируется контрольное множество min для проверки степени близости в решетке сгенерированного и текущего кубов-концептов.
Рисунок 5.2 - Блок-схема алгоритма формирования решетки кубов-концептов £(К)
Для каждого измерения из множества Б происходит проверка принадлежности /-го измерения объему Ак. В случае если ^ Е Ак, то переходим к обработке следующего измерения. Иначе - определяем содержание Вир потенциального надкуба как содержание (результат выполнения операции «'»)
объединения Ак и /-го измерения. Другими словами, проверяем существование куба-концепта с большим объемом, содержащего /-е иземрение, относительно Ак. Затем определяем Аир - объем потенциального надкуба. С помощью контрольного множества min проверяем близость потенциального надкуба к текущему k-му кубу-концепту. Если объем Аир потенциального надкуба, помимо измерений Ак и /-го измерения, содержит другие показатели из множества min, то контрольное множество редуцируется путем исключения из него /-го измерения. Иначе -найденный куб-концепт (Аир,Вир) считается надкубом для (Ак,Вк) и ребро
((Аир, Вир), (¿к, Вк)) добавляется в решетку L(K).
Затем переходим к обработке следующего измерения, пока не достигнем последнего из множества D, и к обработке следующего куба-концепта, пока не достигнем последнего из множества Ъ(К). Таким образом, частично упорядоченное множество кубов-концептов образует решетку, представляющую кластерную многомерную модель.
Адаптация концептуальной решетки при добавлении объектов анализа (показателей и измерений) в контекст заключается в генерации новых (дополнительных) кубов-концептов, содержащих добавленный объект анализа. Алгоритмы формирования концептов при добавлении показателя или измерения симметричны: при добавлении измерения выполняется последовательный сравнительный анализ содержаний, ранее обнаруженных кубов-концептов и содержания добавленного измерения; при добавлении показателя выполняется последовательный сравнительный анализ объема, ранее обнаруженных кубов-концептов и объема добавленного показателя. Сравнение нового объекта анализа с уже имеющимися кубами-концептами может привести к двум различным результатам: сравнение части куба-концепта с новым объектом анализа ведет к появлению нового куба-концепта и сравнение части куба-концепта с новым объектом анализа ведет к добавлению соответствующего объекта анализа к существующему кубу-концепту. После окончания процесса генерации новых кубов-концептов выполняется адаптация концептуальной решетки кубов-
концептов. Данный алгоритм заключается в определении места сгенерированных кубов-концептов в уже существующей решетке. Для полного включения кубов-концептов в решетку каждый из новых кубов-концептов сравнивается с каждым объектом анализа контекста для установления отношения (связи) подкуб-надкуб с существующими кубами-концептами. В отличие от алгоритма генерации полной решетки, адаптация заключается в проверке только дополненных или новых кубов-концептов.
Для проверки научной гипотезы о том, что контекст КММ обладает особыми свойствами, которые обеспечивают быстрое построение решетки и ее компактность, выполнен сравнительный анализ параметров контекстов различного происхождения, получена оценка скорости генерации решётки и определен ее размер для различных контекстов [223].
Результаты сравнительного анализа параметров скорости генерации контекстов и их свойств подтверждают наличие структурных особенностей контекста КММ, которые обеспечивают быстрое построение решетки и ее компактность. При совпадении размерности, числа ненулевых элементов и плотности контекста сильно отличаются оцениваемые параметры, влияющие на оперативность манипулирования решеткой концептов. Значит, компактность решетки и скорость ее построения определяется внутренними свойствами контекста, наличием структурных взаимосвязей между сущностями моделируемой предметной области.
В ходе исследования выявлены значимые структурные особенности реального контекста КММ. Функциональные зависимости между атрибутами исходных схем хранения находят отражение в иерархических зависимостях между измерениями гетерогенной многомерной модели, а в контексте КММ они принимают вид отношений «обусловленности» в соответствии с современной теорией априорного формирования системы измеряемых свойств в методологии FCA. Наличие отношений обусловленности между измерениями КММ существенно снижает скорость вычисления концептов и уменьшает их количество по сравнению с контрольной моделью. Кроме того, анализ свойств концептов
позволил выявить границы мощности объема и содержания концептов в силу естественных ограничений числа аналитических связей в реальных базах данных.
Результаты проведенного вычислительного эксперимента подтверждают обоснованность представления гетерогенной многмоерной модели в виде решетки кубов-концептов для решения современных задач оперативного анализа данных, требующих быстродействия в условиях большого объема и разнородности обрабатываемой информации.
Предложенное решение позволяет кластеризовать гетерогенную многомерную модель и сгенерировать все возможные варианты аналитических сочетаний показателей и измерений, хранящихся в различных источниках данных, за счет гибридизации концепции многомерного представления и метода анализа формальных понятий.
5.4. Поддержка построения аналитического запроса
Одной из основных задач исследовательского, разведочного, эксплоративного анализа гетерогенных данных является обеспечение поддержки адаптивного манипулирования объектами анализа для построения пользовательского аналитического запроса силами самого лица, принимающего решения.
Аналитический запрос представляет собой полное отношение Q = (X, Y), где X Я D и Y Я М и для V d E X и V mEY верно dRm. Это условие обеспечивает достижение критерия консистентности результатов выполнения запроса (REQCnss). Задача поддержки построения произвольного аналитического запроса может быть сформулирована как определение множеств Х+ Я D\X и Y+ Я M\Y таких, что для
V d+ E Х+ верно d+Rm для всех mEY и V т+ E Y+ верно dRm+ для всех d EX. То есть Х+ и Y+ содержат элементы, которые могут быть добавлены к аналитическому запросу, выраженному отношением Q без нарушения требования
его полноты. Требование полноты обеспечивает консистентность (выполнимость) аналитического запроса. Важно, что при добавлении показателя или измерения к запросу, множества Х+ и Y+ должны быть пересмотрены, так как изменились X и Y.
Работа алгоритма (рисунок 5.3) начинается с определения пустого аналитического запроса (X, Y) = (0,0) и соответствующих ему нижней и верхней границы решетки - (Ainf,Binf) и (Asup,Bsup) - и множеств доступных для добавления в запрос измерений и показателей (Х+, У+). Верхняя и нижняя границы определяют подрешетку, которая соответствует текущему пользовательскому запросу. На первом шаге для пустого запроса подрешетка совпадает с решеткой
W).
Затем пользователь начинает формировать запрос, добавляя в него по одному элементу анализа к. Если пользователь выбрал измерение (к Е Х+), то алгоритм добавляет к к объему запроса, иначе - к содержанию. Добавление измерения требует пересмотра нижней границы подрешетки, а при добавлении показателя пересматривается верхняя граница. Пересмотр границ подрешетки выполняется с помощью служебных функций, запускающих обход решетки в ширину, начиная с выбранного элемента, ища среди предков (ancestor) или потомков (descendant) концепт, у которого к в объеме (extent) или содержании (intent). В соответствии со свойствами решетки такой элемент должен быть только один, поэтому концепт, найденный с помощью служебной функции, сохраняется сразу как новая верхняя или нижняя граница. Содержание уточненной нижней границы определяет множество доступных для добавления в запрос показателей при выборе на текущем шаге измерения.
Рисунок 5.3 - Блок-схема алгоритма поддержки построения аналитического запроса
При выборе показателя множество доступных для добавления в запрос измерений определяется объемом уточненной верхней границы подрешетки. Для определения множества доступных для выбора одноименных элементов
многомерной модели выполняется служебная функция поиска среди предков или потомков второй границы подрешетки концептов, имеющих к в объеме или содержании. Но, в отличие, от предыдущего шага, функция возвращает множество концептов (Уйез и уапс), находящихся на одном уровне относительно границы, объединенный объем или содержание и позволяет найти искомое множество элементов. Алгоритм заканчивает работу по желанию пользователя, когда формирование запроса завершено.
Предложенный алгоритм позволяет осуществлять поддержку построения произвольных аналитических запросов к гетерогенной многомерной модели для проверки гипотезы ЛПР и исследования информационного пространства [297]. Выполнение гетерогенного аналитического запроса сопряжено с его разбиением на подзапросы к отдельным источникам данных и соединением полученных результатов. В рамках постановки задачи ГММ хранит все необходимые данные для построения и выполнения подзапросов: настройки подключения к источнику, адреса доступа к показателям, их связь с измерениями референтного множества и способы обращения к атрибутам измерений.
Выводы к главе 5
Впервые предложен метод гибридизации концепции многомерного моделирования и теории анализа формальных понятий в части кластеризации гетерогенной многомерной модели для поддержки построения произвольных аналитических запросов к объединенному информационному полю (решение Р_аЬ_1). Формальное описание кластерной многомерной модели выступает в роли МС1Ь, а метод построения КММ, включая алгоритм поддержки построения запроса, соответствует рс1Ъ. Предложенное решение является оригинальным в силу постановки задачи.
Гетерогенная модель объединяет элементы данных из разных источников (REQCmpr) и предоставляет их ЛПР в однородном виде (REQHm9n), позволяя
оперативно анализировать данные (REQ0nln), проводить аналитические эксперименты без привлечения аналитиков и специалистов по базам данных (REQslfs). Представление ГММ в виде кластерной многомерной модели как решетки кубов-концептов дает возможность определить все возможные аналитические сочетания, а свойства алгебраической решетки позволяют определять дополнительные элементы, аналитически сопоставимые с ранее выбранными, подсказывая возможные взаимосвязи между объектом управления и факторами влияния, обеспечивая достоверность и согласованность полученных данных (REQCnss).
Предложенное решение Р_ЫЬ_1 можно условно сравнить с классическими алгоритмами генерации рекомендаций Р_ЫЬ_2 с помощью шкал оценок функции £ для вариантов реализации этапов ИАППР:
С(Р_С1Ь_1) = (1,1,1,1,1) С(Р_ЫЬ_2) = (0,1,1,0,0).
Результаты сравнения свидетельствуют о том, что предложенное в работе решение для этапа построения глобальной модели предпочтительнее косвенного аналога, так как \\С(Р_Ехг_1)\\ > \\С(Р_Ехг_2)\\.
Следующим шагом процесса информационно-аналитической поддержки принятия управленческих решений является сопровождение выбора способа визуализации результатов выполнения произвольных аналитических запросов без предъявления высоких требований к знаниям ЛПР в части построения аналитических представлений.
Глава 6. ИНФОГРАФИЧЕСКОЕ МНОГОМЕРНОЕ МОДЕЛИРОВАНИЕ
Настоящая глава посвящена исследованию понятия инфографики и инфографического моделирования, анализу подходов и решений для визуализации результатов аналитической обработки данных и выработки оригинального алгоритма поддержки построения инфографической модели. Формально задача визуализации заключается в поддержке пользователя в выборе способа представления результатов выполнения произвольного аналитического запроса Q = (X, Y), где X Q D - множества измерений, а Y Q M - множества показателей гетерогенной многомерной модели. Искомая модель М1п^ послужит описанием способа визуализации, а морфизм pInf задаст порядок выбора графического представления для Q.
6.1. Визуализация данных
Для принятия обоснованных решений необходимо учитывать множество факторов, собирать и упорядочивать неструктурированную информацию, объединять существующие источники данных, обрабатывать полученную информацию и представлять результаты анализа в том виде, который будет стимулировать естественные познавательные (когнитивные) способности лица принимающего решения [224]. Этот процесс называется «информационно-аналитическая поддержка принятия решения», то есть поддержка полного цикла анализа данных, исключая генерацию непосредственно решений. Принятие непосредственно решения остаётся за пользователем.
Традиционно информационно-аналитическую поддержку обеспечивают системы, построенные по технологии OLAP [225]. Технология OLAP представляет собой набор требований, сформулированных доктором Коддом в 1993 году [46]. Эти требования выполняются в соответствии с текущим уровнем развития науки,
технологии и техники. Помимо ключевого требования к многомерному представлению данных, изобретатель OLAP отмечал важность интуитивного манипулирования данными и гибких инструментов построения отчётов. Акцент на этих требованиях обеспечил развитие отдельного направления OLAP систем - BI-систем. Аналитические системы, относящиеся к классу BI, изначально ориентированы на пользователя, который является специалистом только в прикладной области и не имеет специальных знаний в программировании или проектировании баз данных. Эти системы обеспечивают анализ бизнес-данных, поиск закономерностей, получение новых знаний об объекте исследования, которые ложатся в основу управленческих решений и конкурентных преимуществ организации.
Обилие научных публикаций, посвященных развитию технологии OLAP, и продолжающийся рост рынка BI-систем свидетельствует, что предел эффективности реализации требований технологии OLAP ещё не достигнут и тема разработки новых методических, алгоритмических и программных средств информационно-аналитической поддержки принятия решений актуальна. Описанные выше этапы предлагаемой технологии информационно-аналитической поддержки принятия решений позволяют ЛПР без привлечения третьих лиц самостоятельно выбрать полезные для проверки аналитической гипотезы информационные ресурсы, объединить их на структурном уровне без физического перемещения данных и исследовать полученное обширное информационное поле, проверяя свои догадки и обнаруживая неожиданные аналитические связи. Логичным продолжением выстраиваемой теории является разработка подхода к оперативной поддержке пользователя на этапе выбора способа графического представления результатов аналитического эксперимента в зависимости от структуры и свойств полученного набора данных.
По мнению А. А. Вербицкого, «процесс визуализации — это свертывание мыслительных содержаний в наглядный образ; будучи воспринятым, образ может быть развернут и служить опорой адекватных мыслительных и практических действий» [226]. Инфографика - графический способ представления информации,
упрощающий ее восприятие, позволяет усваивать больше информации, интуитивно выявлять закономерности в данных. В научной литературе термин «инфографическое моделирование» используется в значении визуального представления информации, где статистика или аналитические данные сочетаются с графическими средствами выражения, которые в совокупности сильнее стимулируют естественные когнитивные способности человека [227-229].
Существуют два противоположных подхода к созданию инфографики, расходящиеся в вопросах значимости эстетической составляющей [230]. Один из них называется сюжетным, или повествовательным (narrative). Основоположник подхода - Найгел Холмс, наиболее известен по иллюстрациям в журнале Time с 1978 по 1994 год, названным им «поясняющие иллюстрации» (explanation graphics). Этому подходу свойственно стремление к созданию выразительных для читателя образов, эффектного дизайна и иллюстративности; это способ, который позволяет донести информацию, данные и знания посредством визуальных образов, отображая семантику в графику [72]. Глобальные тенденции развития инфографики сперва в традиционных средствах массовой информации, а затем и в сети Интернет, вылились в обилие информационных постеров, которые заменяют полнотекстовые аналитические статьи. Небольшое количество числовых фактов удобно размесить на картинке [231] или заменить скучный график набором графических образов, в которые можно вложить дополнительный смысл [232]. Преимущества такой инфографики заключаются в более простом и быстром донесении смысла, стимуляции воображения и хорошей запоминаемости информации. Способ подачи информации выбирается интуитивно, исходя из опыта и художественного вкуса дизайнера (художника). Как результат, это не просто получение информации, но и развлечение для читателя. Сферой применения этого подхода (storytelling) можно считать журналистику, блоги, маркетинговые и рекламные материалы [233; 234].
Другой подход — исследовательский (explorative) подход, берущий начало в традициях оформления научных работ. Основоположником данного направления является Эдвард Тафти, автор множества работ по информационному дизайну. Для
подхода характерен минимализм, при котором всё несущественное для передачи информации должно быть опущено, а сама информация должна быть передана максимально точно. Основной целью этого подхода является стремление к донесению сути информации до целевой аудитории. Такой подход оправдан в научной работе, анализе данных, бизнес-аналитике.
Существует ряд инструментов построения инфографики P_Inf_2. Среди них можно выделить online-сервисы, использующие как исследовательский подход, так и сюжетный. К первой группе относится, например, Piktochart.com, который предлагает пользователю шаблоны страниц и диаграмм. Экспорт данных для диаграмм возможен из таблиц (xls, xlsx, csv), либо после установки динамической связи с данными таблиц GoogleSpreadsheet [235-237]. В Piktochart.com прослеживается интересная особенность: в зависимости от количества анализируемых показателей сервис изменяет набор доступных видов диаграмм, подходящих для текущей таблицы. Infogr.am - еще один популярный онлайн-сервис на основе исследовательского подхода, который предлагает использование шаблонов страниц и диаграмм, экспорт данных из таблиц. Как и в Piktochart.com возможны импорт из Excel и установка динамических связей с таблицами из облака
[238].
К явному преимуществу инфограмм, построенных с помощью перечисленных сервисов, относится возможность динамического исследования инфограмм на этапе визуализации. В построенных диаграммах предусмотрена возможность выбора показателя для отображения и выделение показателя (при наведении курсора мыши) для конкретного значения измерения.
Новые подходы к представлению данных разрабатываются учеными в ответ на современные вызовы. Предложены методы визуализации гетерогенных данных
[239], методы многофакторной визуализации [240], способы представления больших связных массивов данных [241], и они решают задачи визуализации картографической информации [242]. Эти разработки находятся на стадии экспериментальной программной реализации или являются частью
специализированных систем и не могут использоваться как универсальные инструменты представления информации.
Ко второй группе сервисов, использующих сюжетный подход, относится Easel.ly, предлагающий использовать существующие макеты для создания инфографики. Фактически он является графическим редактором. Предусмотрено всего 5 типов диаграмм с минимумом настроек, возможен экспорт из Excel [243]. Сервис Creately.com обладает широким функционалом, специализируется как инструмент для создания схем [244]. При этом динамической привязки внешних данных не выявлено. В отличие от Easel.ly частично соответствует принципам исследовательского подхода (схематичность инфограмм).
В рамках сюжетного подхода широко распространена практика подготовки и продажи аналитических обзоров как готовых информационных продуктов, например для специализированных рынков [245]. Они становятся существенным конкурентным преимуществом для ЛПР в выбранной области, но они подготовлены в заранее очерченных рамках и не предполагают дополнений и обновлений. Исключение составляют подписные бизнес-модели предоставления услуг. Крупные компании и корпорации могут позволить себе содержать в штате сотрудников аналитические отделы, которые выполняют такую работу по требованию, или заключать научно-исследовательские контракты с аналитическими агентствами, смиряясь с естественным временным разрывом между постановкой исследовательской задачи и получением ответа - отсутствием оперативности.
Сравнение двух подходов выявляет следующую важную деталь: исследовательский подход подразумевает извлечение нужной информации самим читателем, тогда как повествовательный уже содержит заключение, к которому читатель должен прийти. Инструменты технологии OLAP, как правило, не предлагают готовых заключений, а являются лишь средством для их поиска. Соответственно, исследовательский подход больше, чем сюжетный, подходит для создания аналитической инфографики. Рассмотренные инструменты в части функционала близки к искомому решению, но не выполняют условия критерия
оперативности (REQ0nln), самообслуживания (REQslfs) и консистентности данных (REQCnss), так как предполагают выгрузку данных из системы построения запроса в сторонние форматы и ручную загрузку в сервис. Такой подход затрудняет встраивание решения в общий процесс информационно-аналитической поддержки принятия решения и самостоятельное использование инструментов ЛПР без привлечения аналитиков.
Большинство задач отображения аналитических данных решаются с помощью специализированного проприетарного программного обеспечения, в англоязычной литературе называемого Business Intelligence (BI). Существующие BI-системы реализуют традиционный подход к аналитической обработке данных, заключающийся в извлечении, трансформации и загрузке необходимых данных в централизованное хранилище и построении витрин данных [246], где каждая из витрин данных соответствует одной аналитической задаче и, как правило, создаётся силами специалистов по анализу данных [247]. Конечный пользователь работает с уже подготовленным и предобработанным фрагментом глобального информационного поля и может строить произвольные в рамках витрины аналитические запросы и самостоятельно определять способ визуализации результатов анализа.
Инструменты бизнес-аналитики применяются для детального изучения данных, планирования и прогнозирования, выявления изменений, обнаружения закономерностей и формирования аналитической отчетности P_Inf_3. Результаты анализа данных обеспечивают повышение качества принимаемых решений в экономике [248], здравоохранении [249], страховании [250], сфере HR [251] и др. Внушительный список используемых BI-систем включает QlikView, Tableau, Prognoz Platform, IBM Cognos, Microsoft Power BI, Tibco Spotfire, Pentaho BI, Yandex DataLens, Google Data Studio, Klipfolio, Zoho Analytics, Looker, FineBI. Tableau - это программное обеспечение для визуализации данных и аналитики, которое позволяет пользователям создавать интерактивные и информативные графики, диаграммы и отчеты. Пользователи могут легко импортировать данные из различных источников, таких как Excel, базы данных или веб-серверы. Одним
из основных преимуществ Tableau является его способность работать с большими объемами данных. Программа может обрабатывать миллионы строк данных и строить визуализации в режиме реального времени. Это делает ее идеальным инструментом для анализа больших наборов данных и поиска скрытых трендов и паттернов. Китайскую систему бизнес-аналитики FineBI отличают простота внедрения и технической поддержки, широкие возможности для масштабирования и готовые интеграции с различными источниками данных. FineBI поддерживает интеграцию с большим числом баз данных, включая Clickhouse, обеспечивает кастомизацию интерфейса под задачи пользователя и предоставляет возможность ручного обновления данных в оффлайн-режиме. Чаще других используется Microsoft Excel, который не относится к классу BI-систем, но его функционал позволяет выполнять базовую аналитику, а интерфейс прост и понятен пользователю. Несмотря на различия, процесс визуализации результатов анализа (построения инфографических моделей) в рассмотренных приложениях однотипный и включает этапы выбора типа графика или диаграммы, перетаскивания полей данных на оси графика, настройки параметров отображения (оси, метки, легенда, фильтры).
Проблема P_Inf_3 заключается в том, что пользователю всё ещё приходится разбираться в структуре и свойствах информации, то есть обладать дополнительной квалификацией и навыками обработки данных, для того чтобы построить инфографическую модель для своих данных.
В современном научном сообществе развиваются подходы демократизации инструментов анализа данных (Self-serice BI) [252], обеспечения поддержки эксплоративного анализа (exploratory OLAP) [253; 254] и анализа «больших данных» (Big Data) [255]. Эти идеи лежат в том же русле, что и требования доктора Кодда по интуитивному манипулированию информацией, но уже учитывают возможности современного программного и аппаратного обеспечения и изменившееся отношение к пользователю. Сейчас во главу угла ставится в первую очередь удобство использования программного обеспечения, что требует выхода на новый уровень разработки программного обеспечения [256]. Ученые ищут
способ ответить на один из главных вызовов современности — необходимость обработки больших данных при снижении квалификационных требований к пользователю [247]. С точки зрения поддержки визуализации данных исследования ведутся в направлении наглядного представления структурных особенностей больших OLAP-кубов с помощью генерации 3D изображений [257; 258], в то время как структура аналитического запроса, построенного на основе кластерной многомерной модели, представленного в виде реляционного датасета, позволяет говорить о разработке алгоритмов поддержки построения инфографических моделей с учетом требований наглядности и информативности.
6.2. Построение инфографической модели запроса
Результат выполнения аналитического запроса представлен в виде реляционного датасета [138] и метаданных, Q - конечное непустое множество атрибутов реляционного датасета:
Q = {A1,■■■,An},
где п - число атрибутов (столбцов) датасета. Множество кортежей датасета представлено отношением г (О) :
г (О) Я йот(А1) Х---Х йот(Ап), где йот(Ак) - множество принимаемых значений (домен) атрибута Ак. В классической теории реляционных баз данных атрибут А^ Е Q,i = 1 , \ характеризуется только наименованием, но в рамках разрабатываемой теории атрибут, во-первых, принадлежит одному из множеств Б (измерения) или М (показатели), а во-вторых, обладает дополнительными свойствами (метаданными): тип данных и тип шкалы (номинальный, порядковый, интервальный, нормативный) [134]. На множестве измерений установлено отношение частичного порядка - иерархическая зависимость. Отношение иерархической зависимости соответствует функциональным зависимостям между атрибутами-измерениями и определяет направление агрегации данных. Датасет результата выполнения
пользовательского запроса представим как ц = где ц Е Qнмм -
множеству возможных датасетов, полученных на основе кластерной многомерной модели. Метаданные результата выполнения пользовательского аналитического запроса можно записать как
Я = (X, У),
где X - множество измерений, а У - множество показателей набора данных. Согласно описанию метамодели гетерогенной многомерной модели I — е измерение референтного множества представляет собой пару множеств (А?, йА^), где А9 - упорядоченный набор множеств значений собственных свойств элемента, а йА^ - множество описательных атрибутов. При построении запроса ЛПР выбирает измерение, а затем атрибут (или атрибуты) для формирования итогового датасета результатов анализа. Таким образом множество X состоит из атрибутов, ассоциированных с измерениями из референтного множества с рядом собственных
свойств Я = {йа^где] = 1,А¿|, йа^ представляет ] — й атрибут
I — го измерения, dA множество всех атрибутов ГММ. Каждый описательный
атрибут измерения обладает свойствами, йа^ = \daijk}., где к = 1,Ма. Число собственных свойств атрибутов измерений намеренно введено через переменную (неизвестную), для того чтобы подчеркнуть возможность развития метамодели и добавления новых свойств при необходимости.
Для атрибута Ае Е Q верно, что Ае=(1а.ц, если Ае Е X, то Ае представляет ] —
й атрибут I — го измерения ГММ, е = 1, \Х\, будем говорит атрибут-измерение Q. Атрибут Ае Е Q соответствует показателю из ГММ если
е = \X\ + 1, IД|, то есть Ае Е У, будем говорить атрибут-показатель.
Для построения инфографической модели необходимо учесть следующие свойства атрибутов-измерений: йа^ = п^ - наименование атрибутов измерений, = - тип данных (строка, символ, идентификатор, время, целое число, логический тип) и йа^ = о<^а - признак упорядоченности значений атрибута. Имя атрибута-измерения в запросе соответствует первому имени во множестве референтных измерений, которое считается «титульным» в ГММ. Тип данных
атрибута определяется на этапе построения глобальной модели и отражает аналитические свойства атрибута датасета. Признак упорядоченности принимает значения: true (значения измерения упорядочены) и false (значения измерения не упорядочены). Значение true признака упорядоченности означает, что у атрибута измерения порядковая шкала и его принимаемые значения могут быть упорядочены. Обозначим множество принимаемых значений атрибута-измерения Ае как dom(Ae). На множестве X задано отношение иерархической зависимости между атрибутами Q, наследуемое от отношения HierarchyAssociation в исследовательской многомерной модели источника:
Нг\Х^Х.
Если Ai Е Нг(Ак), то говорим, что Ак определяет Аг. Это означает, что атрибут-измерение Ак может быть агрегирован до Аг - операция roll-up в технологии OLAP, а измерение Аг может быть детализировано до Ак - операция drill-down. Множество Нг(Ак) содержит все атрибуты-измерения, которые определяет Ак.
Формальное описание данных и метаданных датасета, полученного в результате выполнения пользовательского запроса к кластерной многомерной модели, позволяет поставить задачу разработки нового подхода к визуализации датасетов, обеспечивающего обоснованный выбор типа диаграммы, автоматическое определение осей и отображаемых значений P_Inf_l. Разработка нового подхода послужит развитием и апробацией идеи нативной поддержки пользователя в процессе исследования данных в целом и построения инфографических моделей в частности. Рассмотрим распространенные виды диаграмм и их средства передачи информации, которые можно использовать для поддержки ЛПР в выборе способа отображения реляционных наборов данных с различным числом измерений и показателей.
Человеческий мозг устроен так, что при восприятии визуальной информации в первую очередь мы обращаем внимание на тот элемент, который отличается от своего окружения. Человек находит отличия опираясь на такие характеристики, как положение, форма, размер, цвет и положение в пространстве. Использование
возможностей зрительного анализатора при визуализации информации требует учета закономерностей зрительного восприятия, грамотного использования визуальных методов представления информации [269].
Каждый из кортежей г(0) представляет собой единицу информации, для которой выбирается графическая информационная единица [260] исходя из свойств атрибутов Q. Каждая диаграмма обладает своим типом графических информационных единиц и набором выразительных средств. Система координат -обязательный компонент классических диаграмм (гистограмма, график, площадная диаграмма, диаграмма рассеяния), которые разнятся графическими единицами представления информации. Гистограмма - это столбчатый график, который состоит из прямоугольников разной длины и помогает сравнивать числовые данные. График и диаграмма рассеяния отображают данные в виде точек, которые либо объединены в последовательность, либо рассматриваются как самостоятельные элементы. Оси задают шкалу сравнения и предназначены в первую очередь для отображения упорядоченных данных. Дополнительно может быть задана цветовая градация: перечисление цветов позволяет наглядно выделить на диаграмме элементы, относящиеся к разным категориям (гистограмма, круговая диаграмма), а непрерывная цветовая шкала позволяет отразить числовые характеристики (тепловая карта). Размер графических единиц служит для отображения непрерывных данных (пузырьковая диаграмма, круговая или кольцевая диаграмма). Важным свойством является «информационная емкость» диаграммы: сколько информационных единиц и значений категорий она может содержать без утраты информативности. Точечная диаграмма и график поддерживают визуализацию большого числа значений, позволяют оценить вариабельность значений и визуально обнаружить закономерности. Гистограмма, отображающая однотипные данные, позволяет визуализировать много информационных единиц. При добавлении цветовой градации столбцов ее емкость существенно снижается. Круговая (кольцевая) диаграмма предназначена для сравнения данных, относящихся к разным категориям. Ее информативность
снижается с ростом числа категорий. Для больших выборок и для отображения вложенных категорий больше подходит древовидная диаграмма (tree map).
На основе выявленных особенностей различных диаграмм разработан алгоритм поддержки построения инфографической модели для визуализации результата выполнения произвольных пользовательских запросов на основе кластерной многомерной модели. Представим искомую инфографическую модель как MInf = (Q,r(Q),I,P), где I = {lg,lp), а P.Ipx Q. То есть инфографическая модель представлена метаданными аналитического запроса Q (множеством атрибутов), реляционным датасетом r(Q), диаграммой I с ее 1д общими свойствами (характерными для всех диаграмм) и 1р частными, которые определяются конкретным типом диаграммы, а также отношением Р, которое задает взаимнооднозначное соответствие между частными свойствами диаграммы и атрибутами запроса. Алгоритм определения 1р, соответствующий рекомендованному виду диаграммы, и соответствие Р между свойствами модели и атрибутами запроса представлен в виде блок-схемы на рисунке 6.1.
Работа алгоритма начинается с получения метаданных запроса Q в виде множества атрибутов. Предполагаем, что множества X ф 0 и Y ф 0. Первое условие проверяет количество измерений 1X1 в запросе. Если измерение только одно, то важно выяснить, является ли оно порядковым. Для отображения данных с порядковым измерением и одним показателем подходят различные виды графиков (Spline), гистограмм (Sibe-by-Side Bar Chart) и площадная диаграмма (Area Chart). Для визуализации запросов с одним неупорядоченным измерением подходят круговые (Pie) и кольцевые диаграммы (Doughnut). В случае если количество значений измерения превышает 7 (экспертная оценка, которая может быть пересмотрена с накоплением статистики), то алгоритм рекомендует воспользоваться кольцевой диаграммой с отображением первых по величине N категорий (Doughnut with Top N Series) или древовидной диаграммой (Treemap). Если множество Y содержит больше одного показателя при наличии одного упорядоченного измерения, то наиболее информативным способом визуализации
будут диаграмма рассеяния (Scatter) или пузырьковая диаграмма (Bubble). Причем пузырьковая диаграмма позволяет отобразить на 1 показатель больше по сравнению со скатерограммой за счет дополнительного частного свойства «Размер».
Рисунок 6.1 - Блок-схема алгоритма поддержки построения инфографической модели аналитического запроса
Наличие иерархических зависимостей между измерениями позволяет выбрать в качестве инфографической модели иерархическую гистограмму (Drill-Down Chart), доступную в некоторых программных библиотеках визуальных компонентов. Измерение, представляющее временной ряд, в сочетании с двумя дополнительными категориальными измерениями позволяет воспользоваться графиком временной шкалы (Timeline Chart). Комбинации частных свойств диаграмм приведены в таблице 6.1.
Таблица 6.1 - Определение частных свойств диаграммы
Вид диаграммы Множество 1р Возможности соотнесения с X и У
Spline, Sibe-by-Side Bar Chart, Area Chart {«Ось X», «Ось У», «Цвет»} (Ох,х)\хЕХ (Оу,у)\уЕУ (Цвет,х)\ х Е X
Pie, Doughnut, Doughnut with Top N Series, Tree Map { «Цвет», «Значение» } (Цвет,х)\ х Е X (Значение, у)\ у Е У
Scatter {«Ось X», «Ось У», «Цвет»} (Ох,у)\уЕУ (Оу,у)\уЕУ (Цвет,х)\ х Е X
Bubble {«Ось X», «Ось У», «Цвет», «Размер»} (Ох, а)\ аЕУ или а Е X (Оу,у)\уЕУ (Цвет,х)\ х Е X
Drill-Down Chart {«Ось X», «Ось У», «Цвет», «Детализация Оси X»} (Ох,х)\хЕХ (Оу,у)\уЕУ (Цвет,х)\ х Е X (Детализация, х)\ х Е X
Timeline Chart {«Временная шкала», «Линия», «Цвет», «Значение»} (Вр. шкала, х)\ х Е X (Линия, х) \ х Е X (Цвет,х)\ х Е X (Значение, у)\ у Е У
Разработанный алгоритм и описанное соответствие визуальных средств передачи информации элементам многомерной модели позволяет автоматизировать процесс поддержки выбора диаграмм для представления ЛПР результатов исследовательского анализа гетерогенной многомерной модели.
Выводы к главе 6
Впервые предложен алгоритм поддержки построения инфографической модели для визуализации результата выполнения произвольных пользовательских запросов на основе анализа аналитических ролей элементов в концепции многомерного представления данных Р_1п[_1. Алгоритм предлагает пользователю наиболее информативный способ представления выбранного набора элементов данных для информационно-аналитической поддержки принятия решений, в отличие от существующих подходов, оставляющих выбор и настройку визуализации за пользователем. Предложенный алгоритм определяет морфизм и задает переход от МС1Ь к М1п^ - инфографическую модель.
Предложенный алгоритм разработан с учетом принципа однородности данных за счет абстрагирования от предметной составляющей данных и акцентировании внимания на роли атрибутов в концепции многомерного представления (REQHm9n). Требование информационной полноты (REQCmpr) выполняется за счет поддержки построения произвольных аналитических запросов к гетерогенной многомерной модели на предыдущем этапе. Критерии оперативности (REQ0nln) и самообслуживания (REQslfs) удовлетворены благодаря выработке именно автоматизированной поддержки построения и настройки отображения инфографических моделей. Достоверность предоставляемой ЛПР информации (REQCnss) обеспечивается на этапе построения аналитического запроса к КММ и теоретическим обоснованием выбора средств визуализации.
Оценка существующих решений и решения, предложенного в рамках настоящей работы, в соответствии со шкалами оценок функции £ имеет вид:
С(Р_1пГ_1) = (2,2,2,2,2), С(Р_1п/_2) = (1,1,1,1,0), С(Р_1пГ_3) = (1,1,0,1,1).
Алгоритм поддержки построения инфографической модели более предпочтителен по сравнению с существующими решениями для визуализации
результатов аналитической обработки данных, предпочтительнее существующих так как \\G(PJnf_1)\\ > \\G(PJnf_2)\\ и \\G(PJnf_1)\\ > \\G(P_Inf_3)\\.
В совокупности объекты категории Ob С = {Н, MExt, MInt, MMrg, MGlb, MInf} и множество морфизмов категории С Мог С = {pExt,plnt,pMrg,pGlb,plnf} составляют новую технологию информационно-аналитической поддержки принятия решений на основе федерализации разнородных данных, которая в большей мере чем существующие инструменты соответствует современным критериям оценки результативности обработки информации (таблица 6.2).
Таблица 6.2 - Сравнительная оценка технологических решений
Этапы и решения\ Критерии оценки Однородность Полнота Оперативность Консистентность Доступность Суммарная оценка
1 2 3 4 5 6 7
Формирование информационной базы
Конструктор систем сбора данных (pExt) 3 3 3 2 3 14
Разработка специализированной системы 1 2 1 1 2 7
Табличные редакторы 1 3 2 2 2 10
Структурирование данных
Исследовательская многомерная модель (pInt) 2 3 3 3 3 14
Метамодель хранилища данных 2 2 2 2 1 9
Модель факт-измерение 1 1 1 1 1 5
Слияние разнородных источников
Гетерогенная многомерная модель (Рмгд) 3 3 2 3 3 14
Онтологическая глобальная модель 3 0 2 2 0 7
Извлечение-трансформация-загрузка 3 1 1 2 1 8
Продолжение таблицы 6.2.
1 2 3 4 5 6 7
Построение глобально модели
Кластерная многомерная модель (Рель) 1 1 1 1 1 5
Рекомендательная система 0 1 1 0 0 2
Визуализация результатов анализа
Построение инфографической модели (Р/п/0 2 2 2 2 2 10
Инструменты бизнес-аналитики 1 1 0 1 1 4
Сервисы построения инфографики 1 1 1 1 0 4
Суммарная оценка G входной функции Р, имеющей вид композиции Мог С в порядке, соответствующем этапности процесса ИАППР, составила
\\G(Plnf 0 Pcib 0 Рмгд 0 Pint 0 PExt)\\ = 57, что больше, чем оценка любых других комбинаций существующих решений, даже в сочетании с предложенными. Максимизация функции оценки G(P) достигается только при комплексном применении авторской технологии.
Практические примеры использования предложенных моделей, методов и алгоритмов приведены в следующей главе.
Глава 7. ПРАКТИЧЕСКОЕ ИСПОЛЬЗОВАНИЕ РЕЗУЛЬТАТОВ ДИССЕРТАЦИОННОЙ РАБОТЫ
Настоящая глава призвана продемонстрировать практическую значимость полученных теоретических результатов и описать задачи, которые могут быть решены с помощью предложенной технологии информационно-аналитической поддержки принятия решений, включающей методическое и алгоритмическое обеспечение для структурирования неструктурированных данных, выявления аналитический связей между элементами источников данных независимо от формата, слияния аналитических многомерных моделей разнородных источников и кластеризации обширной гетерогенной многомерной модели данных для поддержки оперативного построения произвольных аналитических запросов. Список областей принятия решения, где были применены результаты диссертации в разрезе этапов процесса информационно-аналитической поддержки, представлен в таблице 7.1.
Таблица 7.1 - Тепловая карта внедрения результатов диссертации (серый цвет -
этап автоматизирован, белый цвет - этап не автоматизирован)
Область принятия решений ЕхЬ Ш Мгд ЫЬ 1п/
Управление результативностью научной деятельности учреждения
Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.