Контекстно-ориентированная поддержка принятия решений при конфигурировании производственных систем тема диссертации и автореферата по ВАК РФ 00.00.00, доктор наук Шилов Николай Германович
- Специальность ВАК РФ00.00.00
- Количество страниц 271
Оглавление диссертации доктор наук Шилов Николай Германович
Введение
1 Проблема поддержки принятия решений при конфигурировании производственных систем
1.1 Производственные системы и проблемы поддержки принятия решений при их конфигурировании
1.2 Нейросетевые подходы к поддержке принятия решений в задачах конфигурирования
1.3 Методы генеративного дизайна в задачах конфигурирования
1.4 Выводы по главе
2 Методологические основы контекстно-ориентированной поддержки принятия решений при конфигурировании производственных систем
2.1 Постановка проблемы конфигурирования производственных систем
2.2 Методология контекстно-ориентированной поддержки принятия решений при конфигурировании производственных систем
2.3 Представление знаний о сложных системах при поддержке принятия решений
2.4 Анализ поведения лица, принимающего решения
2.5 Информационная и концептуальная модели методологии контекстно-ориентированной поддержки принятия решений при конфигурировании производственных систем
2.6 Выводы по главе
3 Представление знаний о производственных системах с помощью мультиаспектных онтологий
3.1 Представление знаний в мультидоменных экосистемах
3.2 Интеграция знаний о производственных системах на основе мультиаспектных онтологий
3.3 Методология построения мультиаспектных онтологий
3.4 Онтологическая модель конфигурации производственной системы
3.5 Выводы по главе
4 Методы контекстно-ориентированной поддержки принятия решений при конфигурировании производственных систем
4.1 Метод учета предпочтений лица, принимающего решения, основанный на гранулярном представлении информации
4.2 Метод поддержки принятия решений с использованием графовых нейронных сетей
4.3 Нейро-символические модели для поддержки принятия решений при конфигурировании производственных систем
4.4 Анализ степени доверия к нейро-символическим моделям
4.5 Метод генерации альтернативных конфигураций производственных систем на основе генеративного дизайна
4.6 Выводы по главе
5 Реализация методов и моделей контекстно-ориентированной поддержки принятия решений при конфигурировании производственных систем
5.1 Сервис-ориентированная технологическая структура рекомендательной системы для конфигурирования производственных систем
5.2 Онтолого-ориентированная поддержка принятия решений для автоматизированного обслуживания полупроводникового производства
5.3 Интеллектуальная поддержка принятия решений при конфигурировании сложных изделий
5.4 Использование метода генерации альтернативных конфигураций на основе генеративного дизайна
5.5 Метод поддержки принятия решений с использованием графовых нейронных сетей
5.6 Контекстно-ориентированная поддержка принятия решений при конфигурировании логистической сети
5.7 Выводы по главе
Заключение
Список литературы
Приложение 1. Список работ, опубликованных автором по теме диссертации
Приложение 2. Фрагменты блокнота, иллюстрирующего работу модуля интеллектуальной поддержки принятия решений при конфигурировании сложных изделий
Приложение 3. Фрагменты блокнота, иллюстрирующего работу модуля классификации графов с помощью нейронной сети
Приложение 4. Фрагменты блокнота, иллюстрирующего работу модуля классификации графов с помощью нейронной сети с семантической функцией потерь
Приложение 5. Фрагменты блокнота, иллюстрирующего работу модуля классификации графов с помощью нейронной сети с символьной предобработкой данных
Приложение 6. Акты внедрения результатов диссертационного исследования
Рекомендованный список диссертаций по специальности «Другие cпециальности», 00.00.00 шифр ВАК
Контекстно-ориентированное управление знаниями для персонифицированной поддержки взаимодействия участников производственных сетей2008 год, кандидат технических наук Кашевник, Алексей Михайлович
Методы, модели и технология обеспечения жизнеспособности интеллектуальных систем с декларативными базами знаний2021 год, доктор наук Шалфеева Елена Арефьевна
Методы, модели и технология обеспечения жизнеспособности интеллектуальных систем с декларативными базами знаний2021 год, доктор наук Шалфеева Елена Арефьевна
Разработка моделей для интеллектуальной поддержки принятия решений при конфигурировании виртуальных предприятий2005 год, кандидат технических наук Шилов, Николай Германович
Теоретико-графовые модели, методы и программные средства интеллектуального анализа текстовой информации на примере фольклорных и литературных произведений2022 год, доктор наук Москин Николай Дмитриевич
Введение диссертации (часть автореферата) на тему «Контекстно-ориентированная поддержка принятия решений при конфигурировании производственных систем»
Введение
Актуальность темы диссертации. В настоящее время многократно увеличивается сложность производственных систем, которые в диссертации понимаются в широком смысле (системы, направленные как на производство физических продуктов, так и на предоставление сервисов) и характеризуются наличием подсистем и перекрывающихся аспектов (совокупность элементов и отношений проблемной области, наблюдаемых с некоторой точки зрения). Также растут и потребности в их конфигурировании (частный случай синтеза, ограничивающийся выбором компонентов, их настройкой (определением их параметров) и установлением связей между ними при условии выполнения заданных требований и ограничений) в связи с повышением динамичности среды, в рамках которой они функционируют (их окружения). Появляются новые типы элементов и связей, растет их число и многообразие. В частности, можно отметить появление новых классов систем, а именно киберфизических и социо-киберфизических, а также нового класса продуктов «quantified products» (собирающих информацию о своем функционировании для последующего использования производителем).
Открывающиеся новые возможности для людей и машин извлекать дополнительную пользу из большого объема доступных данных и разнообразных связей вместе с растущей динамичностью систем (в том числе растущей необходимостью быстрого реагирования на изменения условий их окружения) приводят к актуальности автоматизации процессов принятия решений в области конфигурирования производственных систем на этапе их проектирования или перепроектирования. В свою очередь, это приводит к необходимости разработки новых подходов, моделей, методов для Поддержки Принятия Решений (ППР), которые должны учитывать не только разнообразие таких систем, их комплексность и динамику, но и комплексность и динамику их окружения (контекст конфигурирования).
Рассматриваемые системы и их окружения характеризуются необозримо большим числом связей и элементов, взаимозависимостью элементов (замена типа или параметров одного элемента влияет на его связи с другими элементами, их типы и характеристики), многообразием типов связей (например, физические, информационные, социальные, ...) на разных уровнях системы и взаимным влиянием связей друг на друга. В связи с этим, Лицу, Принимающему Решения, (ЛПР) невозможно оценить все значимые составляющие задачи поиска и оценки эффективной конфигурации, а построение математической модели такой системы становится практически нереализуемой задачей. Таким образом, существующие решения в области ППР при конфигурировании современных производственных систем, в большой степени ориентированные на интуицию и опыт ЛПР, не соответствуют практическим потребностям, что
приводит к необходимости разработки нового подхода к организации ППР при их конфигурировании.
Степень разработанности темы. В настоящее время системы ППР в области конфигурирования производственных систем на этапе их проектирования или перепроектирования, как правило, ориентированы на решение частных задач конфигурирования (конфигурирование отдельных подразделений, процессов). Для решения таких задач накоплены большие объемы данных и разработаны эффективные математические аппараты. В то же время, задача конфигурирования производственной системы в целом, как правило, остается нерешенной.
Научная проблема ППР при конфигурировании систем (в том числе и производственных) является актуальной уже в течение достаточно продолжительного времени. Среди исследователей, занимавшихся конфигурированием систем, можно назвать таких как Дж.А. Робинсон, С.Ю. Маслов, Р.Л. Акофф, А. Кузиак, Дж. Клир, А.Д. Цвиркун, М. Месарович, Р.М. Юсупов, Б.В. Соколов, Л.Б. Шереметов [2, 106, 113, 186, 204, 294, 295, 301, 306, 320]. Однако, объект конфигурирования в данных работах рассматривается, как правило, как единый объект, что плохо применимо к рассматриваемым производственным системам ввиду их сложности. Существенно меньшее количество авторов делают акцент на многоуровневой структуре систем (например, Ю.И. Черняк, А.В. Смирнов, А.Н. Данчул, С.К. Андрюшкевич) [260, 274, 310, 322], но и в этих работах уделяется недостаточно внимания интеграции существующих моделей ППР в процессы конфигурирования.
Таким образом, существует противоречие, заключающееся в том, что уровень развития теоретических основ в области создания систем ППР для конфигурирования производственных систем не соответствует практическим потребностям. Данное противоречие определяет важность и значимость решения научной проблемы создания основ прикладной теории поддержки принятия решений при конфигурировании производственных систем высокой сложности на этапе их проектирования или перепроектирования с учетом текущей ситуации.
Целью диссертационной работы является повышение эффективности принятия решений при конфигурировании производственных систем за счет разработки новых моделей и методов, обеспечивающих семантическую интеграцию с существующим модельно-алгоритмическим аппаратом, учитывающих контекстную информацию о самих системах и их окружении, а также позволяющих повысить уровень автоматизации и интеллектуализации процессов принятия решений.
В качестве критериев достижения цели рассматриваются непосредственно влияющие на производительность труда ЛПР сокращение его временных затрат и снижение нагрузки на ЛПР
за счет автоматизации отдельных этапов ППР при конфигурировании производственных систем при условии сохранения (или повышения) качества решений.
Для достижения поставленной цели в работе сформулированы и решены следующие основные научные и научно-технические задачи:
1. Анализ основных направлений исследований в области поддержки принятия решений, представления знаний о производственных системах и их конфигурировании.
2. Разработка методологии контекстно-ориентированной поддержки принятия решений при конфигурировании производственных систем на этапе их проектирования или перепроектирования.
3. Разработка модели представления знаний, позволяющей описывать системы рассматриваемого класса, а также методологии создания такой модели с использованием существующих информации и знаний.
4. Разработка онтологической модели представления производственной системы, позволяющей обеспечить семантическую интероперабельность существующих моделей ее компонентов и снизить размерность задачи ее конфигурирования при сохранении уровня детализации моделей компонентов.
5. Разработка метода учета предпочтений лица, принимающего решения, для поддержки принятия решений при конфигурировании производственных систем.
6. Разработка метода поддержки принятия решений при конфигурировании производственных систем с применением машинного обучения и учетом возможного недостатка обучающих данных.
7. Разработка метода генерации альтернативных конфигураций производственных систем с использованием генеративного дизайна.
8. Разработка технологической структуры рекомендательной системы для контекстно-ориентированной поддержки принятия решений при конфигурировании производственных систем.
Объектом исследования в диссертационной работе является поддержка принятия решений при конфигурировании производственных систем.
Предметом диссертационного исследования являются элементы поддержки принятия решений, а именно модели и методы представления и интеграции знаний о производственной системе и лице, принимающем решения, персонализации его поддержки, генерации альтернативных решений и их оценки.
Научная новизна работы обусловлена тем, что в ней:
1. Предложена оригинальная методология контекстно-ориентированной поддержки принятия решений при конфигурировании производственных систем высокой сложности на
этапе их проектирования или перепроектирования, учитывающая контекст конфигурирования и предпочтения ЛПР, позволяющая осуществлять представление проблемной области в интерпретируемом виде и базирующаяся на технологиях машинного обучения, генеративного и нейросимволического искусственного интеллекта.
2. Разработана модель представления знаний с помощью мультиаспектных онтологий, обеспечивающих интеграцию разнородных аспектов проблемной области в общую онтологию и отличающихся возможностью сохранения их независимости и внутренних формализмов и возможностью повторного использования существующих методов решения задач конфигурирования элементов производственных систем, а также предложены нотация описания и методология построения таких онтологий.
3. Разработана онтологическая модель конфигурации производственной системы, позволяющая не только описывать структуру системы, ее компоненты и их поведение, но и поддерживающая активные механизмы конфигурирования, а также обеспечивающая семантическую интероперабельность аспектов.
4. Разработан оригинальный метод учета предпочтений ЛПР, основанный на гранулярном представлении информации и позволяющий количественно оценивать надежность предпочтений в зависимости от ситуации.
5. Разработан метод поддержки принятия решений при конфигурировании производственных систем с применением нейросетевого подхода, основанный на использовании графовых нейронных сетей и нейросимволического интеллекта, позволяющий повысить качество нейросетевых моделей, в том числе при недостатке обучающих данных.
6. Разработан оригинальный метод генерации альтернативных конфигураций производственных систем на основе генеративного дизайна, основанный на использовании генеративной нейросетевой модели и отличающийся наличием композитного дискриминатора, объединяющего свойства нейросетевого и аналитического подходов.
7. Предложена сервис-ориентированная технологическая структура рекомендательной системы для поддержки принятия решений при конфигурировании производственных систем, отличающаяся возможностью использования сторонних сервисов, предоставляющих различную информацию и методы решения типовых задач, а также способностью формировать персонализированные рекомендации проактивно.
Теоретическая значимость результатов, полученных в данной диссертации, состоит в разработке оригинальных теоретических положений (концепций, подходов, моделей и методов) организации процессов поддержки принятия решений при конфигурировании производственных систем, позволяющих повысить их эффективность в части сокращения временных затрат лица,
принимающего решения, и снижения нагрузки на него за счет автоматизации отдельных этапов процессов принятия решений.
Практическая значимость работы. Предложенные методы и модели поддержки принятия решений при конфигурировании производственных систем могут быть использованы при разработке систем поддержки принятия решений, внедрение которых позволит предоставить лицу, принимающему решения, программные инструменты, обеспечивающие информационную поддержку, позволяющую не только повысить качество процессов принятия решений, но и улучшить сами принимаемые решения, что подтверждается реализацией результатов работы в ряде проектов.
Методология и методы исследования. Для решения поставленных задач в работе используются методы теории множеств и отношений, управления онтологиями, теории принятия решений, управления контекстом, системного анализа, формирования рекомендаций и машинного обучения.
Положения, выносимые на защиту:
1. Методология контекстно-ориентированной поддержки принятия решений при конфигурировании производственных систем высокой сложности на этапе их проектирования или перепроектирования.
2. Мультиаспектные онтологии, нотация их описания и методология их построения.
3. Онтологическая модель конфигурации производственной системы.
4. Метод учета предпочтений лица, принимающего решения, основанный на гранулярном представлении информации.
5. Метод поддержки принятия решений при конфигурировании производственных систем с использованием графовых нейронных сетей и нейро-символического интеллекта.
6. Метод генерации альтернативных конфигураций производственных систем с использованием генеративного дизайна.
7. Сервис-ориентированная технологическая структура рекомендательной системы для поддержки принятия решений при конфигурировании производственных систем.
Обоснованность и достоверность научных положений, основных выводов и результатов диссертационной работы обеспечивается анализом состояния исследований в проблемной области, согласованностью теоретических выводов с результатами экспериментальной проверки предложенных в ходе выполнения работы моделей и методов в ряде практических реализаций результатов, а также апробацией основных теоретических положений диссертации в печатных трудах и докладах на международных научных конференциях.
Апробация результатов работы. Результаты диссертационного исследования представлялись на международных конференциях ассоциации открытых инноваций ЕЯиСТ:
Тампере, 2022; Оулу, 2021; Ярославль 2020; Москва 2019, международных конференциях «Computational Methods in Systems and Software (CoMeSySo): Щецин, 2022, 2020; «International Conference on Innovative Intelligent Industrial Production and Logistics (IN4PL)»: Валетта, 2022; онлайн 2020; «International Conference on Business Information Systems (BIS)»: Севилья, 2019; Берлин, 2018; «Deep Learning Theory and Applications (DeLTA)» (Рим, 2023); «25th International Conference on Enterprise Information Systems (ICEIS)» (Прага, 2023); «14th IFAC Workshop on Intelligent Manufacturing Systems (IMS)» (Тель-Авив, 2022); «6th International Scientific Conference "Intelligent Information Technologies for Industry" (IITI)» (Санкт-Петербург, 2022); «IFIP Working Conference on The Practice of Enterprise Modeling (PoEM)» (Рига, 2021); «7th International Conference on Decision Support System Technology» (Лафборо, 2021); «12th International Joint Conference on Knowledge Discovery, Knowledge Engineering and Knowledge Management» (онлайн-конференция, 2020); «9th International Conference on Cloud Computing and Services Science (CLOSER)» (Ираклион, 2019); «International Conference on Product Lifecycle Management (PLM)» (Москва, 2019); «9th IFAC Conference on Manufacturing Modelling, Management and Control (MIM)» (Берлин, 2019); «Joint Ontology Workshops (JOWO) 2019 Episode V: The Styrian Autumn of Ontology for WINKS-2 - Second Workshop on INteraction-based Knowledge Sharing» (Грац, 2019); «11th International Conference on Knowledge Engineering and Ontology Development (KEOD)» (Вена, 2019); «11th Workshop on Information Logistics and Digital Transformation (ILOG)» (Катовице, 2019); «7th IEEE International Black Sea Conference on Communications and Networking (BlackSeaCom)» (Сочи, 2019); «9th International Conference on Cloud Computing and Services Science» (Ираклион, 2019). По разработанным сервисам был получен международный патент US20120078595A1 «Method and apparatus for ontology matching» от 04.08.2011.
Реализация результатов работы. Исследования, отраженные в диссертации, проведены в рамках НИР: бюджетных тем FFZF-2022-0005 «Разработка теоретических и технологических основ обработки неструктурированных данных, анализа многомодального взаимодействия пользователей и интеллектуальной поддержки целенаправленного коллективного поведения участников в человеко-машинных сообществах» (2022-2024, рук. С.В. Кулешов); 0073-20190005 «Разработка теоретических и технологических основ построения интеллектуальных сервисов, мультимодальных интерфейсов и инфокоммуникационных платформ для человеко-машинного взаимодействия в социо-киберфизических системах» (2019-2021, рук. А.В. Смирнов); НИОКР мероприятия № 1 Плана деятельности исследовательского центра в сфере искусственного интеллекта «Сильный искусственный интеллект в промышленности» Университета ИТМО, в части разработки библиотеки генеративного дизайна социо-киберфизических систем OrGAN (2021-2024), грантов РНФ 22-21-00790 «Методы и модели для систем поддержки принятия решений в области проектирования сложных систем» (2022-2023,
рук. Н.Г. Шилов); 22-11-00214 «Методы онтолого-ориентированного нейро-символического интеллекта при коллаборативной поддержке принятия решений» (2022-2024, рук. А.В. Смирнов); 19-11-00126 «Модели и методы поддержки принятия решений на основе человеко-машинного коллективного интеллекта» (2019-2021, рук. А.В. Смирнов); 16-11-10253 «Методы и модели интеллектуальной поддержки принятия решений на основе человеко-машинных облачных вычислений» (2016-2018, рук. А.В. Смирнов); грантов РФФИ 20-04-60054 «Интеллектуальная поддержка принятия социально-ориентированных оперативных решений при госпитализации в условиях тяжелой эпидемиологической ситуации на основе нечетких кооперативных игр и смарт-контрактов» (2020-2021, рук. А.В. Смирнов); 18-07-01201 «Разработка теоретических основ выявления общих предпочтений групп пользователей для предоставления им контекстной информации при принятии решений» (2018-2020, рук. Н.Г. Шилов); 20-07-00455 «Теоретические и технологические основы интеллектуальной поддержки принятия решений, основанной на использовании обобщенных паттернов моделей жизни пользователей в цифровой среде» (2018-2020, рук. А.В. Смирнов); 18-07-01272 «Разработка теоретических и технологических основ интеллектуальной поддержки принятия решений при комплексном планировании работы городского магистрального транспорта в мегаполисе с учетом предпочтений пассажиров различных социальных групп» (2018-2020, рук. Б.В. Соколов); 15-07-08092 «Разработка теоретических и технологических основ построения проактивных рекомендующих систем для инфомобильных приложений» (2015-2017, рук. Н.Г. Шилов); 15-07-08391 «Контекстно-зависимое комплексное упреждающее моделирование для поддержки принятия решений в транспортных системах» (2015-2017, рук. Б.В. Соколов); 1207-00298 «Интеллектуальная поддержка принятия решений при конфигурировании сложных систем» (2012-2014, рук. Н.Г. Шилов). Результаты, полученные в ходе исследования, применены в НИР, выполненных для компаний Festo SE&Co. KG (2004-2022, ряд проектов в области ППР), Ford Motors (2017-2019, «Connected Car Service for on-Demand Personalized Tours in Smart Destinations»), Nokia (2009-2010, Smart Logistics), а также в учебных процессах Санкт-Петербургского национального исследовательского университета информационных технологий, механики и оптики, Санкт-Петербургского государственного электротехнического университета, Jonkoping University и Linkoping University (Швеция, совместная программа PhD).
Публикации. По материалам диссертации опубликовано 48 печатных работ (нумерация приведена согласно Приложению 1), включая 11 работ в журналах из «Перечня рецензируемых научных изданий, в которых должны быть опубликованы основные научные результаты диссертаций на соискание ученой степени кандидата наук, на соискание ученой степени доктора наук», рекомендованного ВАК («Информационные технологии и вычислительные системы», «Вестник ВГУ. Системный анализ и информационные технологии», «Информатика и
автоматизация» / «Труды СПИИРАН», «Искусственный интеллект и принятие решений», «Информационно-управляющие системы», «Научный вестник НГТУ») [1-11], в том числе 6 единоличных [1, 2, 5, 8, 10, 11], и 37 работ в международных изданиях, индексирующихся в реферативных базах Web of Science и Scopus [12-48], в том числе 3 единоличных [21, 26, 47]. Получен 1 международный патент и 4 свидетельства о регистрации программ для ЭВМ (Роспатент). Полный список публикаций по теме исследования представлен в Приложении 1 диссертации.
Личный вклад автора в основных публикациях с соавторами кратко характеризуется следующим образом: в работах [15, 23, 25, 31, 34-36, 38-40] автору принадлежит концепция мультиаспектных онтологий, нотация их описания и методология их построения; в работах [12, 16, 17, 22, 28, 29, 33] - методы поддержки принятия решений с использованием нейронных сетей, в том числе графовых нейронных сетей; в работах [6, 27, 30, 42, 44, 45] - методы персонализации и учета предпочтений пользователей; в работах [9, 20, 24, 43, 48] - методология построения и сервис-ориентированная технологическая структура системы ПНР; в работах [7, 32, 37] -онтологическая модель производственной системы; в работах [19, 41, 46] - подходы к организации разнородной информации в целях информационной ППР, в работе [14] - сценарий конфигурирования производственной системы. Разработанные автором модели нейро-символического искусственного интеллекта, адаптированные к соответствующим предметным областям, изложены в [3, 4, 13, 18].
Структура и объем работы. Диссертация объемом 271 машинописная страница, содержит введение, пять глав и заключение, список литературы (339 наименований), 21 таблицу, 82 рисунка, 6 приложений.
Во введении приводится обоснование важности и актуальности работы, формулируются основные цели работы, решаемые задачи, определяется научная новизна и указывается практическая ценность результатов работы.
В первой главе определяется проблема ППР при конфигурировании производственных систем, а именно раскрывается сущность понятия производственная система, выявляются основные задачи, возникающие при ППР, а также исследуются вопросы контекстно-ориентированного управления знаниями при информационной поддержке ППР при конфигурировании объектов рассматриваемого класса, в том числе определяется система показателей и критериев эффективности ППР.
Выполняется критический анализ существующих исследований в таких областях как конфигурирование систем; контекстно-ориентированная ППР, включая рекомендательные системы и групповые рекомендательные системы, методы анализа принятых решений (decision mining) и предпочтений; методы описания и синтеза объектов, включая онтологические подходы,
сети ограничений и нейросетевые подходы. Данный анализ позволил сформулировать основные требования к ППР при конфигурировании производственных систем, обобщить существующие подходы к решению отдельных задач, возникающих в процессе ППР, а также оценить их достоинства и недостатки с целью формирования выводов о целесообразности использования тех или иных методов, подходов и технологий в дальнейшей работе.
Во второй главе представлены методологические основы организации контекстно-ориентированной интеллектуальной ППР при конфигурировании производственных систем. Предлагается методология контекстно-ориентированной ППР при конфигурировании производственных систем. Раскрывается сущность понятия мультиаспектной онтологии и описывается процесс ее применения для решения поставленной задачи.
В третьей главе рассматриваются методология и модели интеграции знаний о конфигурируемом объекте на основе мультиаспектных онтологий.
В четвертой главе рассмотрены методы, необходимые для реализации разработанной методологии, а именно метод учета предпочтений ЛИР, основанный на гранулярном представлении информации, метод ППР с использованием графовых нейронных сетей, методы дополнения нейросетевых моделей символьными правилами, формируя нейро-символические модели, метод генерации альтернативных конфигураций с использованием генеративного дизайна.
В пятой главе описана реализация методов и моделей контекстно-ориентированной ППР при конфигурировании производственных систем на ряде примеров.
В заключении сформулированы теоретические и практические положения, достигнутые автором диссертационного исследования.
В Приложениях приведены публикации автора по теме диссертационного исследования, примеры создания моделей машинного обучения, а также акты внедрения результатов диссертационного исследования.
1 Проблема поддержки принятия решений при конфигурировании производственных
систем
1.1 Производственные системы и проблемы поддержки принятия решений при их
конфигурировании
Современные информационные технологии открывают новые возможности в области интеллектуальной поддержки принятия решений. Это особенно актуально в области конфигурирования комплексных систем, сложность которых непрерывно увеличивается. Производственные системы являются характерным примером таких комплексных систем. Среди других примеров можно также отметить ряд как технических (комплексные изделия, сети сенсоров и другие), так и организационных систем (например, сети источников знаний).
Производственные системы как объект конфигурирования предъявляют определенные требования к системам поддержки принятия решений (СППР), и накладывают ограничения на них. Так, необходимо учитывать динамическую природу как самих систем, так и их окружения; СППР должны быть масштабируемыми и легко адаптируемыми к изменяющимся требованиям и условиям, в также должны использовать (извлекать, актуализировать, анализировать, интегрировать) информацию и знания, получаемые из различных источников.
В последние несколько десятилетий промышленные роботы были заняты на физически трудных, опасных или грязных работах таких, как сварка или окрашивание распылением. Такие роботы являлись дорогими, громоздкими и негибкими - они привинчивались к полу и отгораживались для безопасности рабочих. Более современные роботы стали чувствительнее, приобрели новые функциональные возможности и интеллект благодаря усовершенствованиям в областях компьютерного зрения, искусственного интеллекта, компьютерного взаимодействия, сенсоров и исполнительных устройств. Эти роботы проще для работников в программировании и во взаимодействии с ними. Они более компактны и адаптируемы, легко могут быть введены в действие неквалифицированным персоналом. Это позволяет передать производственный труд от человека роботам, а также поручить роботам такие виды обсуживающих работ как уборка или техническое обслуживание. Робототехника сделает возможным появление новых типов хирургических роботов, роботизированных протезов и экзоскелетов, которые позволят людям с ограниченными двигательными возможностями функционировать более полноценно.
Похожие диссертационные работы по специальности «Другие cпециальности», 00.00.00 шифр ВАК
Интеллектуальная поддержка принятия решений в области инженерии требований на основе онтологических моделей представления знаний2020 год, кандидат наук Муртазина Марина Шамильевна
Метод и инструменты поддержки принятия решений по управлению научными исследованиями и разработками на промышленных предприятиях2022 год, кандидат наук Москалева Валерия Дмитриевна
Онтологическая информационная поддержка проектирования в электронных архивах технической документации2015 год, кандидат наук Субхангулов Руслан Айратович
Моделирование информационного взаимодействия когнитивного агента с внешней средой на основе псевдофизических логик и обобщенных ограничений2010 год, кандидат технических наук Калуцкая, Анастасия Петровна
Разработка моделей и методов управления периодическими процессами технического обслуживания на авиаремонтном предприятии2013 год, кандидат наук Федотова, Алена Валериевна
Список литературы диссертационного исследования доктор наук Шилов Николай Германович, 2025 год
Выбор источников
Планирование спринта
Желаемые функции
Фаза разработки
С
Интегра- Приобретение ция знаний
Спринт
Формали- Концептуа-зация лизация
ше
Послеигровая фаза
¡Поддержка]
Анализ
спринта
■--
Расширение
онтологии
Окончательная онтология
Оценка (Интеграция
Документирование
Рисунок 23 - Концептуальная модель методологии AMOD (уточненная [1])
концептуализация онтологии, формализация онтологии, интеграция онтологий и анализ спринта. Планирование спринта связано с выбором из бэклога спринта (упорядоченного перечня желаемых функций) приоритетных работ и принятия решения о том, как они будут реализовываться. Целью приобретения знаний является получение списка терминов, релевантных для моделируемой проблемной области. Для приобретения знаний используются стандартные методы приобретения знаний (интервьюирование, мозговой штурм, метод Дельфи и т.п.). Концептуализация и формализация определяются так же, как и в методологиях МЕТИОКТОЬООУ и №Оп. Интеграция онтологий осуществляется, если надо объединить онтологии, разработанные в разных спринтах. Анализ спринта - совместное обсуждение результатов спринта (что было выполнено, что надо доделать).
На послеигровой фазе производится оценка онтологии и осуществляется ее поддержка. В методологии AMOD оценка связана с проверкой онтологии на непротиворечивость, оценкой ее компетентности, корректности и качества. Для проверки на непротиворечивость предлагается использовать машину логического вывода. Оценка компетентности - экспертная проверка, отвечает ли онтология вопросам компетенции, определенным на предыгровой фазе. Качество и корректность онтологии оценивается экспертами с точки зрения ее согласованности, полноты и понятности (ясности представления знаний для человека). Поддержка онтологии подразумевает ее обновление и корректировку для отображения изменений в моделируемой области знаний.
В течение всего процесса разработки онтологии выполняются так называемые вспомогательные виды деятельности. Они связаны с документированием и управлением конфигурациями. Документируются результаты разработки и оценки онтологии. Документация
содержит человеко-читаемое содержимое онтологии и машиночитаемые аннотации метаданных документации. Результатом документирования является публикация документации в виде web-ресурса. Целью деятельности по управлению конфигурациями является запись всех версий документации и кода онтологии и контроль изменений. Как правило, управление конфигурациями включает в себя четыре вида деятельности, производные от работ, осуществляемых при разработке программного обеспечения: идентификация конфигурации, контроль конфигурации, контроль и аудит конфигурации.
Можно заметить, что все методологии разработки онтологий следуют примерно одной схеме: определение спецификации требований, разработка концептуализации, создание формального представления и программная реализация. В большинстве методологий предполагается или явно вводится оценка разработанных онтологий. С методологиями, не приведёнными в данном отчете, можно ознакомиться в работах [267, 282].
3.3.2 Методология создания мультиаспектных онтологий для поддержки семантической интероперабельности участников систем поддержки принятия решений, основанных на человеко-машинном коллективном интеллекте
На основании анализа методологий разработки онтологий определена общая схема разработки мультиаспектной онтологии, которая затем специализирована применительно к разработке мультиаспектной онтологии для поддержки семантической интероперабельности участников систем поддержки принятия решений, основанных на человеко-машинном коллективном интеллекте.
Спецификой мультиаспектной онтологии является разнородность формализмов представления аспектов проблемной области. Каждый аспект может рассматриваться как самостоятельная проблемная область, входящая в состав некоторой комплексной проблемной области. В мультиаспектных онтологиях проблема разнородности аспектов решается за счет введения в онтологию трех уровней: глобального, аспектного и локального. Глобальный уровень определяет общую терминологию, обеспечивающую возможность обмена знаниями между аспектами. Аспектный уровень поддерживает представление общих частей онтологий аспектов в едином формализме мультиаспектной онтологии. На локальном уровне представлены онтологии аспектов, включенных в мультиаспектную онтологию, непосредственно в формализмах аспектов.
Общая схема разработки мультиаспектной онтологии (рисунок 24) соответствует схеме, которой следуют методологии, описанные ранее (от спецификации требований до программной реализации и оценки). Мультиаспектная онтология создается в четыре этапа. Эти этапы
Этап 1
Спецификация требований
Определение назначения и области действия
Идентификация аспектов
Глобальный уровень
Этап 4
( Оценка -( Интеграция —►[ Реализация -[ Концептуализацйя"}*-
Определение^ глобальных концептов
Этап 3
Аспектный уровень
Определение онтологических фрагментов аспектного уровня
Выбор формализма мультиаспектной онтологии
Выбор среды реализации
I
->{ Реализация
Интеграция аспектного и локального уровней 1
Локальный уровень
Оценка
Приспособление существующей онтологии
"Л
Выбор существующей ^
онтологии J \ ,
Этап 2
Разработка онтологии аспекта
I Оценка |
( s Выбор среды -4 ( \ Выбор
реализации ^ формализма t
<{ Концептуализация ] (i
Спецификация требований
Рисунок 24 - Общая схема методологии разработки мультиаспектной онтологии
поддерживают общую схему, но не предполагают, что конкретный этапа связан с деятельностью по конкретному процессу из схемы.
На первом этапе создается спецификация требований к онтологии, на основании которой фиксируются назначение, область действия и область применения онтологии, и создается представление о видах аспектов, подлежащих включению в онтологию.
Второй этап связан с разработкой онтологий аспектов. Сначала для каждого аспекта разрабатывается спецификация требований к онтологии этого аспекта. Для разработки самих онтологий могут использоваться два сценария: разработка онтологии «с нуля» и использование существующих онтологий. Приоритет отдается использованию существующих онтологий, которые адаптируются под требования к онтологии аспекта, не изменяя исходный формализм этих онтологий. После адаптации производится оценка онтологии аспекта. Учитывая, что исходная онтология была проверена разработчиками, оцениваются согласованность представления измененных концептов и свойств. Представление этих концептов и свойств должно соответствовать представлению, принятому в заимствованной онтологии. Под согласованностью представления здесь понимается проверка правильности и стиля написания имен концептов и свойств, согласованности их грамматических числовых форм, отсутствие
избыточности и т.п. Более подробно такая оценка описана в методологии Protégé [156], где она называется верификацией.
Если подходящих онтологий не найдено, онтология аспекта разрабатывается «с нуля» в соответствии с последовательностью действий, принимаемой большинством методологий разработки онтологий: концептуализация, формализация, реализация и оценка. Так как в настоящее время имеются среды для создания онтологий, вопросы формализации и реализации рассматриваются совместно. Эти вопросы связаны с выбором формализма или языка представления онтологии аспекта и среды реализации, поддерживающей выбранный формализм. Результатом реализации является логическая модель, полученная из концептуальной модели в среде создания онтологий. Полученная модель оценивается на предмет согласованности представления и логической согласованности. Логическая согласованность проверяется машиной вывода, которая поддерживается средой реализации онтологии аспекта.
На третьем этапе определяются фрагменты онтологий аспектов, в которых представлены концепты аспектного уровня и отношения между ними. В качестве таких концептов выбираются те концепты, для которых существуют семантические отображения в концепты онтологий других аспектов.
Фрагменты онтологий аспектов представляются в едином формализме (далее по тексту этот формализм называется формализм мультиаспектной онтологии). В общем случае формализм мультиаспектной онтологии не зависит от способов формализации онтологий аспектов. Формализм и среда для реализации аспектного уровня могут выбираться до разработки онтологий аспектов, параллельно с ней или после нее. Здесь все зависит от целей разработчиков. Если есть много заимствованных онтологий аспектов, реализованных при помощи одного и того же формализма, то иногда имеет смысл формализовывать аспектный уровень в том же формализме. Но эта рекомендация не является обязательной.
Оценка фрагментов онтологий аспектного уровня заключается в проверке соответствия концептуальной модели, которую формализует фрагмент, концептуальной модели онтологии аспекта, на основании которой этот фрагмент создан.
Заключительной процедурой третьего этапа является процедура установки однозначных отношений соответствия между структурными элементами фрагментов онтологий аспектного уровня и структурными элементами аспектных онтологий. Для установки этих отношений используются механизмы, поддерживаемые формализмами аспектных онтологий.
На четвертом этапе создается глобальный уровень мультиаспектной онтологии. Для этого производится идентификация концептов, принадлежащих нескольким фрагментам аспектного уровня. Из этих концептов выбираются концепты, которые будут представлены на глобальном
уровне, и создается структура концептов глобального уровня (соответствует концептуализации) в выбранной среде реализации.
Интеграция онтологий аспектов состоит в установке связующих отношений между концептами глобального уровня и концептами фрагментов онтологий аспектного уровня. Для формализации этих отношений используется формализм мультиаспектной онтологии. Двунаправленные стрелки на рисунке 24 между реализацией и интеграцией означают, что эти процессы взаимосвязаны. В частности, можно интегрировать знания при создании концептуализации, а затем реализовывать полученную концептуализацию, и можно внести (интегрировать) дополнительные знания в уже реализованную онтологию.
Заключительным шагом разработки мультиаспектной онтологии является ее оценка. Она состоит в проверке согласованности представления глобального уровня, отсутствия избыточных связующих отношений и логической согласованности аспектного и глобального уровней. На четвертом этапе проверка логической согласованности заключается в передаче фактов между аспектным и глобальным уровнями посредством связующих отношений.
Взаимоотношения между уровнями мультиаспектной онтологии показываются на примере появления индивида на локальном уровне. При появлении индивида на локальном уровне, принадлежащего классу, входящему в аспектный уровень, этот индивид однозначно транслируется (механизмами локальной онтологии) на аспектный уровень. Далее, логический вывод обрабатывает такие индивиды на глобальном уровне посредством связующих отношений и классифицирует их. Затем, опять посредством связующих отношений, конкретизируются классы аспектных уровней и, в свою очередь, однозначно транслируются на локальные уровни.
3.4 Онтологическая модель конфигурации производственной системы
Материал данного раздела был опубликован автором диссертации в [326].
Проведенный анализ существующих методологий разработки онтологий [58, 155, 319] показал, что этот процесс обычно состоит из 5 шагов: (1) определение цели и проблемной области онтологии; (2) определение понятий и связей, которые должны быть включены в онтологию, а также терминов для их именования; (3) редактирование онтологии; (4) верификация онтологии; (5) валидация онтологии. Эти шаги были использованы в качестве руководства при разработке методологии создания мультиаспектных онтологий для интеллектуальной производственной системы [198]. В итоге была предложена методология на основе следующих шагов:
1. Спецификация требований к интероперабельности для определения цели и проблемной области мультиаспектной онтологии.
2. Спецификация аспектов мультиаспектной онтологии.
3. Разработка онтологий проблемных областей (или повторное использование и адаптация существующих онтологий проблемных областей) для каждого из указанных аспектов ("онтологии аспектов").
4. Интеграция аспектов и формирование «глобального уровня» на основе понятий, которые считаются общими для нескольких аспектов.
5. Верификация онтологии.
6. Валидация онтологии.
Ниже подробно описана реализация данных шагов на примере мультиаспектной онтологии производственной системы.
3.4.1 Цель и проблемная область мультиаспектной онтологии
В рассматриваемом примере, выбранном совместно с экспертами, используются данные из полупроводниковой промышленности и демонстрируются типичные действия, предпринимаемые при отказе оборудования (машины). Полупроводниковая промышленность использует сложные машины, зачастую тесно связанные между собой посредством сетевых технологий. Документирование рабочих процессов в настоящее время все еще требует значительного участия со стороны человека. Обычно оператор машины уведомляется об отклонении значения какого-либо параметра с помощью сообщения об ошибке от машины. Если оператор может легко исправить проблему, она решается немедленно. Однако в большинстве случаев это невозможно из-за высокой степени сложности машин. Поэтому оператор машины регистрирует ее отказ и фиксирует краткое описание проблемы в отчете. Затем уведомляется один из дежурных техников, имеющий необходимую компетенцию. Техник работает над устранением проблемы и составляет отчет о техническом обслуживании после его успешного выполнения. Этот процесс требует много времени и может привести к значительному увеличению среднего времени обнаружения отказа, если описание проблемы оператором является неточным. Целью использования мультиаспектной онтологии является поддержка данного процесса для повышения эффективности процессов принятия решений и сокращения среднего времени обнаружения отказа, а также времени, необходимого для документирования. В примере рассматривается машина для ионной имплантации со встроенным датчиком, который измеряет температуру при создании вакуума. Рабочая температура находится в диапазоне от 300°С до 400°С. Если температура превышает 400°С, то генерируется сообщение об ошибке. В настоящий момент эта проблема не может быть решена без вмешательства оператора машины. Мультиаспектная онтология описывает элементы процесса и связи между ними для поддержки принятия решений: в случае превышения предельного значения температуры должен назначаться соответствующий техник для диагностики и устранения проблемы (непосредственно
через систему, основанную на мультиаспектной онтологии, или на основе ее рекомендации), и генерироваться автоматический отчет посредством связей семантического и физического уровней с информационным.
3.4.2 Спецификация аспектов мультиаспектной онтологии
На основе приведенной выше задачи были определены следующие три основных аспекта мультиаспектной онтологии: (1) аспект автоматизации процессов (process automation domain), отвечающий за определение оборудования, участников производственных процессов, а также других необходимых концептов; (2) аспект датчиков (sensors domain), отвечающий за описание и анализ данных, собираемых датчиками; и (3) аспект документирования (documenting domain), отвечающий за генерацию отчетов об ошибках в случае отказов оборудования.
3.4.3 Разработка аспектных онтологий
Для разработки аспектных онтологий был выбран подход, ориентированный на повторное использование существующих онтологий. Было проанализировано несколько онтологий в качестве потенциальных кандидатов для определения аспектов, и на основе их соответствия рассматриваемой задаче и уровню детализации были выбраны следующие: (1) Core Ontology for Robotics and Automation [60] (базовая онтология для робототехники и автоматизации) была использована для формирования аспекта автоматизации процессов и адаптирована путем внесения незначительных изменений; (2) Semantic Sensor Network [67] Семантическая сеть датчиков) была выбрана для аспекта датчиков и адаптирована путем внесения незначительных изменений; (3) SD3 - Simulation Delivery and Documentation Deviations [339] (отклонения в получении результатов и документировании при моделировании) была выбрана для формирования аспекта документирования и значительно сокращена, поскольку изначально содержала большое число классов, специфичных для медицины.
Обзор полученной онтологии представлен на рисунке 25 и подробно описан ниже: - Аспект автоматизации процессов (A0):
- Класс Object (объект), который является подклассом Physical (физический объект), представляет все физические объекты проблемной области.
- Класс Maintenance_Technician (техник) является подклассом класса Human (человек), который, в свою очередь, является подклассом класса Agent (агент), который, также в свою очередь, является подклассом класса Object. Каждый экземпляр класса Maintenance_Technician может быть связан объектным отношением isCompatibleWith (совместим с) с экземпляром класса Machine (машина), который является подклассом класса Agent. Аналогичным образом определен и класс Operator (оператор).
- Формирование экземпляров класса Repair_Assignment (задание на ремонт) инициируется возникновением неисправности, описываемой в другом аспекте (см. ниже).
Рисунок 25 - Фрагмент таксономии разработанной мультиаспектной онтологии
- Аспект документирования (A1):
- Класс Deviation_report (отчет об отклонении показателя) автоматизирует генерацию отчетов при возникновении неисправности. Экземпляр данного класса формируется сразу после обнаружения отклонения значения температуры. Данная логика заменяет ручную работу по документированию неисправности оператором машины и предоставляет технику точный отчет о том, какой датчик измерил отклонение температуры, в какое время, а также значение отклонения.
- Класс Device deviation (устройство с показателем, имеющим отклонение) описывает конкретные неисправности, вызванные нештатной работой устройства (например, машины).
- Аспект датчиков (A2) описывает структуру системы (класс System, являющийся подклассом класса Physical), включая датчики, которыми она оснащена, и их показания.
- Класс System представлен экземпляром Implantation system (система имплантации), который имеет объектные отношения hassubsystem (имеет подсистему) с экземплярами класса Temp sensor (датчик температуры).
- Класс Sensing_Device (датчик) имеет экземпляр Temp_sensor, который является подсистемой Implantationsystem.
- Класс Temperature (температура) является подклассом SensorOutput (показание датчика). Его экземпляр Hightemprature (высокая температура) формируется экземпляром класса Tempsensor в случае превышения температуры 400°C и автоматически классифицируется как DeviatedTemperature (отклонение температуры) -подкласс класса Temperature (температура), определенный как "value some xsd:decimal[>= 400]" (значение больше или равно 400). Deviated Temperature также является подклассом класса Deviated_Indication.
3.4.4 Интеграция аспектов и формирование "глобального уровня"
Не считая класса Thing («нечто» - родительский класс подавляющего большинства таксономий), только три класса были определены на глобальном уровне (G):
- GCInformationObject (глобальный класс «информационный объект») описывает информационные объекты, представленные различными классами в различных аспектах
- Deviation (глобальный класс «отклонение», подкласс класса GC Information Object) описывает отклонения в различных аспектах. Он связан отношениями эквивалентности с классом Deviated_Indication аспекта датчиков и классом Device_deviation аспекта документирования:
G: Deviation ^ А2: Deviatedjndication
G: Déviation ^ A1:Device_deviation - GCPhysicalObject (глобальный класс «физический объект») описывает физические объекты в различных аспектах. Он связан отношениями эквивалентности с классом PhysicaObject аспекта датчиков и классом Object аспекта автоматизации процессов:
G: GC_Physical_Object ^ А2: PhysicaObject G: GC_Physical_Object ^ А0: Object
3.4.5 Определение правил
SWRL (Semantic Web Rule Language / язык правил семантического веба, объединяющий OWL и RuleML, https://www.w3.org/Submission/SWRL/) - это язык, предназначенный для описания правил в онтологиях OWL. Правила, определенные в SWRL, состоят из антецедента (предпосылки), называемом «телом» правила, и следствия, называемом его «головой», каждый из которых в свою очередь состоит из набора атомов. После атома(ов) антецедента следует знак "->", за которым, в свою очередь, следует атом(ы) следствия.
Для достижения желаемого уровня интероперабельности экспертами были изучены проблемные области и определены и добавлены в соответствующие аспекты правила SWRL. Некоторые из них представлены ниже:
Присваивание значения свойству hasProblem (имеет проблему) экземпляру класса Deviation_report, при наличии отклонения (аспект документирования):
Аг: Device_deviation(? х)ААг: Deviation_report(?у) ^ At: hasProblem(?у, ?х) Присваивание значения свойству hasProblem экземпляру класса SensingDevice, если он предоставляет Deviated_Indication (аспект датчиков):
А2 : Deviated_Indication(? х) ЛА2 : isProducedBy(? х,?у)А А2: SensingDeviceÇ? у) ^
А2 : hasProblem(? у, ? х) Присваивание значения свойству hasProblem экземпляра класса Machine, если у ее компонента есть проблема (аспект автоматизации процессов):
А0: Machine(? х)АА0: hasPart(?х,?у)А А0: hasProblem(?у,?z) ^ А0: hasProblem(?х,?z) Присваивание значения свойству hasAssignment экземпляру класса Maintenance_Technician, если у объекта есть проблема, и техник (экземпляр класса Maintenance_Technician) совместим с этим объектом (аспект автоматизации процессов): А0 : Maintenance _Technician(? х) АА0 : isCompatibleWith(? х, ? у) ЛА0 : hasProblem(? у,? z) ^
А0 : hasAssignment(? х, ? у)
3.4.6 Верификация онтологии
Верификация онтологии была проведена сначала вручную, а затем с использованием двух машин логического вывода, а именно Hermit и Pellet. Были выявлены и исправлены незначительные проблемы, возникшие при интеграции аспектов. Обе машины логического вывода приводили к идентичным результатам без заметной разницы в скорости их работы.
3.4.7 Валидация онтологии
Целью валидации разработанной онтологии является проверка ее соответствия исходным требованиям. Для этого был реализован описанный ранее сценарий.
Рост измеренной температуры выше 400°C приводит к ее классификации как Deviated_Indication в аспекте датчиков и на глобальном уровне. Это, в свою очередь, вызывает появление экземпляра класса Deviation_report в аспекте документирования, который используется для генерации соответствующего отчета. В то же время машина, оснащенная датчиком, предоставившим данные о повышенной температуре, идентифицируется в аспекте автоматизации процессов, и генерируется задание на ремонт технику, обладающему соответствующей компетенцией.
3.5 Выводы по главе 3
1. Выполнен критический анализ подходов к представлению знаний в мультидоменных экосистемах, какими являются информационные ресурсы производственных систем. Рассмотрены как различные структурные решения, так и формализмы представления знаний. Показано, что наиболее целесообразным является использование онтологий с многоуровневой структурой, поскольку, помимо разрешения терминологических проблем, такие онтологии также позволяют сохранять оригинальные формализмы, используемые в онтологиях отдельных проблемных областей. С точки зрения формализма представления знаний в качестве основы разрабатываемой нотации мультиаспектных онтологий целесообразно использование нотации MVP-OWL, поскольку она позволяет использовать различные формализмы для описания аспектов, а также в большей степени ориентирована на создание единой онтологии, объединяющей несколько аспектов.
2. Предложена модель представления знаний с помощью мультиаспектных онтологий, а также нотация описания таких онтологий. Данная модель обеспечивает интеграцию разнородных аспектов проблемной области в общую онтологию и отличается возможностью сохранения их независимости и внутренних формализмов и повторного использования существующих методов решения задач в рамках аспектов.
3. На основе анализа существующих методологий разработки онтологий предложена методология разработки мультиаспектных онтологий. Данная методология ориентирована на минимизацию ручного труда проектировщиков за счет последовательного формирования глобального, локального и аспектного уровня с возвратом на глобальный уровень на этапе завершения разработки онтологии. Также существенным отличием предложенной методологии является акцент на использовании существующих онтологий для формирования локального уровня мультиаспектных онтологий.
4. Предложена основанная на ограничениях онтологическая модель производственной системы на основе описанных выше формализма и методологии. Данная онтологическая модель рассматривает задачу конфигурирования технического обслуживания полупроводникового производства. Показано, что данная модель позволяет не только описывать структуру производственной системы, ее компоненты и их поведение, но и реализовывать активные механизмы конфигурирования, а также обеспечивать семантическую интероперабельность аспектов.
4 Методы контекстно-ориентированной поддержки принятия решений при конфигурировании производственных систем
4.1 Метод учета предпочтений лица, принимающего решения, основанный на
гранулярном представлении информации
В рамках разработанного подхода характеристики пользователей описываются с помощью пополняемых и обновляемых профилей. Использование профилей позволяет осуществлять персонифицированную поддержку пользователей системы. С этой целью были разработаны методы выявления предпочтений пользователей.
Предпочтения выявляются посредством определения задач, наиболее часто решаемых данным пользователем; атрибутов объектов, наиболее часто входящих в выбираемые решения; наиболее часто задаваемых (или избегаемых) пользователем критериев оптимизации. Выявление предпочтений пользователя осуществляется на основании анализа множеств альтернативных решений, сгенерированных системой, и решения, выбранного пользователем из данного множества. Одной из отличительных черт разработанной модели профиля пользователя является наличие в нем информации о предпосылках и последствиях принятых решений, а также предпринятых действий, что позволяет осуществлять функциональный анализ поведения пользователя. В результате такого анализа выявляются типовые для данного пользователя правила выбора решений.
Способы выявления типовых правил выбора решений включают в себя:
1. Выявление типовых правил выбора решений пользователем из множества решений, сгенерированных системой для однотипных задач пользователя (при этом конкретные параметры задач могут быть различными). В этом случае модель решаемой задачи сохраняется, а переменные задачи могут меняться.
2. Выявление типовых правил выбора решений пользователем из множества решений, сгенерированных системой для различных задач пользователя. При этом анализируются различные модели задач, решаемых одним и тем же пользователем.
3. Выявление типовых правил выбора решений пользователем на основе критериев оптимизации, связанных с определением склонности пользователя выбирать решения с минимальными или максимальными значениями переменных задачи (например, оптимизация по времени) или использовать агрегированные критерии.
4. Вышеперечисленные способы выявления типовых правил выбора решений, применяемые не к одному пользователю, а к различным пользователям со схожими профилями (т.е., входящие в одну социальную группу).
Для реализации первых трех способов выявления типовых правил выбора решений разработаны два метода:
1. Метод кластеризации решений. Для сгенерированных системой множеств решений и выбранных пользователем решений, последние группируются в кластеры. На основании полученных кластеров выявляются предпочтения пользователя как общие черты решений (параметры решений, входящие в решения объекты и значения их атрибутов), попавших в один кластер. Для уточнения результатов работы данного метода при накоплении достаточной истории взаимодействия пользователя с системой, группировка решений может осуществляться с учетом контекста ситуации, в которых данные решения были выбраны (в том числе с учетом предпочтений пользователя на момент принятия решений, а также информации о предпосылках и последствиях их принятия).
2. Метод анализа альтернатив. В отличие от предыдущего метода поиска похожих решений, выбранных пользователем, данный метод направлен на анализ различий между выбранными пользователем решениями из множества альтернативных решений и решений, оставшихся в множестве. На основании анализа обнаруженных различий решений с учетом контекста ситуации, в которых решения были выбраны, а именно определении совпадающих отличий выбираемых решений от оставшихся во множествах альтернативных решений, предложенных системой, выявляются типовые правила выбора решений пользователем.
Для реализации четвертого способа выявления типовых правил выбора решений предполагается использование метода выявления типовых правил выбора решений группой пользователей со схожими профилями, основывающегося на подходе коллаборативной фильтрации, используемом при создании рекомендательных систем. Использование данного метода позволит спрогнозировать выбор решения пользователем в ситуации, в которой данный пользователь еще не оказывался, основываясь на ранее принятых решениях схожих с ним пользователей.
Метод учета предпочтений ЛПР основан на гранулярном представлении информации. Предположена реализация профилей ЛПР по гранульному принципу, где гранулами являются тесно связанные фрагменты информации об абстрактном ЛПР, включающие их предпочтения, элементы контекста, а также численное значение связанности от нижнего порога (например, 0,5) до 1, где 1 означает, что данные фрагменты информации неразрывно связаны (например, ЛПР с таким-то предпочтением всегда руководствуется таким-то критерием выбора решения), а 0,5 -связь примерно в половине случаев. Наличие связей и числовые значения связанности вычисляются на основе анализа исторических данных. Далее, на их основе вычисляются персональные предпочтения.
Так, к-ое правило предпочтений (рк) определено следующим образом:
Рк =
{(№, (Ои), (Ох), пСк1, ск1), {Ш (Ои), (Ох), ™Ск2, ск2),... {(О,), (Ои), (Ох), скт)}, где ск1, ск2, скт- первое, второе и п-ое темпоральное ограничения на к-ое правило (временной интервал, на котором действует заданное ограничение), №С , ,^Скп - связанность к-го отношения при выполнении соответственно 1-го, 2-го и п-го темпорального ограничения, (О,) -одно предпочтение или совокупность предпочтений, (Ои) - одна характеристика ЛПР или совокупность характеристик ( Ох Е Р), (Ох) - один элемент контекста или совокупность элементов (Ох Е О).
Особенность гранулярного представления информации заключается в том, что гранулы могут объединяться в более крупные гранулы, что позволяет гибко формировать и обновлять динамически меняющиеся групповые профили при появлении в системе новой информации о пользователях.
Если в грануле нижнего уровня определены такие отношения:
Рк = {{(О}к),(Оик),(Охк), Щк1,Ск1)}, Р1={{(Ол),(Оид,(Ох1),пС11,С11)},
ск1= С1Ъ
то в грануле более высокого уровня можно определить такое отношение:
Рз = {{(Оу5), (Оиз), (Охз), Щк1 • ™с11, С]ц)}.
Генерация рекомендаций выполняется за счет выбора и объединения фрагментов информации, ассоциированных с предпочтениями ЛПР и характеристиками контекста текущей ситуации. При отсутствии информации о предпочтении пользователя для конкретной задачи (контекста) используется предпочтение более высокого уровня (более общей «гранулы»):
Выбирается набор элементов контекста (Ох), имеющий максимальное «перекрытие» с контекстом текущей задачи (О):
V. Ч]\(ОхдПй\ > \(Ох;)Пй\
Выбирается набор характеристик ЛПР (Ои), имеющий максимальное «перекрытие» с текущим ЛПР ( Р):
к. Ч]\(Оик)пР\ > \(О^)ПР\
Выбирается одно или несколько отношений рг, удовлетворяющих условиям выше.
Если связанность условия выше заданного порога, предпочтения данного отношения (отношений) используются при генерации рекомендаций (О, {).
4.2 Метод поддержки принятия решений с использованием графовых нейронных
сетей
Метод поддержки принятия решений при конфигурировании производственных систем с использованием графовых нейронных сетей (ГНС) предполагает, что аспект конфигурации представляет собой кортеж (Ы, С, Б), где
N - вектор элементов длинной п, где каждый элемент соответствует типу элемента (т -число типов элементов), а их количество (п) - максимально допустимому количеству элементов;
С = (С1)1, VI: С^ Е {0,1} - матрицы связей (с - число типов связей) между элементами объекта, размерностью п на п;
Б - вектор переменных длиной па, описывающий контекст проектирования.
В целом, в рамках моделирования предприятий ГНС могут быть использованы при решении следующих четырех типов задач, используя в качестве входных данных весь доступный граф, описывающий модель предприятия [256]:
1. Предсказание ребра: модель ГНС вычисляет возможность или невозможность существования заданного ребра.
2. Классификация ребра: ГНС классифицирует заданное ребро.
3. Классификация вершины: ГНС классифицирует заданную вершину.
4. Классификация графа: ГНС классифицирует весь граф.
Стоит отметить, что "класс" с точки зрения машинного обучения - это не обязательно только класс (или тип) элемента в области моделирования. Этот термин может также применяться к различным другим характеристикам элемента, таким как функции, которые он выполняет, требования, которым он соответствует, или связанные с ним текстовые метки. Кроме того, элемент может быть одновременно отнесен к нескольким классам.
Тогда в рамках моделирования производственной системы, ГНС могут быть применены при решении следующих четырех задач, используя в качестве входных данных весь доступный граф, описывающий модель аспекта М(Ы, С,Б):
р = М(Ы, С, Б), где р может представлять
1. степень уверенности в наличии заданного ребра (связи);
2. степень уверенности в классе ребра;
3. степень уверенности в классе вершины (элемента);
4. степень уверенности в классе всей модели (графа).
Для отображения задач, решаемых ГНС, на процесс моделирования был выбран сценарий моделирования предприятия. Как было указано в обзоре, в настоящее время данный процесс
слабо автоматизирован, а применения для поддержки проектировщика моделей машинного обучения видится перспективным.
Исходя из вышеперечисленных задач, решаемых ГНС, были определены следующие возникающие при моделировании предприятия типовые задачи, которые потенциально могут быть решены с помощью методов машинного обучения, а также описаны способы их решения в процессе поддержки работы проектировщика. Данные типовые задачи и способы их решения были разработаны совместно с представителями университета г. Росток, Германия, специализирующихся в области моделирования предприятий.
1. Рекомендация предположительно существующих ребер (задача ГНС: предсказание ребра): анализируя уже частично построенную модель предприятия, можно случайным образом сгенерировать ряд ребер (или сгенерировать все возможные ребра) и предложить проектировщику те из них, которые существуют с наибольшей степенью уверенности. Такая рекомендация может быть полезна, когда проектировщик добавляет новую вершину в модель, а система поддержки принятия решений должна рекомендовать, с какими уже существующими вершинами модели она должна быть соединена ребром.
2. Выявление предположительно ошибочных ребер (задача ГНС: предсказание ребра): можно оценить степень уверенности в наличии добавленного моделистом нового ребра, и, если она достаточно низка, проектировщику может быть представлено соответствующее предупреждение. Такая рекомендация может быть полезна, когда моделист по ошибке добавляет неправильное ребро (устанавливает некорректную связь между элементами модели), и система поддержки принятия решений должна выявить эту проблему.
3. Рекомендация класса ребра (задача ГНС: классификация ребра): для добавленного проектировщиком нового ребра может быть предложен его предположительный класс (тип ребра, текстовая метка и т.д.). Такая рекомендация может быть полезна, когда проектировщик добавляет новое ребро в модель, и система поддержки принятия решений должна предложить его класс (тип или текстовую метку).
4. Выявление ребер с предположительно неправильными типами или текстовыми метками (задача ГНС: классификация ребра): для добавленного проектировщиком ребра может быть оценена степень уверенности в его типе и/или текстовой метке, и, если она достаточно низка, проектировщику может быть представлено соответствующее предупреждение вместе с рекомендацией более подходящего типа или метки. Такая рекомендация может быть полезна, когда проектировщик по ошибке определяет неправильный тип или метку ребра, и система поддержки принятия решений должна выявить эту проблему.
5. Рекомендация класса вершины (задача ГНС: классификация вершины): для добавленной проектировщиком новой вершины может быть предложен ее предположительный
класс (тип вершины, текстовая метка и т.д.). Такая рекомендация может быть полезна, когда проектировщик добавляет новую вершину в модель, и система поддержки принятия решений должна предложить ее класс (тип или текстовую метку).
6. Выявление вершин с предположительно неправильными типами или текстовыми метками (задача ГНС: классификация вершины): для добавленной проектировщиком вершины может быть оценена степень уверенности в ее типе или текстовой метке, и, если она достаточно низка, проектировщику может быть представлено соответствующее предупреждение вместе с рекомендацией более подходящего типа или метки. Такая рекомендация может быть полезна, когда проектировщик по ошибке определяет неправильный тип или метку вершины, и система поддержки принятия решений должна выявить эту проблему.
7. Предложение вершин (задача ГНС: классификация вершины): система поддержки проектировщика сначала генерирует новую вершину (например, соединенную с только что добавленной проектировщиком вершиной), затем назначает ей класс, после чего оценивается степень уверенности в возможности наличия ребра, соединяющего сгенерированную вершину с имеющейся; если степень уверенности достаточно высока, моделисту рекомендуется добавить соответствующую вершину. Такая рекомендация может быть полезна, когда проектировщик только что определил новую вершину или ребро, а система поддержки принятия решений должна предложить дополнительную вершину, чтобы облегчить и ускорить процесс моделирования.
8. Определение типа модели / контекста моделирования (задача ГНС: классификация графа): эффективность системы поддержки принятия решений существенно зависит от правильного определения класса разрабатываемой модели или контекста моделирования (например, предназначена ли разрабатываемая модель для топ-менеджеров или для ^-отдела). Для этого целесообразно классифицировать создаваемую модель предприятия по заранее определенным классам.
9. Верификация модели, т.е. проверка на согласованность, правильность и соответствие заданным стандартам (задача ГНС: классификация графа): классификация модели предприятия на согласованную/несогласованную, правильную/неправильную, соответствующую заданным стандартам или нет.
10. Валидация модели, т.е. проверка того, что модель соответствует требованиям и поставленной цели (задача ГНС: классификация графа): классификация модели по требованиям и/или целям. При наличии достаточного количества обучающих данных могут быть обучены ГНС, способные выполнять классификацию согласно предопределенным требованиям и целям.
Для повышения качества и релевантности поддержки принятия решений при моделировании предприятий представляется важным знать как можно больше о контексте разрабатываемой модели. Параметрами контекста могут быть цель или назначение модели,
требования к разрабатываемой модели, предметная область, имеющиеся правила и ограничения на модели или предполагаемые потребители. Таким образом, контекст может быть дополнительным входом для моделей машинного обучения.
Поскольку модель высокого качества не гарантирует ее полезность для проектировщика, и наоборот, не очень точная модель может быть полезной в процессе моделирования предприятия, для оценки эффективности предлагаемых решений предложены два подхода.
1. Оценка возможности обучения ГНС как обычных моделей машинного обучения в терминах метрик точности и полноты (precision и recall), то есть оценка возможности обучения модели, ее сходимость и предсказательная способность. В целях тестирования было создан набор моделей предприятий с определенно правильными и неправильными элементами. Из 1000 протестированных элементов правильно классифицировано 962 элемента (точность 96,2%; полнота 93,5%; F1 = 0,956).
2. Проведение экспериментов с участием экспертов в области моделирования предприятий, направленных именно на оценку полезности применения разработанного подхода для конечных пользователей. Для этого были привлечены специалисты в области моделирования предприятий университета г. Росток. Эксперты отметили потенциал метода для поддержки (в первую очередь неопытных) проектировщиков. Рекомендательная функциональность, предлагающая несколько правильных возможных связей, была оценена как адекватная. Рекомендация типов ребер отмечена как наиболее релевантная поддержка для опытного проектировщика. В целом, использование метода позволило сократить время решения поставленных экспертом задач по сравнению с использованием обычной среды проектирования (без рекомендаций). При этом качество итоговых моделей оказалось сопоставимым. Таким образом, использование метода было оценено экспертами положительно и как имеющим значительный потенциал для повышения эффективности поддержки проектировщиков.
4.3 Нейро-символические модели для поддержки принятия решений при конфигурировании производственных систем
Материал данного раздела был опубликован автором диссертации в работе [325].
Подходы к машинному обучению на основе нейронных сетей в последние десятилетия получили широкое распространение. Искусственные нейронные сети активно используются для решения широкого круга задач обработки информации. Однако для практического применения глубоких нейронных сетей требуются значительные объемы обучающих данных, что ограничивает их применение в задачах, где сбор таких данных затруднен или невозможен.
В отличие от нейросетевых (субсимвольных) знаний, существующие символьные знания могут быть легко адаптированы к новым проблемным областям без необходимости обучения
моделей на больших объемах данных. Таким образом, синтез нейросетевой и символьной парадигм представляется весьма перспективным. Такой синтез получил название нейросимволического искусственного интеллекта [65, 189].
Нейросимволический искусственный интеллект включает достаточно широкий спектр методов. В данном разделе рассматривается проблема интеграции априорных символьных знаний в нейросетевую модель для улучшения процесса ее обучения на ограниченном объеме обучающих данных.
В качестве проблемной области рассматривается поддержка принятия решений при моделировании предприятий. Подход к поддержке разработчиков моделей предприятий на основе нейронных сетей был предложен в работе [24], а затем развит в работах [190, 192]. Было показано, что для успешного применения нейросетевых моделей машинного обучения при моделировании предприятий необходимо знание контекста моделирования, в том числе важным является определение класса модели (например, модель бизнес-процесса, модель концептов, модель «продукт-сервис»). Таким образом, в качестве тестового примера для построения и исследования нейросимволических моделей выбрана проблема классификации моделей предприятий. Актуальность применения нейросиволических методов для решения этой проблемы обусловлена, в частности, тем, что в настоящее время отсутствуют доступные наборы данных по моделям предприятий, а растущее применение нейронных сетей в области моделирования предприятий требует повышения эффективности процесса их обучения.
4.3.1 Подходы и архитектуры для интеграции символьных и субсимвольных знаний
В данном разделе представлено описание подходов и архитектур для интеграции символьных и субсимвольных знаний. Более подробный обзор представлен в работе [327].
Интеграция нейронных сетей с символьными знаниями может осуществляться различными способами [270, 279]. В работе [218] выделены четыре различных подхода к интеграции:
1. «Нейросетевое приближение» включает методы, использующие нейронные сети для генерации приближенных выводов в экспертной системе, например, реализация аппроксимирующей нейронной сети для имеющихся правил.
2. «Нейросетевое рассуждение» включает методы обучения нейронных сетей логическому выводу на примерах последовательности логических утверждений, приводящих к подтверждению или опровержению исходного утверждения [163].
3. «Интроспекция» включает методы и технологии, с помощью которых экспертная система «наблюдает» за собственным поведением и улучшает свою работу, например, нейронная
сеть может «наблюдать» за последовательностью шагов, выполняемых экспертной системой при осуществлении логического вывода.
4. «Интегрированное получение знаний» включает методы, основанные на обучении нейронной сети с учителем для извлечения закономерностей из примеров с последующей генерацией символьных правил на основе выявленных закономерностей.
Очевидно, что вышеописанные подходы ориентированы на решение задач определенных типов. Таким образом, наиболее подходящими подходами для решения задачи классификации являются нейросетевое приближение и интегрированное получение знаний. Именно эти подходы и будут использованы далее.
В работе [235] предложена следующая классификация архитектур, используемых при интеграции символьных и нейросетевых знаний.
1. Унифицированная архитектура: символьные знания непосредственно кодируются в нейронной сети. Она подразделяется на (а) локальную коннекционистскую архитектуру (localist connectionist architecture): отдельные узлы направлены на кодирование символьных знаний; и (б) распределенную нейросетевую архитектуру: символьные и нейросетевые знания кодируются невыделенными перекрывающимися узлами.
2. Трансформационная архитектура (аналогична унифицированной архитектуре, но включает механизмы перевода (трансформации) субсимвольных представлений знаний в символьные и/или наоборот). Как правило, такая архитектура реализуется через механизмы извлечения символьных знаний (например, правил) из обученной нейронной сети.
3. Гибридная модульная архитектура: символьные и нейросетевые знания кодируются в отдельных модулях. Она подразделяется на (а) слабосвязанную: информация может передаваться от одного модуля к другому только в одном направлении; (б) жестко связанную: обмен информацией осуществляется через общие структуры данных в любом направлении; и (в) полностью интегрированную: модули взаимосвязаны по нескольким каналам или даже на основе узлов.
В отличие от подходов к интеграции символьных и субсимвольных знаний, вышеуказанные архитектуры не привязаны к конкретным типам задач и могут быть выбраны на основе конкретной решаемой задачи. Можно заметить, что если символьные знания являются динамическими, например, описаны развивающимися онтологиями, то гибридная модульная архитектура является более предпочтительной (символьные знания могут быть обновлены без изменения нейросетевых знаний). В то же время, если символьные знания являются статическими, унифицированная и трансформационная архитектуры могут быть более привлекательными из-за большого количества доступных реализаций и потенциально более высокой производительности. В статье выбрана слабосвязанная гибридная модульная
архитектура для поддержания автономии символьных знаний с перспективой расширения и обновления символьной составляющей.
4.3.2 Описание задачи и набора данных
Как уже отмечалось, в качестве примера рассмотрена проблема классификации моделей предприятия. Такая классификация необходима для дополнения контекста проектирования и последующего повышения качества поддержки принятия решений при конфигурировании и проектировании предприятий. Используемый набор данных был собран на основе студенческих курсовых работ, выполненных в рамках курса «Моделирование предприятий», проверенных и откорректированных преподавателями. Набор состоит из 112 моделей, и, очевидно, является недостаточным для обучения нейронной сети обычным способом.
Модели принадлежат к следующим 8 несбалансированным классам, определенным согласно методологии проектирования предприятий «For Enterprise Modeling» («Для моделирования предприятий» / «4EM» [179]):
1. Модель бизнес-процесса / Business Process Model (43 модели),
2. Модель «исполнители и ресурсы» / Actors and Resources Model (12 моделей),
3. Обобщенная модель 4EM / 4EM General Model (7 моделей),
4. Модель концептов / Concepts Model (10 моделей),
5. Модель технических компонентов и требований / Technical Components and Requirements Model (10 моделей),
6. Модель «продукт-сервис» / Product-Service-Model (4 модели, рисунок 26),
7. Модель целей и целей с бизнес-правилами / Goal and Goal & Business Rule Model (13 моделей),
8. Модель бизнес правил и бизнес правил с процессами / Business Rule and Business Rule & Process Model (13 моделей).
Класс модели предприятия определяется на основе типов вершин (элементов) модели и их количества. Среднее количество вершин в одной модели составляет 27,3. Вершины моделей могут быть одного из 36 различных типов, однако в подходе рассматриваются только следующие 20 значимых типов вершин:
1. Правило / Rule,
2. Цель / Goal,
3. Организационная единица / Organizational Unit,
4. Процесс / Process,
5. Ресурс / Resource,
6. Технический компонент ИС (информационной системы) / IS Technical Component,
7. Требование к ИС / IS Requirement,
8. Неопределенный тип/продукт/сервис / Unspecific/Product/Service,
9. Свойство / Feature,
10. Концепт / Concept,
11. Атрибут / Attribute,
12. Данные / Information Set,
13. Внешний процесс / External Process,
14. Проблема / Problem,
Рисунок 26 - Пример модели класса "Модель «продукт-сервис»" (экранная форма программы
«4EM Modeling Toolkit»)
15. Причина / Cause,
16. Роль / Role,
17. Ограничение / Constraint,
18. Компонент / Component,
19. Возможность / Opportunity,
20. Человек / Individual.
Следует отметить, что не существует типов вершин, однозначно идентифицирующих класс модели предприятия, поскольку, например, классы 7 и 8 объединяют модели разной направленности, а модели класса Обобщенная модель 4EM могут содержать вершины любого типа. Таким образом, только комбинации и количество вершин разных типов могут служить информацией о том, к какому классу относится модель.
Для оценки моделей классификации была проведена процедура перекрестной валидации на 5 фолдах. В соответствии с этой процедурой набор данных разбивается на 5 подмножеств примерно одинакового размера, и проводится 5 экспериментов, причем каждое из подмножеств используется один раз в качестве тестового, а остальные 4 подмножества объединяются в обучающее множество [157]. Схематично данная процедура показана на рисунке 27.
Результат каждого разбиения называется фолдом. Количество фолдов выбирается в зависимости от размера набора данных. Для небольших наборов, как тот, что рассматривается в данном исследовании, целесообразно использование от 5 фолдов и больше (иначе обучающие множества будут слишком малы). Однако при большом количестве фолдов тестовые множества становятся меньше, и зачастую в них могут не попадать представители классов с небольшим количеством образцов (например, класс Модель «продукт-сервис» содержит всего 4 образца). Таким образом, для проведения экспериментов было выбрано именно 5 фолдов.
Рисунок 27 - Схема разбиения множества для перекрестной валидации на 5 фолдах
Поскольку в рассматриваемом подходе классификация основывается только на наличии в модели вершин определенных типов и не учитывает топологию графа, была выбрана архитектура нейронной сети с тремя полносвязанными слоями (рисунок 28). На первых двух слоях используется функция активации rectified linear unit (ReLU):
ReLU (x ) = ( x )+ = max (0, x )
Размер входного вектора равен 20 (количество типов вершин), промежуточные векторы имеют размеры 64 и 32. Выходной вектор имеет размер 8, соответствующий количеству классов моделей предприятия. Класс модели определяется как позиция наибольшего выходного значения в векторе из 8 чисел.
Предобработка состоит из двух операций. Сначала подсчитывается количество содержащихся в модели вершин каждого из 20 типов. Затем этот вектор нормализуется (делится на наибольшее число вершин), чтобы он содержал числа от 0 до 1.
4.3.3 Сравнение различных архитектур
Применение нейронной сети без символьных знаний.
В первом эксперименте для классификации моделей применяется только нейронная сеть без использования каких-либо символьных знаний (рисунок 29). В качестве функции потерь (функция, которая измеряет, насколько хорошо нейронная сеть предсказывает требуемые значения) используется кросс-энтропия:
Рисунок 28 - Используемая архитектура нейронной сети
Входные данные
51
f Предобработка
О
Нейронная сеть
z /\ Г о
( Результат
Функция потерь кросс-
энтропия
Рисунок 29 - Нейронная сеть без символьных знаний
exp (ху)
CELoss = tog v ' ■ yc L exP (Xc)
ceC
ceC / exp I X.
где
C - множество классов моделей,
Xi - предсказанное значение для класса i,
yi - целевой класс.
В этом и двух последующих экспериментах обучение проводится с использованием
^ ф _Q ^
переменной обучения (learning rate) 10 , выбранной после проведения нескольких экспериментов с различными значениями, и оптимизатора Adam [102], поскольку в большинстве случаев он дает лучшие результаты, имеет более быстрое время вычислений и требует меньшего количества параметров для настройки. Для завершения обучения используется механизм ранней остановки, когда точность на тестовом множестве не улучшается в течение 20 эпох подряд.
Пример фрагментов блокнота Jupyter Notebook с обучением данной модели представлен в Приложении 3.
Применение семантической функции потерь.
Во втором эксперименте реализовано внедрение априорных знаний в нейросетевую модель на основе применения семантической функции потерь. Для этого к выходу нейронной сети наряду с функцией потерь кросс-энтропии была добавлена семантическая функция потерь [239] (рисунок 30). Семантическая функция потерь позволяет наложить логические ограничения или правила на выходной вектор нейронной сети и использовать эти знания для улучшения процесса обучения. Для реализации семантической функции потерь были разработаны правила,
Рисунок 30 - Нейронная сеть с семантической функцией потерь
основанные на оценке возможности принадлежности модели к определенному классу, если она содержит вершину определенного типа, например:
"Если модель содержит вершину типа Правило, то она может принадлежать только к одному из следующих трех классов: Обобщенная модель 4EM,, Модель целей и целей с бизнес правилами, или Модель бизнес правил и бизнес правил с процессами".
Такие правила были определены для всех 20 типов вершин (всего 20 правил). Остальные параметры обучения остались без изменений.
Пример фрагментов блокнота Jupyter Notebook с обучением данной модели представлен в Приложении 4.
Предобработка данных с помощью символьных знаний.
Для реализации этого подхода к нейросетевой модели были добавлены дополнительные входы, которые являются результатами применения символьных правил к исходным входным данным (рисунок 31). В данном эксперименте использованы те же правила, что и во втором эксперименте, а дополнительные 8 входов отражают возможные классы модели («1» - если модель может принадлежать к соответствующему классу, «-1» - если не может). В результате первый слой нейронной сети имеет размер 28 вместо исходного 20. Все остальные параметры обучения остались неизменными.
Пример фрагментов блокнота Jupyter Notebook с обучением данной модели представлен в Приложении 5.
Результаты эксперимента.
Эксперименты выполнялись с использованием сервера, оснащенного процессором Intel Core i9 10900X S2066 3.7G, 64Gb оперативной памяти и графическим процессором MSI RTX3090. Программирование было выполнено на языке Python 3.6.9 с библиотекой PyTorch 1.7.1 в среде JupyterLab 2.0.1. Результаты представлены в таблицах 1-4.
Входные данные
о
г Предобработка Символьные правила
о О
г Нейронная сеть
А о
Результат
о
г Функция потерь кросс-энтропия ^ j
Рисунок 31 - Нейронная сеть с символьной предобработкой
В таблицах 1 -2 приведены точность и количество ошибок на тестовых наборах для каждого из 5 фолдов, а также средние и суммарные значения. Поскольку фолды имеют разное количество образцов (от 22 до 23), средние значения были рассчитаны как взвешенные средние значения, где в качестве весов выступает количество образцов. Эти результаты показывают, насколько хорошо построенные модели машинного обучения могут обобщать данные обучающих наборов данных и классифицировать модели предприятий, которые не использовались при обучении. Можно заметить, что архитектура, использующая семантическую функцию потерь, оказалась не очень удачной для поставленной задачи. Более того, она показала даже несколько худшие результаты, чем обычная нейронная сеть, хотя разница и невелика.
В то же время применение символьной предобработки дало значительное улучшение качества модели по сравнению с обычной нейронной сетью: количество ошибок уменьшилось в 2,67 раза. Это можно объяснить тем, что в данном случае добавленные дополнительные входные данные сильно коррелируют с ожидаемым результатом, что положительно сказалось на качестве модели машинного обучения.
В таблицах 3-4 приведены значения точности и количества ошибок для всего доступного набора данных (не только для тестовых, но и для обучающих наборов вместе). Они призваны продемонстрировать способность моделей машинного обучения не только к обобщению, но и к запоминанию обучающих выборок. Видно, что применение семантической функции потерь не снижает этой способности, а модель с символьной предобработкой оказалась способной полностью запомнить обучающие данные. Отчасти это можно связать с увеличенным (хоть и незначительно) размером нейронной сети за счет расширения первого слоя на 8 нейронов.
В качестве выводов можно сказать, что для повышения эффективности работы нейросетевых моделей априорные знания можно использовать не только на этапе обучения
модели, но и на других этапах цикла построения и применения модели, а именно, при определении структуры модели, подготовке данных и постобработке результатов.
Таблица 1 - Точность для тестовых наборов данных
Эксперимент Фолд Взвешенное среднее
1 2 3 4 5
Нейронная сеть 0.957 0.957 0.909 0.864 0.955 0.929
Семантическая функция потерь 0.957 0.913 0.909 0.818 1.000 0.920
Символьная предобработка 0.957 1.000 0.955 0.955 1.000 0.973
Таблица 2 - Число ошибок на тестовых наборах данных
Эксперимент Фолд Всего
1 2 3 4 5
Нейронная сеть 1 1 2 3 1 8
Семантическая функция потерь 1 2 2 4 0 9
Символьная предобработка 1 0 1 1 0 3
Таблица 3 - Точность для всего набора данных
Эксперимент Фолд Взвешенное среднее
1 2 3 4 5
Нейронная сеть 0.991 0.973 0.964 0.946 0.991 0.973
Семантическая функция потерь 0.991 0.973 0.973 0.938 0.991 0.973
Символьная предобработка 0.991 1.000 0.991 0.991 1.000 0.995
Таблица 4 - Число ошибок на всем наборе данных
Эксперимент Фолд Всего
1 2 3 4 5
Нейронная сеть 1 3 4 6 1 15
Семантическая функция потерь 1 3 3 7 1 15
Символьная предобработка 1 0 1 1 0 3
Подходы к использованию априорных знаний в нейросетевой модели на этапе определении структуры модели можно условно разделить на две группы. К первой группе можно отнести использование знаний и опыта специалиста по машинному обучению для выбора структуры или класса используемой модели (в зависимости от решаемой задачи, например,
использование сверточных нейронных сетей для работы с изображениями или архитектур -трансформеров для работы с текстами), а также ее размера (в зависимости от размерности решаемой задачи и доступных наборов данных) и используемой функции потерь (в зависимости от решаемой задачи). Такое использование априорных знаний не совсем правильно называть их интеграцией в нейросетевую модель. Тем не менее оно может существенно повлиять на скорость построения и качество итоговой модели.
В приведенных выше экспериментах была выбрана достаточно простая полносвязанная модель с небольшим числом слоев (3 слоя), так как решаемая задача классификации моделей предприятий имеет небольшую размерность, а доступное обучающее множество состоит из всего 112 моделей. Более высокая сложность нейросетевой модели могла бы привести к ее переобучению (модель могла бы просто «запомнить» классы обучающих примеров вместо выявления закономерностей классификации). Функция потерь «кросс-энтропия» была выбрана для расчета значения ошибки, как наиболее широко применяющаяся для многозначной классификации (multi-label classification).
Ко второй группе можно отнести модели, использующие унифицированную архитектуру, которая подразумевает непосредственное кодирование символьных знаний в нейронной сети. Необходимо отметить, что согласно представленному обзору, подобные решения, как правило, являются узкоспециализированными, так как для каждой конкретной задачи архитектура нейронной сети может существенно отличаться: символьные правила кодируются либо путем внедрения дополнительных блоков в архитектуру нейронной сети, либо путем полного преобразования базы правил во фрагменты нейронной сети с помощью метода KBANN [63, 216]. В приведенных выше экспериментах методы данной группы не рассматривались.
Использование априорных знаний в нейросетевой модели на этапах предобработки и постобработки данных может существенно повлиять на скорость построения и качество итоговой модели. Такие модели можно отнести к гибридным свободно связанным, где информация может передаваться от одного модуля к другому только в одном направлении: только от предобработанных данных к нейросетевой модели и/или только от нейросетевой модели в постобработку для получения требуемого результата.
По своей сути данные методы сводятся к преобразованию исходной задачи к другой, более эффективно решаемой нейронной сетью либо с помощью замены исходных данных на данные, прошедшие предобработку, либо с помощью замены искомого нейросетевой моделью результата на другой, который приводится к требуемому с помощью постобработки (например, с помощью логических правил), либо с помощью обеих указанных операций.
В приведенном выше эксперименте символьные знания были применены для формирования дополнительных входных данных (дополнительные данные, отражающие
возможные классы модели), значительно коррелирующих с ожидаемым результатом. Как показал эксперимент, применение данного метода существенно повысило качество полученной модели.
4.4 Анализ степени доверия к нейро-символическим моделям
В предыдущем разделе проанализировано применение символьного искусственного интеллекта к решению задачи классификации моделей предприятий. Продемонстрировано, что его использование действительно улучшает модель на основе искусственных нейронных сетей, обученную на ограниченном наборе данных. Однако не был рассмотрен вопрос доверия к таким моделям. Не выполнялось исследование того, что обученные модели могли просто «выучить» выборки, вместо того чтобы использовать для классификации значимые для определения класса модели признаки. Данный раздел отвечает на вопрос «можно ли нейросимвольной модели машинного обучения доверять больше, чем модели, построенной на основе искусственных нейронных сетей без использования символьных знаний?». С этой целью использован подход постфактумного объяснения из области объяснения обученных искусственных нейронных сетей, который позволяет сделать вывод о том, полагаются ли обученные нейросетевые модели на значимые признаки класса модели предприятия.
Апостериорные методы [35-37, 159] предназначены для объяснения уже существовавших нейросетевых моделей, которые были обучены без явных механизмов интерпретируемости. Эти подходы могут быть использованы с любой существующей искусственной нейронной сети. Большинство апостериорных методов включают аппроксимацию искусственной нейронной сети с использованием более понятной модели (например, дерева решений).
Альтернативный подход к апостериорному объяснению предсказаний искусственной нейронной сети предполагает установление связи между знаниями или понятиями, обычно представленными в онтологии, и активацией слоев сети [3, 205]. Этот процесс, называемый «извлечением концептов», подразумевает обучение извлекающих искусственных нейронных сетей. Извлекающая сеть использует в качестве входных данных результаты работы конкретных нейронов объясняемой основной сети и оценивает, насколько выборка, обрабатываемая основной сетью, соответствует заданному концепту онтологии. Часто извлекающие сети могут достигать значительного уровня точности прогнозирования, облегчая надежное извлечение набора концептов из заданной выборки.
В работе [4] представлена библиотека, реализующая ряд подходов к извлечению концептов, основанных на построении извлекающих сетей. В частности, был реализован алгоритм, который одновременно извлекает все понятия с помощью одной искусственной нейронной сети. Этот подход использует результаты работы всех нейронов основной сети в
качестве входных данных для предлагаемой извлекающей сети. Предлагаемая архитектура такой извлекающей сети включает выходы, соответствующие конкретным концептам.
Далее рассматривается, как подход на основе извлечения концептов может быть использован для оценки степени доверия к нейросетевым моделям, в которые символьные знания уже интегрированы. В частности, рассматривается сценарий использования данного подхода при отсутствии явной онтологической связи между понятиями предметной области.
С появлением обученных нейронных сетей для классификации моделей предприятий появляется также и возможность интерпретировать их результаты с использованием постфактумных подходов к объяснению. В частности, подход на основе извлечения концептов позволяет выявить типы вершин модели предприятия, наличие или отсутствие которых повлияло на результат классификации. Другими словами, можно понять, полагается ли нейросетевая модель на типы узлов как на значимый признак класса модели предприятия, а не просто запоминает модели предприятий обучающего множества.
Как отмечалось ранее, извлечение концептов (типов узлов) осуществляется с помощью извлекающей сети, которая выявляет связи между внутренним представлением основной классификационной сети и каждым из понятий. Показатели качества извлекающей сети могут быть использованы для сравнения классификационных сетей моделей предприятий с точки зрения согласованности их внутренних представлений с символьными знаниями. Таким образом, чем согласованнее внутреннее представление, тем больше можно доверять результатам модели машинного обучения.
Процесс извлечения понятий осуществляется с использованием подхода синхронного извлечения, реализованного в библиотеке RevelioNN [4]. Сеть синхронного извлечения получает в качестве входных данных значения активации всех полносвязанных слоев основной сети, классифицирующей модели предприятий, а ее выходными данными являются степени уверенности в отражении каждого из концептов (типов узлов) весами основной сети.
Были заданы следующие значения параметров архитектуры сети синхронного извлечения (рисунок 32):
- 16 нейронов выходного слоя в блоках декодера;
- 8 нейронов выходного слоя в блоке внутреннего представления;
- блоки концептов представлены слоями, содержащими 8 нейронов на входе и 1 нейрон на выходе;
- 20 блоков концептов (определяется количеством возможных типов узлов модели предприятия).
Каждая сеть синхронного извлечения была обучена три раза для каждой уже обученной сети наилучшей классификации (с наименьшим значением потерь в тестовом наборе). Таким
т
X
о ь
ш
Полносаязанный слой (20x123) ^TJrReLU
Полносаязанный слой (128x64) лП- ReLU Полносвязанный слой (64x8)
_П_
та
Блоки декодирования
Полносвязанный слон (128x16}
Полносвязанный слой (64x16)
Полносвязанный слой (8x16)
О О О
Внутреннее представление
=г л
X
о
а:
~о
111 =5
ш ш
L_ ttL
5Z _4
О 00
V X
> O0
= ft
R
Блоки типов вершин Полносвязанный слой (8x1), Sigmoid
Полносвязанный слой (3x1), Sigmoid
Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.