Алгоритмы интерпретируемого искусственного интеллекта на основе значений Шепли в задачах высокой размерности тема диссертации и автореферата по ВАК РФ 00.00.00, кандидат наук Цзоу Цзиньин

  • Цзоу Цзиньин
  • кандидат науккандидат наук
  • 2025, «Санкт-Петербургский государственный университет»
  • Специальность ВАК РФ00.00.00
  • Количество страниц 104
Цзоу Цзиньин. Алгоритмы интерпретируемого искусственного интеллекта на основе значений Шепли в задачах высокой размерности: дис. кандидат наук: 00.00.00 - Другие cпециальности. «Санкт-Петербургский государственный университет». 2025. 104 с.

Оглавление диссертации кандидат наук Цзоу Цзиньин

Введение

Глава 1. Двухуровневый метод аппроксимации значений Шепли для высокоразмерной модели ИИ

1.1 Система ИИ для обнаружения аномалий

1.1.1 Алгоритм обнаружения на основе машинного обучения:

Дерево решений

1.1.2 Алгоритм обнаружения на основе нейронных сетей: DeepLog

1.2 Объяснимая модель и алгоритм

1.2.1 Ценность Шепли и объяснимая модель

1.2.2 Интерпретируемое решение для деревьев решений: метод на основе значений Шепли

1.2.3 Интерпретируемое решение для DeepLog: Двухуровневый

метод Шепли

1.3 Результаты симуляции

1.3.1 Интерпретируемые результаты дерева решений

1.3.2 Объяснимые результаты DeepLog

1.4 Заключение к главе

Глава 2. Аппроксимация значений Шепли на основе Constrained K-means для высокоразмерной модели ИИ

2.1 Система искусственного интеллекта для обнаружения рака

2.1.1 Принцип Isolation Forest

2.1.2 Определения измерений: показатель аномалии

2.1.3 Обнаружение аномалий с использованием Isolation Forest

2.1.4 Результат обнаружения аномалии

2.2 Интерпретируемое решение и алгоритмы

2.2.1 Ценность Шепли и интерпретируемая модель

2.2.2 Двухуровневый подход к многомерному интерпретируемому ИИ50

2.2.3 Подход семплирования для многомерного интерпретируемого

ИИ

2.3 Результаты симуляций

2.3.1 Описание набора данных

2.3.2 Результаты моделирования глобального объяснения: двухуровневый подход

2.3.3 Результаты моделирования глобального объяснения: семплирование

2.3.4 Локальное объяснение: сравнение двухуровневого подхода с семплированием

2.4 Заключение к главе

Глава 3. Подход к сэмплированию на основе графов для высокоразмерной модели ИИ

3.1 Карта взаимосвязей и семплирование на основе смещенного графа

3.1.1 Коэффициент корреляции Пирсона

3.1.2 Метод смещённого случайного поиска пути

3.1.3 Графовый алгоритм семплирования

3.1.4 Измерения для улучшения сходимости

3.2 Результаты моделирования

3.2.1 Описание набора данных

3.2.2 Генерация и конфигурация карты взаимосвязей

3.2.3 Анализ результатов

3.3 Заключение к главе

Глава 4. Эффективный подход последовательного обновления значений Шепли для моделей ИИ высокой размерности

4.1 Последовательное обновление значений Шепли

4.1.1 Байесовская статистика и последовательное байесовское обновление

4.1.2 Априорное и апостериорное распределение

4.1.3 Последовательное обновление

4.2 Интерпретируемые решения и алгоритмы

4.2.1 Интерпретируемая модель

4.2.2 Последовательное обновление значений Шепли для обнаружения рака

4.3 Моделирование и проведение эксперимента

4.3.1 Описание набора данных

4.3.2 Анализ результатов

4.3.3 Стоимость вычислений и производительность

4.4 Заключение к Главе

Заключение

Список литературы

Введение

Введение диссертации (часть автореферата) на тему «Алгоритмы интерпретируемого искусственного интеллекта на основе значений Шепли в задачах высокой размерности»

Актуальность темы диссертации

В последние годы применение технологий искусственного интеллекта (ИИ) стремительно развивалось, что привело к появлению многих известных продуктов, таких как ChatGPT и голосовые помощники, например, Siri и Google Assistant. Кроме того, были достигнуты прорывы в таких технологиях, как автономное вождение и генерация видео. Одним из ключевых факторов успеха этих продуктов является наличие больших наборов размеченных данных, используемых для обучения моделей. Например, ChatGPT основан на авторегрессионной модели обработки естественного языка [1]; Apple Siri и Google Assistant используют модели глубоких нейронных сетей [2]; StyleGAN - это модель генерации изображений, использующая генеративные состязательные сети (GAN) [3]; а Tesla Autopilot использует сверточные нейронные сети [4]. Эти достижения значительно способствовали прогрессу и широкому распространению приложений ИИ в различных областях.

По сравнению с классической статистикой и математическими методами, методы машинного обучения имеют большие преимущества в крупномасштабных, сложных и нелинейных системах. Поэтому они становятся все более популярными в промышленных приложениях. Системы искусственного интеллекта обычно используются для решения следующих математических задач:

• Классификация: классифицировать входные данные по различным категориям, например классификация текста или классификация изображений.

• Регрессия: предсказать значения непрерывных переменных, например, прогнозирование цены или прогнозирование сетевого трафика.

• Кластеризация: сгруппировать данные на основе некоторой меры их сходства, например, по пользовательским предпочтениям.

• Поиск аномалий: выявление аномальных наблюдений в выборке, например, обнаружение рака или обнаружение аномальных логов.

• Оптимизация: поиск оптимального решения на основе заданной целевой функции, например, оптимизация сетевого трафика или оптимизация распределения ресурсов.

• Прогнозирование: предсказывать будущие тенденции на основе прошлых данных, например, прогноз цен на жилье и прогноз потребительского спроса.

Алгоритмы ИИ, в основном основанные на методах машинного обучения и нейронных сетях, сильно зависят от объема и качества данных. Эти алгоритмы сыграли ключевую роль в стремительном развитии ИИ, значительно способствуя достижениям в данной области. Однако остается критическая проблема: эти алгоритмы часто функционируют как черные ящики, и их выходные данные невозможно напрямую объяснить пользователям или инженерам. Этот недостаток интерпретируемости создает значительные трудности в промышленных приложениях, особенно в таких областях, как здравоохранение, экономика, военное дело, медицинская и финансовая безопасность, где необходима высокая стабильность, точность и прозрачность [5, 6, 7]. Неспособность понять процесс принятия решений подразумевает потенциальную нестабильность и угрозы безопасности. Глубокие нейронные сети явно отражают эту проблему, так как они, как правило, не могут разъяснить логику за каждым своим решением. Такие непрозрачные решения недостаточно убедительны, поэтому разработка интерпретируемого ИИ (explainable AI, XAI) имеет решающее значение для повышения доверия, безопасности и эффективности в этих критически важных секторах:

• Для пользователей, когда технология ИИ предназначена для того, чтобы предлагать или помогать принимать решения. Пользователи системы должны иметь возможность понять, почему система предоставляет каждое конкретное решение. Например, врач, ставящий диагноз, должен иметь возможность понять, почему лечебно-диагностическая система дает такую рекомендацию [8].

• Для разработчиков, чтобы понять «черный ящик» глубокого обучения. Это позволит им улучшать свои методы и модели машинного обучения [9].

Диссертация посвящена исследованию и разработке интерпретируемых решений для систем искусственного интеллекта большой размерности. В результате детального анализа систем обнаружения аномалий нам удалось разработать модели, которые не только предоставляют четкие объяснения, но и обладают сильными способностями к обобщению. Кроме того, мы изучили широкий спектр методологий с различных точек зрения, включая методы семплирова-ния, кластеризации, иерархические и графовые подходы, а также последовательные методы Шепли. Наша цель - повысить эффективность этих интерпретируемых решений, чтобы в конечном итоге создать более надежные и эффективные интерпретируемые системы ИИ, адаптированные к решению задач высокой размерности.

Обзор результатов в этой области

Применение интерпретируемого ИИ жизненно важно для современных технологий ИИ. С одной стороны, это делает процесс принятия решений в системах ИИ более прозрачным и понятным, что повышает доверие пользователей к системам и приводит к более широкому внедрению и принятию технологий ИИ, особенно в таких важных областях принятия решений, как здравоохранение и финансы. С другой стороны, разработчики могут исследовать причины ошибок модели, выявлять слабые места в конструкции модели и вносить целевые коррективы в структуру и параметры модели для достижения лучших результатов.

Обнаружение аномалий является одной из важных проблем в области ИИ, которая хорошо изучена в различных областях исследований и приложений. Общей потребностью при анализе наборов данных реального мира является определение того, какие экземпляры выделяются как непохожие на все остальные. Такие случаи известны как аномалии, и цель обнаружения аномалий (в данной работе мы рассматриваем как аномалии, так и выбросы) состоит в том, чтобы определить все такие случаи на основе данных [10]. Аномалии могут быть вызваны ошибками в данных, но иногда они указывают на новый, ранее неизвестный процесс. Hawkins в [11] определяет выброс как семпл, который настолько значительно отличается от других семплов, что вызывает подозрение: не было ли оно вызвано или получено иным способом. Наиболее распространенными

причинами выбросов или аномалий в наборе данных являются ошибки ввода данных (человеческие ошибки), ошибки измерений (ошибки прибора), экспериментальные ошибки (извлечение данных или планирование/выполнение эксперимента), преднамеренные (фиктивные выбросы, сделанные для проверки методов обнаружения), ошибки обработки данных (манипулирование данными или непреднамеренные изменения набора данных), ошибки выборки (извлечение или смешивание данных из ошибочных или разных источников) и просто наличие новизны в данных. Что касается методов или алгоритмов, обнаружение аномалий следует классифицировать как обучение с учителем, обучение без учителя, гибридные подходы. По области приложения, обнаружение аномалий можно классифицировать по обнаружению вторжений, обнаружению мошенничества, обнаружению вредоносных программ, обнаружению медицинских аномалий, обнаружению аномалий в социальных сетях, обнаружению аномалий журналов, обнаружению аномалий больших данных интернета вещей (IoT), обнаружению промышленных аномалий, обнаружение аномалий во временных рядах и аномалий при видеонаблюдении. Более подробную информацию можно найти в недавнем обзоре [12]. Существуют также некоторые потенциальные подходы, используемые для повышения производительности и точности при получении аномалии, такие как успешная модель геометрических преобразований [13] в сочетании с регрессионной моделью [14] и разложением 1ТО [15] для преодоления временных ограничений.

Алгоритмы обнаружения аномалий часто считаются ограниченными, поскольку они не могут облегчить процесс проверки результатов, выполненных экспертами в предметной области. Это актуальная задача для отрасли. В 2019 г. компания А^шащ использовала фреймворк БИАР [16] для объяснения обнаружения аномалий. Они рассматривают каждую функцию как игрока и предоставляют пользователям более интуитивное понимание, измеряя вклад каждого игрока в решение. БИАР основан на понятии оптимального значения Шеп-ли [17], которое является хорошо известным понятием из теории кооперативных игр [18] Первоначально значение Шепли определяло, как распределять прибыль, издержки или, в более общем смысле, полезность между игроками, действующими совместно. В случае интерпретируемого ИИ значение Шепли может показать вклад каждого входного признака в результат системы обнаружения аномалий. Важно отметить, что значение Шепли показывает не только

индивидуальный вклад признака в результат система обнаружения, но также показывает вклад признака во все возможные комбинации признаков, который составляет аномалию. Сам подход SHAP для XAI был предложен Лунд-бергом в [19]. Авторы [20] представляют улучшенный SHAP с использованием метода Baseline Shapley (BShap), который они дополнительно расширяют с помощью интегрированных градиентов (integrated gradients) в непрерывной области. В статье [21] исследуется зависимость между значениями SHAP путем расширения KernelSHAP для обработки зависимых признаков. В статье [22] авторы описали расширение метода SHAP для деревьев в среде под названием TreeExplainer для изучения структуры глобальной модели с использованием локальных объяснений. Позже в статье [23] описывается метод на основе SHAP для учета прогнозов сигналов временных рядов с использованием сетей долгой краткосрочной памяти (LSTM).

Помимо SHAP, существует несколько других полезных и прикладных алгоритмов для объяснения алгоритмов черного ящика, но в этой диссертации нас особенно интересуют подходы XAI, основанные на использовании значения Шепли:

• LIME - это метод, который интерпретирует прогнозы отдельных моделей на основе построения локальной аппроксимации модели вокруг заданного прогноза [24].

• DeepLIFT (Deep Learning Important FeaTures) [25] - это метод декомпозиции прогноза вывода нейронной сети на конкретный вход путем обратного распространения вкладов всех нейронов в сети в каждый элемент входа.

• LRP (Layer-wise Relevance Propagation) [26] - это метод, придающий способность к интерпретации потенциально очень сложным глубоким нейронным сетям. Он действует путем распространения ошибки прогноза в обратном направлении в нейронной сети с использованием набора специально разработанных алгоритмов распространения.

Более полный и фундаментальный обзор подходов и интерпретируемых моделей ИИ см. в [27]. Таким образом, интерпретируемый ИИ можно разделить на следующие типы на основе принципов объяснения:

• Внутренний (интерпретируемость для моделей): эта ветвь нацелена на использование интерпретируемых моделей для обеспечения интерпретиру-

емости самого решения, таких как линейная регрессия, дерево решений, байесовская сеть и т.д.

• Объяснение постфактум: эта ветвь предназначена для непосредственного объяснения результатов моделей черного ящика, помогая пользователям понять, почему и как алгоритм приводит к результату Примеры включают LIME, SHAP, DeepLIFT и LRP.

Это общепринятая категоризация интерпретируемых решений, основанных на технологии, подробно описанной различными авторами [28, 29].

Технология искусственного интеллекта разрабатывалась много лет, и в отрасли существует множество приложений, основанных на различных методах. Внутреннего интерпретируемого метода недостаточно для общего применения для всех из них. Таким образом, многие исследователи предлагали различные методы интерпретации постфактум, где подход на основе значений Шепли является одним из самых популярных методов. Значение Шепли с его свойствами справедливости, модельного агностицизма, локальной и глобальной интерпретируемости, непротиворечивости и наглядности, эффективно оценивает вклад игроков в области интерпретируемого ИИ. Несколько статей, в том числе [19, 30], тщательно исследовали эти преимущества. Кроме того, значение Шепли широко применяется в различных областях, таких как прогнозирование [31, 32], обнаружение [33, 34] и классификация [35].

Вычисление значений Шепли - NP-полная задача [36, 37], и многие исследователи занимаются поиском точных решений для вычисления этих значений. До применения значений Шепли в области интерпретируемого ИИ они преимущественно использовались для решения задач теории игр. Например, Бильбао и соавторы предложили использовать полиномиальный метод расчета значений Шепли для решения задач голосования [38], а Кастро и его команда разработали полиномиальный алгоритм, основанный на правилах разделения затрат, для решения задач аэропортов. В 2009 году Кастро предложил алгоритм приближенного расчета значений Шепли на основе методов семплирования [39]. Кастро продемонстрировал, что эффективность оценки может быть доказана, если стоимость любых коалиций может быть вычислена за полиномиальное время с использованием этого подхода.

Кроме того, Гранот предложил сетевую структуру дерева для полиномиаль-

ного расчета значений Шепли [40]. Чалкиадакис и его команда сосредоточились на разработке эффективных стратегий для вычисления значений Шепли [41], тогда как Кастро и его команда представили метод приближенного расчета [42]. Позднее Кастро и его команда предложили метод стратифицированного сем-плирования с оптимальным распределением [43].

Оценка значения Шепли требует вычисления характеристической функции для всех возможных коалиций, что в сценариях ИИ означает вызов характеристической функции 2N раз. Это становится непрактичным для задач с высокой размерностью или в условиях, требующих быстрого выполнения. В инженерии, основанной на данных, вычислительная стоимость является одной из самых больших проблем. Для интерпретируемых методов на основе значений Шеп-ли более предпочтительными являются быстрые приближенные решения, чем точные.

В области интерпретируемого ИИ появились несколько подходов для оценки значения Шепли, применимых к различным алгоритмам, как было упомянуто ранее: Tree Explainer [22], Deep Explainer (DeepLIFT + значения Шепли) [19, 25] и Kernel Explainer (Linear LIME + значения Шепли) [19, 24]. Эти методы интерпретируемости продемонстрировали хорошую эффективность в оценке значений Шепли. Однако большинство из них подходят только для определенных типов алгоритмов. Поэтому мы стремимся разработать интерпретируемые решения на основе значений Шепли, которые могут быть применены к более широкому спектру алгоритмов.

Основная причина разработки интерпретируемого ИИ заключается в том, что огромный объем данных, а также природа алгоритмов машинных обучения затрудняют понимание их результатов. В кооперативной теории игр ключевая концепция заключается в распределении вкладов игроков. Рассматривая входные признаки как игроков, а выходы алгоритмов ИИ как вознаграждения, можно рационально интерпретировать важность данных через модель распределения. Более того, многие методы теории игр могут быть применены к задачам распределения. Значение Шепли, обладающее такими характеристиками, как аксиома эффективности, аксиома симметрии, аксиома фиктивного игрока и аксиома аддитивности, хорошо подходит для алгоритмов ИИ. Таким образом, значение Шепли приобрело большую популярность и более широкое применение по сравнению с другими методами.

Фреймворк БИАР предлагает несколько методов аппроксимации для применения значений Шепли, включая линейный расчет значений Шепли [19], вычисления на основе семплирования [42, 44], а также применение к деревьям решений, линейным моделям и глубоким моделям [45]. Сравнительные исследования, проведенные Хью и его коллегами, показывают, что с числовой точки зрения все эти методы в целом обеспечивают объективные результаты интерпретации. Среди них методы Шепли, основанные на перестановочном семпли-ровании, демонстрируют как ненулевую смещенность, так и ненулевую дисперсию. Однако их результаты существенно зависят от эмпирических данных и стратегий семплирования [45].

Подводя итог вышеизложенному, с учетом широкого распространения ИИ в промышленной технологии, важно и необходимо исследовать решения интерпретируемого ИИ для систем высокой размерности, чтобы повысить прозрачность и надежность ИИ. Среди множества доступных методик методы на основе семплирования выделяются своей вычислительной эффективностью, способностями к обобщению и сильной интерпретируемостью, что делает их особенно подходящими для решения задач, связанных с проблемами ИИ. Поэтому основным направлением данной диссертации являются:

• Построение и реализация систем обнаружения аномалий на основе ИИ.

• Разработка интерпретируемых моделей и алгоритмов, основанных на значениях Шепли.

• Реализация интерпретируемых решений с использованием методов Шепли на основе семплирования.

• Инновационный дизайн и внедрение алгоритмов Шепли на основе семпли-рования.

Изучая эти области, данное исследование направлено на повышение интерпретируемости и надежности систем ИИ, тем самым внося вклад в развитие знаний в области интерпретируемого ИИ.

Цели диссертации

Основная цель этой диссертации состоит в том, чтобы изучить и разработать интерпретируемые решения для многомерных систем искусственного интеллекта. Для достижения этой цели диссертация фокусируется на одной из основных

проблем в промышленной области: обнаружение аномалий. В частности, мы изучаем два типа системы обнаружения аномалий, а именно обнаружение аномальных логов и обнаружение рака, и предлагаем новые методы повышения интерпретируемости и эффективности решений многомерного ИИ путем анализа данных и алгоритмов, используемых в этих системах. Поэтому основное внимание в этой диссертации уделяется интерпретируемым решениям самим по себе, а не алгоритмам обнаружения аномалий, с упором как на интерпретируемость, так и на оптимизацию эффективности.

Диссертация состоит из четырех основных глав:

• Глава 1 посвящена разработке интерпретируемого решения для системы обнаружения аномалий в логах. Используя значения Шепли в сочетании с двухуровневым подходом, эта глава ставит целью построение интерпретируемой системы, которая объясняет вклад каждого входного параметра в итоговые результаты обнаружения, тем самым повышая прозрачность и интерпретируемость.

• Глава 2 исследует применение гибридного интерпретируемого метода, основанного на значениях Шепли, в системе обнаружения рака высокой размерности. Цель состоит в интерпретации того, как различные признаки влияют на результаты обнаружения рака, а также в разработке более эффективных интерпретируемых решений. Это включает выбор и проектирование алгоритмов, специально адаптированных для задач высокой размерности, что позволяет быстро и эффективно решать проблемы, присущие этим сложным системам.

• Глава 3 продолжает исследование системы обнаружения рака высокой размерности, уделяя особое внимание методам семплирования, основанным на графах. Цель заключается в изучении способов более быстрого и стабильного объяснения влияния входных характеристик на результаты обнаружения рака, улучшая как скорость, так и надежность предоставляемых объяснений.

• Глава 4 направлена на дальнейшее повышение эффективности подхода семплирования на основе значений Шепли. Основное внимание уделяется балансу между способностью к обобщению и эффективностью путем улуч-

шения качества семплирования. В этой главе подчеркивается технический аспект использования байесовских обновлений для вычисления значений Шепли, чтобы повысить точность и эффективность процесса семплирования.

Основные задачи

Для достижения поставленных целей обозначим основные задачи данного исследования:

• Использование значений Шепли для объяснения результатов работы алгоритмов ИИ при обработке данных высокой размерности. Вычисление значений Шепли по своей природе является NP-трудной задачей, что приводит к проблемам интерпретации результатов, особенно в наборах данных высокой размерности. Для решения этой проблемы исследование сосредоточено на снижении вычислительной сложности при сохранении интерпретируемости. В главе 1 для задачи обнаружения аномалий в логах значения Шепли применяются к алгоритму леса решений (decision forest) для расчета вклада различных событий в итоговые результаты. Для алгоритма Deeplog разработано упрощённое двухуровневое решение, объединяющее значения Шепли с анализом бизнес-характеристик для обеспечения быстрого вычисления. Этот подход значительно снижает вычислительную нагрузку без потери интерпретируемости.

• Повышение эффективности аппроксимации. Чтобы ускорить вычисление аппроксимированных значений Шепли и одновременно сохранить согласованность, исследование вводит систематические модификации двухуровневого решения на основе значений Шепли. Одним из ограничений двухуровневого подхода является максимальный размер кластеров. Если размеры кластеров варьируются, это может приводить к низкой эффективности. Для решения этой проблемы мы предлагаем комбинированный метод ограниченного k-средних для управления размерами кластеров, что позволяет улучшить аппроксимацию нашего гибридного двухуровневого метода вычисления значений Шепли. Между тем, метод на основе семплирования используется в качестве эталонного подхода для сравнения в главе 2.

• Улучшение качества семплирования для ускорения скорости сходимости. Оригинальный метод семплирования значений Шепли использует среднее

значение для формирования следующего поколения семплов. Мы предложили графовый метод для повышения качества семплирования с целью более быстрой сходимости. В главе 3 представлен графовый метод сем-плирования, который использует карту отношений между "игроками"для ускорения вычислений при сохранении интерпретируемости. Этот подход включает генерацию карты отношений, алгоритм случайного поиска для оптимизации семплирования и измерения сходимости, такие как ранговая корреляция Спирмена и средняя абсолютная ошибка (MAE). Эксперименты с наборами данных по тестированию рака демонстрируют снижение стоимости вычислений на 40%, подчёркивая эффективность и масштабируемость метода. Теоретически применимый ко всем приложениям значений Шепли, этот подход отличается новизной использования графовых методов для описания отношений между "игроками что позволяет более эффективно генерировать семплы и улучшать интерпретируемость. Глава 3 завершается экспериментальными результатами и обсуждением будущих направлений работы, включая дальнейшую оптимизацию и иные приложения.

• Решение проблемы зависимости данных. Зависимость данных представляет значительный вызов в интерпретируемом ИИ, так как она может снижать способности к обобщению и эффективность алгоритмов. Для решения этой проблемы в главе 4 исследования вводится последовательное байесовское обновление в объясняемые алгоритмы. Сначала проводятся теоретические выводы, затем разрабатывается дизайн и реализация алгоритма. Этот подход улучшает обработку зависимостей данных и повышает способность к обобщению и эффективность интерпретируемых решений в различных системах ИИ.

Научная новизна

В данной диссертации мы исследуем интерпретируемые решения для задач аномального детектирования в высокоразмерных данных, представляя несколько новых методологий, которые значительно продвигают современные достижения в этой области. Каждая глава вносит уникальные новшества, которые решают критические проблемы в интерпретируемости, масштабируемости и обоб-щаемости.

В Главе 1 новизна заключается в том, что она представляет собой фундаментальный отход от традиционных методов, так как сочетает теоретическую строгость с практической применимостью к сложным структурам данных. Мы предлагаем новую гибридную методику, которая объединяет основанный на знаниях двухуровневый подход с вычислением значения Шепли. Этот подход позволяет точно рассчитывать вклад признаков в высокоразмерных наборах данных, задача, ранее невозможная с существующими методами.

В Главе 2 новизна нашего подхода заключается в его способности балансировать между точностью и масштабируемостью, что делает его особенно подходящим для реальных приложений. Мы разработали улучшенный гибридный алгоритм, который сочетает ограниченный двухуровневый подход на основе алгоритма к-средних с методом семплирования. Это позволяет эффективно приближать значения Шепли в задачах высокой размерности, преодолевая вычислительные ограничения предыдущих работ.

В Главе 3 новизна нашего подхода состоит в том, что он предоставляет пользователям более глубокие идеи о взаимодействиях признаков, позволяя принимать более обоснованные решения. В отличие от предыдущих методов, которые часто игнорируют динамику изменения отношений, наш подход явно включает эти отношения в рамки интерпретируемости, что выделяет его как значительное достижение. Мы представляем графовый метод для моделирования отношений между всеми игроками (признаками) и используем эту относительную информацию для семплирования.

В Главе 4 новизна нашего подхода заключается в том, что она решает критическую проблему зависимости данных, одновременно повышая способности модели по обобщению и эффективность вычислений. Объединив последовательное обучение с вычислением значений Шепли, наш метод предлагает совершенно новую взгляд на интерпретируемость, отличая его от традиционных подходов. Мы предлагаем подход к последовательному обновлению значений Шепли, алгоритм, который интегрирует байесовские последовательные обновления в системы интерпретируемого ИИ.

Похожие диссертационные работы по специальности «Другие cпециальности», 00.00.00 шифр ВАК

Список литературы диссертационного исследования кандидат наук Цзоу Цзиньин, 2025 год

Список литературы

[1] J. Kocon, I. Cichecki, O. Kaszyca, M. Kochanek, D. Szydl o, J. Baran, et al., "ChatGPT: Jack of all trades, master of none," Inf. Fusion, vol. 99, p. 101861, 2023., doi:DOI: 10.1016/j.inffus.2023.101861

[2] V. Kepuska and G. Bohouta, "Next-generation of virtual personal assistants (microsoft cortana, apple siri, amazon alexa and google home)."2018 IEEE 8th annual computing and communication workshop and conference (CCWC). IEEE, 2018. DOI: DOI: 10.1109/CCWC.2018.8301638

[3] T. Karras, S. Laine, and T. Aila, "A style-based generator architecture for generative adversarial networks."Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2019. DOI: DOI: 10.1109/CVPR.2019.00453

[4] M. G. Bechtel, et al., "Deeppicar: A low-cost deep neural network-based autonomous car."2018 IEEE 24th international conference on embedded and real-time computing systems and applications (RTCSA). IEEE, 2018. DOI: DOI: 10.1109/RTCSA.2018.00011

[5] A. Adadi and M. Berrada, "Peeking inside the black-box: A survey on explainable artificial intelligence (XAI)," IEEE Access, vol. 6, pp. 52138-52160, 2018., doi:DOI: 10.1109/ACCESS.2018.2870052

[6] U. Ehsan, et al., "Expanding explainability: Towards social transparency in ai systems."Proceedings of the 2021 CHI conference on human factors in computing systems. 2021. DOI: DOI: 10.1145/3411764.3445188

[7] D. Shin, "The effects of explainability and causability on perception, trust, and acceptance: Implications for explainable AI," Int. J. Hum. Comput. Stud., vol. 146, p. 102551, 2021., doi:DOI: 10.1016/j.ijhcs.2020.102551

[8] S. M. Lundberg, B. Nair, M. S. Vavilala, M. Horibe, M. J. Eisses, T. Adams, et al., "Explainable machine-learning predictions for the prevention of hypoxaemia during surgery," Nat. Biomed. Eng., vol. 2, no. 10, pp. 749760, Oct. 2018. DOI: 10.1038/s41551-018-0304-0

[9] A. Holzinger, et al., What do we need to build explainable AI systems for the medical domain? arXiv preprint, arXiv:. - 2017.

[10] V. Chandola, A. Banerjee, and V. Kumar, "Anomaly detection: A survey," ACM Comput. Surv., vol. 41, no. 3, pp. 1-58, 2009. DOI: 10.1145/1541880.1541882

[11] D. Hawkins, Identification of outliers. Springer Netherlands, 1980, p. 188. DOI: 10.1007/978-94-015-3994-4

[12] R. Chalapathy and S. Chawla, Deep learning for anomaly detection: a survey, arXiv: Learning, 2019.

[13] Tkachenko R, Izonin I. Model and principles for the implementation of neural-like structures based on geometric data transformations. Adv Intell Syst Comput 754: 578-587. DOI: 10.1007/978-3-319-91008-6_58

[14] I. Izonin, R. Tkachenko, N. Kryvinska, and P. Tkachenko, "Multiple linear regression based on coefficients identification using non-iterative SGTM Neural-Like Structure," in International Work-Conference on Artificial Neural Networks. Cham: Springer, 2019 June, pp. 467-479. DOI: 10.1007/978-3-030-20521-8_39

[15] R. Tkachenko, I. Izonin, P. Vitynskyi, N. Lotoshynska, and O. Pavlyuk, "Development of the noniterative supervised learning predictor based on the ITO decomposition and SGTM neural-like structure for managing medical insurance costs," Data (Basel), vol. 3, no. 4, p. 46, 2018. DOI: 10.3390/data3040046

[16] L. Antwarg and B. Shapira, Explaining anomalies detected by autoencoders using SHAP. arXiv preprint, arXiv:. - 2019.

[17] Shapley LS. (August 21, 1951). Notes on the n-Person Game - II: The Value of an n-Person Game. Santa Monica, Calif.: RAND Corporation.

[18] A. P. Leon and A. Z. Nikolay, Game Theory, 2nd ed., World Scientific, 2016.

[19] S. M. Lundberg and S. I. Lee, A unified approach to interpreting model predictions. Neural Inform. Processing Syst, 2017, pp. 4765-4774.

[20] M. Sundararajan and A. Najmi, The many shapley values for model explanation. arXiv preprint, arXiv: , 2019.

[21] K. Aas, M. Jullum, and A. L0land, Explaining individual predictions when features are dependent: More accurate approximations to shapley values. arXiv preprint, arXiv:, 2019.

[22] S. M. Lundberg, G. Erion, H. Chen, A. DeGrave, J. M. Prutkin, B. Nair, et al., "From local explanations to global understanding with explainable AI for trees," Nat. Mach. Intell., vol. 2, no. 1, pp. 56-67, Jan. 2020. DOI: 10.1038/s42256-019-0138-9

[23] M. Vega Garcia and J. L. Aznarte, Shapley additive explanations for NO2 forecasting,Ecol. Inform., vol. 56, p. 101039, Mar. 2020. DOI: 10.1016/j.ecoinf.2019.101039

[24] M. T. Ribeiro, S. Singh, and C. Guestrin, Why should I trust you? Explaining the predictions of any classifier. Proceedings of the 22nd ACM SIGKDD international conference on knowledge discovery and data mining, - 2016. -. 1135-1144. DOI: 10.18653/v1/N16-3020

[25] A. Shrikumar, P. Greenside, and A. Kundaje, Learning important features through propagating activation differences //arXiv preprint arXiv:. - 2017.

[26] G. Montavon, et al., Layer-wise relevance propagation: an overview. Explainable AI: interpreting, explaining and visualizing deep learning. Cham: Springer, 2019, pp. 193-209. DOI: 10.1007/978-3-030-28954-6_10

[27] Arun D, Paul R. Opportunities and challenges in explainable artificial intelligence (XAI): a survey, arXiv, 2020.

[28] A. B. Arrieta, et al., "Explainable Artificial Intelligence (XAI): Concepts, taxonomies, opportunities and challenges toward responsible AI," Inf. Fusion, vol. 58, pp. 82-115, 2020. DOI: 10.1016/j.inffus.2019.12.012

[29] R. Guidotti, A. Monreale, S. Ruggieri, F. Turini, F. Giannotti, and D. Pedreschi, "A survey of methods for explaining black box models," ACM Comput. Surv., vol. 51, no. 5, pp. 1-42, 2018. DOI: 10.1145/3236009

[30] E. Strumbelj and I. Kononenko, "Explaining prediction models and individual predictions with feature contributions," Knowl. Inf. Syst., vol. 41, no. 3, pp. 647-665, 2014. (APA) DOI: 10.1007/s10115-013-0679-x

[31] Y. Zhang, et al., "XAI evaluation: evaluating black-box model explanations for prediction."2021 II International Conference on Neural Networks and Neurotechnologies (NeuroNT). IEEE, 2021. DOI: 10.1109/NeuroNT53022.2021.9472817

[32] A. Dikshit and B. Pradhan, "Interpretable and explainable AI (XAI) model for spatial drought prediction," Sci. Total Environ., vol. 801, p. 149797, Dec. 20 2021. DOI: 10.1016/j.scitotenv.2021.149797

[33] K. Roshan and A. Zafar, Utilizing XAI technique to improve autoencoder based model for computer network anomaly detection with shapley additive explanation (SHAP)[J]. arXiv preprint arXiv:, 2021.

[34] Jinying Zou, Ovanes Petrosian. "Explainable AI: Using Shapley value to explain complex anomaly detection ML-based systems."Machine learning and artificial intelligence 332 (2020): 152.

[35] S. Walia, K. Kumar, S. Agarwal, and H. Kim, "Using XAI for Deep Learning-Based Image Manipulation Detection with Shapley Additive Explanation," (J), Symmetry (Basel), vol. 14, no. 8, p. 1611, 2022. DOI: 10.3390/sym14081611

[36] X. Deng and C. H. Papadimitriou, ""On the complexity of cooperative solution concepts," (J)," Math. Oper. Res., vol. 19, no. 2, pp. 257-266, 1994., doi:DOI: 10.1287/moor.19.2.257

[37] U. Faigle and W. Kern, ""The Shapley value for cooperative games under precedence constraints," (J)," Int. J. Game Theory, vol. 21, no. 3, pp. 249266, 1992., doi:DOI: 10.1007/BF01258278

[38] J. M. Bilbao, J. R. Fernandez, A. J. Losada, and J. J. Lopez, ""Generating functions for computing power indices efficiently," (J)," Top (Madr.), vol. 8, no. 2, pp. 191-213, 2000., doi:DOI: 10.1007/BF02628555

[39] J. Castro, D. Gomez, and J. Tejada, ""A polynomial rule for the problem of sharing delay costs in PERT networks," (J)," Comput. Oper. Res., vol. 35, no. 7, pp. 2376-2387, 2008., doi:DOI: 10.1016/j.cor.2006.11.003

[40] D. Granot, J. Kuipers, and S. Chopra, "Cost allocation for a tree network with heterogeneous customers," Math. Oper. Res., vol. 27, no. 4, pp. 647-661, 2002. DOI: 10.1287/moor.27.4.647.307

[41] G. Chalkiadakis, E. Elkind, and M. Wooldridge, "Computational aspects of cooperative game theory," Synthesis Lectures on Artificial Intelligence and Machine Learning, vol. 5, no. 6, pp. 1-168, 2011. DOI: 10.1007/978-3-03101558-8

[42] J. Castro, D. G'omez, and J. Tejada, "Polynomial calculation of the shapley value based on sampling," Comput. Oper. Res., vol. 36, no. 5, pp. 1726-1730, 2009. DOI: 10.1016/j.cor.2008.04.004

[43] J. Castro, D. Gomez, E. Molina, and J. Tejada, "Improving polynomial estimation of the Shapley value by stratified random sampling with optimum allocation," Comput. Oper. Res., vol. 82, pp. 180-188, 2017. DOI: 10.1016/j.cor.2017.01.019

[44] R. Okhrati and A. Lipani, A multilinear sampling algorithm to estimate shapley values[C]//2020 25th International Conference on Pattern Recognition (ICPR). IEEE, 2021: 7992-7999.

[45] H. Chen, I. C. Covert, S. M. Lundberg, and S.-I. Lee, ""Algorithms to estimate Shapley value feature attributions," (J)," Nat. Mach. Intell., vol. 5, no. 6, pp. 590-601, 2023., doi:DOI: 10.1038/s42256-023-00657-x

[46] M. Chen, A. X. Zheng, J. Lloyd, M. I. Jordan, and E. Brewer, Failure diagnosis using decision trees. International Conference on Autonomic Computing, 2004. Proceedings., New York, NY, USA, 2004, pp. 36-43, doi: DOI: 10.1109/ICAC.2004.1301345.

[47] Liang YL, Zhang YY, Xiong H, Sahoo R. Failure Prediction in IBM BlueGene/L Event Logs.

[48] Anomaly detection and diagnosis from system logs through deep learning. Proceedings of the 2017 ACM SIGSAC Conference on Computer and Communications Security, 2017, 1285-1298.

[49] Xu W, Huang L, Fox A, Patterson D, Jordan MI. Large-Scale System Problems Detection by Mining Console Logs.

[50] V. K. Nikolay, "Strategic stability of coalitions technological alliance parameters: A two-level cooperation," Contributions to Game Theory and Management, vol. 8, pp. 111-136, 2015.

[51] S. L. He, J. M. Zhu, P. J. He, and R. L. Michael, Experience report: system log analysis for anomaly detection. IEEE International Symposium on Software Reliability Engineering (ISSRE), 2016. DOI: 10.1109/ISSRE.2016.21

[52] L. Shapley, "A value for n-person games," Contributions to the Theory of Games., vol. 2, no. 1, pp. 307-317, 1953.

[53] E. Strumbelj and I. Kononenko, "An efficient explanation of individual classifications using game theory," J. Mach. Learn. Res., vol. 11, pp. 1-18, 2010.

[54] H. Kuswanto, R. Mubarok, and H. Ohwada, "Classification Using Naive Bayes to Predict Radiation Protection in Cancer Drug Discovery: A Case of Mixture Based Grouped Data," International Journal of Artificial Intelligence, vol. 17, no. 1, pp. 186-203, 2019.

[55] C. Cath, S. Wachter, B. Mittelstadt, M. Taddeo, and L. Floridi, "Artificial intelligence and the 'good society': The US, EU, and UK approach," (J), Sci. Eng. Ethics, vol. 24, no. 2, pp. 505-528, Apr. 2018.

[56] A. Lui and G. W. Lamb, "Artificial intelligence and augmented intelligence collaboration: Regaining trust and confidence in the financial sector," (J), Inf. Commun. Technol. Law, vol. 27, no. 3, pp. 267-283, 2018. DOI: 10.1080/13600834.2018.1488659

[57] R. Challen, J. Denny, M. Pitt, L. Gompels, T. Edwards, and K. Tsaneva-Atanasova, "Artificial intelligence, bias and clinical safety," (J), BMJ Qual. Saf., vol. 28, no. 3, pp. 231-237, Mar. 2019. DOI: 10.1136/bmjqs-2018-008370

[58] A. Patcha and J. M. Park, "An overview of anomaly detection techniques: Existing solutions and latest technological trends," (J), Comput. Netw., vol. 51, no. 12, pp. 3448-3470, 2007. DOI: 10.1016/j.comnet.2007.02.001

[59] C. Cheadle, M. P. Vawter, W. J. Freed, and K. G. Becker, "Analysis of microarray data using Z score transformation," (J), J. Mol. Diagn., vol. 5, no. 2, pp. 73-81, May 2003. DOI: 10.1016/S1525-1578(10)60455-2

[60] D. Birant and A. Kut, "ST-DBSCAN: An algorithm for clustering spatial-temporal data," (J), Data Knowl. Eng., vol. 60, no. 1, pp. 208-221, 2007. DOI: 10.1016/j.datak.2006.01.013

[61] F. T. Liu, K. M. Ting, and Z. H. Zhou, Isolation forest[C]//2008 Eighth IEEE International Conference on Data Mining. IEEE, 2008: 413-422.

[62] N. Tomin, A. Zhukov, D. Sidorov, V. Kurbatsky, D. Panasetsky, and V. Spiryaev, "Random forest based model for preventing large-scale emergencies in power systems," International Journal of Artificial Intelligence, vol. 13, no. 1, pp. 211-228, 2015.

[63] Z. Zou, Y. Xie, K. Huang, G. Xu, D. Feng, and D. Long, "A docker container anomaly monitoring system based on optimized isolation forest," IEEE Trans. Cloud Comput., vol. 10, no. 1, pp. 134-145, 2019., doi:DOI: 10.1109/TCC.2019.2935724

[64] Liu F T, Ting K M, Zhou Z H. Isolation-based anomaly detection[J]. ACM Transactions on Knowledge Discovery from Data (TKDD), 2012, 6(1): 1-39.

[65] S. Wold, K. Esbensen, and P. Geladi, "Principal component analysis," (J), Chemom. Intell. Lab. Syst., vol. 2, no. 1-3, pp. 37-52, 1987. DOI: 10.1016/0169-7439(87)80084-9

[66] Balakrishnama S, Ganapathiraju A. Linear discriminant analysis-a brief tutorial[C]//Institute for Signal and information Processing. 1998, 18(1998): 1-8.

[67] Roweis S T, Saul L K. Nonlinear dimensionality reduction by locally linear embedding[J]. science, 2000, (290): 2323-2326.

[68] O. Petrosian and A. Barabanov, "Looking Forward Approach in cooperative differential games with uncertain stochastic dynamics," (J), J. Optim. Theory Appl., vol. 172, no. 1, pp. 328-347, 2017. DOI: 10.1007/s10957-016-1009-8

[69] Bradley, P. S., K. P. Bennett, and Ayhan Demiriz. "Constrained k-means clustering."Microsoft Research, Redmond (2000): 1-8.

[70] S. S. Fatima, M. Wooldridge, and N. R. Jennings, An analysis of the shapley value and its uncertainty for the voting game[M]//Agent-Mediated Electronic Commerce. Designing Trading Agents and Mechanisms. Springer, Berlin, Heidelberg, 2005: 85-98.

[71] I. Mann and L. S. Shapley, Values of large games 6: Evaluating the electoral college exactly. Tech. Rep., Rand Corp Santa Monica CA, 1962.

[72] Maleki S, Tran-Thanh L, Hines G, Rahwan T, Rogers A. Bounding the estimation error of sampling based shapley value approximation. arXiv preprint, arXiv, 2013, 1306.4265.

[73] Jinying Zou, et al. "High-dimensional explainable AI for cancer detection."International Journal of Artificial Intelligence 19.2 (2021): 195.

[74] Pearson, Karl. "VII. Note on regression and inheritance in the case of two parents."proceedings of the royal society of London 58.347-352 (1895): 240242.

[75] Hanley, Anthony JG, et al. "Prediction of type 2 diabetes using simple measures of insulin resistance: combined results from the San Antonio Heart Study, the Mexico City Diabetes Study, and the Insulin Resistance Atherosclerosis Study."Diabetes 52.2 (2003): 463-469.

[76] M. C. Oldham, S. Horvath, and D. H. Geschwind, "Conservation and evolution of gene coexpression networks in human and chimpanzee brains," Proc. Natl. Acad. Sci. USA, vol. 103, no. 47, pp. 17973-17978, Nov. 21 2006. DOI: 10.1073/pnas.0605938103

[77] C. Spearman, "The proof and measurement of association between two things. By C. Spearman, 1904," Am. J. Psychol., vol. 100, no. 3-4, pp. 441-471, FallWinter 1987. DOI: 10.2307/1422689

[78] Jinying Zou, et al., "Explainable AI: Graph Based Sampling Approach for High Dimensional AI System."International Conference on Intelligent Information Technologies for Industry. Cham: Springer Nature Switzerland, 2023. DOI: DOI: 10.1007/978-3-031-43789-2_38

[79] M. E. Tipping, "Bayesian inference: An introduction to principles and practice in machine learning," in Summer School on Machine Learning. Berlin, Heidelberg: Springer Berlin Heidelberg, 2003, pp. 41-62.

[80] S. B. Kotsiantis, I. D. Zaharakis, and P. E. Pintelas, "Machine learning: A review of classification and combining techniques," Artif. Intell. Rev., vol. 26, no. 3, pp. 159-190, 2006., doi:DOI: 10.1007/s10462-007-9052-3

[81] S. Lauritzen, Sequential Bayesian updating. Presented in lecture 14 at University of Oxford. [Online]. Available: https:// www.stats. ox.ac.uk/steffen/teaching/bs2HT9/kalman.pdf

[82] W. M. Bolstad and J. M. Curran, Introduction to Bayesian statistics. John Wiley & Sons, 2016.

[83] Box, George EP, and George C. Tiao. Bayesian inference in statistical analysis. John Wiley & Sons, 2011.

[84] Plackett, R. L. "Introduction to probability and statistics from a Bayesian viewpoint."(1966): 84-86.

[85] A. Gelman, et al., Bayesian data analysis. Chapman and Hall/CRC, 1995, DOI: 10.1201/9780429258411.

[86] A. Hald, "On the history of maximum likelihood in relation to inverse probability and least squares," Stat. Sci., vol. 14, no. 2, pp. 214-222, 1999., doi:DOI: 10.1214/ss/1009212248

[87] Fisher, Ronald Aylmer. "014: On the"Probable Error"of a Coefficient of Correlation Deduced from a Small Sample."(1921).

[88] Fisher, Ronald A. "On the mathematical foundations of theoretical statistics."Philosophical transactions of the Royal Society of London. Series A, containing papers of a mathematical or physical character 222.594-604 (1922): 309-368.

[89] Petrosian, Ovanes, and Jinying Zou. "Explainable AI: Efficiency Sequetial Shapley Updating Approach."IEEE Access (2024).

[90] Zhang, Yuyi, et al. "XAI evaluation: evaluating black-box model explanations for prediction."2021 II International conference on neural networks and neurotechnologies (NeuroNT). IEEE, 2021.

[91] Yin, Li, Petrosian Ovanes, and Zou Jinying. "Dynamic shapley value in the game with perishable goods."Contributions to Game Theory and Management 14 (2021): 273-289.

[92] Zou, Jinying, Feiran Xu, and Ovanes Petrosian. "Explainable AI: using Shapley value to explain the anomaly detection system based on machine learning approaches."npo^ccbi управления и устойчивость 7.1 (2020): 355-360.

Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.