Методы выбора моделей машинного обучения для систем искусственного интеллекта в условиях малых выборок тема диссертации и автореферата по ВАК РФ 00.00.00, кандидат наук Шовкопляс Григорий Филиппович
- Специальность ВАК РФ00.00.00
- Количество страниц 268
Оглавление диссертации кандидат наук Шовкопляс Григорий Филиппович
Реферат
Synopsis
Введение
ГЛАВА 1. Обзор предметной области
1.1. Модели машинного обучения для работы в условиях малых выборок
1.2. Методы проактивного выбора моделей машинного обучения
1.3. РАС-leaming как методологическая основа выбора модели машинного обучения в условиях малых выборок
1.4. Постановка цели и задач диссертации
Выводы по главе
ГЛАВА 2. Проблемно-ориентированный подход к проактивному выбору моделей машинного обучения для систем ИИ в условиях малых выборок на основе теории PAC-learning
2.1. Построение обобщающей модели для качественной оценки средств ИИ на основе теории PAC-learning
2.2. Анализ асимптотического поведения модели в условиях малых выборок
Выводы по главе
ГЛАВА 3. Разработка методов адаптации моделей машинного обучения для систем ИИ, работающих в условиях малых выборок, на основе упрощения архитектуры модели
3.1. Селекция гиперпараметров проблемно-ориентированных моделей МО в рамках упрощения моделей
3.2. Разработка метода адаптации модели МО для систем реабилитации пациентов на основе снижения размерности контролируемых движений
3.2.1. Возможности реабилитации двигательных функций у пациентов с поддержкой средств ИИ
3.2.2. Моделирование движений кисти и пальцев рук для реабилитации рассеянного склероза
3.2.3. Построение модели для реабилитации щипкового движения
3.2.4. Экспериментальная оценка эффективности разработанной модели для реабилитации щипкового движения пациентов
3.3. Разработка метода адаптации моделей МО на основе few-shot learning для систем взаимодействия с глухонемыми пациентами
3.3.1. Возможности поддержки общения с глухонемыми пациентами с помощью few-shot learning
3.3.2. Разработка метода адаптации модели МО для общения с глухонемыми пациентами на основе few-shot learning с изменяемым числом эпизодов
3.3.3. Разработка метода адаптации модели МО для общения с глухонемыми пациентами на основе few-shot learning с изменяемым объемом входного сигнала
Выводы по главе
ГЛАВА 4. Разработка методов адаптации моделей машинного обучения для систем ИИ, работающих в условиях малых выборок, на основе редуцирования размера обрабатываемой зоны домена
4.1. Селекция гиперпараметров проблемно-ориентированных моделей МО в рамках редуцирования размера обрабатываемой зоны домена
4.2. Разработка метода адаптации модели для систем контроля локализованных патологий головного мозга и их динамики на МРТ изображениях
4.2.1. Онкологические патологии головного мозга на МРТ изображениях
4.2.2. Разработка средства контроля онкологических патологий головного мозга и их динамики на МРТ изображениях на базе алгоритма Чан-Везе
4.2.3. Экспериментальные оценки средства контроля онкологических патологий головного мозга и их динамики на МРТ изображениях
4.3. Разработка метода адаптации моделей МО для систем контроля сосудистых патологий головного мозга на МРТ изображениях
4.3.1. Сосудистые патологии головного мозга на МРТ изображениях и способы их выявления
4.3.2. Разработка средства контроля сосудистых патологий головного мозга на МРТ изображениях на базе сиамских сетей
4.3.3. Экспериментальные оценки средства контроля сосудистых патологий головного мозга на МРТ изображениях на базе сиамских
сетей
Выводы по главе
ГЛАВА 5. Разработка методов адаптации моделей машинного обучения для систем ИИ, работающих в условиях малых выборок, на основе ансамблирования
5.1. Селекция гиперпараметров проблемно-ориентированных моделей МО в рамках их ансамблирования
5.2. Классические методы ранжирования признаков и их применимость к небольшим выборкам
5.3. Байесовские методы отбора признаков в небольших выборках
5.4. Преобразование сравниваемых моделей регрессии в байесовскую форму
5.5. Выбор материалов и метрик для оценки результатов ранжирования переменных в сравниваемых регрессионных моделях
5.6. Экспериментальные результаты и их обсуждение
Выводы по главе
Заключение
Список литературы
Список иллюстраций
Список таблиц
Приложение А. Акт об использовании и внедрении результатов диссертационного исследования
Приложение Б. Публикации автора по теме диссертации
Реферат
Рекомендованный список диссертаций по специальности «Другие cпециальности», 00.00.00 шифр ВАК
Исследование универсальности моделей статистической механики методами машинного обучения2024 год, кандидат наук Чертенков Владислав Игоревич
Байесовский выбор субоптимальной структуры модели глубокого обучения2020 год, кандидат наук Бахтеев Олег Юрьевич
Математическое моделирование и исследование алгоритмов обучения и выбора гиперпараметров искусственных нейронных сетей для классификации объектов на цифровых изображениях2023 год, кандидат наук Толстых Андрей Андреевич
Гибридная интеллектуальная система для оперативного определения свойств бурового раствора на основе машинного обучения2024 год, кандидат наук Давуди Шадфар
Адаптивные стратегии обучения градиентного бустинга2024 год, кандидат наук Ибрагимов Булат Ленарович
Введение диссертации (часть автореферата) на тему «Методы выбора моделей машинного обучения для систем искусственного интеллекта в условиях малых выборок»
Общая характеристика работы
Актуальность исследования. Системы искусственного интеллекта (ИИ) получили широкое распространение в современной практике в различных доменах. В подавляющем числе случаев базой для построения систем ИИ являются различные модели машинного обучения (МО). Основным трендом развития средств ИИ долгое время было расширение объема датасетов, используемых для построения систем МО, а главным препятствующим фактором считался ресурсный, связанный с трудностью их разметки. Однако в реалиях последних лет ситуация принципиально меняется, и во многих современных областях применения систем ИИ возникает проблема малых данных. Например, для медицины малый объем доступных данных обусловливается следующими факторами:
- появляются все новые заболевания (COVID, орфанные заболевания);
- изменяется течение известных ранее и сопутствующих заболеваний;
- манифестируется переход к персонализированной медицине, связанной с комплексным учетом медицинских характеристик конкретного пациента;
- существуют ограничения на доступ к данным, связанные с проприетарностью датасетов, а датасеты, находящиеся в открытом доступе, часто отличаются низким качеством и зашумленностью данных.
В этих условиях большой объем статистически однородных данных для обучения алгоритмов ИИ собрать принципиально невозможно, и требуется переход к работе с малыми выборками.
Содержательно малой считается выборка, в которой количество параметров соизмеримо с числом признаков. Основная специфика работы с малыми выборками заключается в следующем:
- невозможно получить надежную точечную оценку большого числа параметров;
- невозможно генерировать адекватные синтетические данные для пополнения датасета.
Для систем ИИ, ориентированных на работу в условиях малых объемов доступных данных, используются модели машинного обучения (МО), адаптированные для малых выборок. Однако, как показывает анализ, для указанных моделей характерно многообразие типов, гиперпараметров, а также подходов к адаптации, и стратегия реактивного (post-hoc) выбора в этой ситуации оказывается неприемлемо ресурсозатратной.
Таким образом, перед разработчиками систем ИИ встает проблема выбора моделей МО, потенциально пригодных для работы в условиях малых объемов доступных данных, и их проактивной оценки (proactive evaluation). При этом для снижения ресурсозатрат на разработку желательно сделать выбор модели МО не постфактум (путем сравнения эффективности нескольких моделей по окончании их разработки), а проактивно, т. е. на более ранних стадиях разработки. Проактивная оценка [1] направлена на прогнозирование проблем, которые могут возникнуть при использовании конкретной модели МО, и тем самым позволяет заранее сократить зону выбора до заведомо приемлемых групп моделей, внутри которых уже осуществляется полномасштабная разработка и оценка конкурирующих вариантов.
Степень разработанности темы. Как свидетельствует анализ литературы [2, 3, 4, 5, 6, 7, 8, 9, 10], практически весь спектр задач, характерных для МО, сегодня реализуется в диапазоне малых обучающих выборок. В подавляющем большинстве случаев для работы в условиях малых выборок не разрабатываются принципиально новые модели МО, а адаптируются уже существующие. Первые методы организации МО в условиях малых выборок появились еще в начале 2000-гг. [11], а к настоящему времени их диапазон существенно расширился. Так, в [10] предлагается классифицировать методы адаптации по пространству,
где эта адаптация выполняется - во входном пространстве, в модельном пространстве или и в пространстве признаков. В [7] в качестве классификационного признака используются проблемы, присущие работе в условиях малых обучающих выборок и решаемые конкретным методом адаптации, такие как недостаточная обобщаемость, несбалансированность данных и трудности оптимизации.
Среди наиболее распространенных методов адаптации моделей МО к условиям малых выборок можно назвать упрощение модели (сокращение числа обучаемых параметров) [12, 13], редукцию домена (сокращение размерности исходного домена, из которого извлекается обучающая выборка) [14, 15], а также ансамблирование результатов, которое в диссертации реализуется посредством байесовского подхода [16, 17]. Соответствующие типы моделей МО, анализируемые в диссертации на примере задачи классификации, охарактеризованы в разделе 1.1.
Проактивный подход к оценке разрабатываемых программных средств начал применяться достаточно давно - с конца 1990-х гг. [18] и в последние годы включается как один из ключевых компонентов в общую стратегию риск-менеджмента разработки программных продуктов. Анализ литературы и опыта разработок позволяет выделить основные группы таких подходов к выбору моделей МО:
- экспертный подход;
- подход на основе кривых обучения;
- подход на основе методов многокритериального принятия решений;
- автоматическое МО (методы АиюМЬ)
Экспертный подход [19, 20, 21, 22, 23, 24, 25, 26, 27] основывается на знаниях, получаемых из опыта ведения предыдущих разработок и аккумулируемых в базах знаний. Однако использование экспертного подхода требует наличия большой и постоянно актуализируемой базы знаний, а для организации его поддержки средствами МО, в свою очередь, необходимы
большие датасеты, что противоречит рассматриваемой в диссертации ситуации малых выборок.
Кривая обучения (learning curve) [28, 29, 21, 33, 30, 31, 32, 34] в МО представляет собой зависимость прогностической эффективности от усилий по обучению, причем усилия по обучению обычно соотносятся с объемом обучающей выборки, а прогностическая эффективность - с точностью на тестовой выборке. Однако экстраполировать оценки, полученные этим методом в регионе средних размеров обучающей выборку на регион малых выборок в общем случае неправомерно. Более того, для построения кривой обучения требуются post-hoc оценки моделей МО, уже обученных на датасетах большего объема из конкретного домена, а такое требование выходит за рамки граничных условий диссертационной работы.
Так как выбор модели МО можно рассматривать как процесс принятия решений, с этой целью естественно применять методы многокритериальных решений [35]. При этом отдельные варианты моделей рассматриваются как концепты в критериальном пространстве, на котором решается задача минимизации векторного критерия в условиях линейных ограничений. Для решения задачи (1.1), (1.2) используется широкий спектр методов 36, 37, 38, 39, 40, 41, 42]. Проблемно-ориентированный анализ методов проактивного выбора моделей МО представлен в разделе 1.2 диссертации.
Однако ситуация выбора модели МО на начальных этапах проектирования характеризуется высокой неопределенностью как в части задания отдельных критериальных функций, так и в части их соотношения в общем минимизируемом векторе. В связи с этим перспективным подходом к выбору моделей МО в области малых выборок может служить отказ от полномасштабного решения задачи (1.1), (1.2) в пользу нахождения и анализа области недоминируемых решений, т. е. Парето-фронта [42, 43, 44]. Однако, как правило, сравниваемые модели МО характеризуются большим количеством параметров, что приводит к высокой разреженности фронта Парето в общем
пространстве признаков и, соответственно, к резкому снижению возможностей его точной аппроксимации. В этом плане большой интерес представляет использование теории вероятностного приблизительно корректного обучения (англ. Probably Approximately Correct learning, PAC learning) [46]. Она позволяет описать модель МО небольшим набором взаимосвязанных гиперпараметров [47, 48], для которых уже на ранних стадиях проектирования моделей МО можно получить обобщенные проактивные оценки и тем самым упростить и объективизировать выбор.
Целью исследования является повышение эффективности разработки систем ИИ в условиях малых выборок путем проактивного выбора моделей машинного обучения.
Для достижения цели в ходе исследования ставятся следующие задачи:
1. Провести проблемно-ориентированное исследование методов выбора моделей машинного обучения для систем ИИ и выделить методологическую основу для проактивного выбора в условиях малых выборок.
2. Разработать проактивный подход к выбору моделей машинного обучения для систем ИИ, работающих в условиях малых выборок, на основе теории PAC-learning.
3. Разработать семейство методов адаптации моделей машинного обучения для работы системы ИИ в условиях малых выборок на основе подхода п.2, базирующихся на:
• упрощении модели, позволяющих учесть сложность модели через число одновременно обрабатываемых элементов;
• редукции домена, позволяющих учесть сложность модели через размерность обрабатываемого пространства;
• ансамблировании, позволяющих учесть обобщаемость выбора модели через переход к байесовской форме классификатора.
4. Программно реализовать разработанные методы для конкретных задач систем ИИ.
5. Экспериментально оценить эффективность разработанных методов выбора моделей машинного обучения относительно заданных критериев системы ИИ, которые могут не совпадать с критериями модели МО. Методы исследования включают в себя методы машинного обучения, теорию вероятностного почти корректного обучения (теорию Валианта, probably approximately correct learning, PAC-learning), методы построения конечных автоматов, методы компьютерного зрения (в частности, алгоритм Чан-Везе), методы байесианизации моделей.
На защиту выносятся следующие основные положения, обладающие научной новизной:
1. Проблемно-ориентированный подход к проактивному выбору моделей машинного обучения для систем ИИ в условиях малых выборок на основе теории PAC-learning, отличающийся тем, что с целью получения качественных оценок соотношения между допустимой ошибкой решения, обобщаемостью и сложностью модели используется асимптотический анализ параметризованного Парето-фронта.
2. Семейство методов адаптации моделей машинного обучения для работы в условиях малых выборок на основе подхода п.1, базирующихся на:
• упрощении модели, отличающихся тем, что для оценки сложности модели используется число одновременно обрабатываемых элементов;
• редукции домена, отличающихся тем, что для оценки сложности модели используется размерность обрабатываемого пространства;
• ансамблировании, отличающихся тем, что для оценки обобщаемости используется переход к байесовской форме классификатора.
Достоверность научных достижений. Степень достоверности научных достижений подтверждается корректным использованием методов, обоснованием постановки задач, экспериментальными исследованиями, покрывающими разработанные технологии и алгоритмы. Полученные
результаты признаны научным сообществом: опубликованы в статьях и представлены на конференциях.
Соответствие паспорту специальности. В соответствии с паспортом специальности 1.2.1 - «Искусственный интеллект и машинное обучение» диссертация относится к области исследований «2. Исследования в области оценки качества и эффективности алгоритмических и программных решений для систем искусственного интеллекта и машинного обучения. Методики сравнения и выбора алгоритмических и программных решений при многих критериях».
Теоретическое значение работы состоит в том, что разработанный в ней подход позволяет применить теорию РАС-learning в условиях сильно разреженных данных путем перехода к оценке динамики Парето-фронта. Подход является достаточно универсальным и применим к широкому классу задач построения систем ИИ, где требуется проактивная качественная оценка перспективности того или иного архитектурного решения.
Практическое значение работы состоит в том, что в ней сформированы процедуры проактивной качественной оценки перспективности того или иного архитектурного решения, непосредственно применимые в практике разработки систем ИИ. Разработанные в работе методы адаптации реализованы в виде алгоритмических и программных решений, имеющих практическую ценность в области медицины, и могут быть легко перенесены на другие домены, в частности, индустриальные. Практическая ценность результатов диссертационного исследования подтверждается актами о внедрении результатов исследования.
Апробация работы. Основные результаты работы докладывались и обсуждались на следующих конференциях:
• 12th International Conference on e-Health (21.07.2020 - 25.07.2020)
• 13th International Conference on e-Health (20.07.2021 - 22.07.2021)
• 17th International Conference on e-Health (15.07.2023 - 18.07.2023)
• 50 Научная и учебно-методическая конференция Университета ИТМО (01.02.2021 - 04.02.2021)
• 51 Научная и учебно-методическая конференция Университета ИТМО (02.02.2022 - 05.02.2022)
• 52 Научная и учебно-методическая конференция Университета ИТМО (31.01.2023 - 03.02.2023)
• XI Конгресс молодых ученых (04.04.2022 - 06.04.2022)
Личный вклад автора в работах, выполненных в соавторстве, заключается в построении моделей, разработке и реализации алгоритмов и методов, написании обзоров литературы.
Внедрение результатов работы. Результаты исследования использовались при выполнении следующих НИОКР: Российский научный фонд, РНФ 10078.
Публикации. Основные результаты по теме диссертации изложены в 5 публикациях. Из них 4 опубликованы в изданиях, индексируемых в базе цитирования Scopus.
Структура и объем диссертации. Во введении сформулированы цель и задачи исследования, обоснованы актуальность и научная новизна работы. Кроме того, во введении перечислены основные выносимые на защиту положения диссертационной работы и представлены научная значимость работы.
Содержание работы В первой главе выполнен обзор предметной области исследования. В разделе 1.1. на основании анализа литературных источников и практики разработки систем ИИ выделены основные группы проблем, возникающих при адаптации моделей МО к работе в условиях малых выборок, а также примеры программных решений для адаптации. Предложена и обоснована проблемно-ориентированная трактовка понятия «малая выборка», а именно: выборка рассматривается как малая, если при использовании ее для обучения конкретной
модели МО возникают типичные проблемы, выделенные в разделе. Выделен пул задач, решаемых в рамках работы, которые относятся к классу задач классификации.
В разделе 1.2 рассмотрены методы проактивного выбора моделей МО. Параметры, фигурирующие в описании процесса МО, делятся на две группы -собственно параметры и гиперпараметры. Гиперпараметры процесса МО принято разделять на гиперпараметры модели и гиперпараметры алгоритма обучения. Практика разработки систем МО свидетельствует, что принятие решений о гиперпараметрах модели МО представляет собою многоуровневый процесс, «спускающийся» от наиболее общих решений к конкретным конструктивным гиперпараметрам. Решения верхнего уровня, как правило, принимаются в соответствии с признанной на данном этапе развития индустрии МО парадигмой моделирования и не предполагают проактивной оценки. На следующем уровне определяются гиперпараметры, определяющие конкретный подход из группы принципиально возможных в рамках верхнеуровневого решения. Наконец, на последнем уровне для выбранного подхода определяются конструктивные гиперпараметры, для подбора которых у опытных разработчиков, как правило, вырабатываются определенные приоритеты. В рамках диссертационного исследования при выборе моделей МО основное внимание уделяется проактивному выбору параметров среднего из описанных уровней.
Анализ литературы и опыта разработок позволяет выделить основные группы таких подходов к выбору моделей МО: экспертный подход; подход на основе кривых обучения; автоматическое МО (методы АШюМЬ); подход на основе методов многокритериального принятия решений. В работе показано, что для проактивных оценок в условиях малых выборок целесообразно использовать последний подход. При этом отдельные варианты моделей рассматриваются как концепты в критериальном пространстве, на котором решается задача минимизации векторного критерия:
тт{/ф,p), !Л2(х,p),/ип(х,p)} (п>2)
тт-
(1.1)
при условиях
gq (x p) < 0 q = l,..., г; hj (x, p ) = 0 j = 1,..., v;
(1.2)
где Цг - i-й частный критерий; g, h - векторы ограничений; р - вектор параметров модели, х - переменные модели. Ситуация выбора модели МО на начальных этапах проектирования характеризуется высокой неопределенностью как в части задания отдельных функций Цт = Цт(х, p), так и в части их соотношения в общем минимизируемом векторе (1.1). Поэтому перспективным подходом к выбору моделей МО в области малых выборок может служить отказ от полномасштабного решения задачи (1.1), (1.2) в пользу нахождения и анализа области недоминируемых решений, т. е. Парето-фронта. Однако, как правило, сравниваемые модели МО характеризуются большим количеством параметров, что приводит к высокой разреженности фронта Парето в общем пространстве признаков и, соответственно, к резкому снижению возможностей его точной аппроксимации.
В разделе 1.3 рассматривается теория РАС-learning (Probably Approximately Correct learning), используемая в диссертации в качестве методологической основы для выбора модели машинного обучения в условиях малых выборок.
Рассматривается класс моделей f q и пространство гипотез Н. Модель преобразует входные данные Хг объемом m, 1<i< m, в выходные данные уг. Пусть e - точность модели на имеющихся данных, d - мера обобщаемости модели на новых данных, p - некоторая вероятностная мера. Тогда класс моделей f е является РАС, если на любых данных с вероятностью p>1-S точность модели f е не меньше е. Базовое соотношение между указанными параметрами в теории PAC-learning имеет вид
т >
1п Н + 1п
(1.4)
Для задач классификации выражение (1.4) может быть преобразовано к виду
где в - знак асимптотической эквивалентности, а VC(H) - размерность Вапника-Червоненкиса [48, 53], которая формально определяется следующим образом. Пусть задано множество X и некоторое семейство индикаторных функций (алгоритмов классификации, решающих правил) {^}= {/(х, а)}, где х 6 X -аргумент функций, а - вектор параметров, задающий функцию. Каждая такая функция /х, а) сопоставляет каждому элементу множества X один из двух заданных классов. Тогда размерностью Вапника-Червоненкиса (УС-размерностью) семейства F называется наибольшее число к такое, что существует подмножество из к элементов множества X, которые функции из F могут разбить на два класса всеми возможными способами. Если же такие подмножества существуют для сколь угодно большого к, то УС-размерность полагается равной бесконечности. Однако для получения практически значимых результатов выражение (1.5) должно быть конкретизировано.
В разделе 1.4 сформулированы цель и задачи диссертации.
В главе 2 разработан проблемно-ориентированный подход к проактивному выбору моделей машинного обучения для систем ИИ в условиях малых выборок на основе теории РАС-1еагш^.
В разделе 2.1 на основе базового выражения (1.5) построен проблемно-ориентированный подход к проактивному выбору моделей МО в условиях малых выборок. Для этого введены два ограничения:
Ограничение 1. В ситуации малых выборок мы заменяем асимптотическую оценку (1.5) на приближенное равенство
(1.5)
(2.2)
где С - это некоторая положительная константа
Ограничение 2. В поставленной ранее задаче минимизации векторного критерия (1.1) в условиях неопределенности каждый частный критерий будем рассматривать в виде
^ = р(х,р)^% (х,р) + т(х,р) (2.3)
где р(х,р) - мультипликативная неопределенность, а т(х,р) - аддитивная неопределенность.
Учитывая введенные ограничения, задачу математического программирования (1.1-1.2) будем рассматривать в следующем виде:
min[£(VC(H),m),S(VC(H),m)] (2.4)
при
Ст = ! %VC(H) + log !)
vc(H) = ZC=1nUhj + R (2.5)
m < ^available
Здесь fij - некоторые функции от параметров модели и датасета, m - размер датасета, а R - некоторая ограниченная функция, отражающая остаток в выражении, позволяющие выразить VC(H) в рамках аппроксимации, отражающей неопределенность, введенную в ограничении (2.2).
При этом высокая неопределенность, свойственная задачам с малыми выборками, не позволяет получить выражение для Парето-фронта в явном виде. В связи с этим свойства Парето-фронта предлагается оценивать посредством анализа асимптотического поведения trade-off rate, характеризующего компромисс между величинами £ и S, через отношение полных дифференциалов
ds
—, которое характеризует относительную величину совместного изменения этих переменных.
Точность £ = £(VC(H),m,S) зависит от VC(H) и т, что было введено в (2.4), а также, очевидно, зависит от S, так как параметры не являются независимыми. Аналогично S = S(VC(H),m, е). Приняв в рамках расчетов т за константу, по определению получаем:
= т-9^ МС(Н) + I" <18 (2.6)
а-с(н) 4 у 95 4 7
6.8 = МС(Н) + йг (2.7)
При этом, так как в явном виде оценить отношение дифференциалов не получится из-за циклической зависимости, перейдем от дифференциалов к изменению величины Д. Это можно сделать при стремящихся к нулю изменениях величин, которые как раз и задают границу Парето-фронта. Из (2.6) и (2.7) получаем
йг ДУС(Н) + I"Д5 (2.8)
« т-1^ДУС(Н) + 15де (2.9)
„ 9" 9" 95 95
Вычисляя четыре частные производные |#, из выражения
(2.2), получаем, что соотношения между параметрами УС(Н),т и 5 не зависят от константы С и представляются в виде
9" " (2.10)
9-С(Я) 2(-С(Н)+1об5)
9" £
95 ~ 25(УС(Н)-1об5)
95
-« О
9-С(Я)
(2.11) (2.12)
95«- 25 .(гс(я)-^я) (2.13)
Тем самым, мы показали, что переход от (2.1) к соотношениям между параметрами УС(Н),т и 8 позволяет в первом приближении не учитывать влияние неопределенности, так как в пределах масштабов малых выборок она влияет на переменные одинаково.
Получая на основании (2.8-2.9) выражение для —, необходимое для
оценки асимптотического поведения Парето-фронта, и подставляя в него (2.102.13), получим финальное соотношение относительной важности используемых переменных в виде
+£ _ у 2+(%с(н)-1о,+)
+# (—~+'(—.(0)—1°§О))А£+5'А—С(Н)
(~2(%С(//)-1о, +) )А# + (2(%С(Н)+1о, ¿))А-С(Я) (2 14)
В разделе 2.3 проведен анализ асимптотического поведения полученного соотношения (2.14), который позволяет получить представление о Парето-
фронте даже в условиях его сильной разреженности и неопределенности.
+ £
• При УС(Н) — от получаем — — 0, что означает низкое влияние изменения обобщаемости на изменение точности;
тт иггпл п +£ У2*) )а0+Ш+))а-С(Я)
• При УС(Н) — 0 получаем - - (^#°2'+1°б#))А£^#?2е'А-с(я), что позволяет
заключить, что взаимовлияние повышения точности и обобщаемости определяется их относительными величинами (что видно из выражений
и 252 '^У;
• При 5 — 0 — от, при этом все коэффициенты стремятся к нулю, что означает снижение влияния всех факторов, но влияние АУС(Н) на
+А д
повышение величины отношения — спадает медленнее, чем Ае на
+ 0
понижение, что говорит о релевантности изменений АУС(Н) в любых условиях. При 6 — 0 — 0, но наблюдается обратная тенденция для АУС(Н)'
Учет более тонких взаимосвязей между концептами производится путем настройки параметров модели в конкретной задаче.
Построенный подход к проактивному выбору моделей машинного обучения для систем ИИ в условиях малых выборок на основе теории РАС-1еат^ формализован в виде пошаговой процедуры, непосредственно применимой в практике разработки систем ИИ. В последующих главах работы специфика построенного подхода раскрывается на конкретных примерах.
В главе 3 рассматривается разработка методов адаптации моделей машинного обучения для систем ИИ, работающих в условиях малых выборок, на основе упрощения архитектуры модели.
В разделе 3.1 рассматриваются типичные ситуации, приводящие к моделям машинного обучения указанного типа, а именно: реабилитации пациентов после перенесенных заболеваний, связанных с потерей двигательной активности, и общение с глухонемыми пациентами. В первой ситуации (задачи первого типа) можно либо строить сложные многопараметрические системы, контролирующие полный объем движений пациента, управляемые единой системой ИИ, либо перейти к тренировке отдельных типов движения, которые могут быть описаны сравнительно небольшим набором параметров, с последующим постепенным наращиванием номенклатуры таких движений и соответствующих подсистем ИИ. При этом можно достичь снижения ресурсоемкости решения за счет снижения точности классификации движений (на 2 класса - верно\неверно). С точки зрения построения системы ИИ это означает небольшие требования к обобщаемости.
Во второй ситуации (задачи второго типа) можно выделить класс сценариев, в которых достаточно ограничиться классификацией жестов небольшой номенклатуры. Это, например, сценарии оказания срочной и (или) первичной медицинской помощи глухонемому пациенту. Здесь, аналогично предыдущей задаче, не требуется высокая обобщаемость системы ИИ. В этих случаях можно перейти от безмаркерного (по видеопотоку) к маркерному (по миограмме, снимаемой посредством специализированных наручных браслетов) способу формирования сигнала, что позволяет резко снизить количество контролируемых параметров, а также использовать подход few-shot learning. Более того, при использовании подхода few-shot learning в рамах маркерного метода можно заранее определить минимальное число датчиков) при сохранении точности классификации.
Высказанные соображения позволяют конкретизировать подход к проактивному выбору моделей машинного обучения для систем ИИ, сформированный в главе 2. А именно, используя в качестве исходного выражение (2.2) и детализируя выражение для VC(H), получаем:
VC(H) = C± -Ninp -Nrel + R, (3.1)
где N%np - число степеней свободы, а Nrel - число взаимосвязей между параметрами и R - некоторая ограниченная функция. Преобразуя это выражение и подставляя его в (2.14), получаем следующие проактивные оценки для выбора параметров моделей машинного обучения для указанного класса задач. Для задач первого типа:
Похожие диссертационные работы по специальности «Другие cпециальности», 00.00.00 шифр ВАК
Метод комплексной оценки моделей данных для автоматизации машинного обучения без учителя2019 год, кандидат наук Баймуратов Ильдар Раисович
Методы оптимального транспорта на основе нейронных сетей для задач переноса стиля и предметной адаптации2024 год, кандидат наук Асадулаев Арип Амирханович
Интеграция иерархических ансамблей и трансформерных архитектур в алгоритмы обучения с подкреплением2024 год, кандидат наук Козлов Даниил Александрович
Система автоматического выбора и оценки алгоритмов кластеризации и их параметров2019 год, кандидат наук Муравьёв Сергей Борисович
Список литературы диссертационного исследования кандидат наук Шовкопляс Григорий Филиппович, 2023 год
Литература
1. Agrawal S.C., Jalal A.S., Tripathi R.K. A survey on manual and nonmanual sign language recognition for isolated and continuous sign // International Journal of Applied Pattern Recognition. 2016. V. 3. N 2. P. 99-134. https://doi.org/10.1504/ijapr.2016.079048
2. Bragg D., Koller O., Bellard M., Berke L., Boudrealt P., Braffort A., Caselli N., Huenerfauth M., Kacorri H., Verhoef T., Vogler C., Morris M.R. Sign language recognition, generation, and translation: An interdisciplinary perspective // Proc. of the 21st International ACM SIGACCESS Conference on Computers and Accessibility (ASSETS). 2019. P. 16-31. https://doi.org/10.1145/3308561.3353774
3. Kamal S.M., Chen Y., Li S., Shi X., Zheng J. Technical approaches to Chinese sign language processing: A review // IEEE Access.
2019. V. 7. P. 96926-96935. https://doi.org/10.1109/ ACCESS.2019.2929174
4. O'Connor T.F., Fach M.E., Miller R., Root S.E., Mercier P.P., Lipomi D.J. The Language of Glove: Wireless gesture decoder with low-power and stretchable hybrid electronics // PLoS ONE. 2017. V. 12. N 7. P. e0179766. https://doi.org/10.1371/journal.pone.0179766
5. Song Y., Lee S., Choi Y., Han S., Won H., Sung T.-H., Choi Y., Bae J. Design framework for a seamless smart glove using a digital knitting system // Fashion and Textiles. 2021. V. 8. N 1. P. 6. https://doi. org/10.1186/s40691-020-00237-2
6. Zhou Z., Chen K., Li X., Zhang S., Wu Y., Zhou Y., Meng K., Sun C., He Q., Fan W., Fan E., Lin Z., Tan X., Deng W., Yang J., Chen J. Sign-to-speech translation using machine-learning-assisted stretchable sensor arrays // Nature Electronics. 2020. V. 3. N 9. P. 571-578. https://doi.org/10.1038/s41928-020-0428-6
7. Bernhardt P. Myo SDK Beta 7 [Электронный ресурс]. URL: https:// developerblog.myo.com/myo-sdk-beta-7/ (дата обращения: 10.02.2022).
8. Abreu J.G., Teixeira J.M., Figueiredo L.S., Teichrieb V. Evaluating sign language recognition using the Myo armband // Proc. of the 18th Symposium on Virtual and Augmented Reality (SVR). 2016. P. 6470. https://doi.org/10.1109/SVR.2016.21
9. Wang Y., Yao Q., Kwok J., Ni L.M. Generalizing from a few examples: A survey on few-shot learning // ACM Computing Surveys.
2020. V. 53. N 3. P. 63. https://dl.acm.org/doi/10.1145/3386252
10. Wang F., Zhao S., Zhou X., Li C., Li M., Zeng Z. An recognition-verification mechanism for real-time Chinese sign language recognition based on multi-information fusion // Sensors. 2019. V. 19. N 11. P. 2495. https://doi.org/10.3390/s19112495
11. Kim S., Kim J., Ahn S., Kim Y. Finger language recognition based on ensemble artificial neural network learning using armband EMG sensors. Technology and Health Care, 2018, vol. 26, suppl. 1, pp. 249-258. https://doi.org/10.3233/THC-174602
12. Paudyal P., Lee J., Banerjee A., Sandeep K.S. A comparison of techniques for sign language alphabet recognition using armband wearables. ACM Transactions on Interactive Intelligent Systems, 2019, vol. 9, no. 2-3, pp. 1-26. https://doi.org/10.1145/3150974
13. Tateno S., Liu H., Ou J. Development of sign language motion recognition system for hearing-impaired people using electromyography signal. Sensors, 2020, vol. 20, no. 20, pp. 5807. https://doi.org/10.3390/s20205807
14. Sheng X., Lv B., Guo W., Zhu X. Common spatial-spectral analysis of EMG signals for multiday and multiuser myoelectric interface. Biomedical Signal Processing and Control, 2019, vol. 53, pp. 101572. https://doi.org/10.1016Zj.bspc.2019.101572
15. Zhang L., Shi Y., Wang W., Chu Y., Yuan X. Real-time and user-independent feature classification of forearm using EMG signals. Journal of the Society for Information Display, 2019, vol. 27, no. 2, pp. 101-107. https://doi.org/10.1002/jsid.749
16. Das P., Paul S., Ghosh J., Palbhowmik S., Neo-Gi B., Ganguly A. An approach towards the representation of sign language by electromyography signals with fuzzy implementation. International Journal of Sensors, Wireless Communications and Control, 2017, vol. 7, no. 1, pp. 26-32. https://doi.org/10.2174/2210327907666170 222093839
17. Cote-Allard U., Fall C.L., Drouin A., Campeau-Lecours A., Gosselin C., Glette K., Laviolette F., Gosselin B. Deep learning for electromyographic hand gesture signal classification using transfer learning. IEEE Transactions on Neural Systems and Rehabilitation Engineering, 2019, vol. 27, no. 4, pp. 760-771. https://doi. org/10.1109/TNSRE.2019.2896269
18. Tsinganos P., Cornelis B., Cornelis J., Jansen B., Skodras A. Data augmentation of surface electromyography for hand gesture recognition. Sensors, 2020, vol. 20, no. 17, pp. 4892. https://doi. org/10.3390/s20174892
19. Li W., Shi P., Yu H. Gesture recognition using surface electromyography and deep learning for prostheses hand: state-of-the-art, challenges, and future. Frontiers in Neuroscience, 2021, vol. 15, pp. 621885 https://doi.org/10.3389/fnins.2021.621885
20. Rahimian E., Zabihi S., Asif A., Farina D., Atashzar S.F., Mohammadi A. FS-HGR: Few-shot learning for hand gesture recognition via electromyography. IEEE Transactions on Neural Systems and Rehabilitation Engineering, 2021, vol. 29, pp. 10041015. https://doi.org/10.1109/TNSRE.2021.3077413
21. Finn C., Abbeel P., Levine S. Model-agnostic meta-learning for fast adaptation of deep networks. Proceedings of Machine Learning Research, 2017, vol. 70, pp. 1126-1135.
22. Lee Y., Choi S. Gradient-based meta-learning with learned layerwise metric and subspace. Proc. of the 35th International Conference on Machine Learning (ICML). V. 7, 2018, pp. 4574-4586.
23. Koch G., Zemel R., Salakhutdinov R. Siamese neural networks for one-shot image recognition. ICML Deep Learning Workshop. V. 2, 2015.
24. Snell J., Swersky K., Zemel R. Prototypical networks for few-shot learning. Advances in Neural Information Processing Systems, 2017, pp. 4077-4087.
25. Vaezi Joze H.R., Koller O. MS-ASL: A large-scale data set and benchmark for understanding American sign language. Proc. of the 30th British Machine Vision Conference (BMVC), 2019.
26. De Coster M., Van Herreweghe M., Dambre J. Sign language recognition with transformer networks. Proc. 12th International Conference on Language Resources and Evaluation (LREC), 2020, pp. 6018-6024.
27. Pigou L., Van Herreweghe M., Dambre J. Sign classification in sign language corpora with deep neural networks. Proc. of the International Conference on Language Resources and Evaluation (LREC), Workshop, 2016, pp. 175-178.
28. Pradhan A., He J., Jiang N. Performance optimization of surface electromyography based biometric sensing system for both verification and identification. IEEE Sensors Journal, 2021, vol. 21, no. 19, pp. 21718-21729. https://doi.org/10.1109/JSEN.2021.3079428
29. Young A.J., Hargrove L.J., Kuike T. A. Improving myoelectric pattern recognition robustness to electrode shift by changing interelectrode distance and electrode configuration. IEEE Transactions on
11. Kim S., Kim J., Ahn S., Kim Y. Finger language recognition based on ensemble artificial neural network learning using armband EMG sensors // Technology and Health Care. 2018. V. 26. S. 1. P. 249-258. https://doi.org/10.3233/THC-174602
12. Paudyal P., Lee J., Banerjee A., Sandeep K.S. A comparison of techniques for sign language alphabet recognition using armband wearables // ACM Transactions on Interactive Intelligent Systems. 2019. V. 9. N 2-3. P. 1-26. https://doi.org/10.1145/3150974
13. Tateno S., Liu H., Ou J. Development of sign language motion recognition system for hearing-impaired people using electromyography signal // Sensors. 2020. V. 20. N 20. P. 5807. https://doi.org/10.3390/s20205807
14. Sheng X., Lv B., Guo W., Zhu X. Common spatial-spectral analysis of EMG signals for multiday and multiuser myoelectric interface // Biomedical Signal Processing and Control. 2019. V. 53. P. 101572. https://doi.org/10.1016/j.bspc.2019.101572
15. Zhang L., Shi Y., Wang W., Chu Y., Yuan X. Real-time and user-independent feature classification of forearm using EMG signals // Journal of the Society for Information Display. 2019. V. 27. N 2. P. 101-107. https://doi.org/10.1002/jsid.749
16. Das P., Paul S., Ghosh J., Palbhowmik S., Neo-Gi B., Ganguly A. An approach towards the representation of sign language by electromyography signals with fuzzy implementation // International Journal of Sensors, Wireless Communications and Control. 2017. V. 7. N 1. P. 26-32. https://doi.org/10.2174/22103279076661702220 93839
17. Cote-Allard U., Fall C.L., Drouin A., Campeau-Lecours A., Gosselin C., Glette K., Laviolette F., Gosselin B. Deep learning for electromyographic hand gesture signal classification using transfer learning // IEEE Transactions on Neural Systems and Rehabilitation Engineering. 2019. V. 27. N 4. P. 760-771. https://doi.org/10.1109/ TNSRE.2019.2896269
18. Tsinganos P., Cornelis B., Cornelis J., Jansen B., Skodras A. Data augmentation of surface electromyography for hand gesture recognition // Sensors. 2020. V. 20. N 17. P. 4892. https://doi. org/10.3390/s20174892
19. Li W., Shi P., Yu H. Gesture recognition using surface electromyography and deep learning for prostheses hand: state-of-the-art, challenges, and future // Frontiers in Neuroscience. 2021. V. 15. P. 621885 https://doi.org/10.3389/fnins.2021.621885
20. Rahimian E., Zabihi S., Asif A., Farina D., Atashzar S.F., Mohammadi A. FS-HGR: Few-shot learning for hand gesture recognition via electromyography // IEEE Transactions on Neural Systems and Rehabilitation Engineering. 2021. V. 29. P. 1004-1015. https://doi.org/10.1109/TNSRE.2021.3077413
21. Finn C., Abbeel P., Levine S. Model-agnostic meta-learning for fast adaptation of deep networks // Proceedings of Machine Learning Research. 2017. V. 70. P. 1126-1135.
22. Lee Y., Choi S. Gradient-based meta-learning with learned layerwise metric and subspace // Proc. of the 35th International Conference on Machine Learning (ICML). V. 7. 2018. P. 4574-4586.
23. Koch G., Zemel R., Salakhutdinov R. Siamese neural networks for one-shot image recognition // ICML Deep Learning Workshop. V. 2. 2015.
24. Snell J., Swersky K., Zemel R. Prototypical networks for few-shot learning // Advances in Neural Information Processing Systems. 2017. P. 4077-4087.
25. Vaezi Joze H.R., Koller O. MS-ASL: A large-scale data set and benchmark for understanding American sign language // Proc. of the 30th British Machine Vision Conference (BMVC). 2019.
26. De Coster M., Van Herreweghe M., Dambre J. Sign language recognition with transformer networks // Proc. 12th International Conference on Language Resources and Evaluation. LREC. 2020. P. 6018-6024.
27. Pigou L., Van Herreweghe M., Dambre J. Sign classification in sign language corpora with deep neural networks // Proc. of the International Conference on Language Resources and Evaluation (LREC), Workshop. 2016. P. 175-178.
28. Pradhan A., He J., Jiang N. Performance optimization of surface electromyography based biometric sensing system for both verification and identification // IEEE Sensors Journal. 2021. V. 21. N 19. P. 21718-21729. https://doi.org/10.1109/JSEN.2021.3079428
29. Young A.J., Hargrove L.J., Kuike T.A. Improving myoelectric pattern recognition robustness to electrode shift by changing interelectrode distance and electrode configuration // IEEE Transactions on
Biomedical Engineering, 2012, vol. 59, no. 3, pp. 645-652. https:// doi.org/10.1109/TBME.2011.2177662
30. Benatti S., Farella E., Gruppioni E., Benini L. Analysis of robust implementation of an EMG pattern recognition based control. Proc. of the Analysis of Robust Implementation of an EMG Pattern Recognition Based Control (BIOSIGNALS), 2014, pp. 45-54. https:// doi.org/10.5220/0004800300450054
31. George J.A., Neibling A., Paskett M.D., Clark G.A. Inexpensive surface electromyography sleeve with consistent electrode placement enables dexterous and stable prosthetic control through deep learning. arXiv, 2003, arXiv:2003.00070. https://doi.org/10.48550/ arXiv.2003.00070
32. Vinyals O., Blundell C., Lillicrap T., Kavukcuoglu K., Wierstra D. Matching networks for one shot learning. Advances in Neural Information Processing Systems, 2016, pp. 3637-3645.
33. Kaczmarek P., Mankowski T., Tomczynski J. putEMG-A surface electromyography hand gesture recognition dataset. Sensors, 2019, vol. 19, no. 16, pp. 3548. https://doi.org/10.3390/s19163548
Biomedical Engineering. 2012. V. 59. N 3. P. 645-652. https://doi. org/10.1109/TBME.2011.2177662
30. Benatti S., Farella E., Gruppioni E., Benini L. Analysis of robust implementation of an EMG pattern recognition based control // Proc. of the Analysis of Robust Implementation of an EMG Pattern Recognition Based Control (BIOSIGNALS). 2014. P. 45-54. https:// doi.org/10.5220/0004800300450054
31. George J.A., Neibling A., Paskett M.D., Clark G.A. Inexpensive surface electromyography sleeve with consistent electrode placement enables dexterous and stable prosthetic control through deep learning // arXiv. 2003. arXiv:2003.00070. https://doi.org/10.48550/ arXiv.2003.00070
32. Vinyals O., Blundell C., Lillicrap T., Kavukcuoglu K., Wierstra D. Matching networks for one shot learning // Advances in Neural Information Processing Systems. 2016. P. 3637-3645.
33. Kaczmarek P., Mankowski T., Tomczynski J. putEMG-A surface electromyography hand gesture recognition dataset // Sensors. 2019. V. 19. N 16. P. 3548. https://doi.org/10.3390/s19163548
Authors
Grigory F. Shovkoplias — Engineer, ITMO University, Saint Petersburg, 197101, Russian Federation, 57222048908, https://orcid.org/0000-0001-7777-6972, gfshovkoplias@itmo.ru
Dmitriy A. Strokov — Student, ITMO University, Saint Petersburg, 197101, Russian Federation, https://orcid.org/0000-0003-1924-0621, dmitry.strokov@mail.ru
Daniil V. Kasantsev —Senior Laboratory Assistant, ITMO University, Saint Petersburg, 197101, Russian Federation, https://orcid.org/0000-0001-7974-0922, kazantsev@itkvar.ru
Aleksandra S. Vatian — Associate Professor, ITMO University, Saint
Petersburg, 197101, Russian Federation, gg 57191870868, https://orcid.
org/0000-0002-5483-716X, alexvatyan@gmail.com
Arip A. Asadulaev — Assistant, ITMO University, Saint Petersburg,
197101, Russian Federation, https://orcid.org/0000-0002-2581-935X,
aripasadulaev@itmo.ru
Ivan V. Tomilov — Senior Laboratory Assistant, ITMO University, Saint Petersburg, 197101, Russian Federation, https://orcid.org/0000-0003-1886-2867, ivan-tomilov3@yandex.ru
Anatoly A. Shalyto — D. Sc., Full Professor, ITMO University, Saint Petersburg, 197101, Russian Federation, gg 57222048908, https://orcid. org/0000-0002-2723-2077, anatoly.shalyto@gmail.com
Natalia F. Gusarova — PhD, Senior Researcher, Associate Professor, ITMO University, Saint Petersburg, 197101, Russian Federation, gg 57162764200, https://orcid.org/0000-0002-1361-6037, natfed@list.ru
Received 11.03.2022
Approved after reviewing 14.04.2022
Accepted 15.05.2022
Авторы
Шовкопляс Григорий Филиппович — инженер, Университет ИТМО, Санкт-Петербург, 197101, Российская Федерация, ВЗ 57222048908, https://orcid.org/0000-0001-7777-6972, gfshovkoplias@ itmo.ru
Строков Дмитрий Андреевич — студент, Университет ИТМО, Санкт-Петербург, 197101, Российская Федерация, https://orcid. о^0000-0003-1924-0621, dmitry.strokov@mail.ru Казанцев Даниил Владимирович — старший лаборант, Университет ИТМО, Санкт-Петербург, 197101, Российская Федерация, https://orcid. org/0000-0001-7974-0922, kazantsev@itkvar.ru
Ватьян Александра Сергеевна — доцент, Университет ИТМО, Санкт-Петербург, 197101, Российская Федерация, ВС 57191870868, https://orcid.org/0000-0002-5483-716X, alexvatyan@gmail.com Асадулаев Арип Амирханович — ассистент, Университет ИТМО, Санкт-Петербург, 197101, Российская Федерация, https://orcid. org/0000-0002-2581-935X, aripasadulaev@itmo.ru Томилов Иван Вячеславович — старший лаборант, Университет ИТМО, Санкт-Петербург, 197101, Российская Федерация, https://orcid. org/0000-0003-1886-2867, ivan-tomilov3@yandex.ru Шалыто Анатолий Абрамович — доктор технических наук, профессор, профессор, Университет ИТМО, Санкт-Петербург, 197101, Российская Федерация, ВЗ 57222048908, https://orcid.org/0000-0002-2723-2077, anatoly.shalyto@gmail.com
Гусарова Наталия Федоровна — кандидат технических наук, старший научный сотрудник, доцент, Университет ИТМО, Санкт-Петербург, 197101, Российская Федерация, ВС 57162764200, https:// orcid.org/0000-0002-1361-6037, natfed@list.ru
Статья поступила в редакцию 11.03.2022 Одобрена после рецензирования 14.04.2022 Принята к печати 15.05.2022
Работа доступна по лицензии Creative Commons «Attribution-NonCommercial»
PIPELINE FOR CONTROL OF THE DYNAMICS OF LOCALIZED BRAIN PATHOLOGIES IN MAGNETIC
RESONANCE IMAGES
Artyom Lobantsev, Grigorii Shovkoplias, Mark Tkachenko, Ksenia Morokova, Roman Soldatov,
Aleksey Zubanenko and Anatoly Shalyto
ITMO University Sankt-Petersburg 197101, Russia
ABSTRACT
A reliable assessment of changes in the dynamics of brain pathologies is primordial for accurate diagnostics, treatment and predicting the course of the disease. Magnetic resonance imaging (MRI) is the method of choice for it. In the paper, we explore the possibilities of semi-automatic control of the dynamics of localized brain pathologies in MRI. Using specific clinical examples, we investigated the sources of errors that accompany various methods for assessing the dynamics of the development of brain pathologies. We built a pipeline for semi-automatic control of the dynamics of these pathologies based on the Chan-Vese algorithm. The accuracy of estimating changes in the volume of pathological zones by proposed pipeline is comparable with the results obtained under idealized conditions of laboratory experiments. The proposed pipeline provides a significant gain in processing time and labor costs of radiologists is undemanding in computing resources and the availability of training datasets and can be easily implemented in real clinical practice.
KEYWORDS
Dynamics of Neoplasm, MRI, Active Contour, Chan-Vese Algorithm
1. INTRODUCTION
Localized brain pathologies, such as brain tumors, constitute a large and increasing share of the overall picture of morbidity in the modern world. So far, the annual incidence of tumors of the central nervous system in USA is 19 cases per 100,000 person, among them 6.4 cases per 100,000 person are malignant primary brain tumors [Todd]. The emergence and development of localized pathologies in the brain is still difficult to predict. Aggressive tumors as glioblastoma show different growth dynamics. According to [Stensjoen], in a third of patients between the initial diagnosis and surgery, a significant (more than two times in volume) tumor growth was observed, while in another third the tumor remained stable or even decreased.
Therefore, a reliable assessment of changes in the dynamics of brain pathologies is primordial for accurate diagnostics, treatment and predicting the course of the disease.
To assess pathological processes in the brain, high-tech medical images are widely used, among which magnetic resonance imaging (MRI) is the method of choice. For brain imaging, the most valuable modalities of MRI images are T2 weighted images with Flair inversion and T1 weighted images with contrast enhancement [Bauer]. Regardless of the chosen modality, MRI represents the analyzed zone of interest as a set of its sections (slices), where tissues of different types have different contrasts. Combining these slices, the viewer creates a pseudo-3D image of the zone of interest, which can be visually evaluated. However, in most cases, such a visual assessment is not enough, and quantitative measurements of the lesion are required.
The obtained medical images are used to solve various problems, among which the most important are the assessment of the volume of damage to the substance of the brain and the control of its time dynamics. The size of the pathology zone can be measured by evaluating several characteristic diameters of it [Wen] or by segmenting all the slices containing it [Odland]. Currently such evaluations can be performed manually, automatically and semi-automatically, and each of these options is not free from disadvantages.
For example, manual segmentation is so far considered the gold standard, but it is very time-consuming and requires experience [Gordillo]. Moreover, the detailed investigations [Odland] show a considerable inter-observer variability among experts defining tumor volume, which reduces the reliability and reproducibility of estimates, especially important in assessing the dynamics of pathological processes. Automatic measurements based on machine learning methods require large amounts of source data (datasets), which are not always available due to the high variability of controlled pathologies. When using semi-automatic methods (like active contour methods), the accuracy of estimating the volume and dynamics of pathological sites is greatly influenced by the configuration of heterogeneities of the lesion zone and neighboring tissues.
In the paper, we explore the possibilities of semi-automatic control of the dynamics of localized brain pathologies in magnetic resonance images. We set ourselves the following tasks:
- to investigate the sources of errors that accompany various methods for assessing the dynamics of the development of brain pathologies;
- to build a pipeline for semi-automatic control of the dynamics of these pathologies, which allows us to eliminate and / or compensate for the identified errors;
- to investigate the effectiveness of the proposed pipeline using examples from clinical practice.
Further material of the article is organized as follows. In section 2, we consider the specifics of the
manifestations of brain lesions in MRI images, as well as generally accepted metrics and existing methods for quantifying the dynamics of such lesions. In section 3, we substantiate the choice of the Chan-Vese algorithm as the basis for our experiments, and present the scheme and characteristics of the developed pipeline. In Section 4, we present the results of an experimental assessment of the accuracy and speed of the developed pipeline on specific clinical examples in comparison with manual methods, as well as provide an interpretation of the results and outline possible ways to improve them.
2. BACKGROUND AND RELATED WORKS
2.1 Manifestations of Localized Brain Lesions in MRI Images
Challenges associated with the segmentation of a brain pathology are widely discussed (see, for example, [Havaei]). In this article, we highlight those manifestations that are most significant when assessing changes in the volume of pathological lesions.
As a rule, localized brain lesions have an irregular, complex shape; the boundaries of formation often become blurred and layered on another tissue, which makes it difficult for radiologists to interpret them [Goetz].
a b
Figure 1. Sources of errors in the measurement of brain tumors (gliomas): a, b - blurred border between the tumor and
the swelling zone
Tumors (e.g. gliomas) in most cases have a heterogeneous structure and are surrounded by an edema zone, while tumor cells can infiltrate into peritumoral edema [Claes]. This circumstance is an important source of error when segmenting the edema zone, since the boundaries between the tumor and the edema become blurred (Figure 1 a, b). As a result, the radiologist is forced to label borderline voxels subjectively, based on his experience and a visual assessment of the brightness characteristics of adjacent tissues. In addition, as shown in Figure 2a, b, the zones of edema, as well as some gliomas, can form a signal response similar to normal tissue. which increases the variability of changes between radiologists, in the case of low-grade gliomas up to 13.61%. [Kaus]
Significant influence on the manifestation of the lesions have the characteristics of MR tomograph [Dance]. The impact factors include the equipment parameters (like configuration of coils and scanner drifts) as well as the experiment parameters (like slice thickness and flip angle). As a result, voxel volume may vary from image to image. Besides, the signal fluctuations in a given voxel are influenced by physiological noise (like cerebral metabolism).
Since the head of the patient is not rigidly fixed during MR imaging, this causes angular and linear displacements of the region of interest in successive images (Figure 2). It is fundamentally possible to bind the coordinates of the region of interest to the characteristic points of the skull, however, most methods for processing MRI images of the brain involve the operation of skull-stripping [Valvano], and that is, images with missing skull bones are being presented for comparison.
b
Figure 2. Illustration of geometric errors when comparing MRI images: a - the study was performed when setting the slices in the midline; b - the study was performed without alignment in the midline
All of the above complicates the pixel-by-pixel comparison of successive MRI images, which is important when assessing the dynamics of development of localized brain lesions.
2.2 Methods for Evaluations of Localized Brain Lesions in MRI Images
As mentioned above, the evaluations of localized brain lesions can be performed manually, automatically and semi-automatically. In the first case, the radiologist "by eye", guided by his experience, draws the pixel-by-pixel boundaries of the zone of interest on each slice, thereby segmenting it; the sum of the number of voxels corresponding to the zone of interest on all slices serves as an estimate of the volume of this zone. The process is very laborious: according to our estimates, the average time for such processing of one MRI exam is 40 minutes.
A simplified version of the evaluations of the size of gliomas offer RANO recommendations [Wen]. In this case, the radiologist selects the most distant points on the lesion contour and measures the linear distance between them. Obviously, the relevance of such estimates substantially depends on the shape and size of the controlled area. For example, [Kim] reports good correlation between diameter-based and segmentation-based measurements of lesion approximated by an ellipsoid. However, our studies have revealed a number of clinical cases when such a measurement is unlawful and can lead to false estimates of the volume and dynamics of the affected area (Figure 3, a, b). Note that similar studies for breast cancer [Franca] also showed a large percentage of deviations: good agreement between the tumor size measured by MRI and pathology in 69.0%, MRI overestimated tumor size in 24.1% and underestimated in 6.9% cases.
The progress of automatic methods of lesion segmentation in recent years has been associated with the use of machine learning and, above all, deep neural networks (see reviews [Havaei], [Mehrabian], [Nadeem]). Nevertheless, all the reviews show that the lack of large training datasets is a main obstacle for deep learning methods, this obstacle being fundamental in the case of brain lesions manifesting a great variety of configurations. Besides, as already mentioned above, the labeling of MRI brain images for forming training datasets is extremely time- and experience-consuming.
Semi-automatic methods include region merging, graph-based and active contour methods. The first ones consider the homogeneity characteristics of single pixels within a region; thereby an image is partitioned into a collection of regions and objects [Peng], [Zhuo]. Graph-based methods [Santle], [Lai] consider image pixels as the set of graph vertices connected by edges, and the more the pixels are "similar" to each other, the less weight the corresponding edge has. Both of these methods use "greedy" algorithms and are very noise-sensitive, which puts them out of the brackets when organizing the control of the dynamics of such low-contrast and noisy images as MRI brain images.
b
Figure 3. An example of the growth dynamics of an irregularly shaped tumor: a - the first examination; b - the second examination; on top - 3D tumor models; bottom - sections of the tumor in 3-plane
Active contour model (ACM)-based methods [Hemalata], in turn, are categorized as edge-based and region-based methods. Edge-based methods are built on on information of image gradient in the border area. In this regard, they are unstable to noise and do not work well on images with weakly expressed and blurry borders without serious algorithmic and semantic tricks [Khvostikov]. Region based methods are integral, that is, based on an assessment of the distribution of energy in a segmented image, and thereby are in principle devoid of these drawbacks.
One of the most popular global region method for medical applications is Chan-Vese method [Chan], designed especially for segmenting objects without clearly defined boundaries. The Chan-Vese method minimizes the following energy functional:
arg min ^Length(C) + v Area(inside(C)) + X, f 11/(x) - c, II dx + X2 f 11/(x) - c2 II dx, (1)
c c £ J inside(C)" " J outside(C)" "
where /x) is the original image, C is the desired segmentation contour, Xi, > 0 are scaling constants, constant ^ > 0 scales the Euclidian length of the curve C and constant v > 0 scales the area term inside the contour C. The disadvantage of the method is its sensitivity to heterogeneity within the segmented contour, and its various modifications [Zawish], [Xiangrui Meng], [Soomro], [Mostaar] are aimed firstly at eliminating this drawback. However, as clinical practice shows, when monitoring the dynamics of the development of localized brain lesions, the clinician is primarily interested in changes in their external contour. Therefore, to solve the problem posed in the article, the Chan-Vese algorithm was used as the basic algorithm.
In contrast to articles dealing with various aspects of medical image segmentation, works devoted directly to monitoring the dynamics of regions of interest in medical images are much scarcer in the literature. Basically, studies have been reported [Holzgreve], [Souza], [da Silva] on experimental animals (C6 mice), in which brain tumors, according to a number of indicators, correspond to human ones. The tumor volume was calculated by the sum of tumor area in each slice multiplied by the thickness and gap per slice. In all studies when recording MRI, the animals were anesthetized and immobilized, which should reduce measurement errors. Nevertheless, even in such idealized conditions, the accuracy of measuring the volume of the region of interest was not high (from 9 to 26%), which allows one to adequately evaluate only its significant changes. In articles connected
a
with the assessment of the dynamics of neoplasms in humans, the regions of interest were evaluated using the diameter-based method, and the statistical metric of overall survival (OS) rates was used.
Thus, the analysis performed in Section 2 confirmed the relevance of the problem statement and the prospects of the selected approaches to solve it.
3. PROPOSED SOLUTION
In developing the pipeline for processing MRI images of the brain in order to assess the dynamics of the localized brain lesions, we sought to eliminate or compensate for the sources of error described in Section 2.1 above. The developed pipeline is shown in Figure 4.
Input + initial contour
For each slice segment pathology using Chan-Vese classifier 2 Fix holes in segmentation 3
Calculate relative change 5 Calculate volume interpolation 4
Figure 4. Proposed pipeline
The input data is a set of slices on which region of pathology is present. The region of location of the pathology is marked manually, forming the initial contour (Figure 5, a). At step 2 each slice is segmented using the Chan-Vese algorithm. We used the algorithm implemented in Python [Chan-Vese] with the following parameters: |= 0.15, X1 = 1.7, X2 = 1, tol = 1e-5, max_iter = 3000, dt = 0.01. The values of the settings X1, X2 of (1) as well as iteration parameters were empirically selected and result in stable work on all experimental data, but can be easily adjusted for other data if necessary. At step 3, the region highlighted by the algorithm is checked for internal inhomogeneities ("hole fixing"); further consideration includes the volume of the entire region inside the external contour.
a b
Figure 5. Slice with a manually marked area of interest (a) and the result of its segmentation by proposed pipeline (b)
At step 4, in order to eliminate the errors described in section 2, the interpolation procedure is used to calculate the pathology volume. We compare the values of voxels in an identical position on the current and adjacent slices; if both of them are True (that is, they belong to the pathology identified in step 3), then we add the full voxel (1) to the volume value, if both are False, then nothing (0); in other cases we add half the voxel volume (0.5). Thus, each voxel with coordinates x, y on slice 5 is assigned a weight W(s, x, y) £ {0,0.5,1}.
Converting the volume of pathology in voxels to the absolute values, we take into account the possible difference in the size of the slices in the compared MRI images. That is, the pathology volume in absolute units is calculated as follows:
Kbs
T TW(s,x,y)
OriginalSize ) ^ ThicknessPerSlice (2) ________,tj y j v Pixels )
where W(s, x, y) £ {0,0.5,1} is weight of voxel (x, y) at slice s, OriginalSize (mm) is original length and width of slices, Pixels is length and width of slices in pixels, the value of ThicknessPerSlice includes the thickness of the slice itself increased by the gap per slice.
At step 5, the value of relative changes in the volume of pathology is calculated:
RelativeChange = Vend ~ V'n" (3)
Vinit
where Vmn and Vend are calculated in step 4 by the formula (2) for the compared images, respectively.
4. RESULTS AND DISCUSSION
We investigated the effectiveness of the proposed pipeline using examples from clinical practice. As a dataset, we selected pairs of MRI images characterizing the dynamics of diseases in 9 patients with gloiomas. To calculate the relative changes according to formula (3), we used three methods: A - manual segmentation of pathologies and per-pixel volumetry; B - manual segmentation of pathologies and diameter-based volumetry; C - volume estimation using the proposed pipeline (see section 2.2 for a detailed description of methods A and B).
The experimental results are presented in the table 1 and are graphically depicted in Figure 6. In the table 1: Vnit and Vend [mm3] is absolute volume of the pathological zone in the compared MR images, RC [%] is relative change of the pathological zone calculated according to (3), T [min] is total evaluation time.
Table 1. Experimental results
A B C
Vinit, Vend, RC T Vinit, Vend, RC T Vinit, Vend, RC T
1 66377 76333 15.00 23 73621 77302 5,00 5 56070 68501 22.17 4.71
2 137563 165075 20.00 37 170549 189309 11,00 7 108604 133893 23.29 4.96
3 97348 153697 57.88 42 110921 149998 35,23 10 64710 108378 67.48 5.07
4 158437 168457 6.32 32 175469 180118 2,65 6 111101 122606 10.36 5.29
5 124567 147389 18.32 45 149553 172898 15,61 11 84186 117314 39.35 4.38
6 72893 60598 -16.87 25 79563 69218 -13 6 54367 43579 -19.84 4.3
7 98549 108463 10.06 39 103546 112865 9 9 71563 89702 25.35 5.06
8 45690 60954 33.41 31 51793 67035 29,43 7 30633 48090 56.99 4.67
9 137459 108385 -21.15 42 147954 119842 -19 8 103725 71819 -30.76 5.2
■ A B aC
80,00%
-40,00%
Figure 6. Comparison of relative changes obtained by: A - manual segmentation of pathologies and per-pixel volumetry; B - manual segmentation of pathologies and diameter-based volumetry; C - volume estimation using the proposed
pipeline
To analyze the results of experiments, the measurement method A was chosen as a baseline.
The data show that proposed method C evaluates relative changes in the volume of pathology (RC) much more accurately than method B (see Figure 6). Note that method B can give an assessment bias in both directions, both overstating and underestimating the real value depending on the configuration of the pathology zone (see Figure 3). Meanwhile the proposed method C always overestimates the estimates, which can be used in the future for correcting them. It is also worth noting that the error values of method C compared with method A are comparable with the errors in evaluating MRI images obtained under idealized conditions of laboratory experiments on mice (see section 2), i.e., the proposed method quite effectively eliminates the sources of errors stated in section 2.The Table 1 also shows that the proposed method C exceeds methods A and B in the total evaluation time T and, most importantly, in radiologists' required time. Note that the presented results were obtained without optimizing the Chan-Vese algorithm in terms of speed and resources, using a standard laptop (CPU Intel(R) Core(TM) i7-8550U CPU @ 1.80GHz).
The analysis also revealed the limitations of the proposed solution. Chan-Vese algorithm showed a relatively high and non-linear sensitivity to the contrast of the analyzed image. The search for optimal contrast requires a separate study. In addition, a separate study requires the use of the proposed pipeline for such a significant pathology as multiple sclerosis. In this case, the pathology is not concentrated in one area, but consists of many small foci for which the error in determining the volumes and increments will be obviously higher.
5. CONCLUSION
In the paper, we explored the possibilities of semi-automatic control of the dynamics of localized brain pathologies in magnetic resonance images.
Using specific clinical examples, we investigated the sources of errors that accompany various methods for assessing the dynamics of the development of brain pathologies.
We built a pipeline for semi-automatic control of the dynamics of these pathologies based on the Chan-Vese algorithm, which allows us to eliminate and / or compensate for the identified errors.
We have shown the effectiveness of the proposed pipeline using examples from clinical practice. The accuracy of estimating changes in the volume of pathological zones by proposed pipeline is comparable with the results obtained under idealized conditions of laboratory experiments. The proposed pipeline provides a significant gain in processing time and labor costs of radiologists is undemanding in computing resources and the availability of training datasets and can be easily implemented in real clinical practice.
ACKNOWLEDGEMENT
This work was supported by Russian Science Foundation, Grant №19-19-00696
REFERENCES
Bauer S., Wiest R., Nolte L.-P., Reyes M. (2013). A survey of MRI-based medical image analysis for brain tumor studies.
In. Phys. Med. Biol. 58: R97. 10.1088 / 0031-9155 / 58/13 / R97 Chan T. and Vese L. An Active Contour Model without Edges. Scale-Space Theories in Computer Vision, 1999,
DOI: 10.1007/3-540-48236-9_13 Chan-Vese Segmentation. Skikit-image documentation. https://scikit-
image.org/docs/dev/auto_examples/segmentation/plot_chan_vese.html. Last access 01.05.2020. Claes A, Idema AJ, Wesseling P. Diffuse glioma growth: a guerilla war. Acta Neuropathol. 2007. November; 114(5):
443-58. 10.1007/s00401 -007-0293-7 da Silva A.C. et al. Tumor growth analysis by magnetic resonance imaging of the C6 glioblastoma model with prospects for the assessment of magnetohyperthermia therapy. Einstein (Sao Paulo) vol.10 no.1 Sao Paulo Jan./Mar. 2012 http://dx.doi.org/10.1590/S1679-45082012000100004
Dance D.R. et al. Diagnostic Radiology Physics. A Handbook for Teachers and Students. IAEA, 2014. б82 p. ISBN 978-92-0-131010-1
Franca L.K.L. et al. (2018) Tumor size assessment of invasive breast cancers: which pathological features affect
MRI-pathology agreement? Appl Cancer Res 38, 2 (2018). https://doi.org/10.1186/s41241-018-0055-y Goetz M. et al. (201б). DALSA: Domain adaptation for supervised learning from sparsely annotated MR images. IEEE
Trans Med Imaging. 201б Jan;35(1):184-96. doi: 10.1109/TMI.2015.2463078. Gordillo N., Montseny E., Sobrevilla P. (2013). State of the art survey on MRI brain tumor segmentation Magn Reson
Imaging. 2013 Oct;31(8):1426-38. doi: 10.101б/j.mri.2013.05.002. Havaei M. et al. (201б). Deep learning trends for focal brain pathology segmentation in MRI. In: Holzinger A. (eds) Machine Learning for Health Informatics. Lecture Notes in Computer Science, vol 9605. Springer, Cham, pp 125-148. Hemalata R.J. et al. Active Contour Based Segmentation Techniques for Medical Image Analysis. In: R. Koprowski (Ed.)
Medical and Biological Image Analysis (2018). ISBN: 978-1-78923-331 -5 Holzgreve A. et al. Monitoring of Tumor Growth with [18F]-FET PET in a Mouse Model of Glioblastoma: SUV Measurements and Volumetric Approaches. Front. Neurosci., 14 June 2016 | https://doi.org/10.3389/fnins.2016.00260 Kaus M.R. Automated Segmentation of M et.al. RI of Brain Tumors Article in Radiology 218(2):586-91 • March 2001 Khvostikov A.V. et al. Trainable Active Contour Model for Histological Image Segmentation. Scientific Visualization,
2019, Vol. 11, № 3, pp. 64 - 75, DOI: 10.26583/sv.11.3.06 Kim H. J., Kim V. Method of tumor volume evaluation using magnetic resonance imaging for outcome prediction in cervical
cancer treated with concurrent chemotherapy and radiotherapy. Radiation Oncol J. 2012 Jun; 30(2): 70-77. Lai Z, Qu X, Liu Y, Guo D, Ye J, Zhan Z, et al. Image Reconstruction of Compressed Sensing MRI Using Graph-based
Redundant Wavelet Transform. Medical Image Analysis. 2015:1-27. doi: 10.1016/j.media.2015.05.012. Mehrabian H. et al. Advanced Magnetic Resonance Imaging Techniques in Management of Brain Metastases. Front.
Oncol., 04 June 2019 | https://doi.org/10.3389/fonc.2019.00440 Mostaar A., Houshyari M., and Badieyan S. A Novel Active Contour Model for MRI Brain Segmentation used in
Radiotherapy Treatment Planning. Electron Physician. 2016 May; 8(5): 2443-2451. Nadeem M.W. et al. (2020) Brain Tumor Analysis Empowered with Deep Learning: A Review, Taxonomy, and Future
Challenges. Brain Sci. 2020, Vol. 10, 118, 33 pp. Ödland A. Volumetric glioma quantification: comparison of manual and semi-automatic tumor segmentation for the
quantification of tumor growth. In Acta Radiol. 2015 Nov;56 (11):1396-403. doi: 10.1177/0284185114554822 Peng B, Zhang L, Zhang D. (2012) Automatic image segmentation by dynamic region merging. IEEE Trans Image Process.
2011;20(12):3592-605. doi: 10.1109/TIP.2011.2157512. Santle Camilus K., Govindan V.K. A Review on Graph Based Segmentation. I.J. Image, Graphics and Signal Processing,
2012, 5, 1-13. DOI: 10.5815/ijigsp.2012.05.01 Soomro S, Munir A, Choi KN (2018). Hybrid two-stage active contour method with region and edge information for intensity inhomogeneous image segmentation. PLoS ONE 13(1): e0191827. https://doi.org/10.1371/journal.pone.0191827 Souza T.K.F. et al. Image and motor behavior for monitoring tumor growth in C6 glioma model. PLoS One v.13 (7); 2018PMC6062126
Stensjeen A.L. et al. Growth dynamics of untreated glioblastomas in vivo. In Neuro-Oncology, Volume 17, Issue 10,
October 2015, Pages 1402-1411, https://doi.org/10.1093/neuonc/nov029. Todd R.F. et.al. (2012) Tumor Board Review: Guideline and Case Reviews in Oncology. Demos Medical Publishing, 448 p.
Valvano G. et al. Training of a Skull-Stripping Neural Network with efficient data augmentation. arXiv:1810.10853v1 [cs.CV] 25 Oct 2018
Wen PY et al. Updated response assessment criteria for high-grade gliomas: response assessment in neuro-oncology
working group. J Clin Oncol. 2010 Apr 10;28(11):1963-72. doi: 10.1200/Jœ.2009.26.3541. Xiangrui Meng et al. Brain MR image segmentation based on an improved active contour model. PLoS ONE 12 (8):
e0183943. https://doi.org/10.1371/journal.pone.0183943 Zawish M. Brain Tumor Segmentation in MRI images using Chan-Vese Technique in MATLAB. 2018 International conference on Computing, Electronic and Electrical Engineering (ICE Cube). DOI: 10.1109/ICECUBE.2018.8610987 Zhuo Zhao et al. (2020) Hybrid image segmentation method based on anisotropic Gaussian kernels and adjacent graph region merging. Review of Scientific Instruments, Volume 91, Issue 1, 015104 (2020)
Available online at www.sciencedirect.com
ScienceDirect
Procedía Computer Science 00 (2023) 000-000
www.elsevier.com/locate/procedia
12th International Young Scientist Conference on Computational Science
(YSC 2023)
Proactive selection of machine learning models for small sample sizes in cerebral stroke detection based on PAC-learning theory
Grigory Shovkopliasa, Aleksandra Vatiana*, Natalia Gusarovaa, Ivan Tomilova,
Olga Lipinaa, Maria Bobrovaa
aITMO University, Kronverkskii pr. 49, Saint-Petersburg 197101, Russian Federation
Abstract
The article presents a developed method of proactive selection of machine learning models, in which the PAC-learning theory and a parameterizied Pareto frontier are used to describe the hyperparameter ratio. The theoretical substantiation of the proposed method is given. Based on the developed method, a proactive comparison of ML models for detecting cerebral stroke was made. The theoretical results were compared with the results of an experimental evaluation of the effectiveness of the same models, as well as baseline model, and the results of the comparison show the validity of the developed approach. Besides, the developed theoretical approach made it possible to substantiate the choice of the XAI tool for solving a specific problem of detecting cerebral stroke. The proposed method can be used in various subject areas for which ML models with an identical structure of cores are being developed. In addition, according to the authors, it is of interest to study the possibilities of the method in relation to models with a different core structure, for example, to models of the Active Contour group, which, in particular, are used to assess the affected area in stroke. This will allow developers at the design stage to expand the range of compared models and thereby speed up and reduce the cost of the development process. © 2023 The Authors. Published by ELSEVIER B.V.
This is an open access article under the CC BY-NC-ND license (https://creativecommons.Org/licenses/by-nc-nd/4.0) Peer-review under responsibility of the scientific committee of the 11th International Young Scientist Conference on Computational Science
Keywords: machine earning; pac learning theory, cerebral stroke
1. Introduction
The determining condition for creating an artificial intelligence (AI) system to be in demand among the consumer is the successful choice of the machine learning (ML) model that underlies it. The widest variety of models and fierce competition make this choice a key milestone in the AI system development pipeline. It is obvious that the
1877-0509 © 2023 The Authors. Published by ELSEVIER B.V.
This is an open access article under the CC BY-NC-ND license (https://creativecommons.Org/licenses/by-nc-nd/4.0)
Peer-review under responsibility of the scientific committee of the 11th International Young Scientist Conference on Computational
Science
developers want to make this choice proactively, i.e. at the earliest possible stages of development to avoid wasting time and resources for replacing an unsuccessful ML model. The well-known challenge here is the growing multiparametric nature of the tasks facing the AI system being designed, and the ML models potentially suitable for this, which makes it difficult to use standard methods for solving multicriteria problems and vector optimization. However, in recent years, a number of new challenges have emerged that require a paradigm shift in the development of AI systems. In this paper, we consider two such challenges - eXplanaible Artificial Intelligence (XAI) and Small Sample Sizes (SSS), which are especially strong in the medical domain.
Although AI systems for medical diagnostics have achieved impressive efficiency, in many cases surpassing that of experts, real practicing clinicians are in no hurry to use them in their practice. Such quite understandable caution is due to the fact that classical machine learning (MO) models are poorly interpreted, i.e. their decision-making process is not presented in a human-readable form. In other words, the doctor cannot understand what features or properties of the input data influenced the response of the MO system, cannot decompose the decision-making algorithm into understandable components, he is not shown intermediate results and their meaning is not explained. Under these conditions, the doctor, who is fully responsible for the health and life of the patient, as a rule, simply ignores the information from the AI system. Recognizing the urgent need to address such concerns, regulators in many countries [1, 2] have been drawing up requirements for XAI as part of AI systems. By now, a whole zoo of approaches has been proposed [3, 4] to meet these requirements. The choice of a specific approach is determined, on the one hand, by usability considerations, and on the other hand, by the specifics of the ML model, the operation of which is explained, but is weakly related to the volume of the processed dataset.
In the recent years, there is also a shift from the big data paradigm to the SSS paradigm. In the big data paradigm, the dominant way of creating AI systems is collecting and labeling of large amounts of data for training ML algorithms. However, more and more areas are being drawn into the competence of AI systems in which the labeling of large amounts of data is not economically viable or large amounts of data are fundamentally inaccessible. For example, in modern conditions, a doctor is constantly faced with non-standard manifestations of known diseases in specific patients or even with previously unknown diseases for which there are no clinical protocols. The most famous example here is COVID-19, which not only was a new disease for doctors, but also manifested the course of previously known chronic diseases in a different way. An equally important example is the diagnosis of the development of life-threatening diseases, such as ischemic stroke, which in different patients are manifested by a variety of rapidly changing clinical manifestations, primarily changes in Computed Tomography (CT) or Magnetic Resonance Imaging (MRI) images. It is fundamentally impossible to form a full-fledged dataset for training a neural network in such cases, and developers of AI systems have to limit themselves to small amounts of available data for training.
Thus, the developer of an AI system for the medical domain is faced with the need to respond to both of these challenges, and the successful choice of the ML model becomes the determining condition for it.
2. Background and related works
2.1. Approaches to the adaptation of ML models to SSS conditions
The literature offers an extensive list of approaches for solving SSS problems. The use of small training samples when tuning ML models entails problems such as lack of generalization, data imbalance and optimization difficulties, and each of them has its own set of approaches to solve. Besides, ML approaches for SSS can be segregated according to the space in which they operate, i.e. input space, model space, and feature space [5]. The intersection of classification features defines a huge plethora of technological solutions. For example, to increase the amount of available data, it is proposed to use data generation via GANs [6] or via pairwise correlation [7] and data augmentation [8, 9], as well as to form specialized samples (triplets) for training networks with triplet loss functions [10, 11].
In order to improve generalization various options for regularization [12, 13] and ensembling [14] are proposed. To overcome the difficulties of optimization, such techniques as transfer learning [15], feature space optimizing 16] and model complexity reduction [12, 17], few-shot and zero-shot learning [18, 19], etc. are used. The use of Bayesian neural networks can significantly reduce the risk of overfitting on small samples [20, 21].
In the medical domain, models based on Siamese networks [22, 23] and other types of symmetrical neural networks [24] are widely employed. Separate approaches can also be combined - for example, Bayesian neural
networks together with few-shot learning [25, 26] as well as bunch of Siamese networks plus few shot learning [10, 23] are popular.
An analysis of the works cited, as well as reviews [12, 17, 27] shows a lot of diverse approaches proposed to adapt existing ML models to work in SSS conditions, but evaluations of their effectiveness in most cases are data-driven and are carried out after development is completed, i.e. on fully formed and trained models. Examples of proactive (in the early stages of development) choosing a promising approach, at least at the level of quality solutions, are not presented in the available literature.
2.2. Approaches to the selection of ML models for small sample sizes
It is well known that various heuristic methods for selecting and tuning ML models are actively discussed among developers. Such techniques, concentrating best practices for SSS problems, are proposed, for example, in the documentation [28]. Some heuristics related to the problem-oriented proactive evaluation of SSS-ML models are presented in [29] for material science, in [Tomas 30] for detecting brain disorder, in [31] for improving the quality of descriptive statistics on small samples.
A more formalized way is to use a learning curves for forecasting accuracy and estimating the required number of samples. In [31], nested cross-validation performance estimates are used for this, and in [32], Cohen's kappa metric. However, these methods are data-driven and single-criterion, which often does not meet the real conditions for choosing ML models.
The choice of an ML model can be considered as a decision-making process, so far it is natural to apply the Multi-Criteria Decision Making (MCDM) methodologies. In this case, individual variants of ML models are considered as concepts in criteria space, on which the problem of minimizing the vector criterion is solved [33]:
min
in{M (x,p), ¡i2 (x,p),...,/in (x,p)} (n > 2)
(1)
subject to
gq(xp)^0 q=i---r;
hj (x,p) = 0 j = 1,.,v;
Xl ^ xi ^ xiu i = nx,
(2}
where p.,- denotes the i-th generic design objective; g, h are vectors of constraints; p is a vector of design parameters, x - the design variables. For this, a wide range of methods are used, such as linear programming, integer programming, goal programming, non-linear programming, as well as genetic algorithms etc. Options for multi-criteria selection of various ML systems and services are widely represented in the literature [34-37]. Since the problem of multicriteria optimization often does not have a single solution, finding and analyzing the area of non-dominated solutions - the Pareto frontier - is of particular interest [38-40]. Currently, AutoML tools are also rapidly developing, which are presented on the market in the form of various tools, software products and libraries [41].
However, the efficiency of all these approaches is directly related to how complete and accurate the task (1), (2) is set. At the same time, as practice shows, the situation of choosing a ML model for SSS problems at the initial stages of design is characterized by high uncertainty - both in terms of specifying individual functions ^m = ^m(x, p) and in terms of their relationship in the general minimized vector (1) [38]. Besides. ML models are characterized by a large number of parameters, which leads to a high sparseness of the Pareto front in the general feature space and, accordingly, to a sharp decrease in the possibilities of its accurate approximation.
The article discusses ways to overcome these problems using the example of choosing a ML model for medical applications, namely, for the early detection of various types of stroke basing a CT and MRI image of the patient's brain. The rest of the article is organized as follows. Section 3.1 presents a theoretical substantiation of the developed method of proactive selection of machine learning models, in which the PAC-learning theory and a parameterizied Pareto frontier are used to describe the hyperparameter ratio. In section 3.2, based on the developed
4
Author name /Procedia Computer Science ОО (2О19) ООО-ООО
method, a proactive comparison of ML models for detecting cerebral stroke was made. For this, the specifics of the manifestation of detected diseases on CT and MRI images, as well as the basic scheme of the accepted model, are described. Section 3.3 describes the experimental data and settings as well as the selected XAI method. In Section 4, the results of theoretical proactive evaluations of the effectiveness of the compared variants of ML models obtained using the proposed approach are compared with the results of an experimental evaluation of the effectiveness of the same models, as well as baseline model, and the results of the comparison show the validity of the developed approach. Section 5 summarizes the work and discusses its application to other subject areas.
3. Method and materials
3.1. Theoretical substantiation of the developed method selection of ML models
The theory of Probably Approximately Correct learning, (PAC-learning) [42] was chosen as a methodological basis in the work, the main provisions of which are as follows. The class of models f and the space of hypotheses H are considered. The model transforms input data x, of size m, i^i^m, into output dataA class of models is PAC if it can be said with probability p>1-5 that the accuracy of the model f is at least e. Here e is the accuracy of the model on the available data, 5 is a measure of the generalization of the model on new data. Under these conditions, the basic relation between the indicated parameters has the following form:
where VC(H) is the Vapnik-Chervonenkis dimension, which meaningfully corresponds to the complexity level of the boundary that can be generated by the classifier. Under the condition of small samples, we can replace (4) with the approximate equality
(3)
We consider classification problems for which relation (3) has the form (4) [43]:
(4)
(5)
Then the problem of mathematical programming (1), (2) is represented as
min
¡m(vC ( H ), m) ,S(VC ( H ), m )]
(6)
subject to
VC ( H ) = sm=1 wn=ifi, j + R
m < mavailable
whence the relations between the parameters are obtained:
dö s 1
--r « Ö • log —
dVC (H) т
( VC (H )• log1 + VC (H) + log!
дт т \ т ö
дт
2log
13
dVC (H) i f 2 •VC (H ).( log13 - 1)-log
т V v т J
(8)
дт
ö
т
2
dö 4 2
-log- §• log-т ö ö
and
j дт ат = — До +
dö
дт
dVC ( H ) dö
dö = д°Дт+ , „ дт dVC ( H )
Д VC ( H ) Д VC ( H )
(9)
One can see from expressions (8), (9) that the ratios between the parameters no longer depend on the constant C. However, the high level of uncertainty of the problem, justified above, still does not allow obtaining expressions for the Pareto front in an explicit form. In this regard, the properties of the Pareto front, necessary for the proactive selection of ML models, we estimate by analyzing the asymptotic behavior of the trade-off-rate ^ :
ат ~dS
т
8- log
ö
• Д£ +
2 log
13
т
1 f 2 •VC (H )•( log13 -1|-log1 т[ v т J ö
■ДVC (H)
VC(H)• log1 + VC(H) + log-)]• Дт+f ö• log1)•^VC(H)
т ö JJ f т)
ö т
(10)
Expression (10) makes it possible to obtain generalized qualitative relationships between the basic hyperparameters of the compared ML models even under conditions of strong sparseness and uncertainty of the Pareto front. To evaluate specific variants of ML models, it is necessary to refine the expression for VC(H) as
VC (H ) = j wUJ], j + r
(11)
where f . is functions of the parameters of the model and dataset, expressing the complexity of the model, R is some bounded function, then to calculate expression (10) taking into account (11) and carry out its asymptotic estimate.
3.2. Proactive comparison of ML models for detecting cerebral stroke
т
The proposed approach is illustrated in the following sections using the example of a practically significant task -the selection of ML model for detecting cerebral stroke using CT and MRI images.
The specifics of the manifestation of detected diseases on CT images is related to the nature of the disease. A stroke is a disease caused by a disruption in the blood supply to brain tissue. In the case of a hemorrhagic stroke, a separate vessel ruptures, and the outflowing blood immediately forms a hematoma, which is visible on MRI images as a neoplasm with structure and characteristics differing from the surrounding tissues. In this case, there is no problem with the generalization of the ML model, and the requirement for the accuracy of determining the volume of the lesion comes to the fore, i.e. separation of the hematoma and surrounding tissues. In ischemic stroke, on the contrary, a spasm of the vessel occurs and, as a result, the necrosis of the tissues being supplied before. MRI manifestations of this process increase gradually and may be different in structure and characteristics depending on the location and level of the lesion. In this case, on the contrary, high generalization is required from the ML model, possibly at the expense of accuracy.
As a basic architecture for models comparison, we used the variant of Siamese network in combination with few shot learning [23] (fig. 1), which represents the SOTA level.
Fig. 1. Basic models architecture [23]: Deep Symmetry-sensitive CNN (DeepSymNet). (IM = Inception Module, L-1 = Merge Layer with L-1
difference, MP = Max Pooling, FC = Fully Connected Layer)
For such a model, expression (11) can be represented as
VC (H ) = C • dlnp • Nker + R ,
(12)
where Nker is the number of cores in the model, dinp is the dimension of the processed image element, R is a limited function, changes in which under conditions of small samples are small. A meaningful analysis of the problem shows that Nker is determined by the basic architecture, but can vary within certain limits depending on the settings of the neural network; at the same time, dinp can be represented both as 2D and pseudo 3D elements, depending on the preprocessing of the input dataset. Substituting (12) into (9), we obtain:
, dm dm
dm = — Ao +--—-
dS dVC ( H )
_ dS s dS
Cvr, do = — Am+--—-
VC dm dVC (H)
C
VC
(13)
where
CVC =
dVC (H) dVC (H)
Adf +
ddnp dNker
dVC (H ) ANker +-H AR
A
dR
(14)
: C1 (d,np • ANker + Nker • Adnp + AR).
Performing a joint asymptotic analysis of (10) taking into account (13) and (14), we obtain the following:
de dS
in the case of hemorrhagic stroke, we can assume that 5^0; at the same time, —— grows, while
■ falls,
dVC(H) dVC(H)
which increases the relevance of the change in VC(H). In other words, the more cores the model contains, the
better. However, from (14) it can be seen that Nker and d„p are in inverse ratio, i.e. a decrease in d„p can be offset by an increase in Nker, for example, through more efficient network tuning.
in the case of ischemic stroke, by increasing the number of cores of the model, better e can be achieved;
de
however, at the expense of the member gvc^ if VC(H) is too large, this process is saturated. Therefore, it can be
expected that the transition from the 2D to the 3D mode will give some improvement in e, but it will not be drastic.
3.3. Experimental data and settings
To verify the obtained proactive estimates, we performed an experimental comparison of the efficiency of models with identical architecture (Fig. 1), but in different modes of operation, corresponding to different options for implementing condition (12), namely: (I) - hemorrhagic stroke, 2D mode; (II) - hemorrhagic stroke, 3D mode; (III) - ischemic stroke, 2D mode; (IV) - ischemic stroke, 3D mode. Models (I)-(III) were implemented in our work, experimental results for model (IV) are taken from SOTA-work [23].
Datasets. For our experiments in modes (I) and (II), we used a public dataset [44] consisting of head CT images in jpg format. There are 2500 brain window images for 82 patients. The condition of small samples was provided by random dataset decimation to the level of 3 slices per patient, which corresponds to the average neoplasm size in this type of disease.
For our experiments in model (III), we used a proprietary clinical dataset including 586 ischemic stroke brain MRI images (80 patients) and 794 healthy brain images (102 patients). All images have been pre-scalped.
For experiments in model (IV), the authors [23] used a proprietary clinical dataset comprising 217 individuals, 123 controls and 94 subjects with AIS imaged with CTA scans less than 24 hours after the onset of stroke.
Neural network settings. To work in modes (I) and (II), we used settings typical for DNN. For mode (III), we applied specialized settings:
• Variational Dropout Sparsified NN regularization [45] was used in relation to standard convolutional blocks and the output fully connected layer. This greatly reduces the overfitting, which should be feared when working with small datasets, and also generalizes the model, simplifying it. Loss function coefficients for regularization were 1 - for the value of the loss function, 0.00001 - penalty coefficient.
• We used the ReduceLROnPlateau method, which reduces the learning_rate of the model when reaching a plateau, this allowed the model to converge better.
XAI method. To support XAI, our model uses the ScoreCAM method [46] for the trained network, allowing to evaluate the localization of stroke on particular layers of DNN.
4. Results and discussion
Comparing the obtained roc-auc values for the compared models shown in Table 1 generally confirms the result of the proactive evaluations presented in section 3.2.
Table 1. Comparison of the effectiveness of compared models.
model designation model type roc-auc value
I hemorrhagic stroke, 2D mode 0,921
II hemorrhagic stroke, 3D mode 0,943
III ischemic stroke, 2D mode 0,794
IV ischemic stroke, 3D mode 0, 899
The fact that when comparing models (III) and (IV), MRI was used in our experiments, and CT images were used in [23], does not strongly affect the validity of the comparison. Indeed, such a transition corresponds to a change in the absolute values of the numerical coefficients C1 and the form of the function R in expression (12), but in expression (14) and, accordingly, (10), their relative change is taken into account, which, under conditions of small samples, is assumed to be small. Accordingly, the structure of the VC(H) curve remains unchanged.
Comparison of the results for modes (I) and (II) shows that a fairly good efficiency is already achieved in mode 2, and an additional increase in the complexity of the model due to the transition to the 3D mode seems redundant.
Although model (III) is obviously inferior to model (IV) in terms of dinp values, an increase in the effective number of cores of the Nker model can serve as a means of compensating for this effect. To do this, we used the network settings described in the previous section, which worsened the convergence of the model (Fig. 2, a), but made it possible to increase the value of roc-auc (Fig. 2, b). Nevertheless, the gap between the roc-auc values in models (III) and (IV) remains expectedly large, and to further mitigate it, it is necessary to enrich the structure of the processed image element d„p - for example, use brain images obtained with the help of a contrast agent, as is done in the SOTA model [23].
Fig. 2. Error function and roc_auc during model (III) training
ЙЭ * '
ЦП I
Г. -»t-J
20 40 60
20 40 60 80
20 40 60 80
20 40 6 0 80
Inception 3
20 40 60
20 40 60 80
20 40 60
20 40 60
Fig. 3. Examples of localization of attention on particular layers of DNN in model (III) for two patients
The sufficiently rich structure of the nuclei in the models used made it possible to fully implement the post-hoc type XAI [47]. Fig. 3 shows examples of localization of attention on particular layers of DNN in model (III) for two
cases of ischemic stroke. Note that the use of the selected type of regularization made it possible to more clearly identify "suspicious" places in the image, which coincides with the recommendations of [45].
Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.