Разработка систем распознавания границы опухоли на основании данных масс-спектрометрического анализа тканей тема диссертации и автореферата по ВАК РФ 00.00.00, кандидат наук Заворотнюк Денис Сергеевич

  • Заворотнюк Денис Сергеевич
  • кандидат науккандидат наук
  • 2023, ФГАОУ ВО «Московский физико-технический институт (национальный исследовательский университет)»
  • Специальность ВАК РФ00.00.00
  • Количество страниц 114
Заворотнюк Денис Сергеевич. Разработка систем распознавания границы опухоли на основании данных масс-спектрометрического анализа тканей: дис. кандидат наук: 00.00.00 - Другие cпециальности. ФГАОУ ВО «Московский физико-технический институт (национальный исследовательский университет)». 2023. 114 с.

Оглавление диссертации кандидат наук Заворотнюк Денис Сергеевич

Введение

Глава 1. Литературный обзор

1.1 Предварительная обработка данных масс-спектрометрических экспериментов

1.2 Проблема размерности данных

1.3 Качество данных

1.4 Хранилище данных

1.5 Классификационная задача

Глава 2. Материалы и методы

Глава 3. Сбор данных МС без пробоподготовки

3.1 Данные МС с ионным источником в виде иглы

3.2 Автоматизация процесса сбора данных

3.3 База данных ScalpelDB

Глава 4. Параметры предварительной обработки

4.1 Параметр SNR

4.2 Параметры HWS, TA, TBP

4.3 Обсуждение

Глава 5. Качество данных МС без пробоподготовки

5.1 Энтропия

5.2 Вектор Шепли

5.2.1 Материалы и методы

5.2.2 Результаты

5.2.3 Обсуждение

Глава 6. Ансамбль моделей

Заключение

Список сокращений и условных обозначений

Стр.

Словарь терминов

Список литературы

Список рисунков

Список таблиц

Приложение А. Приложение «MS Spectrum Observer»

Приложение Б. KNIME приложение «Ансамбль моделей»

Рекомендованный список диссертаций по специальности «Другие cпециальности», 00.00.00 шифр ВАК

Введение диссертации (часть автореферата) на тему «Разработка систем распознавания границы опухоли на основании данных масс-спектрометрического анализа тканей»

Введение

Радикальное удаление опухоли очень часто является основным возможным методом лечения злокачественных опухолей головного мозга. Однако хирургическое вмешательство подобного рода имеет особые требования к точности проведения операции для того, чтобы обеспечить полноту резекции с целью предотвращения рецидива, с одной стороны, и не допустить избыточной резекции и возникновения нейропатологических последствий, с другой.

Основными универсальными интраоперационными методами контроля границ удаляемой опухоли до сих пор остаются позитронно-эмиссионная томография, совмещенная с рентгеновской компьютерной томографией (ПЭТ/КТ), магнитно-резонансная томография (МРТ) и гистохимический анализ. Однако, самый быстрый гистохимический анализ, выполненный в экспресс-режиме, занимает порядка 30 минут, а оборудование для проведения ПЭТ/КТ и МРТ-исследований не всегда может быть встроено в протокол проведения хирургической операции из-за больших размеров и высокой стоимости как самого оборудования, так и его применения. Поэтому задачи развития методов ин-траоперационного мониторинга являются актуальными как для нейрохирургии опухолей в целом, так и для операций удаления глиальных опухолей, в частности.

Альтернативным инструментом для решения задачи интраоперационного мониторинга может стать метод масс-спектрометрии (МС) без пробоподготовки. Применение такого метода позволяет упростить и ускорить подготовку образца к анализу и за сравнительно короткое время получить молекулярный профиль ткани в разных режимах сбора ионов, что дает возможность рассмотреть образец с разных сторон с точки зрения химического строения. Таким образом, классификация образца ткани может проводиться на основании более полной информации.

К настоящему времени опубликован ряд работ с опытным применением масс-спектрометрических методов без пробоподготовки, но для возможности клинического применения необходимо решить такие вопросы, как:

- унифицированный сбор всех данных, необходимых для проведения анализа;

- предварительная обработка и очистка данных МС должна выполняться таким образом, чтобы потери информации были минимальны;

- должен быть автоматизированный контроль качества данных МС;

- анализ должен проводиться на наиболее полном наборе экспериментальных данных.

В данной работе затрагиваются все вышеперечисленные вопросы.

Целью данной работы является разработка эффективных методов анализа молекулярных профилей, полученных с помощью масс-спектрометрии без пробо-подготовки, на примере липидных фракций образцов опухолей головного мозга.

Для достижения поставленной цели необходимо было решить следующие задачи:

1. Разработать автоматизированный процесс сбора экспериментальных данных, получаемых с разных масс-спектрометров, учесть необходимость сохранения сопроводительной информации с описанием образцов, в том числе гистологической.

2. Разработать алгоритм определения оптимальных значений параметров для обработки масс-спектрометрических данных, полученных с помощью масс-спектрометрии с прямой ионизацией.

3. Разработать методы оценки вклада индивидуального масс-спектра в классификационную модель, различающую опухолевую и неопухолевую ткани.

4. Исследовать возможность объединения классификационных моделей, основанных на экспериментальных данных, полученных при различных режимах измерения.

Научная новизна:

1. Предложена методика автоматизированного и унифицированного подхода к сбору и хранению масс-спектрометрических и клинических данных, пригодных для дальнейшего применения методами машинного обучения.

2. Предложен алгоритм полуавтоматического определения оптимальных значений параметров предварительной обработки данных масс-спектрометрии с прямой ионизацией на основе решения классификационной задачи и с использованием интерактивного инструмента для визуальной оценки качества обработки.

3. Впервые предложен алгоритм с использованием вектора Шепли для сортировки масс-спектрометрических сканов по степени пригодности для решения классификационных задач.

4. Предложены методы объединения мультимодальных масс-спектромет-рических данных для повышения надежности дифференциации опухолевых и не-опухолевых тканей головного мозга.

Практическая значимость Результаты данной работы могут использоваться как готовые инструменты при применении методов масс-спектрометрического профилирования тканей с прямой ионизацией в клинике, так и для создания новых автоматизированных систем интраоперационного мониторинга. Применение таких систем в качестве альтернативных аналитических методов для интраоперационного анализа тканей различного типа может ускорить и повысить точность определения границ опухоли.

Также методы определения оптимальных значений предварительной обработки и количественной оценки масс-спектрометрических профилей могут использоваться не только в клиническом применении масс-спектрометрии с прямой ионизацией, но и в других приложениях, где требуется анализ молекулярных профилей образцов. Например, при исследовании продуктов питания и растений.

Основные положения, выносимые на защиту:

1. Методика унифицированного подхода к автоматизированному сбору и хранению масс-спектрометрических и клинических данных, пригодных для дальнейшего использования методами машинного обучения.

2. Методика полуавтоматической оптимизации значений параметров предварительной обработки данных масс-спектрометрии с прямой ионизацией на основе решения классификационной задачи.

3. Алгоритм сортировки масс-спектрометрических сканов по степени пригодности для решения классификационных задач.

4. Метод объединения мультимодальных масс-спектрометрических данных для повышения надежности дифференциации опухолевых и неопухолевых тканей головного мозга.

Апробация работы. Основные результаты работы докладывались на:

1. 24-я Международная конференция по масс-спектрометрии 2022, Нидерланды

2. 30-я конференция «МАТЕМАТИКА. КОМПЬЮТЕР. ОБРАЗОВАНИЕ», январь 2023, г. Пущино

3. IV Всероссийская научно-практическая конференция с международным участием «РАЗВИТИЕ ФИЗИКО-ХИМИЧЕСКОЙ БИОЛОГИИ, БИО-

ТЕХНОЛОГИИ И БИОИНФОРМАТИКИ НА СОВРЕМЕННОМ ЭТАПЕ», октябрь 2023, г. Иркутск Личный вклад. Автор принимал активное участие в получении результатов данной работы. При участии автора были получены данные масс-спектрометрических исследований. Автором работы был разработан ряд инструментов для автоматизации процесса сбора данных, проведена обработка данных и обобщение результатов.

Публикации. Основные результаты по теме диссертации изложены в 4 печатных изданиях, 2 из которых изданы в журналах, рекомендованных ВАК, 2 — в периодических научных журналах, индексируемых Web of Science и Scopus, 3 — в тезисах докладов. Зарегистрированы 1 программа для ЭВМ и 1 база данных.

Объем и структура работы. Диссертация состоит из введения, 6 глав, заключения и 2 приложений. Полный объём диссертации составляет 114 страниц, включая 35 рисунков и 16 таблиц. Список литературы содержит 101 наименование.

Глава 1. Литературный обзор

Масс-спектрометрия (МС) без пробоподготовки при нормальных условиях кардинально изменила методы, с помощью которых данные о молекулярном строении биологического образца могут быть получены в короткое время.

На протяжении долгого времени определение диагноза по образцам тканей в клинических условиях выполнялась опытными патологами с помощью методов световой микроскопии и с помощью иммуно-гистохимического окрашивания тканей для дифференциации межклеточного вещества тканей, ядер клеток и цитоплазмы. Такое окрашивание дает патологам четкое представление о строении и составе ткани и позволяют оценить структуру, морфологию и расположение клеток при определении диагноза при различных заболеваниях, в том числе онкологических.

С развитием методов геномики и протеомики было разработано множество различных иммуно-гистохимических протоколов для окрашивания специфических белковых маркеров, чтобы сделать методы дифференциации структурных элементов тканей более специфичными и чувствительными. Эти достижения позволили более надежно и адекватно определять не только диагноз, но также более эффективно выбирать направление лечения и точнее определять границы пораженной заболеванием ткани, что является высокоактуальной задачей, так как размер резекции опухоли может оказать сильное влияние на исход операции, а избыточная резекция здоровой ткани не всегда допустима. Например, в случае нейрохирургических операций опухолей головного мозга избыточная резекция может привести к нейропатологическим последствиям, а недостаточная — к возникновению рецидивов и необходимости проведения повторного лечения.

За последние двадцать лет повышенное внимание со стороны биологического и медицинского сообществ получила масс-спектрометрическая визуализация как мощный инструмент для идентификации и количественного определения пептидов и белков в ткани [1; 2]. MALDI-MS и SIMS показывали огромный потенциал для применения в качестве диагностических инструментов в рутинных клинических задачах, но эти методы предъявляли такие требования к их использованию, как высокая стоимость оборудования и сложные условия проведения исследований. И только развитие методов ионизации при нормальных условиях позволило начать применять подходы МС к рутинному использованию в клинике. Более

существенно то, что такие методы позволяют получать информацию о молекулярной структуре ткани напрямую в режиме реального времени без необходимости проведения предварительной подготовки образца.

На сегодняшний день существует более 30 различных методов ионизации при нормальных условиях [3]. Одна часть этих методов основана на ионизации распылением в электрическом поле (ESI). В качестве примеров стоит отметить Desorption electrospray ionization (DESI) [4], Paper spray ionization (PSI) [5], Probe electrospray ionization (PESI) [6]. В другой части методов используется химическая ионизация при атмосферном давлении, например, Direct analysis in real time (DART) [7], Desorption corona beam ionization (DCBI) [8] и Atmospheric Solids Analysis Probe (ASAP) [9]. Но все эти методы объединяет то, что время между началом исследования образца и до получения результата исчисляется десятками секунд, в то время как самое быстрое гистохимическое исследование, выполняемое в ходе проведения хирургической операции, требует от 20 до 30 минут [10].

Применение таких методов, которые позволяют упростить подготовку образца к исследованию и ускорить его проведение, приводит к увеличению объема масс-спектрометрических данных из-за того, что в условиях прямой ионизации образуется большое количество разных ионов и все они попадают в масс-спектрометр, в отличии от, например, МС с газовой или жидкостной хроматографией, которые позволяют из всего потока ионов выделить только те, которые представляют интерес для исследования. В результате образуются более сложные по составу масс-спектры, которые могут содержать ионы, соответствующие разным типам химических соединений, и/или множество ионов, которые соответствуют одному и тому же соединению [11—13], например, протонированный молекулярный ион [M + H]+ и аддукт с аммонием [M + NH4]+.

Масс-спектрометрические экспериментальные данные представляют собой упорядоченные по времени наборы сканов. Каждый скан представляет собой упорядоченный по шкале отношения массы иона к его заряду (m/z) профиль интенсивностей тока ионов, накопленных прибором за определенные интервал времени, который называется временем удержания и может составлять доли секунды, поэтому на один образец, подвергнутый исследованию в течении минуты в одном режиме сбора ионов, исследователь получает массив из более чем сотни молекулярных профилей, которые в случае масс-спектрометрии с ионизацией при нормальных внешних условиях могут соответствовать нескольким сотням и тысячам ионов. На рисунке 1.1 представлены масс-спектрометрические профи-

ли, полученные с помощью тандемной МС и МС с прямой ионизацией. Видно, что профиль, полученный с помощью МС с прямой ионизацией намного более насыщенный и поэтому анализ таких профилей усложняется и становится нетривиальной задачей. Для полноценного анализа образца и проведения надежной диагностики исследование может выполняться в разных режимах сбора ионов и для исключения влияния факторов, связанных с гетерогенностью образца ткани, для исследования нужно брать образцы с разных участков ткани.Таким образом, масс-спектрометрическое исследование порождает большое количество данных и для решения задачи анализа этих данных следует воспользоваться принципами работы с данными из хемометрии.

Хемометрию можно определить как применение математических и статистических методов для анализа химических данных [14]. В более широком смысле, это «весь процесс, посредством которого данные трансформируются в информацию для принятия решения». В рамках этого процесса большое внимание уделяется этапу предварительной обработки и подготовки экспериментальных данных к анализу.

1.1 Предварительная обработка данных масс-спектрометрических

экспериментов

Предварительная обработка данных является очень важной частью анализа данных. Основное назначение этого этапа — уменьшение или устранение таких вариаций в данных, которые не должны влиять на результат анализа. Эти вариации могут быть как случайными, так и систематическими. Случайные вариации могут порождаться условиями проведения эксперимента, например, колебаниями температуры воздуха в лаборатории, а систематические могут быть объяснены, например, используемым масс-спектрометром. Основными действиями на этапе предварительной обработки масс-спектрометрических данных, как правило, являются:

- нормализация данных,

- определение и удаление шума,

- выделение и выравнивание пиков.

2

1.5 х 106

° 6

О 1 х106н х т

о х

ш 5 £ 5 х 105н

0

Мр = 714

шши

3 х 103

о

0

1 3

т 2 х 103

х

о

X

ш

.г 1 х 103

0

500 1000 1500

т/г

100 200 300 400 500

т/г

3

1.2 х 105

о

° 8х104-т

о

X ф

4 х 104

0

500

600

700 800 т/7

900

1000

Рисунок 1.1 — Сравнение масс-спектрометрических профилей тандемной МС и МС с прямой ионизацией. 1 и 2 - профили, полученные с помощью тандемной МС для уровней 1 и 2, соответственно. 3 - профиль, полученный с помощью МС с прямой ионизацией. На графиках показано количество значимых пиков №Р), которое может быть получено из каждого профиля

1

Далее приведено более подробное описание этих действий. Нормализация данных направлена на устранение вариабельности, обусловленной изменением потока ионов, вымываемых из образца растворителем в ходе проведения эксперимента. Цель этого действия заключается в приведении к единой норме интенсивностей пиков, соответствующих одному иону в разных образцах, потому что, например, один и тот же липид или белок может присутствовать в разных количествах в различных образцах, поэтому нормализованные интенсивности отражают относительное количество ионов в исследуемом образце. Нормализация может выполняться по отношению к общему ионному току или к пику с максимальной интенсивностью (такой пик называется основным в спектре). Нормализация масс-спектрометрических профилей может выполняться к [14]:

- максимальному значению интенсивности в профиле (нормализация к основному пику),

- значению общего ионного тока (TIC — Total Ion Current, в англоязычной литературе можно встретить также и «Total Ion Counts»),

- усредненной или суммарной интенсивности всех пиков в спектре.

Удаление шума направлено на исключение влияния систематических и

случайных ошибок, неизбежно возникающих в ходе проведения эксперимента, на результаты исследования. Источниками шумов могут быть различные части масс-спектрометра и факторы окружающей среды; эти шумы могут вносить вклад в итоговый масс-спектрометрический профиль, как в его низкочастотную составляющую, так и в высокочастотную. Удаление низкочастотной составляющей шума называется корректировкой основной линии, а высокочастотной -сглаживание профиля. На рисунках 1.2а и 1.2б представлены примеры масс-спектрометрического профиля с выделенной основной линией и синтетический профиль с высокочастотным зашумлением, соответственно. Оценка основной линии и сглаживание производятся путем разбиения всего профиля на несколько участков, размер которых определяется параметром, называемым полушириной окна, и применения определенного математического алгоритма. При оценке основной линии могут применяться, например, такие алгоритмы, как простая разность, скользящая усредненная разность [14], «SNIP» [15], «TopHat» [16]. Для сглаживания могут применяться методы, например, усреднения, медианного усреднения, скользящего усреднения, аппроксимации полиномом некоторой степени [17].

а) Корректировка основной линии б) Устранение высокочастотного шума Рисунок 1.2 — Определение и устранение шумов

На завершающем этапе предварительной обработки производится преобразование масс-спектрометрических сканов в наборы пиков, состоящие из интенсивностей и значений m/z, выделенных в сканах. Здесь также каждый набор пиков разбивается на группы и для каждой группы определяется максимальное значение интенсивности. После составления наборов пиков из всех сканов производится выравнивание положений идентичных пиков и их объединение (биннинг пиков).

В зависимости от природы образцов, используемых в масс-спектрометри-ческом эксперименте, и типа дальнейшего анализа предварительная обработка может выполняться по-разному. В простых случаях предварительная обработка заключается лишь в нормализации интенсивностей. Так, например, при построении молекулярной сети (систематизация данных MS/MS исследований на основе химического подобия) для использования в качестве стратегии к идентификации и описании новых соединений в производстве лекарств [18] исходные спектры преобразовываются в один из текстовых форматов (mzXML [19] или MGF), после чего пики нормализуются к суммарной интенсивности всех пиков. В статье, описывающей обнаружение новых потенциальных биомаркеров атеросклероза в плазме крови кроликов [20] предварительная обработка PESI-MS данных заключается в уменьшении исследуемого диапазона m/z с 10-1999 до 10-999 и последующей нормализации интенсивностей пиков по отношению к средней медианной интенсивности. В построении базы с данными PESI-MS,

полученными с образцов слизистых оболочек человека [21] предварительная обработка заключалась в нормализации интенсивностей пиков к среднему медианному значению. В исследовании по выявлению метаболитов с помощью тандемной масс-спектрометрии и методами машинного обучения (МО) [22] масс-спектрометрические данные были нормализованы на суммарную интенсивность всех пиков в спектре.

В других случаях предварительная обработка данных дополняется шагами, направленными на очистку спектров. Так, в работе по диагностике рака груди на основе липидного профилирования тканей опухоли методом ионизации с электронным распылением [23] из исходного диапазона m/z пиков от 10 до 1999 авторы используют только пики от 10 до 999 m/z с шириной бина в 0,1. Затем каждые 10 пиков усредняются и после этого производится нормализация полученных спектров на среднюю медианную интенсивность. В работе, связанной с установлением различий между разнообразными видами специй с использованием DART-MS [11], из спектров вычитался фоновый сигнал, соответствующий спектру растворителя, после чего производилась нормализация интенсивности пиков к основному пику в спектре. При распознавании рака матки по метаболитам в сыворотке крови человека с использованием DART-MS [24] для каждого образца экспериментальные данные из временного диапазона 0,73-0,76 минуты были усреднены, после чего из спектров были произведены корректировка на сдвиг масс и вычитание фонового сигнала. После этого данные были нормализованы по отношению к пику с максимальной интенсивностью и спектры, соответствующие повторным измерениям одного образца, были усреднены. В работе, направленной на предсказание рака груди с использованием Paper Spray Ion Mobility Spectrometry MS и МО [25] исходные данные МС, полученные с тканей доброкачественных и злокачественных опухолей, были отфильтрованы путем отбрасывания низкоинтенсивных пиков (ниже 100 относительных единиц). Затем была проведена нормализация интенсивностей по отношению к пику на m/z=235,18, который известен как фоновый сигнал фильтровальной бумаги. После этого был проведен биннинг пиков с шириной бина в 0,1 Да. В сравнении алгоритмов МО в предсказании свойств говядины с использованием REIMS [26] предварительная обработка МС данных выполнялась с помощью программного продукта LiveID (Waters Corporation) и заключалась в выравнивании положений пиков по шкале M/Z, вычитании шума и нормализации на общий ионный ток. Затем был произведен биннинг пиков с шириной бина в 0,5 Да и полученные

бины были просуммированы с соответствующими бинами пиков спектров, полученных с других образцов одной ткани. Для того, чтобы исключить из набора данных пики, соответствующие растворителю, использованному в ходе получения масс-спектров, бины из диапазона 550-600 m/z были отброшены из всех спектров. В работе [27] исследуются данные DESI-MS, полученные с образцов тканей миокарда мышей. Исследованы образцы двух типов: здоровые ткани и ткани, пораженные инфарктом. Исходные файлы масс-спектров были сконверти-рованы сначала в «imzML^-формат [28], а потом в формат файлов Microsoft Excel. После конвертации был произведен поиск пиков с биннингом шириной в 0,05 Да.

В обзоре, посвященном применению масс-спектрометрии к метаболомно-му исследованию клетки [29], описываются три главных шага предварительной обработки данных. Первый шаг направлен на устранение влияния масс-спектрометрического инструмента на сбор ионного сигнала, соответствующего исследуемому образцу. На этом шаге устраняются шумовые и фоновый сигналы. Шумовой сигнал устраняется путем установки определенного порогового значения для пиков спектра. Пики, имеющие значения интенсивности меньше, чем пороговое значение, отбрасываются. Поэтому пороговое значение должно выбираться с осторожностью, так как относительно низкое значение может сохранить много шумовых пиков, в то время как высокое значение может привести к потере полезных пиков, которые соответствуют ионам, зарегистрированным в небольшом количестве. Фоновый сигнал удаляется с использованием так называемого «пустого» образца, например, растворителя. В такой экспериментальной установке получается спектр, который принимается за фоновый сигнал и вычитается из спектров в последующих настоящих экспериментах. Удаление шумового и фонового сигналов приводят к уменьшению размерности данных, таким образом упрощая анализ.

Следующий шаг — нормализация интенсивностей пиков. После нормализации необходимо выровнять положения пиков по шкале M/Z в спектрах всех исследованных образцов, чтобы учесть возможное влияние других ионов.

Последним шагом является выбор метаболитов, которые нужны для исследования в дальнейшем анализе. Обычно, выбираются только те метаболиты, которые присутствуют в большинстве образцов. Этот шаг позволяет уменьшить вычислительные ресурсы, используемые в процессе анализа, и предотвратить получение неправильных результатов.

В обзоре методов МО, которые применяются в метаболомике, основанной на МС с хроматографией [30], описывается применение этих методов для предварительной обработки данных перед анализом. Авторы выделяют четыре шага, которые следует выполнить, чтобы получить точные аннотацию и определение количества метаболитов. Первый шаг заключается в выделении пиков, интеграции данных, полученных различными инструментами и в разных экспериментальных прогонах, в общий набор данных и аннотации.

Второй шаг — это аннотация пиков. Результатом аннотации является сопоставление положения пика спектра с обозначением конкретного химического соединения. Для аннотации пиков в качестве метода МО применяется предсказание фрагментации. Главная идея этого подхода заключается в применении методов МО к задаче поиска характерных молекулярных признаков в одной или нескольких баз данных спектров. На этом шаге популярными методами можно назвать машины опорных векторов (SVM), искусственные нейронные сети, в частности, сверточные нейронные сети.

Третий шаг — процедура нормализации. Эта процедура может выполняться с использованием или без использования стандартных образцов в качестве контроля качества. При этом контроль качества образцов применяется для исключения внутри- и межгрупповой вариабельности с сохранением биологической информации. В случаях, когда используется контроль качества, основными методами МО для нормализации являются регрессии, основанные на SVM или на случайных лесах (RF). В некоторых случаях нормализация с использованием SVM-регрессий приводит к переобучению в последующем анализе из-за того, что этот метод, как и большинство методов нормализации с контролем качества, не учитывает корреляцию между соединениями. Эта проблема может быть решена путем применения разновидности RF с удалением систематической ошибки (SERRF). В случае, когда контроль качества не используется, нормализация может выполняться с использованием метода «псевдо-контроля качества», который подразумевает симуляцию данных для контроля качества из существующего набора данных. В этом случае также главным образом используются такие методы МО, как SVM и RF. Несмотря на то, что RF лучше справляется с переобучением, авторы обзора рекомендуют проверять несколько методов нормализации для выбора наилучшего в каждой конкретной задаче анализа данных.

Похожие диссертационные работы по специальности «Другие cпециальности», 00.00.00 шифр ВАК

Список литературы диссертационного исследования кандидат наук Заворотнюк Денис Сергеевич, 2023 год

Список литературы

1. Walch, A. MALDI imaging mass spectrometry for direct tissue analysis: a new frontier for molecular histology / A. Walch, S. Rauser, S.-O. Deininger, H. Hofler // Histochemistry and Cell Biology. — 2008. — Vol. 130, no. 3. — P. 421.

2. Braun, R. M. Performance characteristics of a chemical imaging time-of-flight mass spectrometer / R. M. Braun, P. Blenkinsopp, S. J. Mullock, C. Corlett, K. F. Willey, J. C. Vickerman, N. Winograd // Rapid Communications in Mass Spectrometry. — 1998. — Vol. 12, no. 18. — P. 1246—1252.

3. Ifa, D. R. Ambient ionization mass spectrometry for cancer diagnosis and surgical margin evaluation / D. R. Ifa, L. S. Eberlin // Clinical Chemistry. — 2016.

4. Ifa, D. R. Desorption electrospray ionization and other ambient ionization methods: current progress and preview / D. R. Ifa, C. Wu, Z. Ouyang, R. G. Cooks // The Analyst. — 2010. — Vol. 135, no. 4. — P. 669.

5. Liu, J. Development, Characterization, and Application of Paper Spray Ionization / J. Liu, H. Wang, N. E. Manicke, J.-M. Lin, R. G. Cooks, Z. Ouyang // Analytical Chemistry. — 2010. — Vol. 82, no. 6. — P. 2463—2471.

6. Usmanov, D. T. Probe Electrospray Ionization Mass Spectrometry with Discontinuous Atmospheric Pressure Interface / D. T. Usmanov, S. Saha, L. C. Chen, S. Ninomiya, M. K. Mandal, K. Hiraoka // European Journal of Mass Spectrometry. — 2015. — Vol. 21, no. 3. — P. 327—334.

7. Gross, J. H. Direct analysis in real time—a critical review on DART-MS / J. H. Gross // Analytical and Bioanalytical Chemistry. — 2014. — Vol. 406, no. 1. — P. 63—80.

8. Du, W. Desorption corona beam ionisation (DCBI) mass spectrometry for in-situ analysis of adsorbed phenol in cigarette acetate fiber filter / W. Du, L.-J. Tang, J.-H. Wen, K.-J. Zhong, J.-H. Jiang, H. Wang, B. Chen, R.-Q. Yu // Talanta. — 2015. — Vol. 131. — P. 499—504.

9. Li, X. Sampling and analyte enrichment strategies for ambient mass spectrometry / X. Li, W. Ma, H. Li, W. Ai, Y. Bai, H. Liu // Analytical and Bioanalytical Chemistry. — 2018. — Vol. 410, no. 3. — P. 715—724. — Publisher: Springer Verlag.

10. Balog, J. Intraoperative Tissue Identification Using Rapid Evaporative Ionization Mass Spectrometry / J. Balog, L. Sasi-Szabo, J. Kinross, M. R. Lewis, L. J. Muirhead, K. Veselkov, R. Mirnezami, B. Dezso, L. Damjanovich, A. Darzi, J. K. Nicholson, Z. Takats // Science Translational Medicine. — 2013. — Vol. 5, no. 194.

11. Pavlovich, M. J. Chemometric brand differentiation of commercial spices using direct analysis in real time mass spectrometry / M. J. Pavlovich, E. E. Dunn, A. B. Hall // Rapid Communications in Mass Spectrometry. — 2016. — Vol. 30, no. 9. — P. 1123—1130. — Publisher: John Wiley and Sons Ltd.

12. Huang, M.-Z. Ambient Ionization Mass Spectrometry / M.-Z. Huang, C.-H. Yuan, S.-C. Cheng, Y.-T. Cho, J. Shiea // Annual Review of Analytical Chemistry. — 2010. — Vol. 3, no. 1. — P. 43—65.

13. Shi, L. Ambient Ionization Mass Spectrometry: Application and Prospective / L. Shi, A. Habib, L. Bi, H. Hong, R. Begum, L. Wen // Critical Reviews in Analytical Chemistry. — 2022. — P. 1—50.

14. Beebe, K. R. Chemometrics: a practical guide / K. R. Beebe, R. J. Pell, M. B. Seasholtz. — New York : Wiley, 1998. — (Wiley-Interscience series on laboratory automation).

15. Morhac, M. Background elimination methods for multidimensional coincidence Y-ray spectra / M. Morhac, J. Kliman, V. Matousek, M. Veselsky, I. Turzo // Nuclear Instruments and Methods in Physics Research Section A: Accelerators, Spectrometers, Detectors and Associated Equipment. — 1997. — Vol. 401, no. 1. — P. 113—132.

16. Van Herk, M. A fast algorithm for local minimum and maximum filters on rectangular and octagonal kernels / M. Van Herk // Pattern Recognition Letters. — 1992. — Vol. 13, no. 7. — P. 517—521.

17. Savitzky, A. Smoothing and Differentiation of Data by Simplified Least Squares Procedures. / A. Savitzky, M. J. E. Golay // Analytical Chemistry. — 1964. — Vol. 36, no. 8. — P. 1627—1639.

18. Yang, J. Y. Molecular networking as a dereplication strategy / J. Y. Yang, L. M. Sanchez, C. M. Rath, X. Liu, P. D. Boudreau, N. Bruns, E. Glukhov, A. Wodtke, R. De Felicio, A. Fenner, W. R. Wong, R. G. Linington, L. Zhang, H. M. Debonsi, W. H. Gerwick, P. C. Dorrestein // Journal of Natural Products. — 2013. — Vol. 76, no. 9. — P. 1686—1699.

19. Martens, L. mzML - A community standard for mass spectrometry data / L. Martens, M. Chambers, M. Sturm, D. Kessner, F. Levander, J. Shofstahl, W. H. Tang, A. Rompp, S. Neumann, A. D. Pizarro, L. Montecchi-Palazzi, N. Tasman, M. Coleman, F. Reisinger, P. Souda, H. Hermjakob, P. A. Binz, E. W. Deutschh // Molecular and Cellular Proteomics. — 2011. — Vol. 10, no. 1.

20. Johno, H. Detection of potential new biomarkers of atherosclerosis by probe electrospray ionization mass spectrometry / H. Johno, K. Yoshimura, Y. Mori, T. Kimura, M. Niimi, M. Yamada, T. Tanigawa, J. Fan, S. Takeda // Metabolomics. — 2018. — Vol. 14, no. 4. — Publisher: Springer New York LLC.

21. Ashizawa, K. Construction of mass spectra database and diagnosis algorithm for head and neck squamous cell carcinoma / K. Ashizawa, K. Yoshimura, H. Johno, T. Inoue, R. Katoh, S. Funayama, K. Sakamoto, S. Takeda, K. Masuyama, T. Matsuoka, H. Ishii // Oral Oncology. — 2017. — Vol. 75. — P. 111—119. — Publisher: Elsevier Ltd.

22. Li, Y. Identification of metabolites from tandem mass spectra with a machine learning approach utilizing structural features / Y. Li, M. Kuhn, A. C. Gavin, P. Bork // Bioinformatics. — 2020. — Vol. 36, no. 4. — P. 1213—1218. — Publisher: Oxford University Press.

23. Iwano, T. Breast cancer diagnosis based on lipid profiling by probe electrospray ionization mass spectrometry / T. Iwano, K. Yoshimura, S. Inoue, T. Odate, K. Ogata, S. Funatsu, H. Tanihata, T. Kondo, D. Ichikawa, S. Takeda // British Journal of Surgery. — 2020. — Vol. 107, no. 6. — P. 632—635. — Publisher: John Wiley and Sons Ltd.

24. Zhou, M. Rapid mass spectrometric metabolic profiling of blood sera detects ovarian cancer with high accuracy / M. Zhou, W. Guan, L. D. E. Walker, R. Mezencev, B. B. Benigno, A. Gray, F. M. Fernández, J. F. McDonald // Cancer Epidemiology Biomarkers and Prevention. — 2010. — Vol. 19, no. 9. — P. 2262—2271.

25. Huang, Y. C. Predicting Breast Cancer by Paper Spray Ion Mobility Spectrometry Mass Spectrometry and Machine Learning / Y. C. Huang, H. H. Chung, E. P. Dutkiewicz, C. L. Chen, H. Y. Hsieh, B. R. Chen, M. Y. Wang, C. C. Hsu // Analytical Chemistry. — 2020. — Vol. 92, no. 2. — P. 1653—1657. — Publisher: American Chemical Society.

26. Gredell, D. A. Comparison of Machine Learning Algorithms for Predictive Modeling of Beef Attributes Using Rapid Evaporative Ionization Mass Spectrometry (REIMS) Data / D. A. Gredell, A. R. Schroeder, K. E. Belk, C. D. Broeck-ling, A. L. Heuberger, S. Y. Kim, D. A. King, S. D. Shackelford, J. L. Sharp, T. L. Wheeler, D. R. Woerner, J. E. Prenni // Scientific Reports. — 2019. — Vol. 9, no. 1. — Publisher: Nature Publishing Group.

27. Margulis, K. Combining Desorption Electrospray Ionization Mass Spectrometry Imaging and Machine Learning for Molecular Recognition of Myocardial Infarction / K. Margulis, Z. Zhou, Q. Fang, R. E. Sievers, R. J. Lee, R. N. Zare // Analytical Chemistry. — 2018. — Vol. 90, no. 20. — P. 12198—12206. — Publisher: American Chemical Society.

28. Schramm, T. imzML — A common data format for the flexible exchange and processing of mass spectrometry imaging data / T. Schramm, Z. Hester, I. Klinkert, J.-P. Both, R. M. Heeren, A. Brunelle, O. Laprevote, N. Desbenoit, M.-F. Robbe, M. Stoeckli, B. Spengler, A. Römpp // Journal of Proteomics. — 2012. — Vol. 75, no. 16. — P. 5106—5110.

29. Liu, R. Single cell metabolomics using mass spectrometry: Techniques and data analysis / R. Liu, Z. Yang // Analytica Chimica Acta. — 2021. — Vol. 1143. — P. 124—134. — Publisher: Elsevier B.V.

30. Liebal, U. W. Machine learning applications for mass spectrometry-based metabolomics / U. W. Liebal, A. N. Phan, M. Sudhakar, K. Raman, L. M. Blank // Metabolites. — 2020. — Vol. 10, no. 6. — P. 1—23. — Publisher: MDPI AG.

31. Wei, R. Missing Value Imputation Approach for Mass Spectrometry-based Metabolomics Data / R. Wei, J. Wang, M. Su, E. Jia, S. Chen, T. Chen, Y. Ni // Scientific Reports. — 2018. — Vol. 8, no. 1. — P. 663.

32. Kokla, M. Random forest-based imputation outperforms other methods for imputing LC-MS metabolomics data: a comparative study / M. Kokla, J. Virtanen, M. Kolehmainen, J. Paananen, K. Hanhineva // BMC Bioinformatics. — 2019. — Vol. 20, no. 1. — P. 492.

33. Thomas, S. A. Dimensionality reduction of mass spectrometry imaging data using autoencoders / S. A. Thomas, A. M. Race, R. T. Steven, I. S. Gilmore, J. Bunch //2016 IEEE Symposium Series on Computational Intelligence, SSCI 2016.— 2017.

34. Zhvansky, E. Comparison of Dimensionality Reduction Methods in Mass Spectra of Astrocytoma and Glioblastoma Tissues / E. Zhvansky, A. Sorokin, V. Shurkhay, D. Zavorotnyuk, D. Bormotov, S. Pekov, A. Potapov, E. Nikolaev, I. Popov // Mass Spectrometry. — 2021. — Vol. 10, no. 1. — A0094—A0094.

35. Wang, B. Similarity network fusion for aggregating data types on a genomic scale / B. Wang, A. M. Mezlini, F. Demir, M. Fiume, Z. Tu, M. Brudno, B. Haibe-Kains, A. Goldenberg // Nature Methods. — 2014. — Vol. 11, no. 3. — P. 333—337.

36. Mirza, B. Machine learning and integrative analysis of biomedical big data /

B. Mirza, W. Wang, J. Wang, H. Choi, N. C. Chung, P. Ping // Genes. — 2019. — Vol. 10, no. 2. — Publisher: MDPI AG.

37. Boiko, D. A. Fully Automated Unconstrained Analysis of High-Resolution Mass Spectrometry Data with Machine Learning / D. A. Boiko, K. S. Kozlov, J. V. Burykina, V. V. Ilyushenkova, V. P. Ananikov // Journal of the American Chemical Society. — 2022. — Vol. 144, no. 32. — P. 14590—14606. — Publisher: American Chemical Society.

38. Piras, C. LAP-MALDI MS coupled with machine learning: an ambient mass spectrometry approach for high-throughput diagnostics / C. Piras, O. J. Hale,

C. K. Reynolds, A. K. (Jones, N. Taylor, M. Morris, R. Cramer // Chem. Sci. — 2022. — Vol. 13, no. 6. — P. 1746—1758. — Publisher: The Royal Society of Chemistry.

39. Айвазян, С. А. ПРИКЛАДНАЯ СТАТИСТИКА: КЛАССИФИКАЦИЯ И СНИЖЕНИЕ РАЗМЕРНОСТИ / С. А. Айвазян, В. М. Бухштабер, И. С. Еню-ков, Л. Д. Мешалкин ; под ред. С. А. Айвазян. — Москва : ФИНАНСЫ И СТАТИСТИКА, 1989.

40. Шитиков, В. К. Классификация, регрессия и другие алгоритмы Data Mining с использованием R / В. К. Шитиков, С. Э. Мастицкий. — 2017.

41. Legendre, P. Numerical ecology / P. Legendre, L. Legendre. — Third English edition. — Amsterdam : Elsevier, 2012. — (Developments in environmental modelling; 24).

42. Ter Braak, C. J. F. Principal Components Biplots and Alpha and Beta Diversity / C. J. F. Ter Braak // Ecology. — 1983. — Vol. 64, no. 3. — P. 454-462.

43. Van der Maaten, L. Visualizing data using t-SNE. / L. Van der Maaten, G. Hinton // Journal of machine learning research. — 2008. — Vol. 9, no. 11.

44. McInnes, L. UMAP: Uniform Manifold Approximation and Projection for Dimension Reduction / L. McInnes, J. Healy, J. Melville. — 2018. — Publisher: arXiv Version Number: 3.

45. Black, C. Rapid detection and specific identification of offals within minced beef samples utilising ambient mass spectrometry / C. Black, O. P. Chevallier, K. M. Cooper, S. A. Haughey, J. Balog, Z. Takats, C. T. Elliott, C. Cavin // Scientific Reports. — 2019. — Vol. 9, no. 1. — P. 6295.

46. Basu, S.S. Interim clinical trial analysis of intraoperative mass spectrometry for breast cancer surgery / S. S. Basu, S. A. Stopka, W. M. Abdelmoula, E. C. Randall, B. Gimenez-Cassina Lopez, M. S. Regan, D. Calligaris, F. F. Lu, I. Norton, M. A. Mallory, S. Santagata, D. A. Dillon, M. Golshan, N. Y. R. Agar // npj Breast Cancer. — 2021. — Vol. 7, no. 1. — P. 116.

47. Jetybayeva, A. A review on recent machine learning applications for imaging mass spectrometry studies / A. Jetybayeva, N. Borodinov, A. V. Ievlev, M. I. U. Haque, J. Hinkle, W. A. Lamberti, J. C. Meredith, D. Abmayr, O. S. Ovchinnikova // Journal of Applied Physics. — 2023. — Vol. 133, no. 2. — Publisher: American Institute of Physics Inc.

48. Smets, T. Evaluation of Distance Metrics and Spatial Autocorrelation in Uniform Manifold Approximation and Projection Applied to Mass Spectrometry Imaging Data / T. Smets, N. Verbeeck, M. Claesen, A. Asperger, G. Griffioen, T. Tou-sseyn, W. Waelput, E. Waelkens, B. De Moor // Analytical Chemistry. — 2019. — Vol. 91, no. 9. — P. 5706—5714.

49. Gardner, W. Self-Organizing Map and Relational Perspective Mapping for the Accurate Visualization of High-Dimensional Hyperspectral Data / W. Gardner, R. Maliki, S. M. Cutts, B. W. Muir, D. Ballabio, D. A. Winkler, P. J. Pigram // Analytical Chemistry. — 2020. — Vol. 92, no. 15. — P. 10450—10459.

50. Zhvansky, E. S. Assessment of variation of inline cartridge extraction mass spectra / E. S. Zhvansky, V. A. Eliferov, A. A. Sorokin, V. A. Shurkhay, S. I. Pekov, D. S. Bormotov, D. G. Ivanov, D. S. Zavorotnyuk, K. V. Bocharov, I. G. Khali-ullin, M. S. Belenikin, A. A. Potapov, E. N. Nikolaev, I. A. Popov // Journal of Mass Spectrometry. — 2021. — Vol. 56, no. 4. — e4640.

51. Kononikhin, A. A novel direct spray-from-tissue ionization method for mass spectrometric analysis of human brain tumors / A. Kononikhin, E. Zhvan-sky, V. Shurkhay, I. Popov, D. Bormotov, Y. Kostyukevich, S. Karchugina, M. Indeykina, A. Bugrova, N. Starodubtseva, A. Potapov, E. Nikolaev // Analytical and Bioanalytical Chemistry. — 2015. — Vol. 407, no. 25.

52. Zhvansky, E. S. Metrics for evaluating the stability and reproducibility of mass spectra / E. S. Zhvansky, S. I. Pekov, A. A. Sorokin, V. A. Shurkhay, V. A. Eliferov, A. A. Potapov, E. N. Nikolaev, I. A. Popov // Scientific Reports. — 2019. — Vol. 9, no. 1. — P. 914. — Publisher: Nature Publishing Group.

53. Gibb, S. Maldiquant: A versatile R package for the analysis of mass spectrometry data / S. Gibb, K. Strimmer // Bioinformatics. — 2012. — Vol. 28, no. 17.

54. Pluskal, T. MZmine 2: Modular framework for processing, visualizing, and analyzing mass spectrometry-based molecular profile data / T. Pluskal, S. Castillo, A. Villar-Briones, M. Oresic // BMC Bioinformatics. — 2010. — Vol. 11, no. 1. — P. 395.

55. Speck, D. D. A quality index for reference mass spectra / D. D. Speck, R. Venkataraghavan, F. W. McLafferty // Organic Mass Spectrometry. — 1978. — Vol. 13, no. 4. — P. 209—213.

56. Milne, G. W. A. Registry of mass spectral data, 1st Edition, compiled by E. Sten-hagen, S. Abrahamsson and F. W. McLafferty, 4 Volumes, 3136 pages, 1974. Wiley, New York. $362.10 / G. W. A. Milne // Biological Mass Spectrometry. — 1977. — Vol. 4, no. 1. — P. 68—68.

57. Koh, P. W. Understanding Black-box Predictions via Influence Functions / P. W. Koh, P. Liang // Proceedings of the 34th International Conference on Machine Learning - Volume 70. — Sydney, NSW, Australia, 2017. — P. 1885—1894.

58. Molinaro, A. M. Prediction error estimation: A comparison of resampling methods / A. M. Molinaro, R. Simon, R. M. Pfeiffer // Bioinformatics. — 2005. — Vol. 21, no. 15. — P. 3301—3307.

59. Sutton, R. S. Reinforcement learning: an introduction / R. S. Sutton, A. G. Barto.

60. Xie, Y. R. Single-Cell Classification Using Mass Spectrometry through Interpretable Machine Learning / Y. R. Xie, D. C. Castro, S. E. Bell, S. S. Rubakhin, J. V. Sweedler // Analytical Chemistry. — 2020. — Vol. 92, no. 13. — P. 9338—9347.

61. Ghorbani, A. Data shapley: Equitable valuation of data for machine learning / A. Ghorbani, J. Zou // 36th International Conference on Machine Learning, ICML 2019. — 2019. — Vol. 2019—June. — P. 4053-4065. — arXiv: 1904.02868 ISBN: 9781510886988.

62. Haug, K. MetaboLights: a resource evolving in response to the needs of its scientific community / K. Haug, K. Cochrane, V. C. Nainala, M. Williams, J. Chang, K. V. Jayaseelan, C. O'Donovan // Nucleic Acids Research. — 2019. — gkz1019.

63. Wishart, D. S. HMDB: the Human Metabolome Database / D. S. Wishart, D. Tzur, C. Knox, R. Eisner, A. C. Guo, N. Young, D. Cheng, K. Jewell, D. Arndt, S. Sawhney, C. Fung, L. Nikolai, M. Lewis, M.-A. Coutouly, I. Forsythe, P. Tang, S. Shrivastava, K. Jeroncic, P. Stothard, G. Amegbey, D. Block, D. D. Hau, J. Wagner, J. Miniaci, M. Clements, M. Gebremedhin, N. Guo, Y. Zhang, G. E. Duggan, G. D. MacInnis, A. M. Weljie, R. Dowlatabadi, F. Bamforth, D. Clive, R. Greiner, L. Li, T. Marrie, B. D. Sykes, H. J. Vogel, L. Querengesser // Nucleic Acids Research. — 2007. — Vol. 35, Database. — P. D521—D526.

64. Kim, S. PubChem 2023 update / S. Kim, J. Chen, T. Cheng, A. Gindulyte, J. He, S. He, Q. Li, B. A. Shoemaker, P. A. Thiessen, B. Yu, L. Zaslavsky, J. Zhang, E. E. Bolton // Nucleic Acids Research. — 2023. — Vol. 51, no. D1. — P. D1373—D1380.

65. Wishart, D. T3DB: the toxic exposome database / D. Wishart, D. Arndt, A. Pon, T. Sajed, A. C. Guo, Y. Djoumbou, C. Knox, M. Wilson, Y. Liang, J. Grant, Y. Liu, S. A. Goldansaz, S. M. Rappaport // Nucleic Acids Research. — 2015. — Vol. 43, Database issue. — P. D928—934.

66. Aimo, L. The SwissLipids knowledgebase for lipid biology / L. Aimo, R. Liechti, N. Hyka-Nouspikel, A. Niknejad, A. Gleizes, L. Götz, D. Kuznetsov, F. P. David, F. G. Van Der Goot, H. Riezman, L. Bougueleret, I. Xenarios, A. Bridge // Bioinformatics. — 2015. — Vol. 31, no. 17. — P. 2860—2866.

67. Chamberlin, D. D. Early History of SQL / D. D. Chamberlin // IEEE Annals of the History of Computing. — 2012. — Vol. 34, no. 4. — P. 78—82.

68. Sorokin, A. Untangling the Metabolic Reprogramming in Brain Cancer: Discovering Key Molecular Players Using Mass Spectrometry / A. Sorokin, V. Shurkhay, S. Pekov, E. Zhvansky, D. Ivanov, E. E. Kulikov, I. Popov, A. Potapov, E. Nikolaev // Current Topics in Medicinal Chemistry. — 2019.

69. Pekov, S. I. Analysis of Phosphatidylcholines Alterations in Human Glioblastomas Ex Vivo / S. I. Pekov, A. A. Sorokin, A. A. Kuzin, K. V. Bocharov,

D. S. Bormotov, A. S. Shivalin, V. A. Shurkhay, A. A. Potapov, E. N. Nikolaev, I. A. Popov // Biochemistry (Moscow), Supplement Series B: Biomedical Chemistry. — 2021. — Vol. 15, no. 3. — P. 241—247.

70. Zavorotnyuk, D. S. Lipid Profiles of Human Brain Tumors Obtained by HighResolution Negative Mode Ambient Mass Spectrometry / D. S. Zavorotnyuk, S. I. Pekov, A. A. Sorokin, D. S. Bormotov, N. Levin, E. Zhvansky, S. Semenov, P. Strelnikova, K. V. Bocharov, A. Vorobiev, A. Kononikhin, V. Shurkhay,

E. N. Nikolaev, I. A. Popov // Data. — 2021. — Vol. 6, no. 12. — P. 1—7.

71. Pekov, S. I. Rapid estimation of tumor cell percentage in brain tissue biopsy samples using inline cartridge extraction mass spectrometry / S. I. Pekov, D. S. Bormotov, P. V. Nikitin, A. A. Sorokin, V. A. Shurkhay, V. A. Eliferov, D. S. Zavorotnyuk, A. A. Potapov, E. N. Nikolaev, I. A. Popov // Analytical and Bioanalytical Chemistry. — 2021. — Vol. 413, no. 11. — P. 2913—2922.

72. Bormotov, D. S. Incorporation of a Disposable ESI Emitter into Inline Cartridge Extraction Mass Spectrometry Improves Throughput and Spectra Stability / D. S. Bormotov, V. A. Eliferov, O. V. Peregudova, D. S. Zavorotnyuk,

K. V. Bocharov, S. I. Pekov, A. A. Sorokin, E. N. Nikolaev, I. A. Popov // Journal of the American Society for Mass Spectrometry. — 2023. — Vol. 34, no. 1. — P. 119—122.

73. Kuhn, M. Building Predictive Models in R Using the caret Package / M. Kuhn // Journal of Statistical Software. — 2008. — Vol. 28, no. 5. — P. 1—26.

74. Friedman, J. H. Regularization Paths for Generalized Linear Models via Coordinate Descent / J. H. Friedman, T. Hastie, R. Tibshirani // Journal of Statistical Software. — 2010. — Vol. 33, no. 1. — P. 1—22.

75. Weston, S. doParallel: Foreach Parallel Adaptor for the 'parallel' Package / S. Weston, C. Microsoft. — 2022.

76. Wickham, H. ggplot2: Elegant Graphics for Data Analysis / H. Wickham. — Springer-Verlag New York, 2016.

77. Berthold, M. R. KNIME: The Konstanz Information Miner / M. R. Berthold, N. Cebron, F. Dill, T. R. Gabriel, T. Kötter, T. Meinl, P. Ohl, C. Sieb, K. Thiel,

B. Wiswedel // Data Analysis, Machine Learning and Applications / ed. by

C. Preisach, H. Burkhardt, L. Schmidt-Thieme, R. Decker. — Berlin, Heidelberg : Springer Berlin Heidelberg, 2008. — P. 319—326. — Series Title: Studies in Classification, Data Analysis, and Knowledge Organization.

78. Sorokin, A. Lipid Profiles of Human Brain Tumors Obtained by High-Resolution Negative Mode Ambient Mass Spectrometry / A. Sorokin, E. Zhvansky, Denis Zavorotnyuk. — 2021.

79. Pierce, D. ncdf4: Interface to unidata netCDF (version 4 or earlier) format data files : manual / D. Pierce. — 2023.

80. Michna, P. RNetCDF: Interface to 'NetCDF' datasets : manual / P. Michna, M. Woods. — 2023.

81. Zhvansky, E. S. High-resolution mass spectra processing for the identification of different pathological tissue types of brain tumors / E. S. Zhvansky, A. A. Sorokin, I. A. Popov, V. A. Shurkhay, A. A. Potapov, E. N. Nikolaev // European Journal of Mass Spectrometry. — 2017. — Vol. 23, no. 4. — P. 213—216.

82. Lin, S. M. What is mzXML good for? / S. M. Lin, L. Zhu, A. Q. Winter, M. Sasi-nowski, W. A. Kibbe // Expert Review of Proteomics. — 2005. — Vol. 2, no. 6. — P. 839—845. — Publisher: Taylor & Francis.

83. Chambers, M. C. A cross-platform toolkit for mass spectrometry and pro-teomics / M. C. Chambers, B. Maclean, R. Burke, D. Amodei, D. L. Ruderman, S. Neumann, L. Gatto, B. Fischer, B. Pratt, J. Egertson, K. Hoff, D. Kessner, N. Tasman, N. Shulman, B. Frewen, T. A. Baker, M.-Y. Brusniak, C. Paulse, D. Creasy, L. Flashner, K. Kani, C. Moulding, S. L. Seymour, L. M. Nuwaysir,

B. Lefebvre, F. Kuhlmann, J. Roark, P. Rainer, S. Detlev, T. Hemenway, A. Huh-mer, J. Langridge, B. Connolly, T. Chadick, K. Holly, J. Eckels, E. W. Deutsch, R. L. Moritz, J. E. Katz, D. B. Agus, M. MacCoss, D. L. Tabb, P. Mallick // Nature Biotechnology. — 2012. — Vol. 30, no. 10. — P. 918—920.

84. Свидетельство о гос. регистрации базы данных ScalpelDB. База данных ScalpelDB / А. А. Сорокин, Д. С. Заворотнюк, Д. С. Бормотов,

C. И. Пеков, В. А. Елиферов, К. В. Бочаров, И. А. Попов (countryru) ; федеральное государственное автономное образовательное учреждение высшего образования «Московский физико-технический институт (национальный исследовательский университет)» (RU). — № 2021623064 ; заявл. 232021; опубл. 23.12.2021, 2021623152 (Рос. Федерация).

85. Friedman, J. H. Smart user's guide : tech. rep. / J. H. Friedman ; STANFORD UNIV CA LAB FOR COMPUTATIONAL STATISTICS. — 1984.

86. Morris, J. S. Feature extraction and quantification for mass spectrometry in biomedical applications using the mean spectrum / J. S. Morris, K. R. Coombes, J. Koomen, K. A. Baggerly, R. Kobayashi // Bioinformatics. — 2005. — Vol. 21, no. 9. — P. 1764—1775.

87. Model Selection and Multimodel Inference / ed. by K. P. Burnham, D. R. Anderson. — New York, NY : Springer New York, 2004.

88. Gustafsson, F. Twenty-one ML estimators for model selection / F. Gustafsson, H. Hjalmarsson // Automatica. — 1995. — Vol. 31, no. 10. — P. 1377—1392.

89. Akaike, H. A new look at the statistical model identification. System identification and time-series analysis / H. Akaike // IEEE Transactions in Automatic Control. — 1974. — Vol. C—19. — P. 716—723.

90. Torp, S. H. The WHO 2021 Classification of Central Nervous System tumours: a practical update on what neurosurgeons need to know—a minireview / S. H. Torp, O. Solheim, A. J. Skjulsvik // Acta Neurochirurgica. — 2022. — Vol. 164, no. 9. — P. 2453—2464.

91. Shannon, C. E. A Mathematical Theory of Communication / C. E. Shannon // Bell System Technical Journal. — 1948. — Vol. 27, no. 4. — P. 623—656.

92. Li, Y. Spectral entropy outperforms MS/MS dot product similarity for small-molecule compound identification / Y. Li, T. Kind, J. Folz, A. Vaniya, S. S. Mehta, O. Fiehn // Nature Methods. — 2021. — Vol. 18, no. 12. — P. 1524—1531.

93. Shapley Lloyd S. A Value for N-Person Games / Shapley Lloyd S. — RAND Corporation, 1952.

94. Pekov, S. I. Inline cartridge extraction for rapid brain tumor tissue identification by molecular profiling / S. I. Pekov, V. A. Eliferov, A. A. Sorokin, V. A. Shurkhay, E. S. Zhvansky, A. S. Vorobyev, A. A. Potapov, E. N. Nikolaev, I. A. Popov // Scientific Reports. — 2019. — Vol. 9, no. 1.

95. Proteomics: Methods and Protocols. Vol. 1550 / ed. by L. Comai, J. E. Katz, P. Mallick. — New York, NY : Springer New York, 2017. — (Methods in Molecular Biology).

96. Messner, C. B. Ultra-fast proteomics with Scanning SWATH / C. B. Messner, V. Demichev, N. Bloomfield, J. S. L. Yu, M. White, M. Kreidl, A.-S. Egger, A. Freiwald, G. Ivosev, F. Wasim, A. Zelezniak, L. Jürgens, N. Suttorp, L. E. Sander, F. Kurth, K. S. Lilley, M. Mülleder, S. Tate, M. Ralser // Nature Biotechnology. — 2021. — Vol. 39, no. 7. — P. 846—854.

97. Yang, K. Lipidomics: Techniques, Applications, and Outcomes Related to Biomedical Sciences / K. Yang, X. Han // Trends in Biochemical Sciences. — 2016. — Vol. 41, no. 11. — P. 954—969.

98. Pradas, I. Lipidomics Reveals a Tissue-Specific Fingerprint / I. Pradas, K. Huynh, R. Cabré, V. Ayala, P. J. Meikle, M. Jové, R. Pamplona // Frontiers in Physiology. — 2018. — Vol. 9. — P. 1165.

99. Yannell, K. E. N-Acetylaspartate and 2-Hydroxyglutarate Assessed in Human Brain Tissue by Mass Spectrometry as Neuronal Markers of Oncogenesis / K. E. Yannell, K. Smith, C. M. Alfaro, A. K. Jarmusch, V. Pirro, R. G. Cooks // Clinical Chemistry. — 2017. — Vol. 63, no. 11. — P. 1766—1767.

100. Schapire, R. E. The strength of weak learnability / R. E. Schapire // Machine Learning. — 1990. — Vol. 5, no. 2. — P. 197—227.

101. Chen, T. XGBoost: A Scalable Tree Boosting System / T. Chen, C. Guestrin // Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. — San Francisco California USA : ACM, 2016. — P. 785—794.

Список рисунков

1.1 Сравнение масс-спектрометрических профилей тандемной МС и МС с прямой ионизацией. 1 и 2 - профили, полученные с помощью тандемной МС для уровней 1 и 2, соответственно. 3 - профиль, полученный с помощью МС с прямой ионизацией. На графиках показано количество значимых пиков (Np), которое может быть получено из каждого профиля....................... 11

1.2 Определение и устранение шумов.....................13

1.3 Схема ионного источника в виде иглы...................22

1.4 График изменения общего ионного тока при разных режимах детектирования и сбора ионов ....................... 22

1.5 Гетерогенность ткани образца. а — образец содержит клетки одного типа, б — образец содержит как опухолевые, так и не-опухолевые клетки ..................................... 23

2.1 Схема масс-спектрометрического исследования.............31

2.2 Схема картриджного электрораспыления.................31

3.1 Изменение общего ионного тока с течением времени при МС с

ионным источником в виде иглы ...................... 36

3.2 PCA-диаграммы масс-спектрометрических сканов. а — ткани с диагнозами глиобластома и патологии не-опухолевой природы, б — ткани с диагнозами астроцитома и патологии не-опухолевой природы. Красным цветом обозначены признаки опухолевых, синим

— не-опухолевых тканей .......................... 37

3.3 Схема потоков данных в случае клинического применения МС. ScalpelDB — единое хранилище для масс-спектрометрических и клинических данных ............................ 39

3.4 Главное окно приложения Spectrum Analyzer...............40

3.5 Распределение масс-спектрометрического профиля...........41

3.6 Сопроводительная информация ...................... 41

3.7 Конфигурация классификационных моделей в приложении Spectrum Analyzer 1.0 .................................. 42

3.8 Схема таблиц базы данных ScalpelDB...................43

3.9 Распределение числа пациентов по диагнозам..............53

3.10 Распределение числа образцов по диагнозам...............54

3.11 Распределение числа спектров по диагнозам...............55

3.12 Распределение числа спектров по диагнозам в разных режимах сбора ионов ..........................................................................56

3.13 Веб-интерфейс для внесения данных гистологических исследований . 57

3.14 Веб-интерфейс для внесения клинических данных об образцах.....58

5.1 Гистограммы распределения информационной энтропии масс-спектрометрических профилей....................69

5.2 Масс-спектрометрический профиль, соответствующий максимальному значению энтропии....................70

5.3 Масс-спектрометрический профиль, соответствующий минимальному значению энтропии .................... 71

5.4 Масс-спектрометрический профиль, соответствующий медианному среднему значению энтропии ........................ 72

5.5 Распределение рассчитанных элементов вектора Шепли. Слева для сканов отрицательных ионов, справа - для положительных ионов . . . 75

5.6 Изменение точности классификационных моделей в процедуре исключения сканов. Слева для сканов отрицательных ионов, справа -для положительных ионов. Красная вертикальная линия показывает границу, разделяющую области неэффективных (слева) и эффективных (справа) сканов........................76

5.7 Соответствие предсказанных элементов вектора Шепли рассчетным. Модели для сканов масс-спектрометрических данных, полученных в режиме отрицательных (слева) и положительных (справа) ионов . . . . 77

5.8 PCA-диаграммы эффективных и неэффективных сканов. а — компоненты 1-2, б — компоненты 1-3....................79

6.1 Схематическое описание способов агрегации моделей классификаторов 82

А.1 Главное окно приложения MS Spectrum Observer. Показаны первые

два графика из 6 возможных.........................110

Б.1 Узлы рабочего процесса для подготовки классификационных моделей. 112

Б.2 Узлы рабочего процесса для анализа классификационных моделей. . .113

Б.3 Узлы рабочего процесса для анализа моделей регрессий.........113

Б.4 Общий вид рабочего процесса........................114

Список таблиц

1 Spectrum Analyzer 1.0. Использованные библиотеки и фреймворки ... 33

2 Распределение числа образцов тканей и пациентов по диагнозам .... 35

3 Сравнение размеров файлов с одними и теми же масс-спектрометрическими данными в разных форматах........38

7 Фрагмент списка файлов, для которых не все спектры были

загружены в БД, в распределении по режимам сбора ионов.......48

7 Фрагмент списка файлов, для которых не все спектры были

загружены в БД, в распределении по режимам сбора ионов.......49

8 Список образцов ткани, для которых не указаны данные гистологических исследований ....................... 49

8 Список образцов ткани, для которых не указаны данные гистологических исследований ....................... 50

9 Список пациентов, для которых не указаны клинические данные .... 50

4 Распределение количества пациентов, образцов и спектров по диагнозам ................................... 51

5 Процентное распределение пациентов, образцов и спектров по диагнозам ................................... 52

6 Список файлов, для которых не все спектры были загружены в БД . . . 57

10 Оптимальные значения SNR, соответствующие минимальным критериям Акаике LASSO-моделей....................62

11 Списки возможных значений параметров HWS, TA, TBP........63

12 Оптимальные значения параметров HWS, TA, TBP, полученные с помощью экспертной оценки........................64

13 Параметры регрессионной модели. Neg и Pos обозначают модели для векторов Шепли, полученных для спектров отрицательных и положительных ионов, соответственно .................. 78

14 Сравнение времени построения и точности моделей, когда в анализ включены лишь сканы с положительными элементами вектора Шепли 78

15 Производительность классификаторов на тренировочном наборе данных .................................... 84

16 Производительность классификаторов на проверочном наборе данных 86

Приложение А

Приложение «MS Spectrum Observer»

Приложение «MS Spectrum Observer» предназначено для оценки того, как параметры обработки влияют на результирующую матрицу интенсивностей. Оно позволяет визуально исследовать масс-спектрометрические профили и оценивать влияние этих параметров на то, какие пики определяются в профиле. На рисунке А.1 показан пример результата работы приложения.

Рисунок А.1 — Главное окно приложения MS Spectrum Observer. Показаны первые

два графика из 6 возможных.

При выборе из списка одного из файлов со спектром приложение «MS Spectrum Observer» читает данные профиля из файла и разбивает их на группы, соответствующие описанию режимов сбора ионов из файла описания протокола. Дальше производится калибровка значений интенсивностей на общий ионный ток и для масс-спектрометрических сканов с номерами, указанными в полях MS scan number, MS scan position to the left и MS scan position to the right (номера сканов указываются относительно набора сканов выбранного в поле Ion acquisition mode режима сбора ионов), строится 6 графиков:

1. исходные профили выбранных масс-спектрометрических сканов,

2. Спектры сканов, полученных с помощью метода

MALDIquant::detectPeaks()

и значением полуширины окна из поля halfWindowSize

3. Спектры сканов, полученных с помощью метода

MALDIquant::alignSpectra()

и значениями полуширины окна из поля halfWindowSize и допуска на выравнивание пиков из поля Mass peak tolerance align. Выравнивание производится на пики скана с максимальным общим ионным током.

4. Спектры сканов, полученные путем детектирования пиков в выровненных сканах.

5. Спектры сканов, полученные путем биннинга пиков после детектирования в выровненных сканах. Здесь также используется значение допуска на биннинг пика из поля Mass peak tolerance binPeaks. После биннинга производится фильтрация редких (меньше, чем 10 обнаружений на весь набор сканов) пиков.

6. Спектр результирующей матрицы интенсивностей, в которой сканы пиков сгруппированы в 4 набора: три набора соответствуют сканам, номера которых указаны в полях формы, и четвертый - пики всех остальных сканов.

Приложение Б KNIME приложение «Ансамбль моделей»

KNIME приложение «Ансамбль моделей» предназначено для агрегации результатов применения классификационных моделей к данным масс-спектрометрических профилей, полученных в разных режимах сбора ионов, с целью получения объединенного результата классификации для клинического образца. Приложение реализовано в виде рабочего процесса KNIME, который доступен в репозитории KNIME Community Hub по ссылке https://hub.knime.eom/-/spaces/-/latest/~dWtqs1_6S2XVP6EG/.

На рисунке Б.1 представлен блок узлов подготовки моделей.

делей.

На рисунке Б.2 представлен блок узлов анализа классификационных моделей.

На рисунке Б.3 представлен блок узлов анализа регрессионных моделей.

Concatenate Column Resorter

SpectrumBagging

Node 894 SpectrumVote

Node 988 Node 1005

Рисунок Б.2 — Узлы рабочего процесса для анализа классификационных моделей.

Рисунок Б.3 — Узлы рабочего процесса для анализа моделей регрессий.

На рисунке Б.4 представлен общий вид рабочего процесса.

>

Node 1151

Column FilteColumn ExpressioColumn Resorter

Ф ► ► » ► ► ^fr ►

Excel Writer

Node 1122

Column FilteColumn ExpressioColumn Resorter ±|± ► ► « ► ► ►

Node 1117 Node 1118 Node 1119

Node 1058

Node 941 Node 943

Рисунок Б.4 — Общий вид рабочего процесса.

Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.