Классификация дифракционных изображений биомолекул по типам 3D структуры с помощью методов машинного обучения тема диссертации и автореферата по ВАК РФ 05.13.18, кандидат наук Бобков Сергей Алексеевич

  • Бобков Сергей Алексеевич
  • кандидат науккандидат наук
  • 2018, ФГАОУ ВО «Национальный исследовательский ядерный университет «МИФИ»
  • Специальность ВАК РФ05.13.18
  • Количество страниц 135
Бобков Сергей Алексеевич. Классификация дифракционных изображений биомолекул по типам 3D структуры с помощью методов машинного обучения: дис. кандидат наук: 05.13.18 - Математическое моделирование, численные методы и комплексы программ. ФГАОУ ВО «Национальный исследовательский ядерный университет «МИФИ». 2018. 135 с.

Оглавление диссертации кандидат наук Бобков Сергей Алексеевич

Введение

Глава 1. Исследование структуры биомолекул в экспериментах на

лазерах на свободных электронах

1.1 Общие методы исследования пространственной структуры наноразмерных объектов

1.2 Метод когерентной рентгеновской дифракционной микроскопии

1.3 Исследование структуры одиночных биомолекул в

SPI экспериментах

1.4 Этап классификации при определении структуры биомолекул в

SPI экспериментах

Глава 2. Классификация дифракционных изображений, получаемых в

SPI экспериментах, на основе методов машинного обучения

2.1 Характеристика дифракционных изображений, получаемых в

SPI экспериментах

2.2 Существующие методы классификации дифракционных изображений в SPI экспериментах

2.3 Методы машинного обучения, перспективные для классификации дифракционных изображений

2.3.1 Методы уменьшения размерности

2.3.2 Методы кластерного анализа

2.3.3 Метод опорных векторов

2.3.4 Искуственные нейронные сети

2.4 Использование характеристических векторов при классификации

2.5 Угловые корреляционные функции

Глава 3. Методы классификации дифракционных изображений

3.1 Метод сжатия дифракционных изображений в

характеристический вектор

3.2 Учет технических особенностей детектора и экспериментальной установки при расчете характеристических векторов

3.2.1 Учёт зазоров в структуре детектора

3.2.2 Определение сдвига центра дифракционной картины относительно детектора

3.3 Кластеризация характеристических векторов на основе метода главных компонент

3.4 Классификация характеристических векторов на основе методов кластеризации

3.5 Классификация характеристических векторов на основе метода опорных векторов

3.6 Классификация на основе искусственных нейронных сетей

3.6.1 Перцептрон с тремя скрытыми слоями

3.6.2 Свёрточная нейронная сеть

3.7 Стандартные критерии точности и полноты классификации

Глава 4. Результаты применения разработанных методов

классификации к наборам модельных и экспериментальных данных

4.1 Классификация по типам структуры для наборов модельных данных

4.1.1 Описание первого набора модельных данных для трех

типов объектов

4.1.2 Результаты классификации первого набора модельных данных для трех типов объектов

4.1.3 Описание второго набора модельных данных для семи

белков с разной симметрией

4.1.4 Сравнение характеристических векторов для изображений

из второго набора модельных данных

4.1.5 Зависимость точности классификации от размера обучающей выборки для второго набора модельных данных

4.1.6 Результаты классификации выборок изображений двух белков с разными типами симметрии из второго набора модельных данных

4.2 Классификация по типам структуры для наборов дифракционных изображений, получаемых в SPI экспериментах

4.2.1 Описание экспериментальных данных

4.2.2 Выделение изображений посторонних объектов в блоке CXIDB

4.2.3 Влияние учёта технических особенностей детектора при сжатии на точность классификации

4.2.4 Результаты разработанных методов классификации на экспериментальных данных

4.2.5 Сводные результаты разработанных методов классификации на экспериментальных данных

Глава 5. Анализ применимости разработанных методов

классификации для реализации обработки данных

SPI экспериментов в режиме квази-онлайн

5.1 Оптимальный размер обучающей выборки

5.2 Временные затраты на ручную разметку, обучение и классификацию

5.3 Сценарий классификации изображений в экспериментах на EuXFEL в режиме квази-онлайн

Заключение

Список сокращений и условных обозначений

Словарь терминов

Список литературы

Список рисунков

Список таблиц

Приложение А. Предварительная обработка изображений для блока

CXIDB

Приложение Б. Комплекс программ для классификации

дифракционных изображений по типам структуры в SPI экспериментах

Рекомендованный список диссертаций по специальности «Математическое моделирование, численные методы и комплексы программ», 05.13.18 шифр ВАК

Введение диссертации (часть автореферата) на тему «Классификация дифракционных изображений биомолекул по типам 3D структуры с помощью методов машинного обучения»

Введение

Диссертационная работа направлена на решение проблемы классификации дифракционных изображений, получаемых в экспериментах по изучению структуры биомолекул методом когерентной рентгеновской дифракционной микроскопии, при обработке экспериментальных данных в режиме квази-онлайн.

Появление техники рентгеновской микроскопии открыло возможность исследований структуры вещества с высоким разрешением. Эта техника заняла свое место среди самых мощных инструментов изучения структуры и привела к фундаментальным открытиям во многих научных дисциплинах, от биологии до физики твердого тела.

При рассеянии рентгеновского излучения на кристаллах, регулярное расположение атомов приводит к когерентному вкладу в брэгговские пики, что многократно усиливает сигнал на детекторе [1]. К сожалению, большинство белков и вирусов не кристаллизуются, поэтому были разработаны подходы к определению структуры таких объектов без использования брэгговского рассеяния. Для повышения сигнала на детекторе приходится повышать интенсивность падающего излучения, что приводит к повреждению образцов, и, в результате, к снижению разрешения при определении трехмерной структуры.

Эти проблемы успешно решаются в новом методе — микроскопии на отдельных объектах (Single Particle Imaging, SPI) [2; 3], которая развивается в последние 15 лет. Этот метод позволяет определять трехмерную структуру по дифракционным картинам от отдельных экземпляров исследуемого объекта в случайных ориентациях. Метод SPI открывает возможности для изучения структуры биомолекул с субнанометровым разрешением [4-7].

Для SPI требуется использование рентгеновского излучения с когерентной фазой по всему объему изучаемого объекта, а также требуется высокая интенсивность. Требуемые характеристики обеспечиваются в экспериментах на рентгеновских лазерах на свободных электронах (ЛСЭ) [3; 7].

В SPI экспериментах идентичные экземпляры исследуемого объекта впрыскиваются в луч рентгеновского лазера в случайных ориентациях. Образцы разрушаются в результате воздействия мощного рентгеновского излучения. Но благодаря сверхкороткой длительности импульсов 10 фемтосекунд), дифракцион-

ная картина измеряется до момента, когда изменение взаимного положения атомов в объекте станет значимым [3; 4; 8]. На основе статистически значимого набора двумерных дифракционных изображений в разных ориентациях можно восстановить структуру исследуемого объекта [3; 7; 9]. Для этого необходимо определить относительную ориентацию образцов на изображениях и объединить дифракционные изображения в трехмерную дифракционную картину [10], и далее восстановить фазы рассеянного излучения [11-13], которые не фиксируются детектором.

Но не все дифракционные изображения, измеряемые детектором, подходят для восстановления структуры. В SPI экспериментах, которые проводятся на лазере на свободных электронах LCLS (Стэнфорд) с 2010 года, примерно 98% получаемых изображений пустые, т.е. ни один объект не попадает в импульс лазера [14]. Дифракционные изображения одиночных экземпляров исследуемого объекта, которые подходят для восстановления структуры, составляют всего лишь 1% от общего количества детектируемых изображений. Еще 1% оставшихся изображений получаются от капель воды, от рассеяния на нескольких образцах исследуемых объектов или от примесных объектов. Существуют методы фильтрации, которые позволяют быстро и надежно исключить пустые изображения из анализа [15]. Выделение же изображений одиночных экземпляров исследуемого объекта от дифракционных изображений других объектов является более сложной задачей, которая в экспериментах на лазерах на свободных электронах, в настоящее время, выполняется вручную.

Далее мы будем использовать термин «классификация по типам структуры» для задачи разделения дифракционных изображений на несколько групп: одиночные экземпляры исследуемого объекта, несколько экземпляров исследуемого объекта, примесные и другие объекты.

В 2017 году в Гамбурге был запущен новый европейский рентгеновский лазер на свободных электронах (European XFEL, далее мы будем использовать аббревиатуру EuXFEL) [16], который позволит регистрировать до 27000 дифракционных изображений в секунду Если предположить, что соотношение типов изображений будет соответствовать экспериментам на LCLS, то за 12 часов эксперимента будет собираться 23 Тбайт данных после фильтрации пустых изображений. Ручная классификация таких объемов потребует огромных трудозатрат. Отсюда возникает необходимость создания метода классификации, который поз-

волит выделять изображения одиночных образцов исследуемого типа в режиме квази-онлайн.

Ключевым аспектом диссертационной работы является моделирование свойств дифракционных изображений релевантных для классификации по типам структуры за счет использования метода сжатия. Разработанный метод использует угловые корреляционные функции для учёта структурных особенностей дифракционных изображений.

Целью данной работы является разработка метода классификации по типам 3D структуры, который обеспечит обработку в режиме квази-онлайн для дифракционных изображений, получаемых от биологических объектов в экспериментах на лазерах на свободных электронах, включая EuXFEL.

Для достижения поставленной цели были решены следующие задачи:

1) исследование существующих подходов к классификации данных SPI экспериментов на основе методов машинного обучения, в том числе нейронных сетей;

2) разработка метода сжатия дифракционных изображений в характеристический вектор на основе моделирования данных SPI экспериментов в части ключевых структурных особенностей исследуемых объектов. В результате сжатия размерность изображений должна уменьшаться на несколько порядков. Также в методе сжатия должны учитываться технические параметры детектора и экспериментальной установки, влияющие на точность классификации;

3) разработка методов классификации дифракционных изображений по типам структуры исследуемых объектов с применением методов машинного обучения и разработанного метода сжатия в характеристический вектор;

4) верификация разработанных методов классификации на наборах дифракционных изображений, полученных в экспериментах по изучению структуры биологических объектов на LCLS (Стэнфорд) в 2011-2016 годах, и сравнение результатов классификации, выполненных в различных подходах машинного обучения;

5) разработка сценария классификации дифракционных изображений, в котором будет обеспечена классификация в режиме квази-онлайн при обработке данных экспериментов на EuXFEL.

Основные положения, выносимые на защиту:

1. Разработанный метод сжатия дифракционных изображений в характеристический вектор существенно повышает точность классификации по типам структуры, а уменьшение размерности данных на 4 порядка значительно повышает скорость обучения и классификации.

2. Разработанный метод классификации дифракционных изображений по типам структуры исследуемых объектов на основе математического метода опорных векторов с использованием разработанного метода сжатия в характеристический вектор, обеспечивает обработку данных SPI экспериментов в режиме квази-онлайн.

3. Разработанный метод классификации по типам структуры позволяет сформировать сценарий программно-аппаратной реализации для классификации дифракционных изображений по типу структуры исследуемых объектов в режиме квази-онлайн в экспериментах на EuXFEL.

Научная новизна:

1. Разработан оригинальный метод сжатия дифракционных изображений в характеристический вектор с использованием корреляционных функций с учетом конструктивных особенностей детектора, который сокращает размерность данных на несколько порядков без потери информации о ключевых особенностях пространственной структуры исследуемых объектов.

2. Впервые разработан метод классификации дифракционных изображений по типам 3D структуры исследуемых объектов, который обеспечивает классификацию в режиме квази-онлайн в SPI экспериментах. На его основе впервые сформирован сценарий классификации дифракционных изображений в режиме квази-онлайн для экспериментов на EuXFEL.

3. Впервые получены оценки эффективности классификации по типам структуры с использованием различных методов машинного обучения и нейронных сетей.

Научная и практическая значимость данной работы заключается в том, что разработанный метод классификации дифракционных изображений по типам структуры позволяет отбирать содержательные дифракционные картины в экспериментах на EuXFEL в режиме квази-онлайн, что является важным шагом к полу-

чению результатов восстановления трехмерной структуры исследуемых объектов практически сразу после окончания эксперимента.

Степень достоверности полученных результатов обеспечивается применением научно обоснованных подходов к построению и сравнению методов классификации дифракционных изображений, в том числе на основе математических методов машинного обучения и нейронных сетей, а также верификацией разработанных методов на данных SPI экспериментов на лазере на свободных электронах LCLS (Стэнфорд), полученных в 2011-2016 годах.

Апробация работы. Основные результаты работы докладывались на семинарах в ведущих университетах и научных центрах:

- ЛИТ ОИЯИ (28 февраля, 2018, г. Дубна, Россия, URL: http://lit.jinr.ru/Bobkov_rus.pdf);

- DESY (15 февраля, 2018, г. Гамбург, Германия);

- «Технологии машинного обучения для слабоструктурированных данных большого объема» Университет ИТМО (26 октября, 2017, г Санкт-Петербург, Россия);

- «Методы суперкомпьютерного моделирования» ИКИ РАН (1-3 октября, 2014, г Таруса, Россия, URL: http://www.iki.rssi.ru/seminar/2014100103/);

а также на конференциях:

- International Conference «Supercomputer Simulations in Science and Engineering» (6-10 сентября, 2016, г. Москва, Россия, URL: http://http://ssse2016.ac.ru);

- The 6th International Conference «Distributed Computing and Grid-technologies in Science and Education» (30 июня - 5 июля, 2014, г. Дубна, Россия, URL: http://grid2014.jinr.ru);

- V Международная конференция «Математическая биология и биоинформатика» (19-24 октября, 2014, Институт математических проблем биологии РАН, г. Пущино, Россия, URL: http://icmbb.impb.ru/);

- International scientific conference «Science of the future» (17-20 сентября, 2014, г. Санкт-Петербург, Россия, URL: http://www.p220conf.ru);

- 11-я Курчатовская молодежная научная школа (12-15 ноября, 2013, г. Москва, Россия);

Личный вклад. Автору принадлежит идея и программная реализация метода сжатия дифракционных изображений в характеристический вектор с использо-

ванием корреляционных функций с учетом конструктивных особенностей детектора, а также идея и программные реализации методов классификации по типам структуры исследуемых объектов на основе математических методов машинного обучения и нейронных сетей в режиме квази-онлайн. Верификация этих методов на наборах данных SPI экспериментов, а также сравнение результатов с различными подходами машинного обучения и нейронных сетей были проведены автором лично. Автор предложил методику формирования сценариев классификации данных в режиме квази-онлайн в экспериментах EuXFEL.

Публикации. Основные результаты по теме диссертации опубликованы в 6 печатных изданиях. Четыре из них опубликованы в научных журналах, рекомендованных ВАК: одна статья в журнале, индексируемом WoS и Scopus; две в журналах, индексируемых Scopus; и одна в журнале, индексируемом РИНЦ. Еще опубликованы 2 тезиса докладов на научных конференциях. По результатам диссертационной работы получено 3 свидетельства о Государственной регистрации программ для ЭВМ.

Объем и структура работы. Диссертация состоит из введения, пяти глав, заключения и двух приложений. Полный объём диссертации составляет 135 страниц с 37 рисунками и 17 таблицами. Список литературы содержит 170 наименований.

Глава 1. Исследование структуры биомолекул в экспериментах на

лазерах на свободных электронах

1.1 Общие методы исследования пространственной структуры

наноразмерных объектов

Изучение структуры наноразмерных объектов, таких как биомолекулы, важно для понимания свойств таких объектов. Разработка новых методов определения структуры позволяет увеличить временное и пространственное разрешение, что открывает возможности по изучению широкого спектра образцов, позволяет улучшить понимание их свойств и процессов, в которых они участвуют.

Микроскопия являлась основной технологией для изучения материалов и биологических систем с момента изобретения. С помощью современных технологий, микроскопия в видимом свете позволяет получать изображения живых клеток с разрешением до 200 нанометров (нм) [17]. Для изучения структуры с более высоким разрешением необходимо использовать излучение с гораздо меньшей длиной волны.

Одним из актуальных направлений исследования структуры с высоким разрешением является рентгеновская микроскопия. Диапазон используемых длин волн простирается от десятков нанометров до 1 ангсрема (10 А = 1 нм). Такая длина волны позволяет определять структуру с разрешением порядка 1 А, что открывает возможность для определения взаимного положения отдельных атомов в структуре исследуемых объектов. Энергия фотонов с длиной волны в рентгеновском диапазоне составляет от нескольких сотен электронвольт (эВ) до десятков кэВ. Этот диапазон охватывает значения энергии связи в атомах для всех химических элементов. Рентгеновская микроскопия может применяться для изучения структуры любых объектов, одним из основных направлений является изучение биологических объектов и материалов.

Основной альтернативой рентгеновской микроскопии при исследовании структуры с высоким разрешением является электронная микроскопия. При соответствующей подготовке образцов [18], просвечивающая электронная микроскопия позволяет определять структуру некристаллических биологических объектов с разрешением до нескольких нанометров [19]. Для кристаллических объектов

предел получаемого разрешения составляет несколько ангстрем [20], что позволяет определять положение отдельных атомов [21].

Просвечивающая электронная микроскопия завоевала место стандартного инструмента исследования структуры в биологии, так как она позволяет напрямую получать изображения структуры в высоком разрешении. Основное ограничение электронной микроскопии при изучении биологических структур связано с сильным взаимодействием электронов и вещества. Средняя длина свободного пробега электронов в веществе составляет менее 500 нм, что ограничивает максимальную толщину изучаемого образца. При изучении структуры методами электронной микроскопии образец замораживается и разрезается на слои толщиной не более микрона, при этом возникают повреждения в структуре образца [22]. Слабый контраст объектов на изображении требует применения сложных алгоритмов для выделения границ объектов. Множество фрагментов со слабым контрастом совмещаются в одно контрастное изображение.

В отличие от электронной микроскопии, рентгеновская микроскопия позволяет исследовать образцы без разрезания на слои благодаря слабому взаимодействию с веществом. Кроме того, не используется заморозка, образцы изучаются в естественном состоянии. Это позволяет избежать повреждений структуры и изучать динамические процессы в исследуемых объектах.

К методам рентгеновской микроскопии относятся: просвечивающая рентгеновская микроскопия (ТХМ), сканирующая просвечивающая рентгеновская микроскопия ^ТХМ), фотоэлектронная сканирующая микроскопия, рентгенофлуо-ресцентный анализ (РФА, д-ХЯБ), рентгеновская микроскопия и томография с использованием синхротронного излучения ^ЯХТМ). Как правило, эксперименты по рентгеновской микроскопии проводятся на синхротронных источниках. Раннее развитие методов рентгеновской микроскопии описано в ряде работ [23-29].

Серьезный прогресс в развитии методов исследования структуры в нано-метровом диапазоне начался в 1970х годах [30]. Две независимые группы исследователей разработали метод просвечивающей рентгеновской микроскопии [31; 32] и метод сканирующей просвечивающей рентгеновской микроскопии [33; 34]. Обе группы проводили эксперименты с использованием мягкого рентгеновского синхротронного излучения и зонных пластин [35].

Просвечивающая рентгеновская микроскопия (ТХМ) является аналогом микроскопии в видимом свете. Рентгеновское излучение рассеивается на образце

и, затем, фокусируется на детекторе с помощью зонной пластины. Для определения трехмерной структуры собираются двумерные изображения образца в разных ориентациях, по которым восстанавливается структура с помощью методов томографии.

В экспериментах сканирующей просвечивающей рентгеновской микроскопии ^ТХМ) излучение фокусируется с помощью зонной пластины на маленьком участке образца и фиксируется прошедшее сквозь образец излучение. Образец сканируется в двух направлениях, и формируется изображение. Для получения максимального разрешения требуется достичь максимальной степени когерентности сфокусированного излучения. Получаемое разрешение сравнимо с толщиной внешней зоны на зонной пластине. При увеличении количества зон, повышение разрешения сопровождается уменьшением эффективности зонной пластины. По сравнению с ТХМ, STXM вносит меньшую дозу излучения в образец, так как потеря интенсивности на зонной пластине происходит до взаимодействия с образцом.

Основной акцент в экспериментах ставился на исследованиях структуры биологических образцов с помощью рентгеновского излучения в диапазоне «водного окна», где энергия излучения составляет от 284 до 543 эВ, а длина волны лежит между 2.3 и 4.4 нм. В этом диапазоне вода относительно прозрачна для излучения, а углерод и содержащие его клеточные структуры поглощают излучение, что обеспечивает высокий контраст изображений. В ранних экспериментах получаемое пространственное разрешение не превышало 100 нм, в конце 1980-х удалось достичь разрешения 50 нм. На сегодняшний день, получаемое разрешение может достигать 10 нм [36-38] при использовании синхротронного излучения. При использовании настольных источников излучения разрешение не превышает 200 нм [39].

Помимо экспериментов с дифракционной оптикой, проводились эксперименты со светоотражающей оптикой с многослойным покрытием [40]. Такая оптика используется для изучения поверхности материалов методами фотоэлектронной сканирующей микроскопии. Стандартное значение энергии используемого излучения составляет порядка 100 эВ, а получаемое пространственное разрешение достигает нескольких десятков нанометров.

В методе фотоэлектронной сканирующей микроскопии вместо рассеянных фотонов собираются электроны, которые выбиваются из атомов под действием

излучения. Излучение фокусируется на образце с помощью светоотражающей оптики с многослойным покрытием или зонной пластины. В первом случае достигается высокая эффективность фокусировки и большие рабочие расстояния, что облегчает юстировку и проведение эксперимента, но длина волны фиксирована и находится в диапазоне низких энергий фотонов [41]. Во втором случае рабочие расстояния меньше, но шире возможности по перестройке длин волн.

Эксперименты с использованием жесткого рентгеновского излучения с энергией фотонов в несколько кэВ проводились с использованием криволинейной светоотражающей оптики со скользящими углами падения. Полное внешнее отражение рентгеновских лучей обеспечивает высокую отражающую способность в пределах критического угла, обычно менее 1 градуса или нескольких градусов. Сегодня широко используется система зеркал Киркпатрика-Баеза, которая состоит из перпендикулярных зеркал, фокусирующих излучение в ортогональных направлениях. Более сложные оптические системы также используются в рентгеновской астрономии, но они гораздо сложнее в производстве и работают в ограниченном диапазоне телесных углов. При использовании жесткого рентгеновского излучения и светоотражающей оптики, получаемое разрешение до 1980-х годов измерялось долями микрометра, но в последнее время было достигнуто значительное улучшение разрешения, до 7 нм [42].

К методам исследования структуры наноразмерных объектов с применением жесткого рентгеновского излучения относятся рентгенофлуоресцентный анализ (РФА или д-ХЯБ) и рентгеновская микроскопия и томография с использованием синхротронного излучения ^ЯХТМ).

Рентгенофлуоресцентный анализ основан на спектральном анализе вторичных фотонов при сканировании образца сфокусированным рентгеновским излучением. Падающее излучение возбуждает атомы в точке фокусировки, электроны переходят на более высокие энергетические уровни вплоть до ионизации атома. Затем электроны с внешних оболочек переходят на освободившиеся места, и излучаются фотоны с фиксированной энергией, которая определяется типом химического элемента. Энергия фотонов падающего излучения должна превышать энергию связи атомов.

Рентгеновская микроскопия и томография с использованием синхротрон-ного излучения ^ЯХТМ) позволяет определять структуру через проекцию излучения, проходящего через образец, прямо на детектор. Трехмерная структура

восстанавливается на основе набора двумерных изображений. Этот метод часто используется с жестким рентгеновским излучением для получения разрешения в диапазоне микрометров [43-45].

В описанных выше методах исследования структуры с использованием рентгеновского излучения и рентгеновской оптики, получаемое разрешение ограничено на уровне около 25 нм [30].

Развития методов исследования структуры неразрывно связано с развитием источников рентгеновского излучения. В последнее десятилетие появились большие и настольные источники когерентного излучения с революционными характеристиками.

К большим рентгеновских источникам относятся синхротроны третьего поколения, которые позволяют генерировать рентгеновское излучение с разной степенью когерентности. Кроме того, в начале 21 века были разработаны рентгеновские лазеры на свободных электронах (ЛСЭ), которые основаны на самоусиливающемся спонтанном излучении (Self-amplified spontaneous emission, SASE) [46; 47]. Пучок электронов с высокой плотностью и энергией вводится в длинный ондулятор (100 м), и генерируется синхротронное излучение. Ондулятор спроектирован таким образом, что пучок разделяется на отдельные микропучки, на расстоянии длины волны излученных фотонов. Фокусировка микропучков экспоненциально увеличивает интенсивность излучения и взаимодействие электронного пучка с излучением, действуя как усиление в традиционном лазере. В конце длинного ондулятора наступает насыщение и рождается импульс рентгеновского излучения огромной интенсивности. Максимальная яркость такого пучка в 109 раз больше, чем у самого мощного синхротрона третьего поколения. При этом, длительность импульса составляет от десяти до нескольких сотен фемтосекунд. Однако, частота повторений ниже, чем у синхротрона, и присутствуют колебания периода между импульсами.

Параллельно с развитием больших установок, настольные источники когерентного рентгеновского излучения также быстро развивались. В генераторах высших гармоник (ГВГ) лазер ионизирует атомы нелинейной среды, а электрическое поле подавляет кулоновское поле, которое связывает электрон с атомом. В течение нескольких фемтосекунд, когда это условие выполняется, высвобожденный лазером электрон порождает когерентное рентгеновское излучение. Изменяя длину волны и поляризацию лазера накачки, можно управлять спектром, длиной

импульса и поляризацией ГВГ [48-50]. Время импульса настраивается от десяти аттосекунд до десятков фемтосекунд, энергия фотонов когерентного излучения может меняться от 10 МэВ до 1 кэВ.

1.2 Метод когерентной рентгеновской дифракционной микроскопии

Метод когерентной рентгеновской дифракционной микроскопии (Coherent X-ray Diffractive Imaging, CXDI) не использует оптических элементов и позволяет достичь разрешения до нескольких ангстрем при определении структуры. При изучении биологических объектов, результаты CXDI экспериментов дополняют результаты оптической и электронной микроскопии с точки зрения пространственного разрешения, толщины образца, контраста в структуре биологического объекта и количественных возможностей. При этом, метод CXDI имеет несколько преимуществ. В этом методе высока чувствительность к изменению плотности биологических объектов, что позволяет восстанавливать структуру биологических объектов со всеми внутренними элементами на основе их естественного контраста. В методе CXDI образцы изучаются в естественном состоянии, что позволяет избежать повреждения структуры из-за заморозки или высушивания. Наконец, так как не используются оптические элементы, получаемое разрешение определяется используемой длиной волны и угловыми размерами регистрируемой дифракционной картины. В экспериментах на синхротронах третьего поколения, техника CXDI используется для визуализации клеток, клеточных органелл, вирусов и биологических материалов с пространственным разрешением до 11 нм.

В CXDI экспериментах используется когерентное рентгеновское излучение с плоским волновым фронтом, которое позволяет улучшить получаемое разрешение за счет определения структуры на основе дифракционных изображений. Падающее излучение описывается комплексным полем с постоянной амплитудой и фазой. После взаимодействия падающего излучения с образцом, интенсивность дифракционной картины измеряется двумерным детектором в дальнем поле. В используемых диапазонах энергий фотонов рассеяние происходит на электронной плотности исследуемого объекта. Поглощается менее 5% фотонов и эта доля уменьшается с переходом в диапазон длин волн менее 1 нм [51].

Похожие диссертационные работы по специальности «Математическое моделирование, численные методы и комплексы программ», 05.13.18 шифр ВАК

Список литературы диссертационного исследования кандидат наук Бобков Сергей Алексеевич, 2018 год

Список литературы

1. Fundamentals of Crystallography. 2002 / C. Giacovazzo [h gp.].

2. High resolution 3D x-ray diffraction microscopy / J. Miao [h gp.] // Physical Review Letters. — 2002. — T. 89, № 8. — C. 088303.

3. Gaffney K. J., Chapman H. N. Imaging Atomic Structure and Dynamics with Ultrafast X-ray Scattering // Science. — 2007. — T. 316. — C. 1444.

4. Femtosecond diffractive imaging with a soft-X-ray free-electron laser / H. N. Chapman [h gp.] // Nat Phys. - 2006. - Hoa6. - T. 2, № 12. - C. 839843.

5. Chapman H. N., Nugent K. A. Coherent lensless X-ray imaging // Nature Photonics. — 2010. — £eK. — T. 4, № 12. — C. 833-839.

6. Single mimivirus particles intercepted and imaged with an X-ray laser / M. M. Seibert [h gp.] // Nature. — 2011. — T. 470, № 7332. — C. 78-81.

7. Mancuso A. P., Yefanov O. M., Vartanyants I. A. Coherent diffractive imaging of biological samples at synchrotron and free electron laser facilities // J. Biotechnology. — 2010. — T. 149. — C. 229.

8. Potential for biomolecular imaging with femtosecond X-ray pulses / R. Neutze [h gp.] // Nature. — 2000. — Abe — T. 406, № 6797. — C. 752-757.

9. Femtosecond X-ray protein nanocrystallography / H. N. Chapman [h gp.] // Nature. — 2011. — T. 470. — C. 73.

10. Loh N.-T. D., Elser V. Reconstruction algorithm for single-particle diffraction imaging experiments // Physical Review E. — 2009. — Abe — T. 80, № 2.

11. Fienup J. R. Phase retrieval algorithms: a comparison // Applied Optics. — 1982. - abe - T. 21, № 15. - C. 2758.

12. Bauschke H. H., Combettes P. L., Luke D. R. Phase retrieval, error reduction algorithm, and Fienup variants: a view from convex optimization // Journal of the Optical Society of America A. — 2002. — HronB. — T. 19, № 7. — C. 1334.

13. Elser V. Phase retrieval by iterated projections // Journal of the Optical Society of America A. — 2003. — £hb. — T. 20, № 1. — C. 40-55.

14. Coherent soft X-ray diffraction imaging of coliphage PR772 at the Linac coherent light source / H. K. Reddy [h gp.] // Scientific data. — 2017. — T. 4. — C. 170079.

15. Automated identification and classification of single particle serial femtosecond X-ray diffraction data / J. Andreasson [h gp.] // Optics Express. — 2014. — OeBp. — T. 22, № 3. — C. 2497-2510.

16. The European x-ray free-electron laser / M. Altarelli [h gp.] // Technical Design Report, DESY. — 2006. — T. 97. — C. 1-26.

17. Hurtley S. M. The Future Looks Bright... // Science. — 2003. — Anp. — T. 300, №5616. — C. 75-75.

18. Reynolds E. S. The use of lead citrate at high pH as an electron-opaque stain in electron microscopy // The Journal of cell biology. — 1963. — T. 17, № 1. — C. 208-212.

19. Snapshots of nuclear pore complexes in action captured by cryo-electron tomography / M. Beck [h gp.] // Nature. — 2007. — T. 449, № 7162. — C. 611615.

20. Henderson R. Realizing the potential of electron cryo-microscopy // Quarterly reviews of biophysics. — 2004. — T. 37, № 01. — C. 3-13.

21. Spence J. C. High-resolution electron microscopy. — OUP Oxford, 2013.

22. Frank J. Three-dimensional electron microscopy of macromolecular assemblies: visualization of biological molecules in their native state. — Oxford University Press, 2006.

23. Kirkpatrick P., Baez A. V. Formation of optical images by x-rays // JOSA. — 1948. — T. 38, № 9. — C. 766-774.

24. Baez A. V. Fresnel zone plate for optical image formation using extreme ultraviolet and soft x radiation // JOSA. — 1961. — T. 51, № 4. — C. 405-412.

25. Schmahl G. X-ray microscopy // Nuclear Instruments and Methods in Physics Research. — 1983. — T. 208, № 1. — C. 361-365.

26. X-ray microscopy II / D. Sayre [h gp.] // Springer series in optical sciences. — 1988. — T. 56. — C. 272.

27. Kirz J., Jacobsen C., Howells M. Soft X-ray microscopes and their biological applications // Quarterly reviews ofbiophysics. — 1995. — T. 28, № 01. — C. 33130.

28. Aoki S., Kikuta S. X-ray holographic microscopy // Japanese Journal of Applied Physics. — 1974. — T. 13, № 9. — C. 1385.

29. Imaging with spectroscopic micro-analysis using synchrotron radiation / D. Eichert [h gp.] // Analytical and bioanalytical chemistry. — 2007. — T. 389, № 4. — C. 1121-1132.

30. Sakdinawat A., Attwood D. Nanoscale X-ray imaging // Nature Photonics. — 2010. - T. 4, № 12. - C. 840-848.

31. Schmahl G., Rudolph D. Lichtstarke Zonenplatten als abbildende Systeme für weiche Roentgenstrahlung // Optik. — 1969. — T. 29, № 6. — C. 577-585.

32. Niemann B., Rudolph D., Schmahl G. X-ray microscopy with synchrotron radiation // Applied Optics. — 1976. — T. 15, № 8. — C. 1883-1884.

33. Scanning x-ray microscope with 75-nm resolution/ H. Rarback [h gp.] // Review of scientific instruments. — 1988. — T. 59, № 1. — C. 52-59.

34. X-ray Microscopy with the NSLS Soft X-ray Undulator / J. Kirz [h gp.] // Physica Scripta. - 1990. - T. 1990, T31. - C. 12.

35. Ojeda-Castañeda J., Gómez-Reino C. Selected papers on zone plates. T. 128. — Society of Photo Optical, 1996.

36. Soft X-ray microscopy at a spatial resolution better than 15 nm / W. Chao [h gp.] // Nature. — 2005. — Hwhb. — T. 435, № 7046. — C. 1210-1213.

37. Advanced thin film technology for ultrahigh resolution X-ray microscopy / J. Vila-Comamala [h gp.] // Ultramicroscopy. — 2009. — T. 109, № 11. — C. 1360-1364.

38. Demonstration of 12 nm resolution Fresnel zone plate lens based soft X-ray microscopy / W. Chao [h gp.] // Optics Express. — 2009. — T. 17, № 20. — C. 17669-17677.

39. Toward time-resolved soft X-ray microscopy using pulsed fs-high-harmonic radiation / M. Wieland [h gp.] // Ultramicroscopy. — 2005. — ^hb. — T. 102, № 2. - C. 93-100.

40. Schwarzschild K. Untersuchungen zur geometrischen Optik: Einleitung in die Fehlertheorie optischer Instrumente auf Grund des Eikonalbegriffs. I. T. 1. — Druck der Dieterich'schenUniv.-Buchdruckerei (W. Fr. Kaestner), 1905.

41. Maximum: A scanning photoelectron microscope at Aladdin / F. Cerrina [h gp.] // Nuclear Instruments and Methods in Physics Research Section A: Accelerators, Spectrometers, Detectors and Associated Equipment. — 1988. — T. 266, № 1. — C. 303-307.

42. Breaking the 10 nm barrier in hard-X-ray focusing / H. Mimura [h gp.] // Nature Physics. — 2010. — T. 6, № 2. — C. 122-125.

43. Trends in synchrotron-based tomographic imaging: the SLS experience / M. Stampanoni [h gp.] // SPIE Optics+ Photonics. — International Society for Optics, Photonics. 2006. — C. 63180M-63180M.

44. Sub-micrometer synchrotron tomography of multiphase metals using Kirkpatrick-Baez optics / G. Requena [h gp.] // Scripta Materialia. — 2009. — T. 61, № 7. — C. 760-763.

45. Phase-contrast tomography at the nanoscale using hard x rays / M. Stampanoni [h gp.] // Physical Review B. — 2010. — T. 81, № 14. — C. 140105.

46. First lasing and operation of an ángstrom-wavelength free-electron laser / P. Emma [h gp.] // Nature Photonics. — 2010. — T. 4, № 9. — C. 641-647.

47. A compact X-ray free-electron laser emitting in the sub-angstrom region / T. Ishikawa [h gp.] // Nature Photonics. — 2012. — T. 6, № 8. — C. 540-544.

48. Bright coherent ultrahigh harmonics in the keV x-ray regime from mid-infrared femtosecond lasers / T. Popmintchev [h gp.] // science. — 2012. — T. 336, №6086. — C. 1287-1291.

49. Generation of bright phase-matched circularly-polarized extreme ultraviolet high harmonics / O. Kfir [h gp.] // Nature Photonics. — 2015. — T. 9, № 2. — C. 99105.

50. Zeptosecond High Harmonic keV X-Ray Waveforms Driven by Midinfrared Laser Pulses/ C. Hernández-García [h gp.] //Physical Review Letters. — 2013. — HronB. — T. 111, BBin. 3. — C. 033002.

51. Feasibility of imaging living cells at subnanometer resolutions by ultrafast X-ray diffraction / M. Bergh [h gp.] // Quarterly reviews of biophysics. — 2008. — T. 41, № 3/4. — C. 181-204.

52. Ewald P. Introduction to the dynamical theory of X-ray diffraction // Acta Crystallographica Section A: Crystal Physics, Diffraction, Theoretical and General Crystallography. - 1969. - T. 25, № 1. - C. 103-108.

53. Reconstruction of the shapes of gold nanocrystals using coherent x-ray diffraction /1. K. Robinson [h gp.] // Physical Review Letters. — 2001. — T. 87, № 19. — C. 195505.

54. Vartanyants I., Robinson I. Origins of decoherence in coherent X-ray diffraction experiments // Optics communications. — 2003. — T. 222, № 1. — C. 29-50.

55. Coherent diffractive imaging and partial coherence / G. J. Williams [h gp.] // Physical Review B. — 2007. — T. 75, № 10. — C. 104102.

56. Shen Q., Bazarov I., Thibault P. Diffractive imaging of nonperiodic materials with future coherent X-ray sources // Journal of synchrotron radiation. — 2004. — T. 11, № 5. — C. 432-438.

57. Soft X-ray diffraction microscopy of a frozen hydrated yeast cell / X. Huang [h gp.] // Physical Review Letters. — 2009. — T. 103, № 19. — C. 198101.

58. Sayre D. The squaring method: a new method for phase determination // Acta Crystallographica. — 1952. — T. 5, № 1. — C. 60-65.

59. Bates R. Fourier phase problems are uniquely solvable in mute than one dimension. I: Underlying theory // Optik (Stuttgart). — 1982. — T. 61. — C. 247262.

60. Shannon C. E. Communication theory of secrecy systems* // Bell system technical journal. — 1949. — T. 28, № 4. — C. 656-715.

61. Signal-to-noise and radiation exposure considerations in conventional and diffraction x-ray microscopy / X. Huang [h gp.] // Optics Express. — 2009. — abe - T. 17, № 16. - C. 13541-13553.

62. High-resolution ab initio three-dimensional x-ray diffraction microscopy / H. N. Chapman [h gp.] // JOSA A. — 2006. — T. 23, № 5. — C. 1179-1200.

63. High-resolution projection image reconstruction of thick objects by hard x-ray diffraction microscopy / Y. Takahashi [h gp.] // Physical Review B. — 2010. — T. 82, № 21. — C. 214102.

64. Single-shot three-dimensional structure determination of nanocrystals with femtosecond X-ray free-electron laser pulses / R. Xu [h gp.] // Nature communications. — 2014. — T. 5.

65. Three-dimensional mapping of a deformation field inside a nanocrystal / M. A. Pfeifer [h gp.] // Nature. — 2006. — T. 442, № 7098. — C. 63-66.

66. Tabletop nanometer extreme ultraviolet imaging in an extended reflection mode using coherent Fresnel ptychography / M. D. Seaberg [h gp.] // Optica. — 2014. — T. 1, № 1.-C. 39-44.

67. Maiden A. M., Rodenburg J. M. An improved ptychographical phase retrieval algorithm for diffractive imaging // Ultramicroscopy. — 2009. — T. 109, № 10. — C. 1256-1262.

68. Hard-x-ray lensless imaging of extended objects / J. Rodenburg [h gp.] // Physical Review Letters. — 2007. — T. 98, № 3. — C. 034801.

69. High-resolution scanning x-ray diffraction microscopy / P. Thibault [h gp.] // Science. - 2008. - T. 321, № 5887. - C. 379-382.

70. Fresnel coherent diffractive imaging / G. Williams [h gp.] // Physical Review Letters. — 2006. — T. 97, № 2. — C. 025506.

71. Keyhole coherent diffractive imaging / B. Abbey [h gp.] // Nature Physics. — 2008. - T. 4, № 5. - C. 394-398.

72. Three-dimensional coherent X-ray surface scattering imaging near total external reflection / T. Sun [h gp.] // Nature Photonics. — 2012. — T. 6, № 9. — C. 586590.

73. Coherent X-ray diffraction imaging of silicon oxide growth / I. Robinson [h gp.] // Physical Review B. — 1999. — T. 60, № 14. — C. 9965.

74. Lensless X-ray imaging in reflection geometry / S. Roy [h gp.] // Nature Photonics. — 2011. — T. 5, № 4. — C. 243-245.

75. Digital in-line holography with femtosecond VUV radiation provided by the free-electron laser FLASH / A. Rosenhahn [h gp.] // Optics express. — 2009. — T. 17, № 10. — C. 8220-8228.

76. Goodman J. W, Gustafson S. C. Introduction to fourier optics // Optical Engineering. — 1996. — T. 35, № 5. — C. 1513-1513.

77. High-resolution imaging by Fourier transform X-ray holography /1. McNulty, C. Jacobsen [h gp.] // Science. - 1992. - T. 256, № 5059. - C. 1009.

78. Imaging whole Escherichia coli bacteria by using single-particle x-ray diffraction / J. Miao [h gp.] // Proceedings of the National Academy of Sciences.-2003.-T. 100,№1.-C. 110-112.

79. Biological imaging by soft x-ray diffraction microscopy / D. Shapiro [h gp.] // Proceedings of the National Academy of Sciences. — 2005. — T. 102, № 43. — C. 15343-15346.

80. Quantitative imaging of single, unstained viruses with coherent x rays / C. Song [h gp.] // Physical Review Letters. — 2008. — T. 101, № 15. — C. 158101.

81. Three-dimensional visualization of a human chromosome using coherent X-ray diffraction / Y. Nishino [h gp.] // Physical Review Letters. — 2009. — T. 102, № 1.-C. 018101.

82. Henderson R. The potential and limitations of neutrons, electrons and X-rays for atomic resolution microscopy of unstained biological molecules // Quarterly Reviews of Biophysics. — 1995. — T. 28, Bwn. 02. — C. 171-193.

83. An assessment of the resolution limitation due to radiation-damage in X-ray diffraction microscopy / M. R. Howells [h gp.] // Journal of Electron Spectroscopy and Related Phenomena. — 2009. — T. 170. — C. 4.

84. Potential for biomolecular imaging with femtosecond X-ray pulses / R. Neutze [h gp.] // Nature. — 2000. — Abe — T. 406, № 6797. — C. 752-757.

85. Spence J. C., Doak R. B. Single molecule diffraction // Physical Review Letters. - 2004. - T. 92, № 19. - C. 198102.

86. Single Particle X-ray Diffractive Imaging / M. J. Bogan [h gp.] // Nano Letters. — 2008.-£hb. — T. 8, № 1.-C. 310-316.

87. Yefanov O. M., Vartanyants I. A. Orientation determination in single-particle x-ray coherent diffraction imaging experiments // Journal of Physics B: Atomic and Molecular Physics. — 2013. — Abe — T. 46, № 16. — C. 164013.

88. Structure from fleeting illumination of faint spinning objects in flight / R. Fung [h gp.] // Nature Physics. — 2009. — T. 5, № 1. — C. 64-67.

89. Application of optimization technique to noncrystalline x-ray diffraction microscopy: Guided hybrid input-output method / C.-C. Chen [h gp.] // Physical Review B. — 2007. — T. 76, № 6. — C. 064113.

90. Klibanov M. On uniqueness of the determination of a compactly supported function from the modulus of its Fourier transform // Soviet Math. Doklady. T. 32. - 1985. — C. 668-70.

91. Bates R. Uniqueness of solutions to two-dimensional Fourier phase problems for localized and positive images // Computer vision, graphics, and image processing. — 1984. — T. 25, № 2. — C. 205-217.

92. Garden K., Bates R. Fourier phase problems are uniquely solvable in more than one dimension. One-dimensional considerations. // Optik. — 1982. — T. 62, № 2. — C. 131-142.

93. Fright W, Bates R. Fourier phase problems are uniquely solvable in more than one dimension. Computational examples for 2 dimensions // Optik. — 1982. — T. 62, № 3. — C. 219-230.

94. Vartanyants I., Robinson I. Partial coherence effects on the imaging of small crystals using coherent x-ray diffraction // Journal of Physics: Condensed Matter. — 2001. — T. 13, № 47. — C. 10593.

95. Boutet S., Williams G. /.The Coherent X-ray Imaging (CXI) instrument at the Linac CoherentLight Source (LCLS) //New Journal of Physics. — 2010. — T. 12, № 3. — C. 035024.

96. Operation of a free-electron laser from the extreme ultraviolet to the water window / W. a. Ackermann [h gp.] // Nature Photonics. — 2007. — T. 1, № 6. — C. 336-342.

97. First lasing and operation of an angstrom-wavelength free-electron laser / P. Emma [h gp.] // Nature Photonics. — 2010. — T. 4. — C. 641.

98. A compact free-electron laser for generating coherent radiation in the extreme ultraviolet region / T. Shintake [h gp.] // Nature Photonics. — 2008. — T. 2, № 9. — C. 555-559.

99. CSPAD-140k: A versatile detector for LCLS experiments / S. Herrmann [h gp.] // Nuclear Instruments and Methods in Physics Research Section A: Accelerators, Spectrometers, Detectors and Associated Equipment. — 2013. — T. 718. — C. 550-553.

100. pnCCD for photon detection from near-infrared to X-rays / N. Meidinger [h gp.] // Nuclear Instruments and Methods in Physics Research Section A: Accelerators, Spectrometers, Detectors and Associated Equipment. — 2006. — T. 565, № 1. —C. 251-257.

101. The adaptive gain integrating pixel detector AGIPD a detector for the European XFEL / B. Henrich [h gp.] // Nuclear Instruments and Methods in Physics Research Section A: Accelerators, Spectrometers, Detectors and Associated Equipment. — 2011. — T. 633. — S11-S14.

102. Large-format, high-speed, X-ray pnCCDs combined with electron and ion imaging spectrometers in a multipurpose chamber for experiments at 4th generation light sources / L. Strüder [h gp.] // Nuclear Instruments and Methods in Physics Research Section A: Accelerators, Spectrometers, Detectors and Associated Equipment. — 2010. — T. 614, № 3. — C. 483-496.

103. In-plane rotation classification for coherent X-ray imaging of single biomolecules / K. Chu [h gp.] // Optics Express. — 2011. — Hmhb. — T. 19, № 12. — C. 11691-11704.

104. High-speed classification of coherent X-ray diffraction patterns on the K computer for high-resolution single biomolecule imaging / A. Tokuhisa [h gp.] // Journal of Synchrotron Radiation. — 2013. — Hoaö. — T. 20, № 6. — C. 899-904.

105. Bortel G., Faigel G., Tegze M. Classification and averaging of random orientation single macromolecular diffraction patterns at atomic resolution // Journal of structural biology. — 2009. — T. 166, № 2. — C. 226-233.

106. Unsupervised classification of single-particle X-ray diffraction snapshots by spectral clustering / C. H. Yoon [h gp.] // Optics Express. — 2011. — abe — T. 19, № 17. - C. 16542-16549.

107. Classification of projection images of proteins with structural polymorphism by manifold: A simulation study for x-ray free-electron laser diffraction imaging / T. Yoshidome [h gp.] // Physical Review E. — 2015. — CeHT. — T. 92, Bwn. 3. — C. 032710.

108. On spectral clustering: Analysis and an algorithm / A. Y. Ng, M. I. Jordan, Y. Weiss [h gp.] // Advances in neural information processing systems. — 2002. - T. 2. - C. 849-856.

109. Alpaydin E. Introduction to Machine Learning. — The MIT Press, 2014.

110. Mahalanobis P. C. On the generalized distance in statistics // Proceedings of the National Institute of Sciences (Calcutta). — 1936. — T. 2. — C. 49-55.

111. Steinhaus H. Sur la division des corp materiels en parties // Bull. Acad. Polon. Sci. - 1956. - T. 1, № 804. - C. 801.

112. Lloyd S. P. Least square quantization in PCM. Bell Telephone Laboratories Paper. Published in journal much later: Lloyd, SP: Least squares quantization in PCM // IEEE Trans. Inform. Theor.(1957/1982). —.

113. Shi J., Malik J. Normalized cuts and image segmentation // IEEE Transactions on pattern analysis and machine intelligence. — 2000. — T. 22, № 8. — C. 888-905.

114. Ward Jr J. H. Hierarchical grouping to optimize an objective function // Journal of the American statistical association. — 1963. — T. 58, № 301. — C. 236-244.

115. Zhang T., Ramakrishnan R., Livny M. BIRCH: an efficient data clustering method for very large databases // ACM Sigmod Record. T. 25. — ACM. 1996. — C. 103-114.

116. Cheng Y. Mean shift, mode seeking, and clustering // IEEE transactions on pattern analysis and machine intelligence. — 1995. — T. 17, № 8. — C. 790799.

117. A density-based algorithm for discovering clusters in large spatial databases with noise. / M. Ester [h gp.] // Kdd. T. 96. — 1996. — C. 226-231.

118. Cortes C., Vapnik V. Support-vector networks // Machine Learning. — 1995. — T. 20, № 3. — C. 273-297.

119. Platt J. C. Probabilistic Outputs for Support Vector Machines and Comparisons to Regularized Likelihood Methods // Advances in large margin classifiers. — MIT Press, 1999. — С. 61-74.

120. Rosenblatt F. Principles of neurodynamics. perceptrons and the theory of brain mechanisms : тех. отч. / Cornell Aeronautical Lab Inc Buffalo NY. — 1961.

121. LeCun Y., Bengio Y., Hinton G. Deep learning // Nature. — 2015. — Т. 521, № 7553. — С. 436-444.

122. X-ray cross correlation analysis uncovers hidden local symmetries in disordered matter / P. Wochner [и др.] // Proceedings of the National Academy of Sciences. -2009. — Т. 106, №28. - С. 11511-11514.

123. Altarelli M., Kurta R. P., Vartanyants I. A. X-ray cross-correlation analysis and local symmetries of disordered systems: General theory // Physical Review B. — 2010. - Т. 82, № 10. - С. 104207.

124. Kurta R. P., Altarelli M., Vartanyants I. A. X-Ray Cross-Correlation Analysis of Disordered Ensembles of Particles: Potentials and Limitations // Adv. Cond. Matt. Phys. — 2013. — Т. 2013. — С. 959835.

125. X-ray cross-correlation analysis applied to disordered two-dimensional systems / R. Kurta [и др.] // Physical Review B. — 2012. — Т. 85, № 18. — С. 184204.

126. Solution of the phase problem for coherent scattering from a disordered system of identical particles / R. P. Kurta [и др.] // New journal of physics. — 2013. — Т. 15, № 1.-С. 013059.

127. Correlations in scattered x-ray laser pulses reveal nanoscale structural features of viruses / R. P. Kurta [и др.] // Physical Review Letters. — 2017. — Т. 119, № 15. — С. 158102.

128. Beyond small-angle x-ray scattering: Exploiting angular correlations / D. K. Saldin [и др.] // Physical Review B. —. — Май. — Т. 81, № 17.

129. Structure of a single particle from scattering by many particles randomly oriented about an axis: toward structure solution without crystallization? / D. K. Saldin [и др.] // New Journal of Physics. —. — Март. — Т. 12, № 3. — С. 035014.

130. New Light on Disordered Ensembles: Ab Initio Structure Determination of One Particle from Scattering Fluctuations of Many Copies / D. K. Saldin [и др.] // Physical Review Letters. — 2011. — Март. — Т. 106, № 11.

131. Reconstructing an icosahedral virus from single-particle diffraction experiments / D. K. Saldin [и др.] // Optics express. — 2011. — Т. 19, № 18. — С. 17318-17335.

132. Altarelli M., Kurta R. P, Vartanyants I. A. // Physical Review B. — 2012. — Т. 86. - 179904(E).

133. Kam Z. // Macromolecules. — 1977. — Т. 10, вып. 5. — С. 927-934.

134. Sorting algorithms for single-particle imaging experiments at X-ray free-electron lasers / S. A. Bobkov [и др.] // Journal of Synchrotron Radiation. — 2015. — Т. 22. — С. 1345-1352.—DOI: 10.1107/S1600577515017348. — Индексируется WoS и Scopus.

135. Метод представления дифракционных изображений XFEL для классификации, индексации и поиска / С. А. Бобков [и др.] // Компьютерные исследования и моделирование. — 2015. — Т. 7. — С. 631-639. — Индексируется RSCI WoS и РИНЦ.

136. Digital selection and analogue amplification coexist in a cortex-inspired silicon circuit / R. H. R. Hahnloser [и др.] // Nature. — 2000. — Т. 405, № 6789. -С. 947-951.

137. Bishop C. M. Pattern recognition and machine learning. — springer, 2006.

138. Improving neural networks by preventing co-adaptation of feature detectors / G. E. Hinton [и др.] // arXiv preprint arXiv:1207.0580. — 2012.

139. Stone M. Cross-validatory choice and assessment of statistical predictions // Journal of the royal statistical society. Series B (Methodological). — 1974. — С. 111-147.

140. Zubieta C., Blanchoin L., Cusack S. Structural and biochemical characterization of a human adenovirus 2/12 penton base chimera. // FEBS Journal. — 2006. — Т. 273, № 18. — С. 4336-45.

141. The atomic structure of the bluetongue virus core / J. M. Grimes [и др.] // Nature. — 1998. — Т. 395, № 6701. — С. 470-8.

142. Weckert E. MOLTRANS — program for simulation of diffraction patterns from biological structures.

143. A compact X-ray free-electron laser emitting in the sub-ängström region / T. Ishikawa [и др.] // Nature Photonics. — 2012. — Т. 6. — С. 540.

144. Классификация дифракционных изображений биологических макромолекул с разными типами симметрии в экспериментах по когерентной рентгеновской дифракционной микроскопии / С. А. Бобков [и др.] // Математическая биология и биоинформатика. — 2016. — Т. 11, № 2. — С. 299-310. — DOI: 10.17537/2016.11.299.— Индексируется Scopus.

145. Dissecting fragment-based lead discovery at the von Hippel-Lindau protein: hypoxia inducible factor 1a protein-protein interface /1. Van Molle [и др.] // Chemistry & biology. - 2012. - Т. 19, № 10. - С. 1300-1312.

146. PDB-ID:4ACV. Structure of Listeria Monocytogenes Antigen B. / J. Huyet [и др.].

147. The 1.9 Â structure of a proteasome-11S activator complex and implications for proteasome-PAN/PA700 interactions / A. Förster [и др.] // Molecular cell. — 2005. — Т. 18, № 5. — С. 589-599.

148. Bieger B., Essen L.-O., Oesterhelt D. Crystal structure of halophilic dodecin: a novel, dodecameric flavin binding protein from Halobacterium salinarum // Structure. — 2003. — Т. 11, № 4. — С. 375-385.

149. Kim K. K., Kim R., Kim S.-H. Crystal structure of a small heat-shock protein // Nature. — 1998. — Т. 394, № 6693. — С. 595-599.

150. PDB-ID:4FTS. Structural study of virus assembly intermediates reveals maturation event sequence and a staging position for externalized lytic peptides. / J. Speir [и др.].

151. Marvin D. Model-building studies of Inovirus: genetic variations on a geometric theme // International journal of biological macromolecules. — 1990. — Т. 12, № 2. — С. 125-138.

152. The protein data bank / H. M. Berman [и др.] // Nucleic acids research. — 2000. - Т. 28, № 1. - С. 235-242.

153. Bobkov S. A., Teslyuk A. B., Ilyin V. A. Adaptation of SPSIM for Simulation of Diffraction Images in XFEL Experiments // Procedia Computer Science. — 2015. — Vol. 66. — P. 158-165.

154. Бобков С. А. Сравнительный анализ подходов к классификации дифракционных изображений биологических частиц, получаемых в экспериментах по когерентной рентгеновской дифракционной микроскопии // Математическая биология и биоинформатика. — 2017. — Нояб. — Т. 12, № 2. — С. 411434. —DOI: 10.17537/2017.12.411.— Индексируется Scopus.

155. Maia F. R. N. C. The Coherent X-ray Imaging Data Bank // Nature methods. — 2012. — Т. 9, № 9. — С. 854-855.

156. Femtosecond free-electron laser x-ray diffraction data sets for algorithm development / S. Kassemeyer [и др.] // Optics express. — 2012. — Т. 20, № 4. — С. 4149-4158.

157. Growth cycle of a virus, PBCV-1, that infects Chlorella-like algae / J. L. Van Etten [и др.] // Virology. - 1983. - Т. 126, № 1. - С. 117-125.

158. Single-particle structure determination by correlations of snapshot X-ray diffraction patterns / D. Starodub [и др.] // Nature communications. — 2012. — Т. 3.-С. 1276.

159. High-throughput imaging of heterogeneous cell organelles with an X-ray laser / M. F. Hantke [и др.] // Nature Photonics. — 2014. — Т. 8, № 12. — С. 943-949.

160. Open data set of live cyanobacterial cells imaged using an X-ray laser / G. Van Der Schot [и др.] // Scientific Data. — 2016. — Т. 3.

161. Fisher R. A. The use of multiple measurements in taxonomic problems // Annals of human genetics. — 1936. — Т. 7, № 2. — С. 179-188.

162. Cover T. M. Geometrical and statistical properties of systems of linear inequalities with applications in pattern recognition // IEEE transactions on electronic computers. — 1965. — № 3. — С. 326-334.

163. Frey B. J., Dueck D. Clustering by passing messages between data points // science. — 2007. — Т. 315, № 5814. — С. 972-976.

164. Team P. C. Python: A dynamic, open source programming language. — 2015. -URL: https://www.python.org/.

165. SciPy: Open source scientific tools for Python / E. Jones, T. Oliphant, P. Peterson [и др.]. — 2001. — URL: http://www.scipy.org/.

166. Oliphant T. A guide to NumPy. — 2006. — URL: http://www.scipy.org/.

167. Hunter J. D. Matplotlib: A 2D Graphics Environment // Computing in Science Engineering. — 2007. — Man. — T. 9, № 3. — C. 90-95.

168. Scikit-learn: Machine Learning in Python / F. Pedregosa [h gp.] // Journal of Machine Learning Research. — 2011. — T. 12. — C. 2825-2830.

169. Keras / F. Chollet [h gp.]. — 2015. — https://keras.io.

170. TensorFlow: Large-Scale Machine Learning on Heterogeneous Systems / Martin Abadi [h gp.]. — 2015. — URL: https://www.tensorflow.org/.

Список рисунков

1.1 Пространство волновых векторов и сфера Эвальда.......... 17

1.2 Схемы проведения экспериментов по когерентной рентгеновской дифракционной микроскопии (CXDI).................. 19

1.3 Общая схема восстановления структуры исследуемого объекта на основе дифракционных изображений в SPI экспериментах. Диссертационные исследования относятся к этапу классификации по типам структуры...................23

1.4 Пример зависимости значения ошибки восстановления Еа от номера итерации при восстановлении фаз. Восстановление начинается с алгоритма ER и периодически переключается на алгоритм НЮ...............................25

2.1 Пример дифракционных изображений от трех типов объектов из набора данных моделирования: пентоновый белок аденовируса человека (аденовирус), комбинация белков УР3 и УР7 из ядра вируса катаральной лихорадки (ВТУ) и капля воды. Цветовая шкала показывает количество детектируемых фотонов на 1

пиксель детектора.............................30

2.2 Пример зазора между панелями детектора РпССБ (используемого в экспериментах на LCLS) и пример сдвига центра симметрии дифракционной картины относительно центра детектора.......31

2.3 Пример уменьшения размерности пространства с помощью

метода главных компонент........................36

2.4 Пример кластеризации точек на плоскости с помощью метода к-средних.................................40

2.5 Пример построения границы между группами элементов разных типов с помощью метода опорных векторов..............42

2.6 Пример зависимости вероятности корректной классификации от координаты относительно разделяющей поверхности. Показано пороговое значение в 75%........................43

2.7 Пример классификации набора векторов трех типов методом опорных векторов по стратегии один-против-одного. Стрелки показывают два типа векторов, к которым относится разделяющая плоскость, а также они показывают тип баллов, которые добавляются к части пространства. Цвет заливки соответствует цвету типа с наибольшим количеством баллов. ... 44

2.8 Пример организации искуственной нейронной сети.........46

3.1 Расчет коэффициентов С(д,Д) в полярных координатах д и р для диапазона дтт < д < дтах......................... 55

3.2 Зависимость результатов классификации блока данных СХГОВ 25 от количества компонент Сп используемых при сжатии в характеристический вектор. Отмечено значение N = 50, которое используется при анализе данных экспериментов LCLS.......56

3.3 Зависимость результатов классификации блока данных СХГОВ 25

от количества используемых компонент С, начиная с дтт......57

3.4 Пример расчета корреляционных функций для модельного изображения без зазора, с добавленным зазором и с восстановлением информации внутри зазора на основе предложенного метода. Результаты практически совпадают для изображения без зазора и с использованием восстановленной информации внутри зазора........................60

3.5 Архитектура связей перцептрона с тремя скрытыми слоями при классификации дифракционных изображений ............ 66

3.6 Архитектура связей свёрточной нейронной сети............67

4.1 Проекция характеристических векторов изображений из набора модельных данных на плоскость из первых двух главных компонент (РС1 и РС2) методом главных компонент.........71

4.2 Проекция характеристических векторов изображений на плоскость первых двух главных компонент без сжатия в характеристический вектор ....................... 72

4.3 Классификация характеристических векторов изображений аденовируса и белка ВТУ на основе метода опорных векторов с использованием сжатия в характеристический вектор. Синие точки соответствуют изображениям аденовируса, зеленые -изображениям белка ВТУ, красные и оранжевые точки -изображения обучающей выборки....................74

4.4 Пример дифракционных изображений семи белков с разными типами симметрии из второго набора модельных данных ...... 76

4.5 Средние значения компонент характеристического вектора для объектов с разной симметрией. Показаны первые 35 из 254 компонент характеристического вектора, для которых различия наиболее наглядны............................77

4.6 Зависимость точности классификации на основе метода опорных векторов от размера обучающей выборки для второго набора модельных данных. Показаны средние значения точности. Аппроксимация степенной функцией на основе метода наименьших квадратов..........................79

4.7 Примеры дифракционных изображений из блока СХГОВ 13-14 . . . 81

4.8 Примеры дифракционных изображений из блока СХГОВ 10-11 ... 82

4.9 Примеры дифракционных изображений из блока СХГОВ 20-25-37 . 83

4.10 Примеры дифракционных изображений из блока СХГОВ 25 .... 83

4.11 Распределение характеристических векторов изображений на плоскости первых двух главных компонент для блока СХГОВ 13-14 84

4.12 Распределение характеристических векторов изображений на плоскости первых двух главных компонент для блока СХГОВ

13-14 после фильтрации посторонних изображений.........85

4.13 Результаты фильтрации экспериментальных данных блока СХГОВ 13-14 на основе метода опорных векторов с использованием сжатия в характеристические векторы ....... 86

4.14 Зависимость точности и полноты классификации от значения порога вероятности корректной классификации. Синий график соответствует базовому методу сжатия в характеристический вектор. Красный график соответствует методу сжатия с учётом зазоров детектора и центра дифракционной картины. В верхней части показана точность, а в нижней - полнота классификации. Для порога в 50%, точность и полнота классификации совпадают. . 87

5.1 Зависимость точности классификации от размера обучающей

выборки для разных наборов изображений...............98

А.1 Пример гистограммы интенсивности дифракционного изображения 130

А.2 Используемая маска дефектов детектора для предварительной

обработки изображений ......................... 132

Б.1 Общая схема комплекса программ для классификации

дифракционных изображений по типам структуры .......... 133

Б.2 Схемы групп из нескольких программ в составе комплекса для

классификации дифракционных изображений по типам структуры . 134

Список таблиц

1 Сравнение характеристик рентгеновских лазеров на свободных электронах ................................ 28

2 Сравнение характеристик рентгеновских детекторов ......... 29

3 Сравнение методов поиска центра дифракционной картины . . . . 63

4 Параметры обучения нейронных сетей ................ 66

5 Результат кластеризации набора модельных данных из

3000 изображений на 3 группы ..................... 73

6 Список белков, дифракционные изображения которых

составляют второй набор модельных данных ............. 75

7 Результаты классификации на основе метода опорных векторов со сжатием для наборов изображений двух типов белков. В первой строке ячейки указана доля изображений с вероятностью корректной классификации выше 75%, во второй строке ячейки указана точность классификации .................... 78

8 Результаты классификации набора СХГОВ 13-14...........89

9 Результаты классификации набора СХГОВ 10-11...........90

10 Результаты классификации набора СХГОВ 20-25-37 ......... 94

11 Результаты классификации для набора СХГОВ 25 ..........95

12 Сравнение точности и полноты разработанных методов классификации на экспериментальных данных ............ 96

13 Оптимальный размер обучающей выборки при классификации дифракционных изображений, полученных в экспериментах на

LCLS...................................99

14 Время разметки обучающей выборки оптимального размера . . . . 101

15 Сравнение временных затрат при обучении и классификации . . . .102

16 Пример аппаратных ресурсов, которые обеспечивают классификацию дифракционных изображений со скоростью их поступления в экспериментах на EuXFEL...............104

17 Характеристика исходного кода программ, используемых при

классификации по типам структуры в SPI экспериментах......135

Приложение А

Предварительная обработка изображений для блока CXIDB 20-25-37

Входящие в блок CXIDB 20-25-37 дифракционные изображения были получены разными группами ученых в разное время. На таких изображениях присутствуют особенности, связанные с отличиями в используемых параметрах эксперимента и в предварительной обработке данных. На детекторе присутствовали дефекты, картина которых отличалась для разных наборов. Такие различия позволяют определить тип образца на изображении с точностью около 100%, не прибегая к анализу дифракционной картины. Однако при классификации изображений одного эксперимента, все дополнительные метки, облегчающие классификацию, отсутствуют.

Все изображения блока CXIDB 20-25-37 были предварительно обработаны для устранения различий. Таким образом, результаты классификации позволят оценить применимость рассматриваемых подходов к классификации поступающих в течение эксперимента изображений согласно типу исходной структуры.

Количество фОТОНОЕ

Рисунок А.1 — Пример гистограммы интенсивности дифракционного

изображения

Предварительная обработка состояла из двух этапов:

1. Уменьшение уровня шума на изображениях.

2. Наложение маски дефектов.

На первом этапе предварительной обработки убирались различия в уровне шума, связанные с работой детектора. Такой шум присутствует на всех изображениях и его распределение интенсивности равномерно для всех пикселей. Изображения, полученные в разных экспериментах, отличаются по уровню шума, так как использовались разные параметры калибровки детектора. Для каждого изображения строилась гистограмма интенсивности А.1. На гистограмме наблюдается две области: область низкой интенсивности, ниже максимального уровня шума и область высокой интенсивности, где полезный сигнал превалирует над шумом. В области низкой интенсивности гистограмма имеет резкий пик, схожий с распределением Пуассона. В области высокой интенсивности, напротив, количество пикселей для каждого значения интенсивности меняется незначительно. Граничный уровень шума устанавливался равным интенсивности, при которой значение гистограммы равно 0.001 от максимального значения. Полученное значение уровня шума вычиталось из интенсивности каждого пикселя изображения. При отрицательном результате интенсивность устанавливалась равной нулю.

На втором этапе убирались различия в дефектах детектора. Для этого определялись области, где изображения имели высокую интенсивность независимо от дифракционной картины. Такие дефекты также связаны с работой детектора, но из-за высокой интенсивности не убираются на первом шаге. Была создана маска, которая учитывала дефекты для всех трех используемых наборов СХГОВ, она представлена на рисунке А.2. Также в маску включена область зазора в центре детектора, так как ширина зазора немного отличалась для разных изображений, и круглая область в центре, где детектор регистрирует край лазерного луча, картина которого также отличалась. Для всех изображений интенсивность под маской была установлена равной нулю.

г151

"V

Рисунок А.2 — Используемая маска дефектов детектора для предварительной

обработки изображений

Приложение Б

Комплекс программ для классификации дифракционных изображений по типам структуры в 8И экспериментах

Описанные в диссертации методы были реализованы в составе комплекса программ для классификации дифракционных изображений по типам структуры в SPI экспериментах. Общая схема разработанного комплекса программ представлена на рисунке Б.1.

Рисунок Б.1 — Общая схема комплекса программ для классификации дифракционных изображений по типам структуры

На схеме Б.1 выделен блок «Классификация изображений по типам структуры», он состоит из нескольких программ, его схема представлена на рисунке Б.2.

Все программы были реализованы на языке программирования Python [164] с использованием общедоступных библиотек NumPy [165], SciPy [166] и Matplotlib [167].

Использовалась открытая библиотека Scikit-learn [168] для реализации следующих методов машинного обучения: метод опорных векторов, метод к-средних, метод спектральной кластеризации, метод mean shift, метод DBSCAN, метод Уорда, Алгоритм BIRCH.

а) Классификация по типам структуры на основе методов классификации

б) Классификация по типам структуры на основе методов нейронных сетей

Дифракционные изображения

Расчет характеристических векторов

Определение центра симметрии дифракционной картины

1

Восстановление дифракционной картины в зазорах детектора

Расчет компонент характеристического вектора

1

Определение весов а и Ь для выравнивания дисперсии

Характеристические векторы

в) Классификация по типам г) Расчет характеристических

структуры на основе методов векторов

кластеризации

Рисунок Б.2 — Схемы групп из нескольких программ в составе комплекса для классификации дифракционных изображений по типам структуры

Для реализации методов нейронных сетей, таких как многослойный пер-цептрон и сверточная нейронная сеть, использовались библиотеки Keras [169] и Tensorflow [170].

Объем и количество строк кода для программ, которые входят в состав комплекса для классификации изображений по типам структуры, представлены в таблице 17.

Таблица 17 — Характеристика исходного кода программ, используемых при классификации по типам структуры в SPI экспериментах

Программа Количество Объем

строк программы

Выборка изображений 83 2.5 Кб

Сопоставление кластеров и типов 130 4.3 Кб

структуры

Определение центра симметрии ди- 319 9.4 Кб

фракционной картины

Расчет компонент характеристиче- 495 16.3 Кб

ского вектора с восстановлением ди-

фракционной картины в зазорах де-

тектора

Определение весов aиb для вырав- 76 2.2 Кб

нивания дисперсии

Библиотека общих операций над ди- 1084 32.4 Кб

фракционными изображениями

Метод опорных векторов 263 9.9 Кб

Линейный дискриминантный анализ 199 7.4 Кб

Квадратичный дискриминантный 198 7.3 Кб

анализ

Трехслойный персептрон 318 11.4 Кб

Сверточная нейронная сеть 295 10.6 Кб

Метод к-средних 151 5.1 Кб

Метод спектральной кластеризации 153 5.3 Кб

Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.