Компьютерная оценка взаимодействия низкомолекулярных органических соединений с киномом человека тема диссертации и автореферата по ВАК РФ 03.01.09, кандидат биологических наук Погодин, Павел Викторович

  • Погодин, Павел Викторович
  • кандидат биологических науккандидат биологических наук
  • 2018, МоскваМосква
  • Специальность ВАК РФ03.01.09
  • Количество страниц 146
Погодин, Павел Викторович. Компьютерная оценка взаимодействия низкомолекулярных органических соединений с киномом человека: дис. кандидат биологических наук: 03.01.09 - Математическая биология, биоинформатика. Москва. 2018. 146 с.

Оглавление диссертации кандидат биологических наук Погодин, Павел Викторович

ОГЛАВЛЕНИЕ

ОГЛАВЛЕНИЕ

СПИСОК СОКРАЩЕНИЙ И УСЛОВНЫХ ОБОЗНАЧЕНИЙ

СЛОВАРЬ ТЕРМИНОВ

ВВЕДЕНИЕ

1. ОБЗОР ЛИТЕРАТУРЫ

1.1. Протеинкиназы

1.1.1. Биология протеинкиназ

1.1.2. Особенности протеинкиназ как терапевтических мишеней

1.1.3. Основные типы ингибиторов протеинкиназ

1.2. Методы компьютерной оценки взаимодействия химических соединений с белками-мишенями, включая протеинкиназы

1.2.1. Роль компьютерных методов в разработке лекарственных препаратов

1.2.2. Основные категории методов компьютерной оценки взаимодействия химических соединений с белками-мишенями

1.2.3. Примеры компьютерной оценки взаимодействия химических соединений с киномом

2. МАТЕРИАЛЫ И МЕТОДЫ

2.1. Краткое описание инструментов, использованных для достижения цели исследования

2.1.1. Компьютерная программа PASS

2.1.2. База данных ChEMBL

2.1.3. СУБД MySQL

2.1.4. Языки программирования и библиотеки для научных вычислений

2.1.5. Критерии оценки качества прогноза

2.2. Протокол извлечения данных из ChEMBL, их фильтрация и гармонизация для формирования различных типов обучающих выборок из надежных данных

2.2.1. Фильтрация и стандартизация структур химических соединений

2.2.2. Фильтрация и стандартизация данных о биологических активностях

2.2.3. Различные стратегии формирования обучающих выборок

2.3. Валидация компьютерной оценки взаимодействия низкомолекулярных органических соединений с протеинкиназами

2.3.1. Оценка качества классификаторов, обученных на различных типах выборок, основанная на стратифицированной пятикратной кросс-валидации

2.3.2. Оценка качества классификаторов, обученных на различных типах выборок в ходе проспективной валидации

2.3.3. Расчет критериев качества классификаторов

2.3.4. Сравнение результатов прогноза классификаторов, обученных на разных типах выборок

2.4. Быстрый поиск химических соединений из ChEMBL по сходству профилей ингибирования киназ

3. РЕЗУЛЬТАТЫ И ОБСУЖДЕНИЕ

3.1. Анализ имеющихся в свободно доступной базе данных ChEMBL сведений о химических соединениях, протестированных на взаимодействие с протеинкиназами

3.2. PASS Targets

3.2.1. Разработка и валидация PASS Target

3.2.2. Применение программы PASS Targets для компьютерной оценки взаимодействия низкомолекулярных органических соединений с киномом человека при решении практических задач

3.2.2.1. Применение PASS Targets для виртуального скрининга веществ, обладающих заданным спектром активности

3.2.2.2. Применение PASS Targets для поиска белков-мишеней, взаимодействие с которыми может индуцировать вентрикулярную тахиаритмию

3.3. Сравнение различных подходов к обучению программы PASS для проведения компьютерной оценки взаимодействия низкомолекулярных органических соединений с киномом человека

3.3.1. Анализ обучающих выборок, сформированных для сравнения различных стратегий обучения

3.3.2. Валидация и сравнение качества классификаторов, построенных на различных типах обучающих выборок

3.3.3. Влияние несбалансированности тестовой выборки на критерии оценки качества классификации

3.3.4. Сравнение качества классификаций, полученных с использованием различных типов обучающих выборок при стратифицированной пятикратной кросс-валидации и проспективной валидации

3.3.5. Область применимости классификаторов, построенных на различных

типах выборок

3.3.5. Сравнение степеней обогащения, достигнутых с использованием классификаторов, построенных на различных типах выборок

3.3.6. Возможное объяснение результатов сравнения качества классификаторов, построенных на различных типах выборок

3.3.7. Обсуждение результатов сравнения качества классификаторов

3.4. Веб-приложение для компьютерной оценки взаимодействия химических соединений с киномом человека

4. ЗАКЛЮЧЕНИЕ

5. ВЫВОДЫ

6. СПИСОК ЛИТЕРАТУРЫ

7. СПИСОК ИЛЛЮСТРАТИВНОГО МАТЕРИАЛА

8. ПРИЛОЖЕНИЯ

СПИСОК СОКРАЩЕНИЙ И УСЛОВНЫХ ОБОЗНАЧЕНИЙ

А-В - общая выборка активных

АН-В - общая выборка активных и неактивных

АТФ - аденозинтрифосфат

БД - база данных

ГТФ - гуанозинтрифосфат

ИБМХ - научно-исследовательский институт биомедицинской химии им. В.Н. Ореховича

И-В - индивидуальные выборки

ИО - истинно отрицательные

ИП - истинно положительные

ЛО - ложно отрицательные

ЛП - ложно положительные

МА - моноклональное антитело

мкМ - микромоль на литр (концентрация)

ПК - протеинкиназы

СУБД - система управления базами данных

ТНРМЖ - тройной негативный рак молочной железы

ЭВМ - электронно-вычислительная машина

(Q)SAR - (количественные) взаимосвязи «структура-активность»

AGC - группа родственных киназ, названная в честь протеинкиназы A, G и C

AUC - площадь под кривой (area under curve)

Aurora-A - семейство polo-подобных киназ Аврора

AXL - рецепторная тирозиновая протеинкиназа AXL

AZD6244 - один из ингибиторов протеинкиназ, находящихся в разработке

BACC - сбалансированная точность (balanced accuracy) BCR-ABL - тирозиновая протеинкиназа Bcr-Abl, химерный белок BEDROC - адаптированная к проблеме обогащения площадь под кривой BRAF - серинтреониновая протеинкиназа B-Raf

CAMK - группа родственных киназ, названная в честь киназ регулируемых кальмодулином/кальцием (calmodulin/calcium regulated kinase) CDK2 - циклин-зависимая киназа

ChEMBL - chemical biology database of the European Bioinformatics Institute CHK1 - чекпойнт-киназа 1 Chk2 - чекпойнт-киназа

CK1 - группа родственных киназ, названная в честь казеиновой киназы 1 (casein kinase 1)

CLC Pred - веб-сервис по прогнозу цитотоксичности соединений в отношении опухолевых и нормальных клеточных линий (cell lines cytotoxicity prediction) CMGC - группа родственных протеинкиназ, названная в честь основных семейств, входящих в нее (CDK, MAPK, GSK3, CLK) c-Myc - протоонкоген c-Myc

CSV - формат для представления табличных данных в котором или "," используется в качестве разделителя столбцов (comma separated values) DDR1 - рецепторная протеинкиназа DDR1

EBI - европейский институт биоинформатики (the European Bioinformatics Institute) ERK - протеинкиназы, регулируемые внеклеточными сигналами, а также сигнальный путь, которые такие киназы образуют F1 - Fl-мера

FDA - food and drug administration

HER2 - рецепторная тирозиновая протеинкиназа erbB2

IC50 - пятидесятипроцентная ингибирующая концентрация

JNK3 - N-концевая киназа c-Jun

Kd - константа диссоциации

KGaA - ограниченное партнерство, форма организации совместного предприятия

Ki - константа ингибирования

LD50 - пятидесятипроцентная летальная доза

LSH - локально-чувствительное хеширование (locality sensitive hashing)

MNA - дескрипторы множественных атомных окрестностей (multilevel

neighborhoods of atom)

PASS - Prediction of Activity Spectra for Substances

PDB - Protein Data Bank

PDGF - тромбоцитарный фактор роста

PHP - PHP: препроцессор гипертекста

PPV - положительная прогностическая ценность (positive prognostic value (precision))

R2 - коэффициент детерминации

s-5-f CV - пятикратная стратифицированная валидация (stratified 5-fold cross-validation)

SDF - формат представления информации о структурах химических соединений

(Structure Data File)

SENS - чувствительность (sensitivity)

SLK - STE20-образная серинтреониновая протеинкиназа

SPEC - специфичность (specificity)

STE - группа родственных киназ, названная в честь человеческих гомологов генов трех дрожжевых киназ (STE7, STE11, STE20).

TK - тирозиновые киназы, группа родственных белков, предпочитающих

фосфорилировать белки по остаткам тирозина (tyrosine kinase)

TKL - группа родственных киназ, похожих на тирозиновые (tyrosine kinase like), но

фосфорилирующих при этом белки преимущественно по остаткам серина и

треонина.

TXT - текстовый файл

V600E - мутация, ведущая к замене остатка валина на остаток глутаминовой кислоты в шестисотой позиции белка

VEGFR-2 - рецептор, активируемый фактором роста эндотелия сосудов (vascular

endothelial growth factor receptor 2); является рецепторной тирозиновой киназой

СЛОВАРЬ ТЕРМИНОВ

База данных: комплекс материалов, систематизированных таким образом, который позволяет проводить их поиск и анализ с помощью компьютера.

Биоизостерия: явление, возникающее в химико-биологическом пространстве, которое заключается в наличии близких биологических свойств у структурно непохожих фрагментов химических соединений. Объяснение феномена биоизостерии заключается в том, что разные химические группировки могут иметь сходные геометрические (форма, размер) и физические (электронная плотность) параметры.

Валидация: процесс проведения доказательства того, что объект соответствует требованиям.

Дескрипторы: качественные или количественные характеристики объекта, использование которых вместо самого объекта делает возможным или упрощает проведение исследования. В хемоинформатике, дескрипторы используются для описания соединений вместо их структурной формулы при построении (Q)SAR моделей.

Ингибирующая концентрация: концентрация химического соединения, которая снижает интенсивность протекания некого процесса до заданного уровня. Например, пятидесятипроцентная ингибирующая концентрация (1С50) -концентрация химического соединения, которая снижает интенсивность протекания процесса вдвое.

Ингибитор: агент, подавляющий протекание ферментативной реакции.

Киназы: ферменты, относящиеся к классу фосфотрансфераз, которые катализируют реакцию переноса фосфорильной группы от высокоэнергетичной молекулы-донора на молекулу субстрата.

Кином: совокупность всех протеинкиназ объекта.

Кластеризация: процесс разбиения множества на группы, характеризующиеся высоким внутригрупповым и низким межгрупповым сходством элементов.

Константа диссоциации: мера сродства между низкомолекулярным лигандом и биологической макромолекулой, значение которой обратно пропорциональна силе нековалентного связывания.

Летальная доза: средняя доза вещества, которая вызывает гибель заданной доли испытуемой группы. Например, пятидесятипроцентная летальная доза (LD50) -доза, вызывающая гибель половины испытуемой группы.

Область применимости модели: область пространства признаков, свойства элементов которой могут быть моделированы. Для статистической модели, область применимости представляет собой генеральную совокупность, которую адекватно представляет обучающая выборка.

Приближенный поиск ближайших соседей: процесс поиска наиболее похожих на объект запроса элементов множества, осуществляемый в рамках неких допущений, а потому, не гарантирующий стопроцентной точности.

Регуляторная сеть: набор биологических макромолекул и связей между ними, который является средой распространения различных сигналов в клетке.

Резистентность: устойчивость, в контексте работы этот термин применяется в основном для обозначения приобретенного состояния устойчивости распространения патологического сигнала, несмотря на терапевтическое воздействие. Развитие резистентности как правило обусловлено изменением структуры терапевтической молекулярной мишени и/или регуляторной сети.

Селективность: избирательность, в контексте работы этот термин применяется для обозначения свойства терапевтических агентов взаимодействовать в заданной концентрации преимущественно с одной или несколькими определенными терапевтическими мишенями из множества.

Терапевтическая молекулярная мишень: биологическая молекула, текущий режим функционирования которой в значительной степени обеспечивает протекание патологических процессов и, при этом, может быть изменен внешним (терапевтическим) воздействием.

Филогенетическое дерево (эволюционное дерево): ветвистая диаграмма, отражающая эволюционные взаимоотношения между биологическими объектами.

(Q)SAR, (Quantitative) Structure-Activity Relationships: научное направление, занимающееся анализом взаимосвязей между структурой химических соединений и их биологических активностей.

DFG-in: конформация, которая характерна для активированной киназы. В данной конформации в АТФ-связывающую полость заходит петля, которая ограничивает имеющееся там пространство.

DFG-out: конформация, которая характерна для неактивированной киназы. Полость АТФ-связывающего участка свободна, соответственно большая часть ее поверхности доступна для связывания с ингибитором.

Рекомендованный список диссертаций по специальности «Математическая биология, биоинформатика», 03.01.09 шифр ВАК

Введение диссертации (часть автореферата) на тему «Компьютерная оценка взаимодействия низкомолекулярных органических соединений с киномом человека»

ВВЕДЕНИЕ

Актуальность темы исследования и степень ее разработанности Протеинкиназы образуют одно из самых крупных суперсемейств ферментов в организме человека [1], представители которого вовлечены в регуляцию практически всех процессов, протекающих в живой клетке [2] и многих процессов во внеклеточном матриксе [3]. Высокая значимость киназ для поддержания нормального состояния клеточных процессов в организме ведет к тому, что патологические отклонения в их функционировании являются частой причиной возникновения заболеваний человека [4,5].

Важная роль протеинкиназ в патогенезе многих заболеваний обуславливает повышенный интерес к ним как к терапевтическим мишеням при разработке новых лекарств. Протеинкиназы были определены в качестве главного класса терапевтических мишеней XXI века [6] и, по состоянию на июнь 2018 года, регуляторными органами одобрено к применению в клинической практике 40 ингибиторов протеинкиназ (большая часть одобрена за последние несколько лет) [7]. Еще больше препаратов данного типа находится в разработке, в том числе на различных стадиях клинических испытаний [8]. Таким образом, ингибиторы киназ представляют большой интерес в качестве терапевтических агентов [9-11], а мультидисциплинарные исследования, лежащие в основе разработки новых препаратов этого класса, во многом формируют современный уровень понимания молекулярного патогенеза заболеваний человека.

Наряду с явными достоинствами протеинкиназ при рассмотрении их в качестве терапевтических мишеней, существуют особенности, которые затрудняют разработку их клинически эффективных ингибиторов:

• Надежность киназной сигнализации может сохраняться и даже повышаться при патологиях, поэтому для достижения устойчивого угнетения передачи патологического сигнала иногда необходимо ингибирование нескольких протеинкиназ.

• Сходство АТФ-связывающих участков различных представителей кинома обуславливает высокую вероятность наличия у их ингибиторов, также использующих этот участок для связывания, побочных эффектов, вызванных взаимодействием с рядом нежелательных киназ-мишеней.

Упомянутые выше структурно-функциональные особенности протеинкиназ обосновывают необходимость проведения оценки активности химических соединений в отношении множества протеинкиназ, в идеале в отношении всего кинома человека, при систематическом поиске их ингибиторов, характеризующихся приемлемым балансом между безопасностью и эффективностью. Такая экспериментальная оценка является чрезмерно затратной задачей для большинства исследователей с учетом огромного количества уже синтезированных и возможных для синтеза органических соединений, а также наличия в киноме человека более пятисот белков.

Компьютерные методы являются важной составляющей современного процесса разработки лекарственных препаратов, позволяют принимать оптимальные решения, основанные на анализе большого объема разнородных данных [12]. Поиск и разработка ингибиторов протеинкиназ может особенно выиграть от применения компьютерных методов в силу большого объема экспериментальных работ, который должен быть выполнен для достижения успеха. В первую очередь, востребованы компьютерные методы, позволяющие оценить взаимодействие химических соединений с как можно большим количеством представителей кинома, чтобы не только предварительно выявить целевую активность у соединений, но и рационально спланировать экспериментальное тестирование для выявления нецелевых мишеней ассоциированных с проявлением побочных эффектов. Оценка взаимодействия лиганда со множеством мишеней важна также для поиска соединений с механизмом действия, основанным на ингибировании целого набора белков, что может быть необходимо для надежного блокирования передачи сигнала, распространяющегося по нескольким регуляторным путям. В настоящее время проблема оценки взаимодействия

химических соединений с киномом человека активно изучается многими исследователями, не только из-за повышенного интереса к поиску новых ингибиторов киназ, но и благодаря наличию достаточного количества уже накопленных данных в этой области.

Однако, большая часть исследований, посвященных компьютерной оценке взаимодействия химических соединений с киназами все же направлена на поиск веществ, ингибирующих отдельные киназы[13-15], а не на оценку профиля их взаимодействия с многочисленными представителями кинома. Исследования же, направленные на комплексную оценку взаимодействия химических соединений с киномом, как правило базируются на использовании данных, принадлежащих той или иной фармацевтической компании, что затрудняет воспроизведение и внедрение в практику полученных результатов широким научным сообществом. Более того, проблема выбора оптимальной стратегии обучения компьютерных программ, которая учитывала бы особенности ингибиторов киназ как класса биологически активных химических соединений, не рассматривается в известных нам исследованиях, как и проблема совместного использования данных об ингибиторах киназ из различных организмов.

Целью диссертационной работы является разработка подхода к прогнозированию взаимодействия низкомолекулярных органических соединений с киномом человека на основе оценки взаимосвязей «структура-активность» и исследование возможностей его применения для решения практических задач.

Для достижения цели работы нами были поставлены и решены следующие задачи:

1. Провести анализ сведений о химических соединениях, протестированных на взаимодействие с киназами в базе данных ChEMBL, разработать протокол обработки данных и создать максимально полные и качественные обучающие выборки для построения классификационных моделей взаимосвязи «структура-активность» для оценки взаимодействия низкомолекулярных органических соединений с киномом человека.

2. Создать программу PASS Targets для оценки вероятности взаимодействия химических соединений с различными молекулярными мишенями, сопоставить точность прогноза взаимодействия с протеинкиназами и другими белками и апробировать программу применительно к проблемам поиска новых биологически активных соединений и новых молекулярных мишеней.

3. Оценить влияние, которое оказывает на качество компьютерной оценки взаимодействия химических соединений с киномом человека использование различных стратегий формирования обучающих выборок, составленных на основе доступных экспериментальных данных об ингибировании киназ (с использованием (1) только истинно положительных и истинно отрицательных примеров для каждой отдельной киназы, (2) общей выборки из активных соединений, (3) общей выборки из активных и неактивных соединений).

4. Создать свободно-доступный веб-сервис для компьютерной оценки взаимодействия низкомолекулярных органических соединений с киномом человека.

Научная новизна

Впервые разработан и реализован в виде веб-сервиса и локальной версии компьютерной программы PASS Targets подход к компьютерной оценке взаимодействия низкомолекулярных органических соединений с представителями всех основных ветвей кинома человека. Этот подход учитывает структурно-функциональные особенности различных киназ и плейотропность действия ингибиторов.

С использованием разработанного подхода выявлены новые химические соединения, обладающие избирательной цитотоксичностью по отношению к опухолевым клеткам; установлены новые молекулярные мишени, ассоциированные с проявлением такого побочного эффекта фармакологических веществ, как вентрикулярная тахиаритмия; предсказаны наиболее вероятные молекулярные мишени известных ингибиторов киназ.

Впервые количество новых MNA-дескрипторов было применено для оценки области применимости классификационных моделей, построенных с

использованием различных типов обучающих выборок.

Разработан свободно-доступный веб-сервис К^сгееп, позволяющий прогнозировать ингибирование лекарственно-подобными соединениями 301 протеинкиназы человека, а также идентифицировать в базе данных ChEMBL соединения с наиболее близкими прогнозируемыми профилями ингибирования киназ.

Теоретическая и практическая значимость

В настоящее время известно, что изменения активности киназ могут обуславливать развитие ряда пролиферативных заболеваний [16]. Также установлено, что изменение экспрессии, а также мутации генов протеинкиназ и/или активация этих ферментов, вызванная нарушениями в связанных с ними регуляторных путях, ускоряют рост опухоли и повышают резистентность злокачественных новообразований к существующей терапии, не являясь при этом причиной их возникновения [17-20]. Помимо пролиферативных заболеваний, показана роль протеинкиназ в патогенезе аутоиммунных заболеваний [21,22]; активно изучается их роль в патогенезе туберкулеза [23,24] и ряда других инфекционных заболеваний [25,26]. Поэтому в настоящее время поиск и создание химических соединений, модулирующих активность представителей кинома - это одно из наиболее актуальных направлений биомедицинских исследований. Достигнутые в этой области результаты транслируются как в новые знания о системах регуляции клеточных процессов в норме и патологии, так и в создание эффективных средств терапии социально-значимых заболеваний человека.

Разработанный подход позволяет отбирать на основе компьютерного прогноза наиболее вероятные «молекулы-кандидаты», ингибирующие определенные протеинкиназы; устанавливать приоритеты для экспериментального тестирования химических соединений на наличие взаимодействия с протеинкиназами, что, в конечном счете, призвано обеспечить благоприятное протекание процесса разработки безопасных и эффективных лекарственных препаратов.

Проведенные эксперименты по сравнению стратегий формирования обучающих выборок для построения зависимостей «структура-активность» на примере ингибиторов протеинкиназ позволили выявить преимущества и недостатки различных подходов к обучению, которые могут быть экстраполированы на другие классы молекулярных мишеней для достижения успеха в компьютерном поиске химических соединений с заданной биологической активностью.

Реализацией свободно доступных веб-ресурсов PASS Targets и KinScreen обеспечена возможность их использования для компьютерной оценки взаимодействия лекарственно-подобных химических соединений с репрезентативным набором представителей кинома человека.

Методология и методы исследования

В основе работы лежит научный метод, все заключения и выводы являются итогом рассуждений, основанных на анализе эмпирических данных об объекте исследования. Данные были получены в ходе наблюдений и экспериментов с соблюдением принципов систематичности, воспроизводимости и объективности. В работе использована как общенаучная методология, так и специальная методология био- и хемоинформатики, в том числе методология построения и анализа взаимосвязей «структура-активность» применительно к проблеме компьютерной оценки взаимодействия низкомолекулярных органических соединений с киномом человека.

Некоторые примеры использования методов ведения научной работы:

- Методы анализа и синтеза были применены к существующим данным о результатах тестирования активности химических соединений в отношении киназ человека, чтобы выделить ключевые элементы их описания в базах данных и предложить способ эффективного отбора наиболее достоверных данных для включения в обучающие выборки.

- Методы абстрагирования, аналогии, индукции и дедукции были использованы в составе статистического метода построения взаимосвязи «структура-активность», в основе которого лежит утверждение о том, что биологическая активность

химического соединения является функцией от его структуры, построение общей зависимости осуществляется с использованием результатов экспериментального тестирования конкретных соединений, а при прогнозе общая зависимость используется для вынесения суждения о вероятности наличия активности у конкретного соединения.

- Методы формализации были применены в ходе работы для представления химических структур соединений в машиночитаемом виде и для разбиения множества химических соединений на подмножества активных и неактивных на основе ряда количественных характеристик, полученных в экспериментах.

- Вычислительные эксперименты с применением методов статистического сравнения результатов широко применялись в ходе выполнения исследования.

В ходе исследования для построения и анализа взаимосвязей «структура-активность» была применена программа PASS, разработанная ранее сотрудниками лаборатории структурно-функционального конструирования лекарств ИБМХ и реализующая модифицированный наивный байесовский подход к построению зависимостей на основе атомоцентричных подструктурных дескрипторов множественных атомных окрестностей (MNA - Multilevel Neighborhoods of Atom) в качестве описания структур соединений.

Итогом работы стал новый подход к проблеме оценки взаимодействия низкомолекулярных органических соединений с киномом человека, реализованный в виде веб-сервиса и программы PASS Targets. Данный подход и его реализации могут в дальнейшем применяться и в других научных исследованиях, требующих построение классификационных моделей взаимосвязи «структура-активность».

Основные положения, выносимые на защиту

- Количественные экспериментальные данные из базы данных (БД) ChEMBL позволяют сформировать представительную обучающую выборку ингибиторов протеинкиназ человека. Таким образом, данные из БД ChEMBL могут быть использованы для проведения компьютерной оценки взаимодействия

низкомолекулярных органических соединений с киномом человека.

- Созданная компьютерная программа PASS Targets с высокой точностью прогнозирует вероятность взаимодействия лекарственно-подобных органических соединений с представительным подмножеством киназ человека и другими белками-мишенями, что позволяет использовать ее для решения практических задач, таких как: виртуальный скрининг веществ, обладающих требуемыми профилями биологической активности, установление нежелательных молекулярных мишеней.

- При наличии достаточного количества данных оптимальной является стратегия построения классификаторов, основанная на использовании обучающих выборок, содержащих результаты экспериментального тестирования для отдельных протеинкиназ. Использование смешанных выборок, содержащих условно отрицательные примеры, позволяет существенно снизить требования к количеству доступных данных и расширить спектр протеинкиназ, в отношении которых возможна компьютерная оценка.

- Разработанный веб-ресурс KinScreen позволяет с высокой точностью проводить компьютерное предсказание ингибирования низкомолекулярными органическими соединениями более 300 протеинкиназ, охватывающих все основные ветви кинома человека, и предоставляет пользователю информацию об известных химических соединениях с близкими профилями биологической активности из БД ChEMBL.

Степень достоверности и апробация результатов

Достоверность полученных результатов обеспечена применением для извлечения, обработки и оценки данных из публично-доступных источников, методов, которые соответствуют современным научным критериям. Точность и предсказательная способность полученных зависимостей «структура-активность» оценены с применением скользящего контроля с исключением по одному, пятикратной кросс-валидации и валидации с использованием экспериментальных данных, полученных после построения классификаторов (проспективная валидация).

Выводы, изложенные в диссертации, подтверждены публикациями и следуют из результатов проведенных автором исследований. Основные положения опубликованы в рецензируемых научных журналах, доложены и обсуждены на российских и международных научных конференциях, включая XX, XXI и XXII российский национальный конгресс «Человек и лекарство», Москва; VIII и IX международный конгресс «Биотехнологии: состояние и перспективы развития», Москва; 20-ый и 21 -ый Европейский симпозиум по количественной связи «структура- активность» (European Symposium on Quantitative Structure-Activity Relationship), Санкт-Петербург, Верона.

Публикации

По материалам диссертации опубликовано 9 работ в рецензируемых научных журналах; в трех публикациях диссертант является первым автором; получены свидетельства Роспатента о государственной регистрации программ для ЭВМ (PASS Targets и CLC Pred); 15 работ опубликовано в сборниках материалов научных конференций.

1. ОБЗОР ЛИТЕРАТУРЫ

1.1. Протеинкиназы

1.1.1. Биология протеинкиназ

Протеинкиназы образуют одно из самых крупных суперсемейств ферментов организма человека [1], представители которого вовлечены в регуляцию практически всех процессов, протекающих в живой клетке [2]. Протеинкиназы (ПК) способны изменять активность других белков в ответ на биологические сигналы как внеклеточного, так и внутриклеточного происхождения. В частности, ПК участвуют в регуляции метаболизма [27, 28], клеточного цикла [29] и разнообразных актов межклеточной коммуникации [30-32].

Таким образом, роль ПК в клетке - связывать воедино, интегрировать процессы, обеспечивающие существование клеток и коммуникацию между ними в изменяющихся условиях окружающей среды.

Все вышесказанное справедливо и для организма в целом: клеточные функции, регулируемые ПК, находят свое отражение в физиологических процессах, обеспечивающих жизнедеятельность человека.

ПК человека катализируют реакцию переноса фосфорильного остатка АТФ (в редких случаях ГТФ [33,34]) на боковую цепь аминокислотного остатка белкового субстрата, содержащую гидроксильную группу (остатки серина, треонина или тирозина) или, значительно реже, гетероциклическую аминогруппу (остаток гистидина). ПК прокариотических организмов также способны фосфорилировать белки по остаткам аспартата, цистеина, лизина и аргинина, и некоторых других аминокислот, к настоящему времени фосфорилирование по остаткам нетипичных аминокислот показано и в эукариотических организмах, но такие явления считаются редкими. Несмотря на сравнительно небольшой размер фосфорильной группы по отношению к размерам средней белковой молекулы,

фосфорилирование может приводить к существенным изменениям в структуре белка и, соответственно, изменять его биологическую активность, служить маркером внутриклеточной локализации [35,36], выступать в качестве сигнала для начала протеолитической деградации белка [37,38].

Некоторые ПК могут осуществлять аутофосфорилирование, изменяя свою активность в ответ на внешний стимул, такой как связывание сигнального лиганда. Такие изменения характерны в первую очередь для ПК, имеющих сложную мультидоменную организацию, например, для инсулинового рецептора [39]. К настоящему времени показано, что аутофосфорилирование может протекать как по межмолекулярному механизму, когда одна ПК фосфорилирует другую ПК (при этом и фермент, и субстрат являются продуктами одного гена), так и по внутримолекулярному механизму [40], при котором ПК переносит фосфорильный остаток с молекулы АТФ, зафиксированной в своем активном центре, на аминокислоту, входящую в состав этой же ПК (в этом случае ферментом и субстратом выступают не просто продукты одного гена, а одна и та же макромолекула).

Все это позволяет характеризовать фосфорилирование как группу разнородных посттрансляционных событий, обеспечивающих гибкую регуляцию биологических процессов. Так, аутофосфорилирование, протекающее по межмолекулярному механизму ведет к быстрому изменению активности многих белков, включая ПК-инициаторы, являющиеся продуктами одного гена (характерно, например, для Nek7 и Plk4); а аутофосфорилирование по внутримолекулярному механизму позволяет регулировать активность экземпляров продуктов генов протеинкиназ индивидуально (характерно, например, для Aurora-A и Chk2, рецепторных киназ) [40], так как каждая молекула киназы должна непосредственно получить сигнал для аутофосфорилирования, вне зависимости от функционального состояния других экземпляров этой ПК в клетке.

Как правило, ПК функционируют в составе регуляторных сетей [41-43], сигналы по которым распространяются каскадами фосфорилирования. Такая

форма передачи сигнала с помощью сетей ПК позволяет вовлекать в процесс множество положительных и отрицательных обратных связей, модулирующих силу сигнала в зависимости от целого ряда факторов [44]. Помимо этого, повышается надежность биологической системы, т.к. при выходе из строя по той или иной причине одного из узлов сигнальной сети, его роль может быть перераспределена между остальными участниками процесса [45].

Говоря о биологии ПК, нельзя не подчеркнуть тесную филогенетическую взаимосвязь между представителями семейства [46]. Несмотря на то, что ПК сильно отличаются друг от друга по набору доменов, а, следовательно, и по аминокислотной последовательности, все они содержат киназный домен, в активном центре которого происходит связывание АТФ, что необходимо для переноса фосфорильного остатка на субстрат. Консервативность последовательности данного домена среди всех ПК позволяет предположить, что киназные домены могут иметь одного или нескольких общих предков. К настоящему времени известно более 500 ПК человека, для которых на основе сходства аминокислотных последовательностей киназных доменов построено филогенетическое дерево, отражающее расчетную характеристику родства ПК друг с другом [46,47]. На основе родства ПК, принято обозначать их совокупность среди всех прочих белков организма (протеома) понятием кином, а область исследований совокупности протеинкиназ - киномикой [48].

Таким образом, ПК - разнообразные, но родственные ферменты, регулирующие активность самих себя и других белков с помощью реакции фосфорилирования. Как правило, влияние передаваемого таким образом сигнала на те или иные клеточные процессы, определяется не единичным актом фосфорилирования, а балансом событий фосфорилирования, осуществляемого непосредственно протеинкиназами, и дефосфорилирования, которое протекает под воздействием фосфатаз.

1.1.2. Особенности протеинкиназ как терапевтических мишеней

Можно выделить две основные предпосылки использования ПК в качестве терапевтических мишеней, которые обусловлены их биологией:

• ПК вовлечены в патогенез множества заболеваний.

• ПК имеют участок связывания природного низкомолекулярного лиганда - АТФ, что облегчает поиск их низкомолекулярных ингибиторов.

Однако, ряд особенностей данного семейства и сетевых процессов регуляции, в которые они вовлечены, затрудняют разработку новых и ограничивают применение существующих ингибиторов.

Ингибиторы ПК за редким исключением применяются в клинической практике лишь для лечения пролиферативных и некоторых других, тяжелых, заболеваний человека [8], несмотря на то, что спектр патологий, с которыми ассоциированы ПК, значительно шире. Это связано с наличием серьезных побочных эффектов у ингибиторов протеинкиназ, что обусловлено их взаимодействием с целым рядом протеинкиназ помимо основной мишени [49]. Поскольку большинство ингибиторов ПК связываются с тем же сайтом, что и природный лиганд ПК, АТФ, а этот сайт обладает достаточно высокой степенью консервативности аминокислотной последовательности среди всех ПК; избежать побочных эффектов сложно [50,51]. Несмотря на это, применение в клинической практике ингибиторов протеинкиназ, даже не обладающих высокой селективностью, может быть оправдано: так, эрлотиниб, одобренный к применению в 2004 году ингибитор, взаимодействует в концентрации менее 0,25 мкМ с десятью различными ПК [52].

Разработка селективных ингибиторов ПК является серьезным вызовом [53,54], более того, степень селективности для большинства уже введенных в клиническую практику ингибиторов протеинкиназ еще только предстоит определить, проведя масштабную экспериментальную оценку их взаимодействия с киномом человека. Эта задача важна, поскольку высокоселективные ингибиторы

(как и ингибиторы с детально охарактеризованным профилем взаимодействия с киномом человека) могут найти применение не только в качестве терапевтических агентов с приемлемым профилем побочных эффектов, но и в качестве инструментов для изучения многообразных функций отдельных протеинкиназ [55]. Субстраты фосфорилирования отдельных протеинкиназ, могут меняться в зависимости от фазы клеточного цикла [56], внутриклеточной локализации ПК [57], поэтому исследовать изменчивое многообразие функций протеинкиназ в клетке с помощью селективных ингибиторов может оказаться значительно продуктивней, чем с помощью молекулярно-биологических методов, таких как нокаут генов, например. Успехи в этой области могут обогатить имеющиеся знания о тонкостях регуляции клеточных процессов, что должно позволить идентифицировать новые мишени и подходы для эффективной и безопасной терапии ряда заболеваний человека.

С другой стороны, относительно низкая селективность ингибиторов протеинкиназ при лечении пролиферативных заболеваний иногда оказывается преимуществом [58].

Похожие диссертационные работы по специальности «Математическая биология, биоинформатика», 03.01.09 шифр ВАК

Список литературы диссертационного исследования кандидат биологических наук Погодин, Павел Викторович, 2018 год

6. СПИСОК ЛИТЕРАТУРЫ

1. Hanks S.K. Genomic analysis of the eukaryotic protein kinase superfamily: a perspective. // Genome Biol. 2003. Vol. 4, № 5. P. 111.

2. Cheng H.-C. et al. Regulation and Function of Protein Kinases and Phosphatases // Enzyme Res. 2011. Vol. 2011. P. 1-3.

3. Jr I. et al. A SECRETED TYROSINE KINASE ACTS IN THE EXTRACELLULAR ENVIRONMENT. 2015. Vol. 158, № 5. P. 1033-1044.

4. Choura M., Rebai A. Receptor tyrosine kinases: from biology to pathology. // J. Recept. Signal Transduct. Res. 2011. Vol. 31, № 6. P. 387-394.

5. Reddy K.B., Nabha S.M., Atanaskova N. Role of MAP kinase in tumor progression and invasion // Cancer Metastasis Rev. 2003. Vol. 22. P. 395-403.

6. Cohen P. Protein kinases--the major drug targets of the twenty-first century? // Nat. Rev. Drug Discov. 2002. Vol. 1, № April. P. 309-315.

7. Roskoski R. FDA-approved protein kinase inhibitors. 2017.

8. Wu P., Nielsen T.E., Clausen M.H. FDA-approved small-molecule kinase inhibitors // Trends Pharmacol. Sci. Elsevier Ltd, 2015. Vol. 36, № 7. P. 422-439.

9. Ficarra V. et al. Tyrosine Kinase Inhibitors in Clinical Practice: Case Reports // Eur. Urol. Suppl. 2008. Vol. 7, № 9. P. 610-614.

10. Pandey R., Kapur R. Kinase inhibitors in clinical practice: An expanding world // J. Allergy Clin. Immunol. American Academy of Allergy, Asthma & Immunology, 2017.

11. McDermott U., Settleman J. Personalized cancer therapy with selective kinase inhibitors: An emerging paradigm in medical oncology // J. Clin. Oncol. 2009. Vol. 27, № 33. P. 5650-5659.

12. Lavecchia A. Machine-learning approaches in drug discovery: Methods and applications // Drug Discov. Today. Elsevier Ltd, 2015. Vol. 20, № 3. P. 318-331.

13. Li M. et al. QSAR Study of Mer Specific tyrosine kinase inhibitors for the treatment and prevention of thrombosis. 2017. Vol. 2. P. 32-36.

14. Santos-Garcia L. et al. QSAR analysis of nicotinamidic compounds and design of potential Bruton's tyrosine kinase (Btk) inhibitors // J. Biomol. Struct. Dyn. 2016. Vol. 34, № 7. P. 1421-1440.

15. Press D. Structure - activity relationships study of mTOR kinase inhibition using QSAR and structure-based drug design approaches. 2016. P. 7345-7353.

16. Fleuren E.D.G. et al. The kinome "at large" in cancer // Nat. Rev. Cancer. Nature Publishing Group, 2016. Vol. 16, № 2. P. 83-98.

17. Katsuno Y., Lamouille S., Derynck R. TGF-ß signaling and epithelial-mesenchymal transition in cancer progression. // Curr. Opin. Oncol.

2013. Vol. 25, № 1. P. 76-84.

18. Cross D.A.E. et al. AZD9291, an irreversible EGFR TKI, overcomes T790M-mediated resistance to EGFR inhibitors in lung cancer // Cancer Discov.

2014. Vol. 4, № 9. P. 1046-1061.

19. Wagle N. et al. MAP kinase pathway alterations in BRAF -mutant melanoma patients with acquired resistance to combined RAF/MEK inhibition // Cancer Discov. 2014. Vol. 4, № 1. P. 61-68.

20. Hochhaus a et al. Molecular and chromosomal mechanisms of resistance to imatinib (STI571) therapy. // Leukemia. 2002. Vol. 16, № 11. P. 2190-2196.

21. Alvarez-Diaz S. et al. The Pseudokinase MLKL and the Kinase RIPK3 Have Distinct Roles in Autoimmune Disease Caused by Loss of Death-Receptor-Induced Apoptosis // Immunity. 2016. Vol. 45, № 3. P. 513-526.

22. Sakaguchi N. et al. Altered thymic T-cell selection due to a mutation of the ZAP-70 gene causes autoimmune arthritis in mice. // Nature. 2003. Vol. 426, № 6965. P. 454-460.

23. Richardson E.T. et al. Toll-like receptor 2-dependent extracellular signal-regulated kinase signaling in Mycobacterium tuberculosis-infected macrophages drives anti-inflammatory responses and inhibits Th1 polarization of responding T cells // Infect. Immun. 2015. Vol. 83, № 6. P. 2242-2254.

24. Wallis R.S., Hafner R. Advancing host-directed therapy for tuberculosis // Nat. Rev. Immunol. Nature Publishing Group, 2015. Vol. 15, № 4. P. 255-263.

25. Castellanos-Gonzalez A. et al. A novel calcium-dependent protein kinase inhibitor as a lead compound for treating cryptosporidiosis // J. Infect. Dis. 2013. Vol. 208, № 8. P. 1342-1348.

26. Branca M. et al. Activation of the ERK/MAP kinase pathway in cervical intraepithelial neoplasia is related to grade of the lesion but not to high-risk human papillomavirus, virus clearance, or prognosis in cervical cancer // Am. J. Clin. Pathol. 2004. Vol. 122, № 6. P. 902-911.

27. Engelman J. a, Luo J., Cantley L.C. The evolution of phosphatidylinositol 3-kinases as regulators of growth and metabolism. // Nat. Rev. Genet. 2006. Vol. 7, № 8. P. 606-619.

28. Long Y.C., Zierath J.R. Review series AMP-activated protein kinase signaling in metabolic regulation // J. Clin. Invest. 2006. Vol. 116, № 7. P. 1776-1783.

29. Vermeulen,K.,Van Bockstaele,D.R.,Berneman Z.N. et al. The cell cycle:a review of regulation,deregulation and therapeutic targets in cancer // Cell Prolif. 2003. Vol. 36, № 3. P. 131-149.

30. Waters C.M., Bassler B.L. QUORUM SENSING: Cell-to-Cell Communication in Bacteria // Annu. Rev. Cell Dev. Biol. 2005. Vol. 21, № 1. P. 319-346.

31. Lampe P.D. et al. Phosphorylation of connexin 43 on serine 368 by protein kinase C regulates gap junctional communication // J. Cell Biol. 2000. Vol. 149, № 7. P. 1503-1512.

32. Kania A., Klein R. Mechanisms of ephrin-Eph signalling in development, physiology and disease. // Nat. Rev. Mol. Cell Biol. Nature Publishing Group, 2016. Vol. 17, № 4. P. 240-256.

33. Baier A., Szyszka R. Sensitivity of Protein Kinase CK2 to ATP/GTP and Specific Inhibitors Depends on Complexity of Interacting Proteins // Protein Kinase CK2 Cellular Function in Normal and Disease States. Springer, 2015. P. 361-374.

34. Niefind K. et al. GTP plus water mimic ATP in the active site of protein kinase CK2. // Nat. Struct. Biol. 1999. Vol. 6, № 12. P. 1100-1103.

35. Biggs W.H. et al. Protein kinase B/Akt-mediated phosphorylation promotes nuclear exclusion of the winged helix transcription factor FKHR1 // Proc. Natl. Acad. Sci.

National Acad Sciences, 1999. Vol. 96, № 13. P. 7421-7426.

36. Nishi H., Shaytan A., Panchenko A.R. Physicochemical mechanisms of protein regulation by phosphorylation // Front. Genet. 2014. Vol. 5, № AUG. P. 1-10.

37. Hunter T. The Age of Crosstalk: Phosphorylation, Ubiquitination, and Beyond // Mol. Cell. 2007. Vol. 28, № 5. P. 730-738.

38. Swaney D.L. et al. Global analysis of phosphorylation and ubiquitylation cross-talk in protein degradation // Nat. Methods. Nature Research, 2013. Vol. 10, № 7. P. 676-682.

39. Kahn J. 're'mie B.A.K. and C.R. Insulin Receptor Signaling in Normal // Cold Spring Harb Perspect Biol 2014. 2014. Vol. 6. P. a009191.

40. Dodson C. a. et al. A Kinetic Test Characterizes Kinase Intramolecular and Intermolecular Autophosphorylation Mechanisms // Sci. Signal. 2013. Vol. 6, №

282. P. ra54-ra54.

41. Coba M.P. et al. Kinase networks integrate profiles of N-methyl-D-aspartate receptor-mediated gene expression in hippocampus // J. Biol. Chem. 2008. Vol.

283, № 49. P. 34101-34107.

42. Kfir-Erenfeld S. et al. Protein kinase networks regulating glucocorticoid-induced apoptosis of hematopoietic cancer cells: fundamental aspects and practical considerations. // Leuk. Lymphoma. 2010. Vol. 51, № 11. P. 1968-2005.

43. Madhani H.D. Functional analysis of protein kinase networks in living cells: Beyond "knock-outs" and "knock-downs" // Methods. 2006. Vol. 40, № 3. P. 251-254.

44. Yang G. et al. A Positive Feedback Loop between Akt and mTORC2 via SIN1 Phosphorylation. // Cell Rep. 2015. Vol. 12 6. P. 937-943.

45. Zhu X., Gerstein M., Snyder M. Getting connected: analysis and principles of biological networks. // Genes Dev. 2007. Vol. 21 9. P. 1010-1024.

46. Manning G. The Protein Kinase Complement of the Human Genome // Science (80-. ). 2002. Vol. 298, № 5600. P. 1912-1934.

47. Chartier M. et al. Kinome Render: a stand-alone and web-accessible tool to annotate the human protein kinome tree // PeerJ. 2013. Vol. 1. P. e126.

48. Johnson S.A., Hunter T. Kinomics: methods for deciphering the kinome. // Nat. Methods. 2005. Vol. 2, № 1. P. 17-25.

49. Urban L., Patel V., Vaz R.J. Antitargets and drug safety. John Wiley & Sons, 2015. Vol. 66.

50. DAVIS M.I. et al. Comprehensive analysis of kinase inhibitor selectivity // Nat. Biotechnol. Nature Publishing Group. Vol. 29, № 11. P. 1046-1051.

51. Levitzki A. Tyrosine Kinase Inhibitors: Views of Selectivity, Sensitivity, and Clinical Performance // Annu. Rev. Pharmacol. Toxicol. 2013. Vol. 53, № October 2012. P. 161-185.

52. Fabian M.A. et al. A small molecule-kinase interaction map for clinical kinase inhibitors. // Nat. Biotechnol. 2005. Vol. 23, № 3. P. 329-336.

53. Zheng Zhao, Hong Wu, Li Wang, Yi Liu, Stefan Knapp N.S.G. Exploration of Type II Binding Mode : A Privileged Approach for // ACS Chem. Biol. 2014. Vol. 9. P. 123-1241.

54. Müller S. et al. The ins and outs of selective kinase inhibitor development // Nat. Chem. Biol. www.nature.com/naturechemicalbiology. Nature Publishing Group, 2015. Vol. 11, № 11. P. 818-821.

55. Arrowsmith C.H. et al. The promise and peril of chemical probes // Nat. Chem. Biol. Nature Research, 2015. Vol. 11, № 8. P. 536-541.

56. Koivomagi M., Loog M. Cdk1: A kinase with changing substrate specificity // Cell Cycle. 2011. Vol. 10, № 21. P. 3625-3626.

57. Betz C., Hall M.N. Where is mTOR and what is it doing there? // J. Cell Biol. 2013. Vol. 203, № 4. P. 563-574.

58. Knight Z.A., Lin H., Shokat K.M. Targeting the cancer kinome throuhg polypharmacology // Nat. Rev. Cancer. 2010. Vol. 10, № 2. P. 130-137.

59. Duncan J.S. et al. Dynamic reprogramming of the kinome in response to targeted MEK inhibition in triple-negative breast cancer // Cell. Elsevier, 2012. Vol. 149, № 2. P. 307-321.

60. Graves L.M. et al. The dynamic nature of the kinome // Biochem. J. 2013. Vol. 450, № 1. P. 1-8.

61. Kampen K. et al. Insights in dynamic kinome reprogramming as a consequence of MEK inhibition in MLL-rearranged AML // Leukemia. Nature Publishing Group,

2013. Vol. 28, № 3. P. 589-599.

62. Tsai J. et al. Discovery of a selective inhibitor of oncogenic B-Raf kinase with potent antimelanoma activity // Proc. Natl. Acad. Sci. National Acad Sciences, 2008. Vol. 105, № 8. P. 3041-3046.

63. Poulikakos P.I. et al. RAF inhibitor resistance is mediated by dimerization of aberrantly spliced BRAF(V600E). 2012. Vol. 480, № 7377. P. 387-390.

64. Burrell R.A. et al. The causes and consequences of genetic heterogeneity in cancer evolution // Nature. Nature Publishing Group, 2013. Vol. 501, № 7467. P. 338.

65. Greger J.G. et al. Combinations of BRAF, MEK , and PI3K / mTOR Inhibitors Overcome Acquired Resistance to the BRAF Inhibitor GSK2118436 Dabrafenib, Mediated by NRAS or MEK Mutations. 2012. № 9. P. 909-921.

66. Packer L.M. et al. Nilotinib and MEK inhibitors induce synthetic lethality through paradoxical activation of RAF in drug-resistant chronic myeloid leukemia // Cancer Cell. Elsevier, 2011. Vol. 20, № 6. P. 715-727.

67. Sears R.C. The life cycle of c-Myc: From synthesis to degradation // Cell Cycle. 2004. Vol. 3, № 9. P. 1133-1137.

68. Foster M. et al. Sa1854 Effects of a Narrow Spectrum Kinase Inhibitor (NSKI) and Selective Kinase Inhibitors on the Intestinal Pro-Inflammatory Immune Response in Ulcerative Colitis // Gastroenterology. 2016. Vol. 150, № 4. P. S382.

69. Goldenberg M.M. Trastuzumab, a recombinant DNA-derived humanized monoclonal antibody, a novel agent for the treatment of metastatic breast cancer // Clin. Ther. 1999. Vol. 21, № 2. P. 309-318.

70. Gaulton A. et al. The ChEMBL database in 2017 // Nucleic Acids Res. 2017. Vol. 45, № D1. P. D945-D954.

71. Fuchs C.S. et al. Ramucirumab monotherapy for previously treated advanced gastric or gastro-oesophageal junction adenocarcinoma (REGARD): An international, randomised, multicentre, placebo-controlled, phase 3 trial // Lancet.

2014. Vol. 383, № 9911. P. 31-39.

72. Cooper DJ, Rosenfeld JV, Murray L, Arabi YM, Davies AR, D'Urso P, Kossmann T, Ponsford J, Seppelt I, Reilly P W.R. Pertuzumab plus Trastuzumab plus Docetaxel for Metastatic Breast Cancer // N Engl J Med. 2011. Vol. 364, № 16. P. 1493-1502.

73. Shirley M. Olaratumab: First global approval // Drugs. Springer, 2017. Vol. 77, № 1. P. 107-112.

74. Sartore-Bianchi A. et al. Epidermal growth factor receptor gene copy number and clinical outcome of metastatic colorectal cancer treated with panitumumab // J. Clin. Oncol. 2007. Vol. 25, № 22. P. 3238-3245.

75. Cunningham D. et al. Cetuximab monotherapy and cetuximab plus irinotecan in irinotecan-refractory metastatic colorectal cancer. // N. Engl. J. Med. 2004. Vol. 351, № 4. P. 337-345.

76. Thatcher N. et al. Necitumumab plus gemcitabine and cisplatin versus gemcitabine and cisplatin alone as first-line therapy in patients with stage IV squamous non-small-cell lung cancer (SQUIRE): an open-label, randomised, controlled phase 3 trial. // Lancet Oncol. 2015. Vol. 16, № 7. P. 763-774.

77. Verma S. et al. Trastuzumab Emtansine for HER2-Positive Advanced Breast Cancer // N. Engl. J. Med. 2012. Vol. 367, № 19. P. 1783-1791.

78. Regales L. et al. Dual targeting of EGFR can overcome a major drug resistance mutation in mouse models of // October. 2009. Vol. 119, № 10.

79. Sartore-Bianchi A. et al. PIK3CA mutations in colorectal cancer are associated with clinical resistance to EGFR-targeted monoclonal antibodies // Cancer Res. 2009. Vol. 69, № 5. P. 1851-1857.

80. Roskoski R. A historical overview of protein kinases and their targeted small molecule inhibitors // Pharmacol. Res. Elsevier Ltd, 2015. Vol. 100. P. 1-23.

81. Dar A.C., Shokat K.M. The evolution of protein kinase inhibitors from antagonists to agonists of cellular signaling. // Annu. Rev. Biochem. 2011. Vol. 80. P. 769-795.

82. Koeberle S.C. et al. Skepinone-L is a selective p38 mitogen-activated protein kinase inhibitor // Nat. Chem. Biol. 2011. Vol. 8, № 2. P. 141-143.

83. Liu Y., Gray N.S. Rational design of inhibitors that bind to inactive kinase

conformations. // Nat. Chem. Biol. 2006. Vol. 2, № 7. P. 358-364.

84. Wu P., Clausen M.H., Nielsen T.E. Allosteric small-molecule kinase inhibitors // Pharmacol. Ther. Elsevier Inc., 2015. Vol. 156. P. 59-68.

85. Roskoski R. Allosteric MEK1/2 inhibitors including cobimetanib and trametinib in the treatment of cutaneous melanomas // Pharmacol. Res. 2017. Vol. 117. P. 20-31.

86. Bauer R.A. Covalent inhibitors in drug discovery: From accidental discoveries to avoided liabilities and designed therapies // Drug Discov. Today. Elsevier Ltd, 2015. Vol. 20, № 9. P. 1061-1073.

87. Roth G.J., Stanford N., Majerus P.W. Acetylation of prostaglandin synthase by aspirin. // Proc. Natl. Acad. Sci. U. S. A. 1975. Vol. 72, № 8. P. 3073-3076.

88. Barf T., Kaptein A. Irreversible Protein Kinase Inhibitors: Balancing the Bene fi ts and Risks // J. Med. Chem. 2012. Vol. 55. P. 6243-6262.

89. Kuntz I.D. et al. The maximal affinity of ligands. // Proc. Natl. Acad. Sci. U. S. A. 1999. Vol. 96, № 18. P. 9997-10002.

90. Singh J. et al. The resurgence of covalent drugs. // Nat. Rev. Drug Discov. 2011. Vol. 10, № 4. P. 307-317.

91. Liu Q. et al. Developing irreversible inhibitors of the protein kinase cysteinome // Chem. Biol. 2013. Vol. 20, № 2. P. 146-159.

92. Woyach J. a et al. Resistance mechanisms for the Bruton's tyrosine kinase inhibitor ibrutinib. // New Eng. J. Med. 2014. Vol. 370, № 24. P. 2286-2294.

93. Halgren T.A. Identifying and characterizing binding sites and assessing druggability // J. Chem. Inf. Model. 2009. Vol. 49, № 2. P. 377-389.

94. Byrd J.C. et al. Targeting BTK with ibrutinib in relapsed chronic lymphocytic leukemia. // N. Engl. J. Med. 2013. Vol. 369, № 1. P. 32.

95. Schuler M. et al. First-Line Afatinib versus Chemotherapy in Patients with Non-Small Cell Lung Cancer and Common Epidermal Growth Factor Receptor Gene Mutations and Brain Metastases. // J. Thorac. Oncol. Elsevier Inc, 2016. Vol. 11, № 3. P. 380-390.

96. Berndt N., Karim R.M., Schonbrunn E. Advances of small molecule targeting of kinases // Curr. Opin. Chem. Biol. 2017. Vol. 39. P. 126-132.

97. Jorgensen W.L. The Many Roles of Computation in Drug Discovery // Science (80-. ). 2004. Vol. 303, № 5665. P. 1813-1818.

98. Wong H.S. et al. Integrative bioinformatic analyses of an oncogenomic profile reveal the biology of endometrial cancer and guide drug discovery. 2015. Vol. 7, № 5.

99. Ishida S. et al. Bioinformatic Screening of Autoimmune Disease Genes and Protein Structure Prediction with FAMS for Drug Discovery. // Protein Pept. Lett. 2013. P. 828-839.

100. Zgoda V.G. et al. Chromosome 18 transcriptome profiling and targeted proteome mapping in depleted plasma, liver tissue and HepG2 cells // J. Proteome Res. 2013. Vol. 12, № 1. P. 123-134.

101. Brylinski M., Skolnick J. Cross-reactivityvirtual profiling of the human kinome by X-ReactKIN - a Chemical Systems Biology approach // Mol. Pharm. 2010. Vol. 7, № 6. P. 2324-2333.

102. Billur Engin H. et al. Network-based strategies can help mono-and poly-pharmacology drug discovery: a systems biology view // Curr. Pharm. Des. Bentham Science Publishers, 2014. Vol. 20, № 8. P. 1201-1207.

103. Konova V. et al. Virtual screening of chemical compounds active against breast cancer cell lines based on cell cycle modelling, prediction of cytotoxicity and interaction with targets. // SAR QSAR Environ. Res. 2015. Vol. 26, № 7-9. P. 595-604.

104. Russ A.P., Lampel S. The druggable genome: An update // Drug Discov. Today. 2005. Vol. 10, № 23-24. P. 1607-1610.

105. Sushko I. et al. ToxAlerts: A web server of structural alerts for toxic chemicals and compounds with potential adverse reactions // J. Chem. Inf. Model. 2012. Vol. 52, № 8. P. 2310-2316.

106. Baell J.B., Holloway G.A. New substructure filters for removal of pan assay interference compounds (PAINS) from screening libraries and for their exclusion in bioassays // J. Med. Chem. 2010. Vol. 53, № 7. P. 2719-2740.

107. Blake J.F. Chemoinformatics - Predicting the physicochemical properties of

"drug-like" molecules // Curr. Opin. Biotechnol. 2000. Vol. 11, № 1. P. 104-107.

108. Humbeck L. et al. CHIPMUNK: A Virtual Synthesizable Small-Molecule Library for Medicinal Chemistry, Exploitable for Protein-Protein Interaction Modulators // ChemMedChem. 2018.

109. Schäfer T., Mutzel P. Struclus: scalable structural graph set clustering with representative sampling // International Conference on Advanced Data Mining and Applications. 2017. P. 343-359.

110. Yongye A.B., Waddell J., Medina-Franco J.L. Molecular Scaffold Analysis of Natural Products Databases in the Public Domain // Chem. Biol. Drug Des. 2012. Vol. 80, № 5. P. 717-724.

111. Willett P. Chemoinformatics - Similarity and diversity in chemical libraries // Curr. Opin. Biotechnol. 2000. Vol. 11, № 1. P. 85-88.

112. Pogodin P.V. et al. PASS Targets: Ligand-based multi-target computational system based on a public data and naïve Bayes approach // SAR QSAR Environ. Res. 2015. Vol. 26, № 10. P. 783-793.

113. Filimonov D.A.A. et al. Prediction of the biological activity spectra of organic compounds using the pass online web resource // Chem. Heterocycl. Compd. 2014. Vol. 50, № 3. P. 444-457.

114. Oprea T.I. Virtual screening in lead discovery: A viewpoint // Molecules. 2002. Vol. 7, № 1. P. 51-62.

115. Kalyaanamoorthy S., Chen Y.P.P. Structure-based drug design to augment hit discovery // Drug Discov. Today. Elsevier Ltd, 2011. Vol. 16, № 17-18. P. 831-839.

116. Klepeis J.L. et al. Integrated computational and experimental approach for lead optimization and design of compstatin variants with improved activity // J. Am. Chem. Soc. 2003. Vol. 125, № 28. P. 8422-8423.

117. Nicolaou C.A., Brown N. Multi-objective optimization methods in drug design // Drug Discov. Today Technol. Elsevier Ltd, 2013. Vol. 10, № 3. P. 1-9.

118. Whitaker A.M. et al. Approaches to Phase 1 Clinical Trial Design Focused on Safety, Efficiency and Selected Patient Populations: A Report from the Clinical

Trial Design Task Force of the National Cancer Institute Investigational Drug Steering Committee. 2016. Vol. 19, № 1. P. 69-77.

119. Napolitano F. et al. Drug repositioning: a machine-learning approach through data integration // J Cheminform. 2013. Vol. 5, № 1. P. 30.

120. Andronis C. et al. Literature mining, ontologies and information visualization for drug repurposing // Brief. Bioinform. 2011. Vol. 12, № 4. P. 357-368.

121. Ferreira L.G. et al. Molecular docking and structure-based drug design strategies // Molecules. 2015. Vol. 20, № 7. 13384-13421 p.

122. Competition L., Affects D., In I. Recent Advances in Ligand-Based Drug Design: Relevance and Utility of the Conformationally Sampled Pharmacophore Approach. 2008. Vol. 86, № 12. P. 3279-3288.

123. Alonso H., Bliznyuk A.A., Gready J.E. Combining docking and molecular dynamic simulations in drug design // Med. Res. Rev. 2006. Vol. 26, № 5. P. 531-568.

124. Meier A., Soding J. Automatic Prediction of Protein 3D Structures by Probabilistic Multi-template Homology Modeling // PLoS Comput. Biol. 2015. Vol. 11, № 10. P. 1-20.

125. Zhou J., Troyanskaya O.G. Deep Supervised and Convolutional Generative Stochastic Network for Protein Secondary Structure Prediction. 2014. Vol. 32.

126. Zhao H. et al. Discovery of BRD4 bromodomain inhibitors by fragment-based high-throughput docking // Bioorganic Med. Chem. Lett. Elsevier Ltd, 2014. Vol. 24, № 11. P. 2493-2496.

127. Fujita T., Winkler D.A. Understanding the Roles of the "two QSARs" // J. Chem. Inf. Model. 2016. Vol. 56, № 2. P. 269-274.

128. Wang R. et al. The PDBbind database: methodologies and updates // J. Med. Chem. ACS Publications, 2005. Vol. 48, № 12. P. 4111-4119.

129. Merget B. et al. Profiling Prediction of Kinase Inhibitors: Toward the Virtual Assay // J. Med. Chem. 2017. Vol. 60, № 1. P. 474-485.

130. Gao Y. et al. A broad activity screen in support of a chemogenomic map for kinase signalling research and drug discovery // Biochem. J. 2013. Vol. 451, № 2. P. 313-328.

131. Lever J., Krzywinski M., Altman N. Points of Significance: Model selection and overfitting // Nat. Methods. Nature Publishing Group, 2016. Vol. 13, № 9. P. 703-704.

132. Baskin I.I., Winkler D., Tetko I. V. A renaissance of neural networks in drug discovery // Expert Opin. Drug Discov. 2016. Vol. 441, № June. P. 17460441.2016.1201262.

133. Cortés-Ciriano I. et al. Polypharmacology modelling using proteochemometrics (PCM): recent methodological developments, applications to target families, and future prospects // Med. Chem. Commun. 2015. Vol. 6, № 1. P. 24-50.

134. Martin E. et al. Profile-QSAR: A novel meta-QSAR method that combines activities across the kinase family to accurately predict affinity, selectivity, and cellular activity // J. Chem. Inf. Model. 2011. Vol. 51, № 8. P. 1942-1956.

135. Lapinsh M. et al. Improved approach for proteochemometrics modeling: application to organic compound--amine G protein-coupled receptor interactions. // Bioinformatics. 2005. Vol. 21, № 23. P. 4289-4296.

136. Bosc N. et al. Prediction of Protein Kinase-Ligand Interactions through 2.5D Kinochemometrics // J. Chem. Inf. Model. 2017. Vol. 57, № 1. P. 93-101.

137. Fourches D., Muratov E., Tropsha A. Trust, but Verify II: A Practical Guide to Chemogenomics Data Curation // J. Chem. Inf. Model. 2016. Vol. 56, № 7. P. 1243-1252.

138. Tarasova O.A. et al. QSAR Modeling Using Large-Scale Databases: Case Study for HIV-1 Reverse Transcriptase Inhibitors // J. Chem. Inf. Model. 2015. Vol. 55, № 7. P. 1388-1399.

139. Filimonov D. et al. Chemical Similarity Assessment through Multilevel Neighborhoods of Atoms: Definition and Comparison with the Other Descriptors // J. Chem. Inf. Comput. Sci. 1999. Vol. 39, № 4. P. 666-670.

140. Lagunin A. et al. PASS: prediction of activity spectra for biologically active substances. // Bioinformatics. 2000. Vol. 16, № 8. P. 747-748.

141. Bischl B. et al. mlr: Machine Learning in R // J. Mach. Learn. Res. 2016. Vol. 17. P. 1-5.

142. Robin X. et al. pROC: an open-source package for R and S+ to analyze and compare ROC curves // BMC Bioinformatics. 2011. Vol. 12, № 1. P. 77.

143. Wickham H. ggplot2: elegant graphics for data analysis. Springer, 2016.

144. Pedregosa F. et al. Scikit-learn: Machine learning in Python // J. Mach. Learn. Res. 2011. Vol. 12, № Oct. P. 2825-2830.

145. Kalliokoski T., Kramer C., Vulpetti A. Quality issues with public domain chemogenomics data // Mol. Inform. 2013. Vol. 32, № 11-12. P. 898-905.

146. Tiikkainen P. et al. Estimating error rates in bioactivity databases // J. Chem. Inf. Model. 2013. Vol. 53, № 10. P. 2499-2505.

147. Papadatos G. et al. Activity, assay and target data curation and quality in the ChEMBL database // J. Comput. Aided. Mol. Des. Springer International Publishing, 2015. Vol. 29, № 9. P. 885-896.

148. Tukey 1949. Comparing Individual Means in the Analysis of Variance Author ( s ): John W . Tukey Published by : International Biometric Society Stable URL : http://www.jstor.org/stable/3001913 . // Biometrics. 1949. Vol. 5, № 2. P. 99-114.

149. Indyk P., Motwani R. Approximate nearest neighbors: towards removing the curse of dimensionality // Proceedings of the thirtieth annual ACM symposium on Theory of computing. 1998. P. 604-613.

150. Bawa M., Condie T., Ganesan P. LSH forest: self-tuning indexes for similarity search // Proc. 14th Int. Conf. World Wide Web - WWW '05. 2005. P. 651.

151. Druzhilovskiy D.S. et al. Computational platform Way2Drug: from the prediction of biological activity to drug repurposing // Russ. Chem. Bull. 2017. Vol. 66, № 10.

152. Wang Y.J. et al. Repositioning of tyrosine kinase inhibitors as antagonists of ATP-binding cassette transporters in anticancer drug resistance // Cancers (Basel). 2014. Vol. 6, № 4. P. 1925-1952.

153. Angehagen M. et al. Novel mechanisms of action of three antiepileptic drugs, vigabatrin, tiagabine, and topiramate // Neurochem. Res. Springer, 2003. Vol. 28, № 2. P. 333-340.

154. Gryder D.S., Rogawski M.A. Selective antagonism of GluR5 kainate-receptor-mediated synaptic currents by topiramate in rat basolateral

amygdala neurons // J. Neurosci. Soc Neuroscience, 2003. Vol. 23, № 18. P. 7069-7074.

155. Ivanov S.M. et al. Identification of drug targets related to the induction of ventricular tachyarrhythmia through a systems chemical biology approach // Toxicol. Sci. 2015. Vol. 145, № 2.

156. Ivanov S.S.M. et al. Identification of Drug-Induced Myocardial Infarction-Related Protein Targets through the Prediction of Drug Target Interactions and Analysis of Biological Processes // Chem. Res. Toxicol. 2014. Vol. 27, № 7.

157. POWERS D.M.W. Evaluation: From Precision, Recall and F-Measure To Roc, Informedness, Markedness & Correlation // J. Mach. Learn. Technol. 2011. Vol. 2, № 1. P. 37-63.

158. Altman D.G., Bland J.M. Statistics Notes: Diagnostic tests 2: predictive values // Bmj. British Medical Journal Publishing Group, 1994. Vol. 309, № 6947. P. 102.

159. O'Meara M.J. et al. Ligand similarity complements sequence, physical interaction, and Co-Expression for gene function prediction // PLoS One. 2016. Vol. 11, № 7. P. 1-20.

7. СПИСОК ИЛЛЮСТРАТИВНОГО МАТЕРИАЛА

РИСУНКИ

Рисунок 1. Схема взаимодействия моноклональных антител и низкомолекулярных ингибиторов с рецепторными киназами. А - функционирование рецепторной протеинкиназы в отсутствии ингибиторов. Б - блокирование активности рецепторной киназы моноклональным антителом. В - сохранение активности в присутствии монокланального антитела при наличии активирующей мутации в гене протеинкиназы (нежелательная, но возможная ситуация в клетках опухолей). Г - блокирование активности рецепторной протеинкиназы низкомолекулярным ингибитором даже при наличии активирующей мутации в ее гене.

Рисунок 2. Схема формирования различных типов обучающих выборок. Из общего массива данных были сформированы индивидуальные обучающие выборки, содержащие структурные формулы и записи о наличии/отсутствии активности химических соединений в отношении отдельных киназ. Всего было создано 152 индивидуальные выборки (по числу киназ), каждая из которых состояла из пяти подвыборок. В дальнейшем соответствующие подвыборки всех индивидуальных выборок были объединены, чтобы создать подвыборки смешанных выборок, при этом АН-В представляет собой полное объединение индивидуальных выборок, а А-В не содержит записей об отсутствии ингибирующей активности.

Рисунок 3. Схема стратифицированной пятикратной кросс-валидации классификаторов, построенных с использованием различных типов выборок. В качестве тестовых всегда использовались подвыборки типа И-В, чтобы оценивать качество классификаторов только с использованием экспериментальных данных («истинно» активных и неактивных). Справедливость такого подхода обеспечена особенностями формирования выборок.

Рисунок 4. Схема формирования ограниченной области для приближенного поиска ближайших соседей в заданном пространстве признаков. Все объекты, присутствующие в заданном пространстве признаков, обозначены небольшими серыми кругами, объект для которого осуществляется поиск ближайших соседей, - довольно крупным черным кругом. Результатом применения хеш-функции к объектам в заданном пространстве является их принадлежность к одному из многоугольников. Суммарное покрытие пространства многоугольниками, которым принадлежит объект запроса, формирует область поиска, пример такой области показан на Рисунке 4 справа.

Рисунок 5. Распределения протеинкиназ, представленных отдельными белками в программах PASS 2011 (А) и PASS 2014 (Б), по филогенетическому дереву, и сравнение качества прогноза и представленности различных киназ в списке прогнозируемых программой PASS активностей до и после включения данных из ChEMBL в обучение (В). (иллюстрация подготовлена на основе материалов компании Cell Signaling Technology - www.cellsignal.com).

Рисунок 6. Распределение мишеней, представленных в выборках, созданных для выполнения третьей задачи, по филогенетическому дереву киназ человека. Дерево киназ воспроизводит интеллектуальную собственность компании Cell Signaling, Inc. (www.cellsignal.com).

Рисунок 7. Распределение количеств активных соединений по количеству киназ, в отношении которых они показали значимую ингибирующую активность. Количества активных соединений даны в логарифмической шкале.

Рисунок 8. Корреляция между количеством киназ, в отношении которого были протестированы на ингибирующую активность химические соединения, и количеством киназ, в отношении которого они проявили эту активность в значительной степени: А - корреляция для всех соединений (слабая); Б -корреляция для подмножества соединений, протестированных в отношении не более чем 80-ти киназ (умеренная); В - корреляция для подмножества соединений, протестированных в отношении 81 -ой киназы и более (отсутствует).

Рисунок 9. Корреляция между значениями критериев оценки качества прогноза и соотношение положительных и отрицательных примеров в тестовых выборках. Значения приведены только для F1-меры и положительной предсказательной ценности, поскольку только для них наблюдается существенная корреляция. При построении зависимостей были использованы результаты стратифицированной пятикратной валидации.

Рисунок 10. Сравнение качества классификаторов, построенных с использованием различных типов обучающих выборок на примере стратифицированной кросс-валидации. Результаты классификаторов, разница между которыми оказалась статистически значимой, приведены в разных оттенках серого. Для сравнения качества классификации, достигнутого с использованием различных типов обучающих выборок, были использованы результаты стратифицированной пятикратной кросс- валидации.

Рисунок 11. Сравнение качества классификаторов, построенных с использованием различных типов обучающих выборок на примере проспективной валидации. Результаты классификаторов, разница между которыми оказалась статистически значимой, приведены в разных оттенках серого. Для сравнения качества классификации, достигнутого с использованием различных типов обучающих выборок, были использованы результаты проспективной валидации.

Рисунок 12. Влияние количества новых дескрипторов на качество прогноза (А) и проценты химических соединений, чьи структурные формулы содержат заданное количество новых дескрипторов (Б). Графики построены с использованием результатов стратифицированной пятикратной кросс-валидации, за новые были приняты те дескрипторы, которые встречались в структурах химических соединений из тестовой выборки, но отсутствовали у соединений из обучающей.

Рисунок 13. Сравнение качества классификаторов, построенных с использованием различных типов обучающих выборок на примере стратифицированной кросс-валидации. Для сравнения качества классификации, достигнутого с использованием различных типов обучающих выборок, были использованы

результаты стратифицированной пятикратной кросс- валидации. Результаты классификаторов, разница между которыми оказалась статистически значимой, приведены в разных оттенках серого.

Рисунок 14. Сравнение качества классификаторов, построенных с использованием различных типов обучающих выборок на примере проспективной валидации. Для сравнения качества классификации, достигнутого с использованием различных типов обучающих выборок, были использованы результаты проспективной валидации. Результаты классификаторов, разница между которыми оказалась статистически значимой, приведены в разных оттенках серого.

Рисунок 15. Киназы, поиск ингибиторов которых можно ускорить за счет использования выборок типа А-В или АН-В при построении классификаторов. Пустые ячейки соответствуют тем значениям а, для которых использовать И-В более выгодно.

Рисунок 16. Матрица сходства профилей субмикромолярных ингибиторов 396 киназ человека.

Рисунок 17. Кластеры киназ, сформированные на основе сходства профилей субмикромолярных ингибиторов.

Рисунок 18. Распределение киназ из двух различных кластеров по филогенетическому дереву. Красные круги соответствуют киназам, попавшим в кластер, который объединяет представителей различных ветвей кинома. Синие круги соответствуют киназам, попавшим в кластер, состоящий из представителей только одной ветви кинома.

Рисунок 19. KinScreen. Интерфейс ввода структурной информации о химическом соединении для последующего выполнения прогноза ингибирования киназ человека. А - ввод с помощью графического редактора структур химических соединений, MarvinJS. Б - текстовое поле для ввода структурной информации в формате InChi. В - текстовое поле для ввода структурной информации в формате SMILES. Г - текстовое поле для ввода структурной информации в формате Mol.

Для получения результатов достаточно использовать один способ ввода, все поля заполнены на этом Рисунке исключительно в иллюстративных целях.

Рисунок 20. Расположение на филогенетическом древе тех киназ, в отношении которых KinScreen позволяет выполнять компьютерную оценку ингибирования. Киназы отображены в виде красных кругов. Мишени, в отношении которых KinScreen позволяет выполнять компьютерную оценку ингибирующей активности, равномерно покрывают все основные ветви кинома человека.

Рисунок 21. KinScreen. Выдача результатов прогноза для двух одобренных к применению в клинической практике ингибиторов киназ, сунитиниба (сверху) и кобиметиниба (снизу). На примере результатов для кобиметиниба выделены основные элементы выдачи: A - дерево киназ, на котором в виде красных кругов отображаются спрогнозированные мишени. Б - структура химического соединения, для которого был выполнен прогноз. В - таблица с ближайшими, в пространстве спрогнозированных активностей, соседями химической структуры, отправленной на прогноз, и расстояниями до них. Г - таблица с основными результатами прогноза. Красным на Рисунке выделены поля, позволяющие ограничить выдачу, задав минимальную допустимую величину Pa-Pi, точности прогноза в отношении данной киназы, или введя имя интересующей киназы или фрагмент имени. Ограничения, наложенные на значения Pa-Pi и точности прогноза, затрагивают как на основную таблицу, так и дерево киназ (мишени, прогноз для которых не отвечает заданным требованиям, перестают отображаться). Зеленым на Рисунке выделены кнопки для копирования и сохранения информации в файл.

Рисунок 22. Схема организации данных в ChEMBL, релевантная 23-ей версии этой БД.

ТАБЛИЦЫ

Таблица 1. Критерии оценки качества прогноза.

Таблица 2. Соответствие между значениями параметра а при расчете BEDROC и величиной оцениваемой доли выборки.

Таблица 3. Значения критериев качества прогноза PASS Targets.

Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.