Уровень локального метилирования ДНК в регуляции экспрессии генов тема диссертации и автореферата по ВАК РФ 00.00.00, кандидат наук Лиознова Анна Валерьевна
- Специальность ВАК РФ00.00.00
- Количество страниц 175
Оглавление диссертации кандидат наук Лиознова Анна Валерьевна
Научная новизна
Методология и методы исследования
Положения, выносимые на защиту
Степень достоверности и апробация результатов
Литературный обзор
Метилирование ДНК
Функциональная роль метилирования ДНК
Механизм метилирования и деметилирования ДНК
Факторы инициации транскрипции
Метилирование ДНК и связывание ТФ
Заболевания, связанные с нарушениями метилирования ДНК
Острый миелоидный лейкоз
Эпигенетическая терапия
Основные экспериментальные методы, данные которых использованы в
работе
Измерение уровня метилирования ДНК
Анализ экспрессии генов с помощью секвенирования РНК
СЫР^
Математические подходы к поиску причинно-следственных связей
Исследование взаимосвязи метилирования Срв-сайтов и экспрессии генов 45 Экспериментально-показанное влияние метилирования отдельных
Срв на экспрессию генов
Полногеномные ассоциации между метилированием и экспрессией 47 Причинно-следственные связи между метилированием ДНК и экспрессией
Резюме обзора
Методы исследования
Обработка прочтений WGBS и РНК-сек
Определение CpG-светофоров
Подбор фоновых CpG-позиций
Геномные аннотации
Эволюционная консервативность
Модификации гистонов и состояния хроматина
Предсказание сайтов связывания транскрипционных факторов
Анализ обогащения генами
Данные о связывании ТЕТ2
Данные о 5-гидроксиметилцитозине
Анализ образцов с ОМЛ
Поиск причинно-следственных связей
Результаты исследования
Уточнение определения CpG-светофоров
Расположение CpG-светофоров
Эволюционная консервативность CpG-светофоров
Регуляторные элементы обогащены CpG-светофорами
Гены факторов инициации транскрипции обогащены CpG-светофорами,
но большинство сайтов их связывания CpG-светофоров избегают
Обогащение CpG-светофорами сайтов связывания NR.F1
Обогащение CpG-светофорами сайтов связывания белков семейства ETS
Обогащение CpG-светофорами сайтов связывания белков семейств
STAT и IRF
Гетерогенность уровней метилирования и динамическое деметилирование 86 Активное деметилирование происходит в CpG-сайтах, в которых метилирование зависит от экспрессии
Приложение методологии поиска CpG-светофоров при заболевании ОМЛ 92 Обогащение генов, имеющих CpG-светофор, гемопоэтическими
категориями генной онтологии при ОМЛ
CpG-светофоры гиперметилированы при мутациях в гене RUNX1
Обсуждение результатов
Заключение
Выводы
Список сокращений
Список литературы
Введение
Данная работа посвящена исследованию взаимосвязи между экспрессией генов и эпигенетическими механизмами, в частности, метилированием ДНК. Диссертация состоит из шести глав.
В настоящем введении обосновывается актуальность работы, ее теоретическая и практическая значимость, анализируется степень разработанности темы. Определяются цели и задачи исследования, формулируется научная новизна, кратко описываются методология и методы исследования. Далее представлены положения, выносимые на защиту, а также обосновывается степень достоверности полученных результатов и приводятся сведения об их апробации.
Обзор литературы включает семь разделов. В первом разделе рассматривается метилирование ДНК, его функциональная роль, а также механизмы метилирования и деметилирования ДНК. Далее анализируется взаимосвязь метилирования ДНК с факторами инициации транскрипции. В следующем разделе кратко рассматриваются эпигенетические заболевания, ассоциированные с нарушениями метилирования ДНК, и анализируются доступные способы эпигенетической терапии. Далее представлен обзор существующих экспериментальных методов, используемых для получения данных, исследуемых в данной работе. Особое внимание уделяется технологиям изучения метилирования ДНК, РНК-секвенированию для измерения уровня экспрессии генов и ChIP-секвенированию. В следующем разделе рассматривается математический подход к поиску причинно-следственных связей (causal inference). После обзора методов проведен анализ работ, посвященных изучению связи между метилированием ДНК и экспрессией генов. Обзор литературы завершается постановкой задачи исследования.
В главе "Методы исследования" описываются методы обработки данных и проведенные статистические тесты. В главе "Результаты исследования" представлены основные результаты, полученные автором. Работа завершается обсуждением результатов и выводами. Список литературы включает 297 источников.
Рекомендованный список диссертаций по специальности «Другие cпециальности», 00.00.00 шифр ВАК
Влияние генов TP63 и TRIM29 на формирование эпигеномной вариабельности и хромосомной нестабильности в раке предстательной железы2021 год, кандидат наук Султанов Ринат Илгизович
Хромосомная, клеточная и тканевая специфичность гидроксиметилирования ДНК в проэмбриональный и эмбриональный периоды развития человека2018 год, кандидат наук Тихонов Андрей Владимирович
Поиск и характеристика новых механизмов влияния белка Kaiso на метилирование ДНК2023 год, кандидат наук Каплун Дарья Сергеевна
Гены микроРНК, подверженные метилированию в опухолях легкого и толстой кишки, и их диагностическое значение2013 год, кандидат биологических наук Рыков, Сергей Викторович
Изменения метилирования ДНК в ответ на появление онкогенных мутаций и при адаптации к внешней среде2021 год, кандидат наук Артемов Артем Владимирович
Введение диссертации (часть автореферата) на тему «Уровень локального метилирования ДНК в регуляции экспрессии генов»
Актуальность темы исследования
Одна из важных задач современной геномики - изучение регуляции экспрессии генов, в частности, эпигенетической регуляции. В настоящий момент известно несколько эпигенетических механизмов; один из наиболее изученных - метилирование цитозинов в ДНК. Функциональные эффекты метилирования ДНК чаще всего изучались на уровне крупных блоков, таких как CpG-островки в промоторах генов. Однако на уровне отдельных цитозинов эти эффекты не всегда очевидны. В частности, связь между метилированием отдельных цитозинов и экспрессией конкретных генов выявлена далеко не для всех регуляторных геномных участков. Таким образом, актуальной является задача поиска маркеров - отдельных цитозинов или их коротких кластеров, метилирование которых связано с экспрессией генов, - позволяющих быстро, надежно и дешево получать информацию об активности генов в конкретном образце.
Кроме того, направление причинно-следственной связи между метилированием ДНК и экспрессией гена не всегда очевидно, понимание этого направления позволило бы определить, на какой из процессов необходимо влиять для достижения нужного эффекта. Современные методы, основанные на геномном редактировании, потенциально могут изменять эпигенетический статус конкретного регуляторного элемента. Однако, для развития этого подхода необходим атлас позиций в геноме, метилирование которых потенциально является регуляторным, что также делает тему исследования востребованной.
Применение разработанной методологии к изучению острого миелобласт-ного лейкоза (ОМЛ) представляет особый интерес. ОМЛ является результатом злокачественной трансформации стволовой гемопоэтической клетки и приводит к смерти 75-80% пациентов в течение 5 лет. Этот показатель мало изменился за последние 20 лет, несмотря на прогресс в исследовании лейкемий. ОМЛ можно считать "эпигенетическим" заболеванием, поскольку наиболее частыми являются мутации в генах, участвующих в метилировании и деметилировании ДНК. Хотя эпигенетические препараты (деметилирующие агенты, ингибиторы деацетилаз гистонов) уже используются в клинике для лечения ОМЛ, они не обеспечивают точечного воздействия на целевые участки генома. Методы, основанные на геномном редактировании, потенциально лишены этого недостатка. Выявление CpG-позиций, критических для развития ОМЛ, важно для разработки диагности-
ческих и прогностических маркеров, а также персонализированных терапевтических подходов.
Теоретическая и практическая значимость
Эпигенетический профиль может существенно изменяться при различных заболеваниях, в особенности онкологических. В частности, это характерно для ОМЛ. Однако связь между метилированием отдельных Срв-позиций и экспрессией генов в масштабе полного генома изучена недостаточно. Кроме того, полногеномный поиск регуляторных элементов (энхансеров и суперэнхансеров) затруднен в связи с высокой тканевой специфичностью их активности и большим расстоянием до регулируемых генов. В данном исследовании идентифицированы позиции, метилирование которых значимо коррелирует с экспрессией генов, - Срв-светофоры. Эти позиции значительно обогащены в энхансерных областях генома, в особенности в энхансерах, ассоциированных с гемопоэзом. Таким образом, обнаружение Срв-светофоров облегчает поиск регуляторных элементов, а уровень их метилирования может служить индикатором активности этих элементов.
Данный подход может быть использован для решения таких практических задач, как опосредованная оценка экспрессии генов при различных заболеваниях. В связи с тем, что Срв-светофоры особенно часто локализуются в гемопоэтических энхансерах, они представляют особый интерес для изучения заболеваний системы крови, в частности, ОМЛ. Измерение уровня метилирования может оказаться предпочтительнее прямого измерения экспрессии генов в клинической практике, поскольку ДНК - более стабильная молекула. Таким образом, идентифицированные маркеры перспективны для применения в клинической диагностике.
Полученные данные о регуляторных Срв-светофорах могут быть использованы для разработки новых подходов к эпигенетической терапии с помощью технологий редактирования генома. Эти подходы направлены на изменение метилирования специфических Срв-позиций и коррекцию экспрессии генов при различных заболеваниях, включая ОМЛ.
Степень разработанности темы
Изучению взаимосвязи между метилированием ДНК и экспрессией генов посвящено множество работ. Современные технологии, основанные на бисульфит-ном секвенировании, позволяют получать профиль метилирования ДНК с одно-нуклеотидным разрешением. Однако в стандартном биоинформатическом анализе регуляции экспрессии зачастую усредняются уровни метилирования десятков соседних нуклеотидов для увеличения статистической мощности анализа [1,2]. Тем не менее, существуют примеры, свидетельствующие о том, что изменения в уровне метилирования отдельных CpG-динуклеотидов может влиять на транскрипцию.
В работе нашей лаборатории было показано, что уровни метилирования некоторых CpG-динуклеотидов тесно связаны с экспрессией близлежащих генов [3]. Подобные CpG-позиции были названы CpG-светофорами (CpG traffic lights, CpG TL). В работе [3] было продемонстрировано наличие сильного отрицательного отбора против них в сайтах связывания факторов транскрипции, предсказанных численно. Однако механизмы регуляции, связанные с CpG-светофорами, остались невыясненными и требуют дальнейшего изучения.
Особый интерес представляет выявление причинно-следственных связей между экспрессией генов и уровнем метилирования ДНК. В этой области применяются математические подходы, но на сегодняшний день результаты остаются противоречивыми.
Цели и задачи исследования
Целью данного исследования является поиск отдельных CpG-динуклеотидов в геноме, метилирование которых может служить маркером экспрессии ассоциированного гена, а также поиск механизмов регуляции транскрипции, в которых такие динуклеотиды могут участвовать, и выявление причинно-следственных связей между экспрессией и метилированием.
Для достижения поставленной цели необходимо решить следующие задачи:
• Усовершенствовать методологию определения регуляторных CpG-позиций;
• Провести полногеномный поиск CpG-светофоров для Homo Sapiens;
• Выявить причинно-следственные связи между метилированием CpG-светофоров и экспрессией генов;
• Определить функциональную роль CpG-светофоров;
• Выявить связь между метилированием CpG-светофоров и сайтами связывания факторов инициации транскрипции;
• Применить разработанную методологию для практической задачи поиска CpG-позиций, метилирование которых играет роль при ОМЛ.
Научная новизна
В текущей работе мы расширили определение CpG-светофоров и осуществили их полногеномный поиск. Было показано обогащение CpG-светофорами регуляторных областей, в частности, активных энхансеров, а не только промоторов. Особо сильное обогащение было показано в так называемых "готовых к транскрипции" (poised) промоторах. Хотя CpG-светофоры и могут регулировать транскрипционные факторы, кофакторы и эпигенетические регуляторы, связывание только небольшого числа транскрипционных факторов может напрямую регулироваться метилированием CpG-светофора, находящегося непосредственно в сайте связывания транскрипционного фактора (TFBS, transcription factor binding site). Для большинства же транскрипционных факторов (ТФ) более вероятен альтернативный сценарий, при котором CpG-светофоры оказываются лишь надежными маркерами инактивации всего регуляторного региона. Также показано, что уровень метилирования CpG-светофоров является непостоянным, и часто деме-тилирование таких позиций является следствием активной транскрипции. Кроме того, показана важность CpG-светофоров в гемопоэзе и их роль при ОМЛ. Автор предполагает, что изучение CpG-светофоров способно прояснить механизм активации энхансеров и регуляции экспрессии генов, связав метилирование одиночных CpG-динуклеотидов и экспрессию генов.
Методология и методы исследования
Для решения поставленных задач применялись современные методы биоин-форматического и статистического анализа. Обработка данных бисульфитного секвенирования и секвенирования РНК проводилась с использованием общепринятых программных комплексов и стандартных подходов к нормализации данных. Для оценки взаимосвязи между метилированием и экспрессией использовался коэффициент корреляции Спирмена. Для определения уровня значимости полученных результатов применялись общепринятые статистические подходы, вклю-
чая точный критерий Фишера и коррекцию FDR для множественного сравнения. Для изучения причинно-следственных связей проводился анализ распределения остатков линейной модели.
Положения, выносимые на защиту
• Метилирование CpG-светофоров существенно чаще отражает уровень экспрессии генов, чем среднее метилирование промоторов или тела генов;
• CpG-светофоры эволюционно консервативны и обогащены в регуляторных районах генома, особенно в "готовых к транскрипции, но неактивных" (poised) промоторах и активных энхансерах;
• Связывание некоторых факторов инициации транскрипции может регулироваться непосредственно через метилирование сайтов связывания или их окрестностей;
• Уровни метилирования CpG-светофоров демонстрируют гетерогенность в популяции клеток;
• Деметилирование CpG-светофоров является динамическим процессом, и часто деметилирование таких позиций является следствием активной транскрипции;
• Транскрипционный фактор RUNX1 может рекрутировать TET2 для поддержания неметилирванного состояния CpG-светофоров. Мутации в RUNX1 приводят к гиперметилированию его сайтов связывания при ОМЛ.
Степень достоверности и апробация результатов
Достоверность результатов работы подтверждается использованием современных методов биоинформатического анализа, общепринятых статистических критериев, а также соответствием полученных результатов данным, опубликованным в ведущих научных журналах.
По материалам работы были сделаны доклады на следующих международных конференциях: MCCMB (Москва, 2017), FEBS (Израиль, Иерусалим, 2017), SBBI (Санкт-Петербург, 2016), SocBiN (Москва, 2016). Результаты также были представлены на отчетных конференциях аспирантов ФИЦ (Москва 2017, Москва 2018, Москва 2019).
По материалам диссертации опубликованы 3 статьи в рецензируемых научных журналах и 7 тезисов докладов на конференциях.
Статьи:
• A.V. Lioznova, Yu.A. Medvedeva. CpG Traffic Lights Are Involved in Active DNA Demethylation. Molecular Biology. 2024 Vol. 58, No. 6, pp. 1122-1131. doi: 10.1134/S0026893324090012.
• E.I. Romanova, A.V. Zubritskiy, A.V. Lioznova, A.J. Ogunleye, V.A. Golotin, A.A. Guts, A. Lennartsson, O.N. Demidov, Y.A. Medvedeva. RUNX1/CEBPA Mutation in Acute Myeloid Leukemia Promotes Hypermethylation and Indicates for Demethylation Therapy. Int J Mol Sci. 2022 Sep 27;23(19):11413. doi: 10.3390/ijms231911413.
• A.V. Lioznova, A.M. Khamis, A.V. Artemov, E. Besedina, V. Ramensky, V.B. Bajic, I.V. Kulakovskiy, Y.A. Medvedeva. CpG traffic lights are markers of regulatory regions in human genome // BMC Genomics. 2019 Feb 1;20(1):102. doi: 10.1186/s12864-018-5387-1.
Тезисы конференций:
• Лиознова А.В. CpG-светофоры - функциональные позиции, метилирование которых связано с экспрессией генов //Сборник тезисов отчётной конференции аспирантов: 24-28 июня 2019 г.: направление 06.06.01 «Биологические науки» / под редакцией В.О. Попова, К.Г. Скрябина; сост. Е.С. Титова. -Москва: МАКС Пресс, 2019. - стр. 109-113.
• Лиознова А.В. Моделирование генетических и эпигенетических процессов у млекопитающих //Сборник тезисов отчётной конференции аспирантов: 25-28 июня 2018 г.: направление 06.06.01 «Биологические науки» / под редакцией В.О. Попова, К.Г. Скрябина; сост. Е.С. Титова. - Москва: МАКС Пресс, 2018.-стр. 103-107.
• Лиознова А.В. Моделирование генетических и эпигенетических процессов у млекопитающих // Сборник тезисов отчётной конференции аспирантов: 19-25 июня 2017 г.: направление 06.06.01 «Биологические науки» / под редакцией В.О. Попова, К.Г. Скрябина; сост. Е.С. Титова. - Москва: МАКС Пресс, 2017. - стр. 94-97
• Lioznova A.V., Khamis A.M., Artemov A.V., Ramensky V., Bajic V.B., Medvedeva Y.A. CpG Traffic Lights: functional positions that are involved in regulation in humans // The FEBS Journal Volume 284, Issue Supplement S1, September 2017. - стр. 36
• Khamis A.M., Lioznova A.V., Artemov A.V., Ramensky V., Bajic V.B., Medvedeva Y.A. CpG traffic lights are markers of regulatory regions in humans // Proceedings of 8-th Moscow Conference on Computational Molecular Biology, July 27-30, 2017 Москва.
• Лиознова А.В., Камиз А.М., Кулаковский И.В., Воронцов И.Е., Макеев В.Ю., Байич В.Б., Медведева Ю.А.. Интеграция систем геномной регуляции // Acta Naturae, спецвыпуск том 2, 2016. - стр. 117-118
• Lioznova A.V., Khamis A., Artemov A.V., Bajic V.B., Medvedeva Y.A. Regulatory role of single CpG methylation. // International Conference SocBiN Bioinformatics June 14-16, 2016. - стр. 25-26
Вклад автора диссертации: автор принимал участие во всех этапах исследования, и все представленные результаты получены лично автором.
Автором была отобрана часть образцов для анализа (8 из 48, первичный анализ для 40 образцов был выполнен Абдуллой Камизом), произведена нормализация значений экспрессии и метилирования по всем образцам, уточнение критериев для отбора CpG-позиций и их полногеномный отбор для анализа, разработка методологии подбора фоновых позиций, перестановочные тесты. Автором также выполнен частотный анализ количества CpG-светофоров в различных геномных участках, функциональная аннотация энхансеров, анализ модификаций гистонов и состояний хроматина, анализ обогащения генами, анализ CpG-светофоров в сайтах связывания транскрипционных факторов (кроме анализа данных SELEX, который был проведен Елизаветой Беседеной). Значения треков GERP RS, PhyloP и оценки Eigen для всех CpG-позиций в геноме были получены Василием Ра-менским, автором был проведен сравнительный анализ значений этих оценок в CpG-светофорах и фоновых CpG-позициях. Определение CpG-светофоров при острым миелоидным лейкозом было также выполнено автором. Анализ образцов с ОМЛ был выполнен автором (Екатерина Романова выполнила первичный анализ в мутаций в RUNX1, анализ был позже уточнен и расширен автором для
Срв-светофоров). Анализ причинно-следственных связей был выполнен автором. Анализ активного деметилирования Срв-светофоров был также проведен автором.
Литературный обзор
Метилирование ДНК
Метилирование ДНК представляет собой ковалентную модификацию, при которой метильная группа (-СН3) присоединяется к одному из нуклеотидов в последовательности ДНК, не изменяя саму последовательность. В ДНК могут быть метилированы два типа нуклеотидов: цитозин и аденин, причем метилирование аденина встречается значительно реже. На Рис. 1 показано метилирование цитозина.
Рис. 1: Неметилированный и метилированнный цитозин. Источник: [4]
Метилирование цитозина широко распространено как в эукариотических, так и в прокариотических организмах. Уровень метилирования может варьировать в широких пределах в зависимости от вида, типа клеток и функционального состояния генома. Метилирование аденина наблюдалось в ДНК бактерий, растений, а также существенно реже в ДНК млекопитающих. Метилирование цитозина у растений и других организмов встречается в трех различных контекстах последовательности ДНК: Св (или Срв), СНв или СНН (где Н соответствует А, Т или С). У млекопитающих метилирование ДНК преимущественно встречается в контексте Срв-динуклеотидов, где цитозин непосредственно предшествует гуанину в последовательности ДНК, причем цитозины на обеих нитях обычно метилируются одновременно (Рис. 2). Однако в некоторых тканях, особенно в нейронах и эмбриональных стволовых клетках, обнаружено также метилирование в поп-Срв контексте (СрА, СрТ или СрС) [5, 6].
Н
Н
Суи>вше теШуЫес! СуШвше
Рис. 2: Метилирование в Срв-контексте. Адаптировано из [5]
В геномах млекопитающих метилировано около 70-80% всех Срв-динуклеотидов [7, 8, 9]. Распределение Срв-динуклеотидов в геноме неравномерно. Вне Срв-островков они встречаются относительно редко и, как правило, метилированы. Неметилированные Срв-динуклеотиды часто обнаруживаются в Срв-островках, которые присутствуют в 5'-регуляторных областях многих генов [10], а также многих других транскрибируемых регионах даже вдали от генов [11]. При этом, даже метилированные Срв-сайты, по-видимому, являются функциональными, что усложняет изучение связанных механизмов регуляции [12].
Срв-островки (Рис. 3) представляют собой участки ДНК длиной около 1000 пар оснований, имеющие высокую долю Срв-динуклеотидов и большое количество гуанитов (в) и цитозинов (С). Срв-островки обнаруживаются примерно в 70% промоторов генов человека [13]. Большинство Срв-островков остаются неметилированными, что обеспечивает возможность активной транскрипции соответствующих генов.
Unmethylated CpG Island
Activators, Histone Acetyltransferases,
Basal Transcriptional Machinery Protect the Island
__
т?ш
1_L
1
1
I
3
ur
RNA Transcription
Hypermethylated CpG Island
Transcriptional Repressors, Histone Deacetylases, DNA Methyltransferases and Methyl-binding Proteins] Shut-Down the Island
Spreading from Methylation Centers, Seeding of Methylation, Selective Advantage...
i
i
LJ
' С t Transcription is Abolished
Рис. 3: Промотор с CpG-островком. Источник: [14]
Функциональная роль метилирования ДНК
Метилирование ДНК ассоциировано со множеством физиологических и патологических процессов, таких как развитие организма, дифференцировка клеток, поддержание клеточной идентичности и плюрипотентности (см. [15, 16, 17]), старение [18], формирование памяти [19, 20], адаптация к воздействию окружающей среды, стрессы и различные диеты [21, 22, 23]. Нетипичные изменения в метилировании ДНК играют важную роль в развитии различных заболеваний, включая метаболические [24], сердечно-сосудистые [25], нейродегенеративные [26, 27] заболевания и различные виды онкологических заболеваний (обзор см. в [28]). В течение последнего десятилетия ДНК-деметилирующие препараты (Децитабин, Азацитидин) применяются в клинической практике для лечения острого миело-идного лейкоза и миелодиспластического синдрома [29]. Последние достижения в области сайт-специфичного редактирования профиля метилирования ДНК [30] свидетельствуют о том, что метилирование ДНК является перспективной мишенью для терапии заболеваний, связанных с аберрантным метилированием.
Метилирование ДНК в промоторных областях функционально тесно связано с подавлением инициации транскрипции, в то время как высокий уровень метилирования в теле гена, напротив, связан с повышением экспрессии гена (подроб-
нее см. [31]). Было показано, что активные энхансеры (дистальные регуляторные элементы, которые способствуют установлению правильного временного и специфичного для данного типа клеток паттерна экспрессии генов) инициируют транскрипцию коротких РНК [32]. В связи с этим неудивительно, что метилирование ДНК также регулирует и функционирование энхансеров [33, 34, 35, 36].
Взаимосвязь между метилированием ДНК и экспрессией генов неоднозначна. В большинстве случаев метилирование регуляторных элементов в промоторах (и энхансерах [37, 38]) приводит к подавлению экспрессии генов [39, 40, 41, 42, 43, 44]. Однако существует ряд генов, транскрипция которых не зависит от метилирования [45], а также ряд промоторов, для которых только метилирование отдельных участков влияет на экспрессию, тогда как метилирование других - нет [46, 47]. С другой стороны, метилирование тела гена часто ассоциировано с активной экспрессией. В этом случае метилирование ДНК является следствием активной транскрипции: комплекс элонгации привлекает гистоновую метилтрансферазу 8БТБ2, осуществляющую три-метилирование гистона Н3К36. В свою очередь, 8БТБ2 привлекает ДНК-метилтрансферазу БММТ3а, что вызывает метилирование в теле гена [31].
Гистоновый код. В связи с тем, что выше упомянуто метилирование гисто-нов, отметим, что метильная группа может присоединяться не только к ДНК, но и к белкам-гистонам. У каждого гистона в нуклеосоме есть глобулярная часть, на которую намотана ДНК, и относительно свободный "хвост". Аминокислотные остатки в этом "хвосте" могут подвергаться различным модификациям, которые часто называют гистоновыми метками. Существуют устойчивые комбинации ги-стоновых меток, характерные для различных регуляторных элементов (например промоторов или энхансеров). Причем, комбинации, активирующие и подавляющие транскрипцию, различны. Также существуют метки, позволяющие отличить гетерохроматин (компактизованный) от эухроматина. В качестве примера модификации гистонов, ассоциированной с активной транскрипцией, можно привести метилирование лизина 4 в гистоне Н3 (Н3К4те). Напротив, метилирование лизина 9 в гистоне Н3 (Н3К9те) связано с подавлением транскрипции [48].
Механизм метилирования и деметилирования ДНК
Профиль метилирования ДНК в норме сохраняется при делении клеток [49]. ДНК метилтранфераза 1 (DNA nucleotide methyltransferase 1, DNMT1) восстанавливает метилирование дочерней цепи ДНК, синтезированной при репликации, используя в качестве матрицы материнскую цепь. На Рис. 4 показано, как поддерживается неизменным профиль метилирования (mC, снизу) и гидроксиметилиро-вания ДНК (5hmC, сверху) во время репликации ДНК при делении клеток.
Рис. 4: Поддержание профиля метилирования ДНК. Цитозин, 5-гидроксиметилцитозин и 5-метилцитозин показаны в белых, голубых и красных кружочках, соответственно. Источник [50]
Белки DNMT3A и DNMT3B осуществляют de novo метилирование ДНК [51]. Эти белки отвечают за установления профиля метилирования, что особенно важно во время эмбрионального развития. Последние исследования также показывают, что эти белки могут не только устанавливать метилирование de novo, но и исправлять ошибки, допущенные DNMT1, в сильно метилированных участках генома [52].
Помимо метилирования ДНК, существует и обратный процесс - активное деметилирование [53, 54, 55], открытый относительно недавно, вероятно, в силу своей многостадийности [56]. Первым этапом активного деметилирова-
ния является гидроксилирование или превращение 5-метилцитозина (5mC) в 5-гидроксиметилцитозин (5hmC) с помощью белков группы TET (Рис. 5). Белки этой группы используют молекулярный кислород для введения гидроксильной группы в 5mC [57]. Конвертировать 5mC в 5hmC способен не только белок TET1, но и белки TET2 и TET3 [58]. TET-ферменты последовательно окисляют 5mC до 5hmC, затем до 5-формилцитозина (5fC) и 5-карбоксилцитозина (5caC). 5fC и 5caC могут быть удалены из ДНК в ходе репарации оснований и заменены на неметилированный цитозин (Рис. 6) [59].
Рис. 5: Функция TET белков в процессе деметилирования ДНК. Источник [60]
Таким образом, наличие 5ЪшС может свидетельствовать об активном де-метилировании в клетке, поскольку обратный процесс - метилирование ДНК -происходит в одну стадию без образования промежуточных модифицированных
оснований.
Рис. 6: Деметилирование ДНК у млекопитающих. Пассивное деметилирование показано голубым, активное - серым. Метилирование ДНК поддерживается ДНК-метилтрансферазами (БММТ5) во время репликации. 5тС будет заменен на С, если не удается поддерживать метилирование. Активное деметилирование осуществляется ТЕТ белками, которые могут поэтапно окислять 5тС до 5ИтС, 5ГС и 5саС. Впоследствии эти модифицированные основания удаляются и замещаются неметилированным цитозином. Источник [59]
5ИтС был впервые обнаружен в бактериофагах [61], а позже обнаружен и в клетках млекопитающих [62]. У млекопитающих 5ИтС в относительно большом количестве содержится в эмбриональных стволовых клетках, и его уровень снижается в процессе развития параллельно со снижением уровня экспрессии белков ТЕТ.
Факторы инициации транскрипции
Транскрипционные факторы (ТФ) связываются с определенными последовательностями ДНК, активируя (а в некоторых случаях подавляя [63]) транскрипцию генов. Они имеют ДНК-связывающие домены, специфично распознающие короткие последовательности ДНК, называемые сайтами связывания транскрипционных факторов (TFBS, transcription factor binding sites). Аффинность ТФ к своим сайтам связывания в 1000 раз (и более) превышает аффинность к другим участкам ДНК [64, 65]. TFBS обычно располагаются в пределах нескольких сотен пар оснований от точки инициации транскрипции (TSS) в промоторах генов, а также в энхансерах [66]. Считается, что взаимодействие энхансеров с промоторами осуществляется благодаря формированию петель в молекуле ДНК, в результате
чего энхансер оказывается в пространственной близости к TSS. Белки, связанные с энхансером, оказываются вблизи точки инициации транскрипции и могут работать как транскрипционные факторы [67].
Каждый ТФ распознает не одну конкретную последовательность, а набор схожих последовательностей, который можно описать с помощью мотива. Мотив - это модель, используемая для описания консенсусной последовательности сайта связывания ТФ. Мотивы могут быть использованы для поиска потенциальных TFBS. В настоящее время наиболее распространенным представлением мотива является позиционно-весовая матрица (ПВМ, PWM, position weighted matrix) [68]. ПВМ - это матрица, элементами которой являются логарифмы нормированных частот каждого нуклеотида в каждой позиции мотива. Чем больше значение элемента ПВМ, тем более вероятным является присутствие данного нуклеотида в данной позиции сайта связывания, то есть тем чаще конкретный нуклеотид встречается в этой позиции среди всех последовательностей, с которыми связался заданный транскрипционный фактор. (Рис. 7)
Рис. 7: Лого мотива RUNX1 Источник: [69]
Среди всех последовательностей, соответствующих мотиву, только часть является действительными сайтами связывания ТФ. Для экспериментального определения TFBS обычно используют методы ChIP-seq (Chromatin Immunoprecipitation followed by Sequencing) или SELEX (Systematic Evolution of Ligands by Exponential Enrichment). Последовательности, полученные в результате ChIP-seq, обычно обогащены мотивом ТФ [70].
У человека выявлено около 1600 транскрипционных факторов, что составляет приблизительно 8% от всех белок-кодирующих генов [70].
Похожие диссертационные работы по специальности «Другие cпециальности», 00.00.00 шифр ВАК
Изучение локализации и функциональной значимости белка Каизо в организме взрослых мышей2016 год, кандидат наук Коростина Валерия Сергеевна
Анализ метилирования ДНК при раке шейки матки2003 год, кандидат биологических наук Петренко, Анатолий Анатольевич
Влияние эпигенетических факторов на развитие иммуновоспалительных заболеваний кожи2019 год, кандидат наук Чекалин Евгений Виталиевич
Влияние канцерогенных и противоопухолевых ксенобиотиков на эпигенетическую регуляцию транскрипции2014 год, кандидат наук Шалгинских, Наталья Андреевна
Анализ энхансерных РНК, инсуляторных белков и модификаций хроматина в генетических конструкциях, трансфецированных в клетки дрозофилы2013 год, кандидат наук Федосеева, Дарья Михайловна
Список литературы диссертационного исследования кандидат наук Лиознова Анна Валерьевна, 2025 год
Источник [164]
Образец ДНК обрабатывается химическим окислителем, который специфически окисляет 5ИшС до 5ГС, не изменяя 5тС и немодифицированный цитозин (С) (Рис. 14).
Рис. 15: Определение уровня 5ИшС. Источник [165]
Бисульфитную конверсию проводят дважды: с исходным образцом (БЗ) и с окисленным образцом (охБЗ). После чего измеряют уровень метилирования в обоих экспериментах (с помощью микрочипов или секвенирования).
В результате в охБЗ-образце (окисление и бисульфитная конверсия) 5ИшС и С будут прочитаны как Т, а 5шС - как С. В БЗ-образце (только бисульфитная конверсия, без окисления) С будет прочитан как Т, а 5шС и 5ЪшС будут прочитаны как С.
Сравнивая результаты охБЗ- и БЗ-экспериментов, можно определить, какие сайты содержали 5ИшС. Если в обоих образцах в сайте обнаруживается С, то это 5шС, если обнаруживается Т, то это С. Если в охБЗ-образце обнаруживается Т, а в БЗ-образце - С, то это 5ИшС. Таким образом, уровень 5ИшС соответствует разнице измеренных уровней метилирования между БЗ и охБЗ образцами (Рис. 15).
Анализ экспрессии генов с помощью секвенирования РНК
Один из методов анализа экспрессии генов - секвенирование РНК (RNA-Seq) [166, 167, 168, 169]. Этот метод позволяет определить наличие и количество молекул РНК в биологическом образце в заданный момент времени, а также получить информацию о новых транскриптах и альтернативном сплайсинге.
Рис. 16: Секвенирование РНК. Источник: [170]
На Рис. 16 схематично показаны основные этапы анализа. Гены, закодированные в ДНК организма, транскрибируются и (в эукариотическом организме) сплайсируются, то есть из них вырезаются интроны, для получения зрелых тран-скриптов мРНК (изображены красным). Этот этап происходит in vivo.
Для проведения RNA-seq необходимо подготовить библиотеку. Первым шагом является выделение РНК из образца (может потребоваться конкретный вид РНК, например, мРНК или малые некодирующие РНК). Далее проводится фрагментация (изображено синим на Рис. 16) - длинные молекулы разбиваются на короткие фрагменты, которые могут быть прочитаны с помощью NGS.
Следующий специфичный для метода шаг - обратная транскрипция. По РНК-фрагментам синтезируется комплементарная ДНК (кДНК) с помощью обратной транскриптазы. Для повышения эффективности и точности обратной транскрип-
ции могут быть использованы различные праймеры и ферменты. Этот шаг необходим, потому что ДНК - более стабильная молекула, чем РНК, и ее легко ампли-фицировать.
Далее происходит лигирование адаптеров. К концам кДНК-фрагментов присоединяются специфические адаптеры, содержащие последовательности для амплификации, секвенирования и индексации образцов. После этого проводится амплификация кДНК-фрагментов с адаптерами методом ПЦР. И, наконец, подготовленная библиотека кДНК секвенируется на NGS-платформах. В результате получается набор коротких прочтений. На этом заканчивается этап in vitro и наступает анализ in silico.
Обработка данных РНК секвенирования. Обработка данных происходит в несколько этапов [171,172]. После секвенирования необходимо провести контроль качества и удалить адаптеры, а также отфильтровать некачественные прочтения. Далее выполняется выравнивание оставшихся прочтений на референсный геном или транскриптом.
При выравнивании некоторые прочтения должны быть выровнены на экзон-экзонные границы, присутствующие в РНК, но отсутствующие в референсной последовательности ДНК (они будут разбиты интроном при выравнивании). Существуют программные комплексы, осуществляющие такое выравнивание (например, STAR [173], HiSAT [174], TopHat [175]). Также существуют алгоритмы, проводящие "псевдовыравнивание". Их идея заключается в том, что на самом деле не требуется информация о точном положении прочтения на геноме, а нужно только посчитать количество прочтений, пришедших с каждого транскрипта. Для псевдовыравнивания нужно иметь референсный транскриптом (а не геном, как для выравнивания). Такое псевдовыравнивание может быть проведено программным комплексом Salmon [176] или Kallisto [177].
В данной работе для выравнивания прочтений был использован инструмент TopHat2 [178]. Рассмотрим его более подробно.
Рис. 17: Сложности, возникающие при выравнивании РНК-сек прочтений. Источник [178]
Выравнивание РНК-сек прочтений сопряжено с двумя основными сложностями: наличием интронов (длиной от 50 до 100000 нуклеотидов) в генах (но не в прочтениях, полученных из мРНК) и наличием псевдогенов (с вырезанными интронами), последовательность которых очень похожа на последовательность функциональных генов, но которые не транскрибируются (у человека около 14000 псевдогенов). Для прочтений длиной 100Ьр ожидается, что 33-38% прочтений будут содержать два или более экзона (чем длиннее прочтения, тем больше доля таких "сложных" прочтений). Кроме того, около 20% таких прочтений, захватывающих соединение экзонов, захватывают один из экзонов не более чем на 10 нуклеотидов. В этом случае сложно правильно выровнять прочтение на нужный экзон, а не соседний интрон (Рис. 17).
Если доступна аннотация генов (как, например, для человека), то ТорИа12 начинает с выравнивания на аннотированный транскриптом. ТорИа12 находит потенциальные сайты сплайсинга, которые используются для выравнивания прочтений, содержащих несколько экзонов. После этой фазы некоторые прочтения остаются невыровненными, а некоторые имеют плохое качество выравнивания. ТорИа12 выравнивает эти прочтения на геном, что позволяет выровнять прочтения, содер-
жащие только один экзон. Используя невыровненные прочтения, TopHat2 пытается обнаружить новые сайты сплайсинга, опираясь на известные сигналы (GT-AG, GC-AG и AT-AC). Невыровненные (или выровненные с плохим качеством) прочтения разбиваются на короткие участки, которые выравниваются на геном. TopHat2 пытается выровнять прочтения с учетом максимального размера интронов. Если это удается, то он производит повторное выравнивание для идентификации сайтов сплайсинга. Из этих участков TopHat2 конструирует новую версию транскриптома, на которую затем выравнивает оставшиеся прочтения. После этих шагов TopHat2 корректирует прочтения, выровненные несколькими нуклеотидами на интрон. Наконец, он отделяет прочтения с единственным выравниванием от тех, у которых есть несколько вариантов - для них он выбирает наилучшее выравнивание.
TopHat2 способен учитывать при выравнивании вставки, удаления и другие структурные вариации в транскриптах исследуемого образца, что может вносить значительные различия с референсным геномом. Для выравнивания TopHat2 использует Bowtie2 [145].
Для количественной оценки уровня экспрессии генов определяется количество прочтений, выровненных на каждый из генов (или транскриптов). В данной работе для этого была использована программа FeatureCount [179]. Далее производится нормализация данных для учета различий в глубине секвенирования между образцами (например, RPKM - Reads Per Kilobase per Million mapped reads).
Трудности измерения. Анализ данных РНК секвенирования также связан с рядом сложностей:
• Биологические сложности. Биологическая вариабельность между образцами может маскировать истинные различия в экспрессии генов. Гетерогенность клеточного состава образца также может затруднить интерпретацию результатов. Деградация РНК во время выделения или подготовки библиотеки может привести к потере информации о З'-концах транскриптов и искажению профиля экспрессии. Присутствие геномной ДНК в образце РНК может привести к ложным сигналам.
• Технические сложности. Неравномерная амплификация кДНК-фрагментов в процессе ПЦР может привести к искажению количественной оценки экспрессии генов. Различия в эффективности лигирования адаптеров к различным фрагментам кДНК могут также повлиять на результаты.
Некоторые платформы секвенирования могут лучше секвенировать определенные последовательности. Прочтения, которые могут быть выровнены в нескольких местах генома, создают неоднозначность в интерпретации. Образование химерных молекул в процессе подготовки библиотек может привести к появлению ложных транскриптов.
• Сложности анализа данных. Выбор неподходящего метода нормализации данных может привести к систематическим ошибкам и затруднить сравнение результатов между образцами. Недостаточная глубина секвенирования или малое количество биологических реплик может ограничить мощность анализа. При сравнении большого количества генов возникает проблема множественного тестирования, что увеличивает вероятность ложноположительных результатов.
ChIP-seq
ChIP-seq [180, 181] - это метод, позволяющий исследовать взаимодействие белков с ДНК [182] и модификации гистонов [183] в клетке. Он позволяет идентифицировать сайты связывания белков (например, транскрипционных факторов) по всему геному. Метод основан на иммунопреципитации хроматина (СЫР) и высокопроизводительном секвенировании ДНК. Существуют альтернативные методы, не использующие иммунопреципитацию, например, DNase-Seq [184, 185].
Первый этап этого метода - "сшивка" белков с ДНК с помощью химического агента, обычно формальдегида. Происходит ковалентное связывание всех белков с ДНК, что фиксирует белково-ДНК комплексы в их естественном состоянии. Далее сшитый хроматин фрагментируется на короткие участки (обычно 100-500 пар оснований) с помощью ультразвука или ферментов. Размер фрагментов влияет на разрешение анализа. Более мелкие фрагменты позволяют получить более точную информацию о локализации белка на ДНК. После этого проводится иммунопреци-питация. Для выделения фрагментов ДНК, связанных с интересующим белком, к фрагментированному хроматину добавляются специфические антитела, которые связываются с целевым белком. Антитела, связанные с белково-ДНК комплексами, осаждаются с помощью магнитных или агарозных шариков. Несвязанные фрагменты ДНК удаляются промыванием. Таким образом, остаются только те фрагменты ДНК, которые были связаны с целевым белком. Затем ковалентные связи между белками и ДНК разрушаются (например, путем нагревания). Очи-
щенная ДНК, обогащенная последовательностями, связанными с целевым белком, извлекается с шариков. К очищенной ДНК добавляются адаптеры для секвени-рования, и проводится амплификация библиотеки с помощью ПЦР. Далее ДНК секвенируется.
Обработка данных. Биоинформатический анализ включает несколько этапов [186]. Сначала полученные прочтения выравниваются на референсный геном (Рис. 18), после чего проводится peak calling - статистический анализ для идентификации областей генома, обогащенных прочтениями, что указывает на сайты связывания исследуемого белка.
Рис. 18: Модельное покрытие данных ChIP-seq. Источник [187]
В данной работе для этого использован инструмент MACS2 [188]. Алгоритм анализирует распределение выровненных прочтений и определяет области генома, где наблюдается значительное обогащение прочтений по сравнению с контрольным образцом (input). Важно отличить истинные пики от фонового шума и неоднородности в покрытии образца. Выявленные пики соответствуют сайтам связывания белка с ДНК.
Трудности измерения.
• Биологические сложности. Эффективность ChIP-seq эксперимента критически зависит от качества антител. Антитела должны быть высокоспецифичными (например, антитела к гистоновой модификации H3K4me3 должны распознавать только эту модификацию, а не другие метильные метки на гистоне H3) и иметь высокую аффинность к целевому белку. Для успешного проведения ChIP-seq требуется достаточное количество клеток, чтобы получить достаточное количество ДНК для секвенирования. Работа с редкими типами клеток или ограниченными образцами может представлять сложность.
• Технические сложности. Для оценки фонового сигнала и повышения точности анализа требуются контрольные образцы (input). Фрагментация хроматина должна быть тщательно контролируемой, чтобы получить фрагменты ДНК оптимальной длины для секвенирования (обычно 100-500 пар оснований). Концентрация формальдегида и время сшивки также являются важными параметрами: слишком низкая концентрация формальдегида может привести к недостаточному сшиванию, а слишком высокая - к чрезмерному сшиванию и затруднению последующей фрагментации хроматина, аналогично для времени, на протяжение которого происходит сшивка.
• Сложности анализа данных. Как и со всеми данными секвенирования, выравнивание прочтений сопряжено с рядом сложностей (наличие повторов, инсерций, делецей и структурных вариаций). Необходимо учитывать глубину секвенирования контроля и образцов. Отделение пиков от шума представляет собой сложную задачу, алгоритмы имеют множество параметров, которые могут сильно влиять на результат. Некоторые пики ChIP-seq могут иметь сложную структуру, например, состоять из нескольких близко расположенных пиков или иметь широкое распределение сигнала.
Математические подходы к поиску причинно-следственных
связей
Большинство исследований в области биологии [189, 190], медицины и социальных наук направлены на выявление причинно-следственных связей, а не просто ассоциаций. Для изучения направления причинно-следственных связей в геномных данных разработано несколько инструментов [191]. Вот несколько примеров
работ, использующих математические подходы:
• Разработка подхода к поиску причинно-следственных связей в клинической геномике (в частности, к оценке значимости для развития патологии человека связи между генами и заболеванием, а также значимости взаимодействия между генами и окружающей средой) [192];
• Исследование причинно-следственных связей для персонализированной медицины и для принятия медицинских решений, имея в виду различия между средним ответом на лечение в популяции и реакцией конкретного пациента или подгруппы [193];
• Причинно-следственный вывод в применении к эпигенетическим данным [194];
• Усиление причинно-следственного вывода в популяционных исследованиях эпигенетических модификаций при развитии нервной системы и для психического здоровья [195];
• Изучение роли эпигенетических механизмов в развитии неинфекционных заболеваний, в частности, причинно-следственная связь между эпигенетическими изменениями и этими заболеваний [196];
• Исследование подходов к выводу причинно-следственных связей для омикс-ных данных группой GAW20 [197].
Поиск причинно-следственных связей (causal inference) - это статистический подход, целью которого является выявление и описание связей, которые не могут быть выражены в терминах совместных распределений наблюдаемых переменных (эти связи называются ассоциативными). Такой подход не доступен "классической" статистике, стремящейся по отдельным измерениям оценить параметры распределения, которому эти измерения подчиняются, и он требует введения новой нотации [198, 199, 200, 201, 202, 203]. Синтаксис теории вероятностей не позволяет выразить, например, тот факт, что "симптомы не вызывают болезнь". Все, что можно выразить - это то, что эти два события ассоциированы, то есть если наблюдается одно, то можно ожидать наблюдения другого. Однако невозможно отделить статистическую ассоциацию, которая вычисляется как условная
вероятность Р(diseaselsymptom), от причинно-следственной зависимости. В литературе вводится нотация ^ для обозначения причинно-следственных связей [204], например, disease ^ symptom. В этой работе будем придерживаться такого обозначения.
Для иллюстрации интуиции поиска причинно-следственных связей рассмотрим следующий пример. Дана выборка из базового распределения (X, Y). По ней строится линейная регрессия в направлении X ^ Y (слева) и Y ^ X (справа). На Рис. 19 в верхнем ряду показаны построенные линейные функции, а в нижнем - соответствующие им остатки. Если регрессионная модель отражает истинное направление причинно-следственной связи, то распределение остатков будет независимым. Видно, что распределение остатков независимо только для модели X ^ Y. Подробнее модели аддитивного шума описаны в [203].
10 12 -1 0 1 X Residuals of regr. X on У
Рис. 19: Причинно-следственные связи. Figure 4.5, источник: [203]
Одной из подзадач данной работы является поиск связей между метилированием отдельных CpG-позиций и уровнем экспрессии соответствующих генов, а именно определение направления этой связи. Для решения этой подзадачи в данной работе выбран инструмент dHSIC [205], реализующий описанную выше логику.
Исследование взаимосвязи метилирования CpG-сайтов и
экспрессии генов
Экспериментально-показанное влияние метилирования отдельных CpG на экспрессию генов
Хотя принято считать, что метилирование соседних Срв-позиций согласовано, экспериментально показан ряд случаев, в которых метилирование отдельных Срв-позиций связано с экспрессией конкретных генов. В последнее время появилось все больше примеров, демонстрирующих, что изменения в уровне метилирования отдельных Срв-динуклеотидов могут влиять на транскрипцию. Показано, что:
• Метилирование отдельных Срв-динуклеотидов в промоторе гена рецептора окситоцина регулирует его транскрипцию у мышей [206];
• Метилирование Срв-динуклеотида (Срв 29) в первом интроне гена РМР24 подавляет его экспрессию при раке предстательной железы [207];
• Метилирование Срв-динуклеотида, расположенного на 3 п.н. выше ТАТА-бокса в промоторе гена ЯАМКЬ, регулирует ткане- и клеточно-специфичную экспрессию ЯАЖЬ [208];
• Метилирование цитозина в позиции -1 относительно сайта связывания МР-кБ влияет на связывание МР-кБ и может служить дополнительным механизмом регуляции экспрессии генов-мишеней МР-кБ [209];
• НБх подавляет транскрипцию гена ТЫМ22 посредством метилирования Срв-динуклеотида в его 5'-нетранслируемой области [210];
• Метилирование одного Срв-динуклеотида важно для экспрессии гена 7АР-70 [211];
• Метилирование одного Срв-сайта в промоторной области гена р53 снижает экспрессию его гене-репортёра [212];
• Метилирование отдельных Срв-сайтов в 5'-области гена МЯ2Б может влиять на его экспрессию, изменяя связывание транскрипционных факторов АР-1 иСЯББ [213];
• Изменения в метилировании CpG-сайта в позиции -377 промоторной области гена StAR коррелируют с уровнями экспрессии StAR, что указывает на возможную роль этого сайта в регуляции экспрессии StAR [214];
• Метилирование CpG-динуклеотида в -370/-20 CpG-островке промотора гена C/EBP£ влияет на базальную экспрессию C/EBP£ в клетках лейкоза U937 [215];
• Уровень метилирования CpG-сайта в промоторе гена IL6 связан с уровнем мРНК IL6 [216];
• Экспрессия гена MUC2 в клетках желудка регулируется метилированием промотора, причем два отдельных CpG-динуклеотида могут играть важную регуляторную роль [217];
• CpG-динуклеотид (CpG+286) во втором экзоне гена I16 у мышей играет важную роль в регуляции экспрессии I16. Гипометилирование CpG+286 повышает экспрессию I16 [218];
• Деметилирование CpG-динуклеотида в 5-ом экзоне гена PGLYRP3 связано с повышением экспрессии гена. Неметилированный CpG-сайт преимущественно связывает РНК-связывающие белки, включая факторы сплайсинга, что указывает на возможную роль деметилирования этого сайта в регуляции транскрипции и/или сплайсинга PGLYRP3 [219];
• Метилирование CpG-динуклеотидов в позициях -77 и +24 гена TLR2 положительно коррелирует с его экспрессией в периферических мононуклеарных клетках крови (PBMC) [220];
• У пациентов с раком молочной железы, при котором экспрессируется эст-рогеновый рецептор а, статус метилирования CpG-динуклеотида (CpG4) в промоторе этого гена обратно коррелирует с его экспрессией. Это позволяет предположить, что данный CpG-сайт играет важную роль в регуляции транскрипции гена эстрогенового рецептора а [221];
• Метилирование CpG-динуклеотида (CpG9) регулирует экспрессию гена CHIP при раке молочной железы [222];
• Экспрессия интерлейкина-8 (IL-8), активированная PGE2, повышается при деметилировании CpG-сайта 5, находящегося в позиции -83 сайта связывания CEBP-ß в промоторе IL-8 [223].
Кроме экспериментальных исследований, публикуются и обзоры работ, посвященных метилированию отдельных CpG-сайтов. Например, в работе [224] представлен систематический обзор исследований метилирования CpG-сайтов, значимых для гена MGMT при глиобластоме. Авторы выделяют несколько CpG-сайтов, метилирование которых коррелирует с экспрессией MGMT и выживаемостью пациентов, и приводят данные из нескольких экспериментальных работ.
Полногеномные ассоциации между метилированием и экспрессией
Также разработаны алгоритмы, позволяющие выявлять связи между метилированием отдельных CpG-сайтов и экспрессией генов. Например, с помощью программного комплекса INTEND авторы провели полногеномный поиск CpG-сайтов, метилирование которых коррелирует с экспрессией генов, в данных TCGA LUAD [225].
Проводятся исследования ассоциаций в масштабах всего эпигенома (EWAS, epigenome-wide association studies). Например, в работе [226] показано, что отдельные CpG-сайты, ассоциированные с экспрессией cis-генов, преимущественно расположены вблизи сайтов связывания транскрипционных факторов, а также в областях со средней или низкой плотностью CpG. CpG-сайты, ассоциированные с экспрессией trans-генов, также обогащены в регуляторных областях, включая энхансеры.
В работе [227] показано, что даже в пределах тела одного гена метилирование отдельных CpG-сайтов может по-разному влиять на экспрессию при раковых заболеваниях. Как правило, соседние CpG-сайты имеют корреляцию одного знака с экспрессией гена (например, метилирование большинства CpG-сайтов вблизи TSS гена NYNRIN отрицательно коррелирует с его экспрессией для всех типов рака). Однако встречаются случаи, когда соседние CpG-сайты имеют противоположные корреляции с экспрессией (например, CpG-сайты в гене OSR1). Также метилирование CpG-сайтов перед TSS гена ZNF282 отрицательно коррелирует с его экспрессией, в то время как метилирование большинства CpG-сайтов после TES (Transcription End Site) положительно коррелирует с ней. Авторы предполагают, что такие различия свидетельствуют о разной регуляторной роли CpG-сайтов,
расположенных в разных частях гена.
В работе [228] в результате поиска ассоциаций было выявлено 7858 сайтов метилирования ДНК, ассоциированных с 2733 генами. Эти сайты метилирования преимущественно расположены в энхансерах и промоторах, причем 40% из них связаны с дистальными генами. Дальнейший анализ показал, что 149 сайтов метилирования и 66 генов, вероятно, участвуют в механизме, посредством которого вариант фенотипа определяется регуляцией транскрипции с помощью метилирования ДНК.
Причинно-следственные связи между метилированием ДНК и экспрессией
Ведется поиск причинно-следственных связей между метилированием и экспрессией:
• В работе [229] с помощью метода менделевской рандомизации (Mendelian randomization, а точнее его усовершенствования MR Steiger) на данных 265 биопсий скелетных мышц человека обнаружено 213 предполагаемых причинно-следственных связей между экспрессией и метилированием ДНК. Примерно две трети из этих связей предсказывают, что метилирование влияет на экспрессию (М ^ Е). Авторы также использовали CIT (causal inference test) для уточнения результатов. Из 7952 пар (метилирование CpG-сайта и экспрессия гена) 214 пар имели причинно-следственную связь, показанную методом CIT, из которых 213 совпали по направлению с результатами MR Steiger. Из 213 предсказанных причинно-следственных связей (115 генов, 190 CpG-сайтов), 137 (64%) демонстрируют, что метилирование влияет на экспрессию М ^ Е и 76 (36%), что экспрессия влияет на метилирование Е ^ М. Сайты метилирования ДНК для пар М ^ Е были ближе к TSS, чем для пар Е ^ М. В качестве примера, предсказанного обоими тестами, авторы приводят предсказанный М ^ Е эффект для сайта метилирования ДНК cg09001591 и экспрессии гена FAM179A.
• В работе [230], посвященной разработке дополнения Steiger к методу мен-делевской рандомизации, авторы применяют полученное решение к поиску причинно-следственных связей между метилированием и экспрессией. Они показывают, что в среднем метилирование ДНК чаще является причиной
экспрессии, однако этот результат может быть искажен погрешностью измерений.
• В работе [231] идентифицировано 818 генов, которые влияют на паттерны метилирования ДНК в крови. Используя генетические инструменты в качестве "якорей" для причинно-следственного вывода, авторы установили направленную связь между экспрессией генов и уровнями метилирования ДНК в дистальных локусах. Найденные гены обогащены транскрипционными факторами (ТФ), многие из которых консистентно повышали или понижали уровни метилирования ДНК в нескольких CpG-сайтах. Авторы показали, что значительное количество ТФ влияет на метилирование ДНК в своих сайтах связывания. Кроме ТФ, на метилирование ДНК влияют гены с различными функциями, например, NFKBIE, CDCA7(L) и NLRC5. Для нескольких примеров авторы предлагают вероятные механизмы, лежащие в основе их влияния на метилирование ДНК [231].
Также ведутся исследования причинно-следственных связей между метилированием, экспрессией и третьей величиной, такой как генетический полиморфизм или заболевание. Например:
• В работе [232] с помощью causal inference test выявлено 5 причинно-следственных цепочек "метилирование ^ мРНК ^ ревматоидный артрит". В них участвуют 16 cis-пар "метилирование, мРНК", 4 сайта метилирования и 4 гена (BACH2, MBP, MX1 и SYNGR1). Выявленные CpG-сайты находятся в CpG-островах, перекрывающихся с промоторами в 5' областях генов. Метилирование промотора гена SYNGR1, вероятно, влияет на экспрессию мРНК и риск развития ревматоидного артрита.
• В работе [233] использован двухэтапный подход причинно-следственного вывода в рамках менделевской рандомизации. Уровни метилирования ДНК использованы в качестве инструментальных переменных для оценки влияния экспрессии генов на выживаемость при раке шейки матки. Выявлено несколько генов, в которых уровни метилирования связаны с экспрессией и выживаемостью. Авторы идентифицировали 12623 гена, экспрессия которых регулируется метилированием. Большинство генов (92.0%) имеют не более, чем 50 CpG-сайтов.
• В работе [234] показано, что экспрессия генов регулируется вариациями в метилировании ДНК чаще, чем наоборот. Авторы выбрали 20 сайтов метилирования, ассоциированных с 19 генами, которые были ассоциированы с 147 единичными полиморфизмами (SNP, Single Nucleotide Polymorphism). Для причинно-следственной модели SNP ^ Methylation ^ Expression авторы нашли 44 комбинации (29.9%), а для модели SNP ^ Expression ^ Methylation - 10 комбинаций (6.8%). Локус гена BTN3A2 показал наличие причинно-следственных связей в обоих направлениях (SNP ^ Methylation ^ Expression и SNP ^ Expression ^ Methylation), что может свидетельствовать о двунаправленном причинно-следственном взаимодействии между экспрессией и метилированием. Тем не менее, авторы говорят, что аргументы в пользу SNP ^ Methylation ^ Expression сильные, а в поддержку SNP ^ Expression ^ Methylation - слабые.
• В работе [235] использованы байесовские сети для выявления причинно-следственных связей между SNP, метилированием CpG и экспрессией генов. Авторы показали, что большинство (60,1%) комбинаций демонстрируют путь, в котором метилирование вызывает изменение экспрессии генов, или (33,9%) не имеют причинно-следственной связи между метилированием и экспрессией. Однако в 6% комбинаций экспрессия генов вызывала вариации в метилировании. В качестве примеров авторы приводят SNP rs4822458, который имеет влияние на метилирование cg24846343 CpG-сайта, а этот CpG-сайт влияет на экспрессию гена DDTL. И обратная ситуация - SNP rs111884657 имеет влияние на ген DNAJC15, а экспрессия этого гена влияет на метилирование cg05035143 CpG-сайта.
• В работе [236] показано более 400 пар, свидетельствующих о наличии причинно-следственной связи между экспрессией и метилированием. Для определения направления этой связи авторы применили медиационный анализ к 2913 парам. Цель анализа состояла в том, чтобы определить, в каких случаях (1) метилирование ДНК опосредует влияние SNP (Single Nucleotide Polymorphism) на экспрессию гена (SNP ^ Methylation ^ Expression, "SME") и (2) экспрессия гена опосредует влияние SNP на метилирование ДНК (SNP ^ Expression ^ Methylation, "SEM") - сценарий, при котором метилирование ДНК реагирует на изменение активности экспрессии
генов. Авторы обнаружили 161 пару {экспрессия, CpG}, поддерживающую модель SME, и 125 пар, соответствующих модели SEM. При этом 119 пар демонстрировали оба направления медиации (а 167 - хотя бы одно). Таким образом, часто было выявлено наличие причинно-следственной связи для пар {ген и CpG-динуклеотид} вне зависимости от модели (SEM или SME). Однако моделирование показало, что доказательства в пользу медиации должны быть более убедительными, когда причинно-следственная модель задана правильно, даже при наличии ошибки измерения.
Резюме обзора
Как видно из представленного обзора, в настоящее время разработано множество технологий, позволяющих изучать нуклеотидную последовательность генома, эпигенетические модификации и уровень экспрессии генов. Эти технологии дают возможность получать большие объемы данных, которые требуют разработки специальных методов анализа.
В заключение обзора литературы следует еще раз отметить, что взаимосвязь между метилированием ДНК и экспрессией генов является сложной и многогранной. Причинно-следственная связь между этими процессами присутствует не всегда, а ее направление может зависеть от контекста. Важную роль может играть метилирование небольшой части регуляторных областей, в том числе дистальных. Метилирование ДНК может влиять на связывание ряда транскрипционных факторов, а связывание некоторых факторов, в свою очередь, может изменять статус метилирования. Для анализа таких данных разработаны математические методы поиска причинно-следственных связей.
Таким образом, задачи данного исследования - полногеномный поиск CpG-светофоров у человека, выявление их функциональной роли, в том числе связи их метилирования с сайтами связывания транскрипционных факторов, а также определение направления причинно-следственных связей между метилированием CpG-светофоров и экспрессией генов - логически вытекают из анализа современного состояния науки в этой области.
Методы исследования
Обработка прочтений WGBS и РНК-сек
Для проведения данного исследования было отобрано 48 тканей и клеточных линий (см. Таблицу 1), для которых в проектах Roadmap Epigenomics Project и FANTOM5 были доступны как данные РНК-секвенирования (RNA-seq), так и полногеномного бисульфитного секвенирования ДНК (WGBS). Списки идентификаторов образцов можно найти в Дополнении в Таблице 9 (экспрессия) и Таблице 10 (метилирование).
Большинство WGBS- и RNA-seq-образцов были отсеквенированы на платформе Illumina, небольшая часть - на платформе SOLiD. Качество всех прочтений было проверено с помощью программы FastQC [146]. Для образцов, отсекве-нированных на платформе Illumina, обрезание прочтений и удаление адаптеров было проведено программой Trimmomatic [147] с использованием адаптеров из Epigenomics Project (NCBI). В качестве параметров были заданы: до 2 несовпадений между адаптером и последовательностью прочтения; размер скользящего окна - 5 п.н.; порог качества - 20; минимальная длина прочтения после обрезания - 20 п.н. Для образцов, отсеквенированных на платформе SOLiD, была использована программа Cutadapt [148] с адаптерами из NCBI. В качестве параметров были заданы: допустимая погрешность совпадения адаптера - 10% относительно длины совпавшей области; порог качества - 20; минимальная длина прочтения после обрезания - 20 п.н.
Обработку прочтений для 40 тканей/клеточных линий проводил Абдулла Ка-миз. Остальные образцы (8 тканей/клеточных линий) были добавлены автором.
Таблица 1: Названия типов клеток, которые участвуют в анализе
Название образца Количество реплик метилирования Количество реплик экспрессии
adipose 3 3
adrenal gland 3 3
bladder 3 1
Brain Germinal Matrix 1 1
Breast Luminal Epithelial Cells 1 3
Breast Myoepithelial Cells 3 3
CD14 primary cells 3 1
CD3 primary cells 3 2
CD56 primary cells 3 1
esophagus 3 3
gastric 3 3
H1 +BMP4 cell line 3 2
H1 BMP4 derived mesendoderm cultured cells 3 2
H1 cell line 3 3
H1 derived mesenchymal stem cells 3 2
H1 derived neuronal progenitor cultured cells 3 3
H9 cell line 3 1
heart aorta 3 3
heart left ventricle 3 3
heart right atrium 3 3
heart right ventricle 3 3
hESC-derived CD184+ endoderm cultured cells 3 3
hESC-derived CD56+ ectoderm cultured cells 3 3
hESC-derived CD56+ mesoderm cultured cells 3 3
HUES64 cell line 3 3
IMR90 cell line 3 3
iPS DF 19.11 cell line 3 2
iPS DF 6.9 cell line 3 1
large intestine 3 3
liver 3 2
lung 3 3
muscle leg 3 3
muscle trunk 3 3
Neurosphere Cultured Cells Cortex Derived 2 4
Neurosphere Cultured Cells Ganglionic Eminence Derived 3 4
ovary 3 3
pancreas 3 3
Penis Foreskin Fibroblast Primary Cells 1 3
Penis Foreskin Keratinocyte Primary Cells 2 3
placenta 3 2
psoas muscle 3 3
sigmoid colon 3 3
small intestine 3 3
spinal cord 3 3
spleen 3 3
stomach 3 3
thymus 3 3
UCSF-4 embryonic stem cell line 2 2
Прочтения, полученные в результате WGBS, были выровнены на референс-ный геном человека (сборка GRCh38-Ensembl 78) с помощью программы Bismark [154]. Параметры выравнивания: ноль несовпадений в "зерне" (seed), длина "зерна" - 20 п.н., минимальный/максимальный размер вставки для парно-концевых прочтений - 0/500 п.н. Для дальнейшего анализа была использована информация о метилировании цитозинов только в CpG-контексте, причем каждый CpG-сайт должен был быть покрыт не менее чем 4 прочтениями по обеим цепям. Значения метилирования для каждого CpG-динуклеотида в каждом из 48 образцов были усреднены по репликам.
Прочтения, полученные в результате RNA-seq, были выровнены на референс-ный геном человека с помощью программы Tophat v2.0.13 [175]. Параметры выравнивания: до 2 несовпадений и 2 разрывов на одно прочтение; парно-концевые прочтения выводились только в том случае, если оба прочтения были выровнены. Матрица экспрессии генов была получена с помощью программы FeatureCount [179]. Профили экспрессии были нормализованы с использованием RPKM (Reads Per Kilobase per Million).
Определение CpG-светофоров
Были проанализированы все пары {ген и CpG-динуклеотид}, в которых CpG-динуклеотид расположен не далее чем в 10000 п.н. выше точки инициации транскрипции (TSS, transcription start site) или в теле гена. При такой постановке один CpG-динуклеотид может быть ассоциирован с несколькими генами, а один ген - с несколькими CpG-динуклеотидами.
Для каждой пары {ген и CpG-динуклеотид} были построены два вектора размерности к, где к принимает значения от 20 до 48:
• Вектор метилирования (бета-значения, [0,1]);
• Вектор экспрессии (RPKM).
Длина векторов (к) варьировала из-за того, что WGBS не позволяет получить равномерное покрытие для всех CpG-сайтов в геноме, что приводит к отсутствию значений метилирования для многих CpG в разных образцах. Чтобы избежать сомнительных корреляций, не рассматривались CpG-сайты, для которых было менее 20 определенных значений метилирования. В дальнейшем будем называть эти два вектора "профилем экспрессии" и "профилем метилирования".
Для каждой пары {ген и CpG-динуклеотид}) был вычислен коэффициент корреляции Спирмена (SCC, spearman corrélation coefficient) между профилем экспрессии и профилем метилирования. Назовем CpG-позицию CpG-светофором (CpG TL, CpG Traffic Light), если для нее коэффициент корреляции Спирмена был значим на уровне FDR < 0.01 с поправкой Бенджамини-Ходжберга (Рис. 21). Поправка FDR (false discovery rate) Бенджамини-Ходжберга производилась на полное число пар {ген и CpG-динуклеотид}. Было обнаружено 33,276 CpG-светофоров (0.18% от исходного числа CpG-сайтов), соответствующих 7997 генам.
Подбор фоновых CpG-позиций
Для исследования обогащения CpG-светофорами различных геномных областей были выбраны фоновые множества CpG-позиций (CpG BG, CpG background) такого же размера, как и множество CpG-светофоров (Рис. 20). Каждой позиции CpG-светофора была сопоставлена фоновая CpG-позиция, похожая на CpG-светофор по следующим критериям:
• GC-состав (суммарное количество нуклеотидов C и G) в ближайшей окрестности фоновой CpG-позиции должен быть близким к GC-составу в окрестности CpG-светофора. В качестве окрестности использовалось окно размером 200 п.н. с центром в CpG-позиции. Допускалось различие не более чем на 5%. Например, если в окне в 200 п.н. вокруг CpG-светофора было суммарно 80 цитозинов и гуанинов, то подбиралась фоновая CpG-позиция, имеющая от 76 до 84 цитозинов и гуанинов в окне размером 200 п.н.
• Количество CpG-динуклеотидов (CpG-состав) в ближайшей окрестности фоновой CpG-позиции должно быть близко к количеству CpG в окрестности CpG-светофора. Допускалось отличие не более чем на 5% в окне размером 200 п.н.
• Расстояние от CpG-позиции до точки инициации транскрипции ассоциированного гена должно отличаться не сильно. Должно быть учтено то, в каком направлении (по ходу или против хода транскрипции) находится CpG-позиция. CpG-светофоры, расположенные в областях [-100; TSS] и [TSS; 100], обрабатывались отдельно, так чтобы фоновая CpG-позиция располагалась в соответствующих областях. Для CpG-светофоров, расположенных дальше 100 п.н. от TSS, вычислялся 1одю расстояния между CpG-позицией и TSS. Допускалось различие в этой величине не более чем на 5%. Например, если CpG-светофор расположен на расстоянии +1000 п.н. от TSS, то фоновая CpG-позиция должна была располагаться в области [708; 1413].
• Фоновая CpG-позиция для CpG-светофора с SC С < 0 также должна была иметь отрицательный коэффициент корреляции с хотя бы одним из ассоциированных генов, аналогично для SC С > 0. Это требование учитывалось только в тех случаях, когда обсуждались свойства CpG-светофоров с тем или иным знаком коэффициента корреляции.
Случайный процесс выбора фоновой CpG-позиции для каждого CpG-светофора был повторен 50 раз, чтобы получить статистическую значимость при сравнении. То есть в результате этой процедуры было получено 50 выборок фоновых CpG-позиций, похожих на CpG-светофоры.
* i f
i \
/
i
__
t
1
_ _•
t
1
__
1
Рис. 20: Выбор фоновых CpG-позиций.
Важно отметить, что при подборе фоновых позиций не учитывалось наличие CpG-островков (CpG island, CGI). В литературе показано, что даже метилированные CpG-сайты внутри CGI более эволюционно консервативны в приматах по сравнению с метилированными CpG-сайтами вне CGI [12]. При этом алгоритмы поиска CGI используют произвольные параметры и могут быть неточными при определении границ CGI [237]. Таким образом, учет CGI не обязательно снизил бы это смещение.
Для выявления обогащения CpG-светофоров в различных геномных областях была проведена аннотация CpG-сайтов с использованием принципа перекрывающихся геномных разметок. Для каждой разметки была оценена перепредставленность CpG-светофоров по сравнению с фоновыми CpG-позициями с помощью точного критерия Фишера. Анализ проводился как для всех CpG-светофоров, так и отдельно для CpG-светофоров с положительным и отрицательным SCC.
Были использованы следующие геномные аннотации:
• Повторы (RepeatMasker [238]);
• CpG-островки [239];
• Кластеры TSS, полученные методом CAGE в рамках проекта FANTOM [240];
Геномные аннотации
Энхансеры, идентифицированные в работе [241] с помощью метода CAGE и картированные на геном hg38 с помощью утилиты liftOver [242];
• Кластеры гиперчувствительности к ДНКазе I [243];
• Функциональная аннотация энхансеров была получена в рамках проекта FANTOM [240, 244, 245].
Эволюционная консервативность
Эволюционная консервативность CpG-светофоров и фоновых сайтов в млекопитающих и приматах оценивалась с помощью показателей GERP RS [246] и PhyloP [247] hg19 соответственно, доступных в геномном браузере UCSC [248]. Сайты с GERP RS > 2 считались консервативными в млекопитающих, а сайты с PhyloP > 0.5 - в приматах.
Оценка функциональности каждого сайта была проведена с помощью Eigen [249]. Более высокие значения Eigen соответствуют более высокой вероятности функциональности соответствующего геномного сайта.
Значения GERP RS, PhyloP и Eigen для всех CpG-сайтов в геноме были получены Василием Раменским, анализ CpG-светофоров был выполнен автором.
Модификации гистонов и состояния хроматина
Для оценки локализации CpG-светофоров в районах с различной структурой хроматина была использована разметка на 25 состояний 127 эпигеномов, предсказанная Roadmap Epigenomics Consortium с помощью ChromHMM [250, 251]. Аннотации, полученные из 12 модификаций хроматина (H3K4me1, H3K4me2, H3K4me3, H3K9ac, H3K27ac, H4K20me1, H3K79me2, H3K36me3, H3K9me3, H3K27me3, H2A.Z, DNasel), были скачаны с сайта [252]. Было вычислено отношение числа CpG-светофоров к фоновым позициям для каждого из 25 состояний хроматина в каждом из 127 эпигеномов, после чего эти отношения были усреднены.
Для подтверждения обогащения CpG-светофорами в энхансерах были отобраны области, имеющие гистоновые метки H3K27ac и H3K4me1, но не имеющие метки H3K4me3 (ENCODE, усреднение по всем образцам, картированным на hg38, для которых были доступны узкие пики (narrowPeak); образцы, помеченные как содержащие ошибки или предупреждения, из файла были исключены). Подробнее см. Таблицу 2.
Таблица 2: Enhancers = H3K27ac+H3K4me1-H3K4me3
Название Идентификаторы образцов количество CpG-светофоров количество фоновых CpG позиций std для фоновых CpG-позиций p-value в тесте Фишера
A549 ENCFF697WAE, ENCFF276ZZL, ENCFF558FNN 915 376.66 20.59 3.6E-53
ascending aorta ENCFF020COG, ENCFF838XQY, ENCFF865ATS 1544 749.42 24.28 3.9E-65
body of pancreas ENCFF008FVK, ENCFF946VNI, ENCFF416CSY 1980 574.18 22.72 1.7E-186
breast epithelium ENCFF190SES, ENCFF492VMK, ENCFF779MAU 278 115.84 10.56 9.0E-17
esophagus muscularis mucosa ENCFF693CZV, ENCFF637MZI, ENCFF534AZK 1628 900.74 28.01 7.8E-50
esophagus squamous epithelium ENCFF137CFG, ENCFF672JUL, ENCFF572LCU 1157 756.74 32.14 1.2E-20
gastrocnemius medialis ENCFF094AJQ, ENCFF286NIM, ENCFF256NUL 2876 1527.04 36.88 1.4E-99
gastroesophagea sphincter ENCFF601HAA, l ENCFF626UWX, ENCFF060UR0 138 62.38 8.46 7.7E-08
heart left ventricle ENCFF946SRJ, ENCFF986INV, ENCFF391EFJ 3023 1174.48 35.20 4.3E-197
MM.1S ENCFF363EKN, ENCFF538AHZ, ENCFF552LNJ 130 74.44 9.36 1.0E-04
neutrophil ENCFF775EFB, ENCFF598KIH, ENCFF480KEJ 760 624.74 25.37 2.4E-4
Peyer's patch ENCFF218SQX, ENCFF357CHH, ENCFF603AYP 59 17.02 4.58 1.4E-06
right atrium auricular region ENCFF052BXS, ENCFF052PPU, ENCFF593MHZ 15 4.04 1.95 1.9E-2
right lobe of liver ENCFF710URH, ENCFF629FSX, ENCFF636VXP 37 20.2 4.56 3.3E-2
sigmoid colon ENCFF067IPT, ENCFF466OIS, ENCFF197CZF 109 28.72 5.92 1.7E-12
spleen ENCFF640EAT, ENCFF837ZZH, ENCFF590BSY 485 275.78 16.16 1.7E-14
stomach ENCFF888CZC, ENCFF735KDA, ENCFF612IVQ 2783 1011.6 31.12 7.9E-200
thoracic aorta ENCFF003NBP, ENCFF080KQQ, ENCFF582FDJ 287 155.94 12.43 3.0E-10
thyroid gland ENCFF302TBY, ENCFF710B0L, ENCFF767FGW 1871 748.42 24.86 2.8E-114
tibial nerve ENCFF134S0M, ENCFF724DKP, ENCFF860VIA 1705 718.8 27.16 3.91E-95
ENCFF151PGH,
transverse
ENCFF552DJF, ENCFF925YZC 188 68.66 9.31 3.1E-14
colon
Предсказание сайтов связывания транскрипционных
факторов
Для предсказания сайтов связывания транскрипционных факторов (TFBS, transcription factor binding sites) были использованы позиционные весовые матрицы (PWM, position weight matrices) транскрипционных факторов человека из коллекции HOCOMOCO v11 [69]. Пороги для PWM были выбраны в соответствии с p-value равными 0.0005, полученными ранее для каждого мотива [253]. В HOCOMOCO v11 пороги и p-value оценивались с учетом динуклеотидного состава генома человека.
Однако предсказание TFBS только с помощью PWM может приводить к большому числу ложноположительных результатов. Поэтому из всех предсказанных TFBS были отобраны только те, которые расположены в областях, подтвержденных экспериментальными данными о связывании транскрипционных факторов (ChIP-Seq) из проекта Cistrome [254, 255] (только категории A, B и C). Cistrome содержит данные ChIP-Seq для транскрипционных факторов из базы данных GTRD [256], обработанные стандартным набором инструментов, включая алгоритмы для поиска пиков, что позволяет учитывать события связывания, обнаруженные в разных экспериментах.
Таким образом, сайты связывания транскрипционных факторов, рассматриваемые в этом исследовании, были подтверждены как вычислительным анализом последовательностей, так и экспериментальными данными ChIP-Seq.
Анализ обогащения генами
Был проведен анализ обогащения генов, имеющих CpG-светофоры, различными транскрипционными факторами, ко-факторами и эпигенетическими регуляторами с помощью точного критерия Фишера (реализованного в библиотеке scipy.stats языка Python) с поправкой Бонферрони. Список транскрипционных факторов и ко-факторов был получен из базы данных Tcof DB [257], а список
эпигенетических регуляторов - из EpiFactors [258].
Данные о связывании TET2
Для анализа сайтов связывания белка TET2 в части работы, касающейся поиска причинно-следственных связей, были использованы данные ChIP-Seq из работы [259] для дифференцированных на 12 день клеток нейронов NPC (идентификатор данных [260]). Авторы определили пики TET2 на сборке генома hg19. Координаты пиков были перенесены на сборку hg38 с помощью утилиты liftOver [261].
Поскольку CpG-светофоры были выбраны на основе 48 различных тканей, мы предполагаем, что лежащие в основе механизмы являются фундаментальными и не зависят от конкретной ткани. Тем не менее, мы выбрали дифференцирующиеся нейроны как наиболее близкие (из доступных) к данным 5hmC в мозжечке человека, которые будут описаны ниже.
Количество пиков, ко-локализованных с CpG-позициями в клетках NPC невелико, и для подтверждения результатов был использован второй набор данных ChIP-Seq TET2 из работы [262] для макрофагов, дифференцированных из моноцитов (идентификатор данных [263]). Авторы опубликовали пики TET2 на сборке hg38. Для анализа ко-локализации пиков TET2 с CpG-сайтами был использован инструмент bedtools intersect [264].
В части работы, посвященной ОМЛ, были использованы данные ChIP-Seq TET2 в клеточной линии MCF7 из работы [265] (идентификатор данных [266] и [267] для контроля). Пики в сигнале ChIP-Seq были получены с помощью инструмента macs2 callpeak [188]. В общей сложности было идентифицировано 2620 пиков.
Данные о 5-гидроксиметилцитозине
Были использованы данные Illumina 450K oxBS-array из работы [268] (идентификатор данных [269]). Авторы провели бисульфитную конверсию и бисуль-фитную конверсию с окислением для 450K проб в клетках мозжечка человека (4 реплики для каждого эксперимента). В данной работе были использованы исходные данные без дополнительной обработки. Для анализа значения, полученные в ходе бисульфитной конверсии с окислением, были вычтены из значений, полученных при бисульфитной конверсии (BS — oxBS), и усредне-
ны по 4 репликам. Таким образом, было использовано значение 5hmC, равное avg(BS 1 - oxBS 1, BS2 - oxBS2, BS3 - oxBS3, - ожБЗД. При таком подходе возможны отрицательные значения 5hmC, обусловленные погрешностью измерений. Однако это не препятствует анализу, поскольку важны различия между уровнями 5hmC, а не абсолютные значения.
Анализ образцов с ОМЛ
В части работы, посвященной анализу CpG-светофоров при ОМЛ, CpG-светофоры были определены аналогичным образом, но с использованием других образцов.
Данные о метилировании и экспрессии. Были использованы данные о 186 пациентах с ОМЛ. Данные о метилировании ДНК (Illumina 450k Array, beta-values) и экспрессии генов в костном мозге (RNA-seq, RPKM) доступны в The Cancer Genome Atlas (TCGA) [270]. Профили метилирования ДНК на разных стадиях нормального (Wild Type, WT) гранулопоэза в костном мозге здоровых доноров были взяты из работы [271] (авторы статьи произвели предварительную обработку данных).
CpG-светофоры. Для определения CpG-светофоров была использована методология, аналогичная описанной выше. CpG-динуклеотид считался CpG-светофором, если после поправки FDR p-value коэффициента корреляции Спир-мена между его профилем метилирования и профилем экспрессии ассоциированного гена было ниже 0.005.
Анализ обогащения CpG-светофоров гемопоэтическими категориями при
ОМЛ. Для анализа генной онтологии был использован программный комплекс PANTHER version 10 [272] и инструмент [273]. Для коррекции на множественное тестирование была использована поправка Бонферрони.
Определение дифференциально (гипер)метилированных CpG. Данные пациентов с ОМЛ были разделены на две группы: с мутацией в транскрипционном факторе RUNX1 (Mut) и без нее (WT). Было проведено сравнение групп по профилю метилирования.
Поскольку метилирование было измерено с помощью Illumina 450k Array, бета-значения были доступны в одних и тех же позициях для всех образцов. Была посчитана разница метилирования между группами в каждой позиции (AMeth(Mut — WT)), а также значимость этой разницы с поправкой FDR. В результате сравнения были выявлены дифференциально метилированные CpG (t-критерий Стьюдента, поправка на множественное сравнение методом Бенджамини-Ходжберга). Дифференциально гиперметилированными (при мутации в RUNX1) считались позиции с F DR < 0.05 и AMeth(Mut — WT ) > 0.15. Все позиции были разделены те, которые являются CpG-светофорами и те, которые ими не являются (обозначим для краткости их как фоновые CpG-позиции, [Примечание: это обозначение отличается от определения, использованного ранее]).
В результатах приведена значимость t-критерия Стьюдента, проверяющего есть ли разница в метилировании между группами дифференциально метилированных CpG-сайтов Mut и WT, а также значимость критерия Фишера, проверяющего, что доля гиперметилированных CpG-светофоров выше доли гиперметили-рованных фоновых CpG-позиций.
Предсказание сайтов связывания транскрипционного фактора RUNX1.
Сайты связывания RUNX1 были предсказаны во всех участках размером 200 п.н. с центром в CpG-динуклеотиде с помощью PWM из HOCOMOCO v11 (p-value < 0.001) [69] и данных ChIP-Seq из Cistrome (категории A, B и C) [274].
Анализ сайтов связывания TET2. Для проверки гипотезы о взаимодействии TET2 с мутированным RUNX1 все CpG-сайты были разделены на две группы: с сайтом связывания RUNX1 в окрестности (-100...+100 п.н.) и без такого сайта. Данные о связывании TET2 были подготовлены описанным выше способом.
Поиск причинно-следственных связей
Для анализа направления связи между метилированием и экспрессией был использован подход, описанный в работе [203] и проиллюстрированный на Рис. 19.
Был выбран инструмент dHSIC [205], реализующий этот подход. Предполагалась линейная связь между переменными model ^ lm(X ~ Y). Анализировалось распределение остатков линейной модели dhsic.test(model$residuals, Y)$p.value. Такая проверка проводилась для обоих потенциальных направлений причинно-следственной связи (Expression ^ Methylation и Methylation ^ Expression). В результате анализа для каждой пары {ген и CpG-динуклеотид} получали два p-value, отражающих значимость для каждого направления. Для коррекции на множественное тестирование была применена поправка FDR на полное число пар {ген и CpG-динуклеотид}. Значимыми считалисьp-value < 0.05 после поправки. Направление связи между экспрессией и метилированием было приписано паре {ген и CpG-динуклеотид}, если только одно из двух p-value было меньше заданного порога.
Результаты исследования
Уточнение определения CpG-светофоров
Наличие метилирования ДНК в промоторных областях генов часто снижает их экспрессию. Однако, как было показано в предыдущем разделе, связь между экспрессией и метилированием промотора или тела гена является неоднозначной. Это указывает на необходимость детального анализа профиля метилирования ДНК и выделения регуляторных областей меньшего размера.
Для более детального изучения взаимосвязи между метилированием ДНК и экспрессией генов в данной работе проводится анализ метилирования на уровне отдельных CpG-динуклеотидов, а не целых регионов. Такой подход был предложен в предыдущих работах [3, 275] и позволяет выявить более тонкие закономерности в регуляции экспрессии генов.
В этой работе методология была расширена путем использования данных полногеномного метилирования ДНК (WGBS, whole-genome bisulfite sequencing) и экспрессии генов (RNA-seq) для 48 нормальных клеток и тканей человека из проекта Roadmap Epigenomics Project [276]. Для выявления CpG-сайтов, метилирование которых варьирует между различными типами клеток, были выбраны наиболее разнообразные образцы (список использованных типов клеток представлен в Таблице 1, полный список образцов экспрессии - в Таблице 9, а метилирования - в Таблице 10).
CpG-светофоры (CpG traffic lights, CpG TL) определены как CpG-динуклеотиды, для которых коэффициент корреляции Спирмена (SCC, Spearman correlation coefficient) между метилированием ДНК в данном динуклеотиде и уровнем экспрессии близлежащего гена является значимым (FDR < 0.01, Рис. 21). Значимость p-value определялась после поправки FDR (False Discovery Rate, метод Бенджамини-Ходжберга). Корреляция вычислялась между вектором метилирования в данной позиции в разных образцах и вектором экспрессии близлежащего гена в тех же образцах.
Определение
Срв-светофоры - это Срв-динуклеотиды, для которых коэффициент корреляции Спирмена между метилированием ДНК и уровнем экспрессии близлежащего гена является значимым.
tift CpG Promoter TSS Gene body "O Methylation >• 1" с о •rJ Ф 1Л
1 J Traffic ULight © 9 © <P ф © О О О с ■м о а; ф 4-> СП о та £ L. о <и С 1л Ф ф и L-
!_ 111®®®! ,®i (fjfV 1111 ' «1 я HSHHHHSH 11 fili'St 1- > с а>
© (i) © © © © се о. ф
*
chrl:123..11654 t ? T ( 1.0 0.0 0.7 о.З 9.0
o- 9-
Cell line B chrl:123..11654 ? T t OoÖ 1.0 0.7 0.7 0.2.
?t •
Cell line C chrl:123..11654 ? ? ©о© 1.0 о.з 0-7 l.O
0<?X 9 о.8
Cell line D chrl:123..11654 t f t 1.0 1.0 1.0 0.0
8.з
Cell line E chrl:123..11654 ? ? f ( fr t 0.(0 0.0 о.З 1.0
Cell line F chrl:123..11654 t ? t f ?? ? 1.0 0.0 0-7 о.З 97
Рис. 21: Схематическое изображение определения CpG-светофоров (CpG
traffic light, CpG TL). Левая панель. Часть генома (chr1:123..11654), которая содержит один ген (для простоты описания). Для каждого CpG-динуклеотида в этой области и рассматриваемого гена имеются значения метилирования и экспрессии в 6 клеточных линиях. CpG-динуклеотиды изображены темно синими кружочками (закрашенные - метилированные, пустые - неметилированные). Первые три (слева) CpG-сайта расположены в промоторной области, а вторые три CpG-позиции (справа) - в теле гена. Наличие или отсутствие экспрессии гена показано зелеными стрелками. Правая панель. Желтая колонка показывает метилирование случайной CpG-позиции (используемой в качестве фона, CpG background, CpG BG). Вектор метилирования этой позиции в разных клеточных линиях слабо коррелирует с экспрессией гена (зеленая колонка справа, в RPKM). Корреляция между средним метилированием промотора/тела гена (значения показаны в светло-голубой и светло-фиолетовой колонке соответственно) и экспрессией соответствующего гена тоже низкая. Однако для CpG-светофора (показан красным) метилирование значимо коррелирует с экспрессией гена.
Среднее метилирование промотора и тела гена реже имеет значимую корреляцию с экспрессией гена по сравнению с метилированием CpG-светофоров, даже после поправки на множественное тестирование. На уровне значимости FDR < 0.01
среднее метилирование промоторов значимо коррелирует с экспрессией только для 764 генов, а среднее метилирование тела гена - только для 762 генов. В то же время метилирование Срв-светофоров значимо коррелирует с экспрессией 7997 генов. В Таблице 3 представлены данные о количестве генов, экспрессия которых коррелирует с различными показателями метилирования. Таблица 4 показывает количество значимых корреляций между экспрессией гена и средним метилированием промотора или тела гена. Таблица 5 показывает количество значимых корреляций между экспрессией гена и метилированием отдельных Срв-сайтов. Аналогичные тенденции наблюдаются при использовании различных границ для усреднения метилирования в промоторе/теле гена (Таблица 6).
Основная мысль
Метилирование Срв-светофоров существенно чаще отражает уровень экспрессии генов, чем среднее метилирование промоторов или тела гена.
Таблица 3: Количество генов со значимой корреляцией между экспрессией и метилированием. Примечание: для коррекции на множественное тестирование в (1) и (2) использовалось общее количество генов, в то время как в (3) и (4) использовалось общее количество пар {ген и CpG-динуклеотид} для тех же целей. (4) Результаты пермутационного теста (пермутации были применены к значениям экспрессии, RPKM): количество генов со значимой корреляцией между экспрессией и метилированием в пермутационном тесте (значения усреднены по 10 случайным пермутациям значений экспрессии). TTS обозначает сайт термина-ции транскрипции (Transcription Termination Site).
Уровень значимости (p-value) после поправки на множественное тестирование FDR Общее количество генов, которые имеют значимую корреляцию между экспрессией и метилированием
средним метилированием промоторной области (-1000..+500) (1) средним метилированием тела гена (+500..TTS) (2) метилированием CpG- светофора (3) перестановочный тест (4)
0.001 263 186 1463 14.5
0.005 537 505 4905 15.4
|0.01 764 762 |7997 16.2
0.05 2038 2125 22,957 21.8
0.1 3251 3401 34,095 27.5
Таблица 4: Количество значимых корреляций (корреляции Спирмена, SCC) между экспрессией гена и средним метилированием геномной области. Перестановочный тест (10 случайных перестановок значений экспрессии) в сравнении с исходными данными. Поправка на множественное тестирование была произведена с помощью метода Бенджамини-Ходжберга (поправка FDR). Полное число генов = 59,396
FDR Количество (среднее по 10 случайным перестановкам) генов со значимой 8СС между средним Количество генов со значимой 8СС между средним метилированием Доля генов Количество (среднее по 10 случайным перестановкам) генов со значимой 8СС между средним метилированием тела гена (+500 ... ТТ8) и экспрессией Количество генов со значимой 8СС между средним метилированием Доля генов
метилированием промотора (-1000... +500) и экспрессией промотора (-1000 ... +500) и экспрессией тела гена (+500... ТТ8) и экспрессией
0.0001 0 95 1.6e-03 0 61 1.0e-03
0.0005 0 188 3.2e-03 0 136 2.3e-03
0.001 0 263 4.4e-03 0 186 3.1e-03
0.005 0 537 9.0e-03 0.1 505 8.5e-03
0.01 0 764 1.3e-02 0.1 762 1.3e-02
0.05 0 2038 3.4e-02 0.2 2125 3.6e-02
0.1 0.1 3251 5.5e-02 0.2 3401 5.7e-02
0.5 3.4 ± 3 17901 3.0e-01 2.1 ± 3 15063 2.5e-01
1.0 6651.9 ± 9652 54828 9.2e-01 13166.3 ± 12753 40835 6.9e-01
Таблица 5: Количество значимых корреляций Спирмена SCC между метилированием CpG и экспрессией гена. Перестановочный тест (10 случайных перестановок экспрессии) по сравнению с исходными данными. Поправка на множественное тестирование была произведена с помощью метода Бенджамини-Ходжберга (поправка РБЯ). Полное число пар {ген и Срв-сайт} = 25,813,295
количество
количество доля пар {ген и Срв-сайт} (среднее по 10 случайным перестановкам) со значимой 8СС между метилированием и экспрессией генов (среднее количество генов, имеющих хотя бы одну значимую 8СС между метилированием любого из близлежащих Срв и экспрессией
FDR (среднее по 10 случайным перестановкам) пар {ген и Срв-сайт} со значимой 8СС между метилированием и экспрессией количество пар {ген и Срв-сайт} со значимой 8СС между метилированием и экспрессией доля пар {ген и Срв-сайт} со значимой 8СС между метилированием и экспрессией по 10 случайным перестановкам), имеющих хотя бы одну значимую 8СС между метилированием любого из близлежащих Срв и экспрессией
0.0001 19.2 ± 5 340 7.4е-07 1.3е-05 13.6 ± 2 196
0.0005 19.7 ± 6 1882 7.6е-07 7.3е-05 14.1 ± 3 817
0.001 20.1 ± 6 3774 7.8е-07 1.5е-04 14.5 ± 3 1463
0.005 21.1 ± 7 18377 8.2е-07 7.1е-04 15.4 ± 4 4905
0.01 22.0 ± 6 35918 8.5е-07 1.4е-03 16.2 ± 4 7997
0.05 27.8 ± 8 189990 1.1е-06 7.4е-03 21.8 ± 5 22957
0.1 33.7 ± 9 425413 1.3е-06 1.6е-02 27.5 ± 6 34095
0.5 310.7 ± 103 4671655 1.2е-05 1.8е-01 281.8 ± 86 56966
Таблица 6: Количество значимых SCC между экспрессией гена и средним метилированием геномной области. TSS обозначает сайт начала транскрипции (Transcription Start Site), TTS - сайт терминации транскрипции (Transcription Termination Site).
область 0.001 0.005 0.01 0.05 0.1
-10000...Т88 46 159 284 1246 2376
-10000...+100 56 159 275 1169 2269
-10000...+500 55 163 261 1100 2179
-5000...Т88 64 224 335 1170 2174
-5000...+100 78 230 323 1135 2134
-5000...+500 94 237 337 1232 2289
-1000...Т88 132 339 535 1497 2629
-1000...+100 168 406 573 1644 2802
-1000...+500 263 537 764 2038 3251
-500...Т88 146 344 500 1392 2408
-500...+100 166 413 585 1581 2710
-500...+500 292 586 834 2076 3431
-100...Т88 86 168 246 684 1176
-100...+100 141 282 377 1021 1815
-100...+500 233 513 675 1673 2791
Т88...+100 85 191 281 783 1328
Т88...+500 226 454 603 1476 2511
+0...ТТ8 159 390 581 1704 2944
+100...ТТ8 173 415 591 1822 3042
+500...ТТ8 186 505 762 2125 3401
+1000...ТТ8 201 565 818 2321 3741
Расположение СрО-светофоров
В общей сложности было проанализировано 18,830,232 Срв-динуклеотидов, ассоциированных с 59,396 генами (всего 25,813,295 пар {гениСрв-динуклеотид}). Было выявлено 33,276 СрО-светофоров (0.18% от исходного числа Срв-сайтов), ассоциированных с 7997 генам.
Из этих 7997 генов 3654 имеют Срв-островок в промоторе, и 4343 не имеют.
На Рис. 22 показано число Срв-светофоров, ассоциированных с одним геном, и наоборот - число генов, связанных с одним Срв-светофором. Больше всего Срв-светофоров (515) у гена £N8600000197182 (М1КЬБТ7БНО, длинная неко-дирующая РНК).
Рис. 22: Соотношение количества CpG-светофоров и генов. (a) - число CpG-светофоров на один ген; (b) - число генов на один CpG-светофор.
CpG-светофоры часто расположены вблизи сайта начала транскрипции (Рис. 23).
Рис. 23: Расстояние между CpG-светофорами и TSS. Правая часть графика (тело гена вдали от промотора) обрезана.
Большинство CpG-светофоров, расположенных в промоторной области, имеют отрицательный SCC между метилированием и экспрессией соответствующего гена. Большинство CpG-светофоров в интронах имеют положительный SCC, что соответствует предыдущим наблюдениям. CpG-светофоры в экзонах имеют сравнимое количество отрицательных и положительных SCC, причем количество положительных SCC возрастает к З'-концу гена (Рис. 24).
('+&'%'!&'%("&'!(%&'%'$&'
Рис. 24: SCC для CpG-светофоров, расположенных в различных геномных областях. На рисунке указано общее число CpG-светофоров в промоторах, эк-зонах и интронах. Зеленая (слева) и розовая (справа) части скрипичного графика (violin plot) демонстрируют распределение отрицательных и положительных SCC соответственно. (a) - гены, кодирующие белки; (b) - некодирующая ДНК.
CpG-светофоры равномерно распределены вдоль генома, что иллюстрируется Manhattan plot на Рис. 25.
Рис. 25: Распределение CpG-светофоров вдоль генома. Разные цвета разделяют границы хромосом. Горизонтальной линией обозначено р-уа1ие = 0.01
Срв-светофоры часто образуют кластеры. На Рис 26 приведено расстояние между соседними Срв-светофорами, связанными с одним геном.
Рис. 26: Расстояние между CpG-светофорами. Правая часть графика обрезана.
Эволюционная консервативность CpG-светофоров
Для оценки функциональной значимости CpG-светофоров была проанализирована их эволюционная консервативность. CpG-светофоры оказались консервативными у млекопитающих и, в частности, у приматов, что подтверждается показателями GERP RS (Genomic Evolutionary Rate Profiling rejected substitutions) [246] и PhyloP [247] соответственно (Рис. 27 a,b).
GERP показывает консервативность геномных позиций в ходе эволюции с помощью метода максимального правдоподобия. Он минимизирует количество замен в выравнивании ДНК различных видов по сравнению с нейтральной моделью эволюции. Сила ограничений в каждой позиции описывается числом "отклоненных замен" (rejected substitutions, RS). Отклоненные замены определяются как количество замен, ожидаемых при нейтральности, минус количество замен, наблюдаемых в данной позиции. На Рис. 27 a показано число позиций с GERP RS > 2, которые считаются консервативными у млекопитающих.
PhyloP отражает отрицательный логарифмp-value (—log(p—value)) при условии нейтральной эволюции (нулевая гипотеза) для конкретного сайта выравнивания. Он может указывать как на ускоренную эволюцию (отрицательные значения; сайты эволюционируют быстрее, чем ожидается), так и на консервативность (положительные значения; эволюция происходит медленнее, чем ожидается). На Рис. 27 b показано число позиций с PhyloP > 0.5, которые считаются консервативными у приматов.
Основная мысль
CpG-светофоры эволюционно консервативны.
Кроме того, CpG-светофорами обеднены геномные повторы, идентифицированными как с помощью RepeatMasker (Рис. 27 c), так и с помощью состояний хроматина ChromHMM [250] (Рис. 28 g).
Некодирующий потенциал Eigen (Eigen non-coding scores) [249], который отражает функциональную роль некодирующих участков, также значимо выше для CpG-светофоров (Рис. 27 d).
Eigen - это подход к функциональной аннотации геномных вариантов в кодирующих и некодирующих регионах. Он опирается на множество геномных ан-
нотаций и комбинирует их в одно число, отражающее меру функциональной значимости. Чем выше значение, тем выше значимость.
Рис. 27: Эволюционная консервативность CpG-светофоров (TL) по сравнению с фоновыми CpG-сайтами (BG). (a) - консервативность в млекопитающих; (b) - консервативность в приматах; (c) - число CpG-сайтов в повторах, определенных с помощью RepeatMasker; (d) - некодирующий потенциал функциональности Eigen. Усы (abc) показывают стандартное отклонение на 50 случайный выборках фоновых позиций. Точный тест Фишера, p-value < 5Е — 4 (a - c), критерий Колмогорова-Смирнова для 2х выборок p-value < 5Е — 4 (d)
Основная мысль
CpG-светофоры, вероятно, имеют функциональную значимость.
Все вместе эти наблюдения дают основания для предположения о регулятор-ной роли CpG-светофоров в геноме.
Регуляторные элементы обогащены CpG-светофорами
Для того, чтобы сузить область поиска регуляторной роли CpG-светофоров, был проведен анализ их обогащения в различных функциональных элементах генома.
CpG-светофорами обогащены области открытого хроматина (Рис. 28 а), что подтверждает их регуляторный потенциал. В частности, они в 2 раза чаще встречаются в точках инициации транскрипции (Рис. 28 b), определенных методом CAGE
(Cap Analysis of Gene Expression) [240], а также во всех типах промоторов, определенных с помощью ChromHMM [250], включая активные, бивалентные ("готовые к транскрипции", poised) промоторы, но не в областях элонгации транскрипции (Рис. 28 g). Интересно, что CpG-светофорами обогащены ближайшие окрестности CpG-островков (CpG island shores), но не сами CpG-островки (Рис. 28 e,f).
Основная мысль
В регуляторных районах генома CpG-светофоры встречаются чаще, чем фоновые CpG-позиции.
Наиболее сильное обогащение наблюдалось в готовых к транскрипции (poised) промоторах (>3.5 раз). Поскольку считается, что готовый к транскрипции (poised) или бивалентный хроматин может легко переключаться между активным и репрессивным состояниями [277], такое обогащение указывает на возможную роль CpG-светофоров в поддержании бивалентного состояния хроматина.
Основная мысль
Особенно часто CpG-светофоры встречаются в "готовых к транскрипции" (poised) промоторах.
Рис. 28: CpG-светофоры в регуляторных областях. Перепредставленность CpG-светофоров в (a) областях открытого хроматина (ДНКаза I, DNasel); (b) точках инициации транскрипции, определенных методом CAGE; (c) энхансерах, определенных с помощью модификаций хроматина; (d) энхансерах, определенных в проекте FANTOM5. Отсутствие различий в числе CpG-светофоров и фоновых CpG-сайтов (e) в CpG-островах и (f) перепредставленность CpG-светофоров в ближайших окрестностях CpG-островов (CpG islands shores). Панель (g) - усредненное по 127 типам клеток отношение числа CpG-светофоров (TL counts) к числу фоновых CpG-позиций (BG counts) в состояниях хроматина, определенных с помощью ChromHMM. Цвет в (g) отражает абсолютное число CpG-светофоров в данном состоянии хроматина (расшифровка состояний приведена ниже). Усы (a-f) показывают стандартное отклонение на 50 случайных выборках фоновых CpG-сайтов. Точный критерий Фишера, p-value < 5Е — 4.
Расшифровка обозначений на Рис. 28 g (источник [278]). Состояния модели
ChromHMM:
• TssA — Active TSS
• PromU — Promoter Upstream TSS
• PromDl — Promoter Downstream TSS 1
• PromD2 — Promoter Downstream TSS 2
• Tx5 — Transcribed - 5' preferential
• Tx — Strong transcription
• Tx3 — Transcribed - 3' preferential
• TxWk — Weak transcription
• TxReg — Transcribed & regulatory (Prom/Enh)
• TxEnh5 — Transcribed 5' preferential and Enh
• TxEnh3 — Transcribed 3' preferential and Enh
• TxEnhW — Transcribed and Weak Enhancer
• EnhAl — Active Enhancer 1
• EnhA2 — Active Enhancer 2
• EnhAF — Active Enhancer Flank
• EnhWl — Weak Enhancer 1
Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.