Филогенетика и лекарственная устойчивость микобактерий тема диссертации и автореферата по ВАК РФ 00.00.00, доктор наук Зименков Данила Вадимович

  • Зименков Данила Вадимович
  • доктор наукдоктор наук
  • 2025, ФГБУН Институт молекулярной биологии им. В.А. Энгельгардта Российской академии наук
  • Специальность ВАК РФ00.00.00
  • Количество страниц 280
Зименков Данила Вадимович. Филогенетика и лекарственная устойчивость микобактерий: дис. доктор наук: 00.00.00 - Другие cпециальности. ФГБУН Институт молекулярной биологии им. В.А. Энгельгардта Российской академии наук. 2025. 280 с.

Оглавление диссертации доктор наук Зименков Данила Вадимович

ВВЕДЕНИЕ

Актуальность и степень разработанности темы исследования

Цель и задачи исследования

Научная новизна исследования

Теоретическая и практическая значимость

Методология и методы исследования

Основные положения диссертации, выносимые на защиту

Степень достоверности и апробация результатов

Публикации

Патенты

Персональный вклад автора

Структура и объем диссертационной работы

Благодарности

РАЗДЕЛ 1. ОБЗОР ЛИТЕРАТУРЫ

1.1. Микобактерии

1.1.1. Род Mycobacterium

1.1.2. Комплекс Mycobacterium tuberculosis

1.2. Лекарственная терапия и резистентность

1.2.1. История открытий антибактериальных препаратов

1.2.2. Схемы лечения туберкулеза

1.2.3. Мишень действия: РНК-полимераза

1.2.4. Мишень: биосинтез миколовых кислот

1.2.5. Мишень действия: трансляция

1.2.6. Фторхинолоны

1.2.7. Пиразинамид

1.2.8. Мишень действия: синтез фолатов

1.2.9. Мишень действия: АТФ-синтаза

РАЗДЕЛ 2. МЕТОДИЧЕСКИЕ ПОДХОДЫ

2.1. Бактериальные штаммы и образцы ДНК

2.1.1. Выделение и культивация микобактерий

2.1.2. Определение лекарственной устойчивости

2.1.3. Выделение и очистка ДНК

2.2. Биоинформатические подходы

2.2.1. Источники данных и способы хранения и обработки информации

2.2.2. Методы сравнения геномов бактерий

2.2.3. Филогенетический анализ геномов M. tuberculosis и поиск полногеномных ассоциаций

2.2.4. Филогенетический анализ микобактерий

РАЗДЕЛ 3. ЭКСПЕРИМЕНТАЛЬНАЯ ЧАСТЬ

3.1. Филогенетический анализ рода Mycobacterium

3.1.1. Сравнение геном-геномных дистанций

3.1.2. Кластерный анализ и вопросы топологии деревьев

3.1.3. Филогенетическое дерево микобактерий

3.1.4. Валидация предложенного разделения рода Mycobacterium на пять родов

Заключение подраздела

3.2. Идентификация видов микобактерий на биочипах (МИКО-БИОЧИП)

3.2.1. Разработка тест-системы для идентификации видов микобактерий

3.2.2. Анализ разнообразия микобактерий в Российской Федерации в

3.2.3. Анализ микобактерий выявленных в Центре паразитарных болезней Болгарии

Заключение подраздела

3.3. Особенности определения устойчивости у микобактерий

3.3.1. Изучение сходимости фенотипических методов для M. avium и M. intracellulare

3.3.2. Распределение известных детерминант врожденной устойчивости в микобактериях

Заключение подраздела

3.4. Молекулярная детекция устойчивости M. tuberculosis (ТБ-Тест)

3.4.1. Разработка и оптимизация мультиплексного анализа на биологических микрочипах

3.4.2. Корреляция детерминант резистентности и фенотипа

Заключение подраздела

3.5. Резистентность M. tuberculosis к препаратам, действующим на синтез миколовых кислот

3.5.1. Парная корреляция МИК этионамида и изониазида

3.5.2. Связь устойчивости и генотипа штамма

3.5.3. Анализ детерминант устойчивости к этионамиду

3.5.5. Молекулярный анализ восприимчивости M. tuberculosis к перхлозону

Заключение подраздела

3.6. Микробиологические и молекулярные критерии устойчивости к бедаквилину

3.6.1. Корреляция МИК и генотипа штаммов

3.6.2. Нарастание резистентности к бедаквилину в процессе терапии

3.6.3. Идентификация новых детерминант устойчивости к бедаквилину

Заключение подраздела

3.7. Сигнатуры эволюционного процесса у бактерий

3.7.1. Частота замен в RRDR-области гена rpoB у клинических изолятов M. tuberculosis

3.7.2. Динуклеотидные замены, ассоциированные с устойчивостью к бедаквилину и линезолиду

3.7.3. Филогенетическое дерево M. tuberculosis

3.7.4. Динуклеотидные замены для предсказания сайтов диверсифицирующего отбора в геноме

Заключение подраздела

ВЫВОДЫ

СПИСОК СОКРАЩЕНИЙ И УСЛОВНЫХ ОБОЗНАЧЕНИЙ

СПИСОК ЛИТЕРАТУРЫ

Рекомендованный список диссертаций по специальности «Другие cпециальности», 00.00.00 шифр ВАК

Введение диссертации (часть автореферата) на тему «Филогенетика и лекарственная устойчивость микобактерий»

ВВЕДЕНИЕ

Актуальность и степень разработанности темы исследования

Род Mycobacterium объединяет в себе разнообразные виды, но известен, в основном, благодаря двум возбудителям инфекционных заболеваний - M. tuberculosis и M. leprae. Помимо безусловно патогенных видов, к которым также относятся M. ulcerans, M. lepromatosis, M. uberis, род содержит также большой спектр свободноживущих и условно-патогенных видов, вызывающих заболевания при определенных условиях. Всего насчитывается около 200 представителей рода, из которых более 60 ассоциированы с патологическим процессом у человека (635, 54). В то время как случаи лепры в Российской Федерации встречаются только в единичных случаях, то туберкулез все еще остается серьезной проблемой, несмотря на значительные усилия фтизиатрической службы.

В настоящее время при общем увеличении случаев туберкулеза в мире до 133 на 100 тысяч населения в развитых странах наблюдается обратная тенденция снижения показателей инфицирования, как например в Европейском союзе с 42 в 2010 до 25 случаев в 2022 (678). В Российской Федерации количество случаев туберкулеза также неуклонно снижается в последние десятилетия, однако из-за ряда причин существуют риски смены данного тренда на возрастающий в ближайшей перспективе. Во-первых, популяция возбудителя, циркулирующая в Российской Федерации, характеризуется высоким уровнем лекарственной устойчивости к антибактериальным препаратам первого ряда. Заметное количество случаев имеет еще и дополнительную устойчивость к резервным препаратам, и уже регистрируются случаи впервые выявленных пациентов с устойчивостью к новейшим препаратам - бедаквилину и деламаниду. Во-вторых, нарастает количество случаев сочетанной инфекции ВИЧ и туберкулеза, и ВИЧ-инфицированные представляют собой потенциально большую новую нишу распространения туберкулеза. Российская Федерация входит в списки стран с высоким бременем как устойчивого туберкулеза, так и сочетанной инфекции (678). В-третьих, пока недооцененным риском является широкое применение в последнее время укороченных режимов химиотерапии на основе новых препаратов. Вполне вероятно повторение повсеместного распространения туберкулеза с множественной лекарственной устойчивостью, как произошло в 1990-х годах при внедрении стратегии DOTS (Directly Observed Treatment, Short-course) для терапии чувствительного туберкулеза. Тогда предполагалось, что устойчивые штаммы обладают сниженной адаптивностью, не будут распространяться в популяции, и широкий охват терапией первым рядом препаратов позволит резко снизить количество случаев туберкулеза (179, 175).

Возбудитель туберкулеза обладает низкой скоростью роста, а при выделении из операционного материала еще и плохой высеваемостью, что существенно замедляет или делает невозможной постановку диагноза и установление профиля устойчивости возбудителя фенотипическими методами. Кроме того, при своевременно выявленном туберкулезном процессе бактериальная нагрузка невелика,

что ставит задачу разработки быстрых и чувствительных методов диагностики возбудителя туберкулеза. В этих условиях особую роль приобрели молекулярные методы идентификации возбудителя и выявления мутаций, приводящих к устойчивости.

Для повышения чувствительности и специфичности диагностических методов основными задачами, стоящими перед исследователями патогенов, являются выявление механизмов устойчивости и изучение связи детерминант резистентности с фенотипом. Количественная оценка резистентности M. tuberculosis на основе последовательности геномных локусов позволит назначать персонализированную терапию. В настоящее время идут испытания безопасности и эффективности повышенной дозировки рифампицина, изониазида и фторхинолонов для преодоления промежуточной устойчивости (371). Большой прогресс для достижения этой цели был достигнут с внедрением полногеномного секвенирования и разработкой методов поиска ассоциаций мутаций с устойчивостью. С увеличением количества секвенированных геномов стало возможно выявлять траектории эволюции возбудителя, обнаружено появление компенсаторных замен, фиксирующих детерминанты устойчивости в популяции, выявлены детерминанты патогенности, показано влияние генотипа на общую адаптивность возбудителя.

В настоящее время основным препаратом, применяемым для лечения лекарственно-устойчивого туберкулеза, является бедаквилин, проходивший испытания в Российской Федерации с 2014 года и внедренный повсеместно. При этом, фенотипические критерии устойчивости к бедаквилину, принятые в настоящее время, по всей видимости, не обладают достаточной чувствительностью для выявления устойчивых штаммов. С 2017 года идет серьезная дискуссия о клинической значимости отдельных мутаций и целесообразности продолжения терапии при их выявлении (498, 710, 337, 361). Новые укороченные курсы терапии туберкулеза основаны в том числе и на бедаквилине, и разработка методов и критериев диагностики невосприимчивости возбудителя, а также рисков дальнейшего нарастания его устойчивости, представляется одной из основных задач, стоящих перед исследователями возбудителя туберкулеза (399).

Одновременно с этим во всем мире наблюдается рост заболеваний со схожими клиническими признаками, вызванных инфицированием нетуберкулезными микобактериями (140). Так, например, в Австралии количество случаев на 100 тыс. населения возросло с 11 в 2001 до 26 в 2016 (623). Микобактериозы связаны со старением населения, увеличением количества иммуносупрессивных состояний из-за разных причин (326, 78, 706). Нетуберкулезные микобактерии выявляются у пациентов с бронхоэктазами (680) и муковисцидозом (495); они являются подтвержденными агентами нозокомиальных инфекций, ими могут инфицироваться пациенты хирургических отделений после оперативного вмешательства (450) и даже менее травматичных косметических процедур (367). Заражение происходит в повседневной жизни через водно-воздушные аэрозоли, при контакте с водой из открытых водных источников, почвой, птицами, дикими или домашними животными. Считается, что в

отличие от туберкулеза и лепры, микобактериозы не передаются от человека к человеку, однако в последнее время появляются данные о контагиозности отдельных видов.

В 2018 году на основании анализа так называемых консервативных сигнатурных белков (Conserved Signature Proteins, CSP) и аминокислотных инсерций/делеций, или инделов (Conserved Signature Indels, CSI), было предложено разделение рода Mycobacterium на пять родов (224). Считается, что монофилетическое присутствие таких признаков отражает глубокие эволюционные отношения, позволяющие разделять различные роды. Дальнейшие исследования поставили под вопрос данное разделение, не возражая однако против использования метода сигнатур (646, 401, 648). Немаловажно, что разделение родов приводит к сложностям, связанным с клиническим применением терминологии в диагностике и постановке диагноза; требует изменения клинических рекомендаций (634). Тем не менее, «новые» названия используются в базах данных NCBI, а в современных исследованиях используются «новые» названия наряду со «старой», объединенной классификацией (736, 738).

Основными возбудителями микобактериозов являются виды комплексов M. avium и M. abscessus, но разнообразие выявляемых видов очень велико, и зависит от метода выявления. При этом филогенетические деревья микобактерий содержат противоречия и множеству депонированных последовательностей не сопоставлен, или сопоставлен некорректно, вид микобактерий. Видовая специфичность отдельных локусов и фрагментов не выяснена. Все это затрудняет корректную идентификацию и сравнение результатов, полученных разными методами. Однако точное выявление вида абсолютно необходимо для постановки диагноза и назначения терапии, так как устойчивость нетуберкулезных микобактерий даже превышает устойчивость возбудителя туберкулеза, и зачастую ассоциирована с определенными видами и подвидами.

Таким образом, перед клинической лабораторией стоит задача быстрой идентификации возбудителя и определения его профиля устойчивости - задача, которая должна решаться на основании фундаментальных исследований эволюции патогенов на разных таксономических уровнях: штаммов, видов и родов. Помимо прикладного аспекта интерес представляет глобальная задача выявления путей адаптации микроорганизмов к воздействию антибактериальных препаратов и других факторов селективного давления.

Цель и задачи исследования

Изучение разнообразия возбудителей туберкулеза и микобактериозов, их лекарственной устойчивости, разработка методов молекулярной диагностики, поиск и валидация детерминант резистентности к давно применяемым и новым противотуберкулезным препаратам.

Задачи исследования:

1. филогенетическая реконструкция рода Mycobacterium, определение видоспецифических локусов и границ применимости метрик эволюционных дистанций на уровне вида, рода и порядка;

2. разработка методов видовой идентификации микобактерий; изучение разнообразия нетуберкулезных микобактерий, выделенных от пациентов с подозрением на туберкулез;

3. разработка методов молекулярной детекции резистентности возбудителя туберкулеза к антитуберкулезным препаратам, определение диагностических характеристик, валидация фенотипических критериев устойчивости;

4. характеристика популяции возбудителя туберкулеза по профилю устойчивости к антитуберкулезным препаратам первого и резервного рядов, выявление связей детерминант и уровня устойчивости;

5. разработка критериев фенотипической устойчивости возбудителя туберкулеза к бедаквилину, изучение молекулярных механизмов резистентности и валидация вклада отдельных локусов и типов мутаций в снижение восприимчивости возбудителя;

6. разработка методов поиска полногеномных ассоциаций с целью выявления детерминант устойчивости, коэволюционных маркеров резистентности и общей адаптивности возбудителя туберкулеза.

Научная новизна исследования

В данной работе разработан комплексный подход к анализу бактериальных геномов и разработке молекулярных методов диагностики. Проведено сравнение различных метрик эволюционных дистанций и построено подробное филогенетическое дерево микобактерий, содержащее 402 вида, что почти в два раза превышает предыдущие оценки. На основе множественного выравнивания и валидации с полногеномными методами выявлен локус в гене gyrB, обеспечивающий специфичную видовую идентификацию микобактерий, и разработан молекулярный метод на основе гибридизационных биологических микрочипов, использующий алгоритм распознавания образов. С помощью данного метода проанализирована выборка из более чем 3000 клинических изолятов микобактерий в четырех центрах Российской Федерации и Болгарии, выявлено 68 различных видов микобактерий и описано 4 новых вида.

Разработана молекулярная система детекции устойчивости возбудителя туберкулеза к препаратам первого и резервного рядов. На основе выборки из около 800 изолятов возбудителя туберкулеза проанализирован количественный вклад отдельных генетических детерминанант в формирование устойчивости к препаратам первого и второго ряда.

Установлено, что при сохранении бактериовыделения в процессе терапии новыми курсами на основе бедаквилина происходит нарастание устойчивости к данному препарату с появлением мутаций в

ассоциированных локусах mmpR5 и atpE. Впервые в клинических образцах, выделенных от пациентов с туберкулезом, описаны замены в гене atpE, приводящие к высокому уровню устойчивости к бедаквилину, и обнаружены новые типы замен в генах atpE и mmpR5. Методами полногеномного секвенирования установлены новые детерминанты устойчивости к бедаквилину в локусах mmpL4 и mmpL5, причем появление мутаций выявлено в независимых случаях в разных регионах России.

Разработан новый подход к поиску полногеномных ассоциаций на основе подсчета динуклеотидных замен, который позволяет расширить список кандидатных локусов, ассоциированных с устойчивостью и патогенностью возбудителя туберкулеза. Выявлены две замены в генах, предположительно ассоциированных с вирулентностью, для которых показана селекция реверсий к дикому типу в сублиниях линии L2.

Теоретическая и практическая значимость

Разработанный подход комплексного анализа бактериальных геномов на уровне штаммов, видов, родов, семейств и порядков может быть применен к различным группам бактериальных геномов. Анализ различных эволюционных дистанций путем попарных сравнений большой выборки геномов Mycobacterials позволил идентифицировать наиболее робастную метрику - среднюю аминокислотную идентичность AAI, позволяющую построить филогенетическое дерево рода микобактерий с минимальной ошибкой. Были установлены пороговые значения эволюционных расстояний для дискриминации принадлежности генома бактериальному роду для последовательностей генов rrs, rrl и метрики AAI.

Основываясь на полученных результатах, можно утверждать, что разделение рода микобактерий на пять родов, предложенное ранее (224), неправомочно, и следует использовать старое определение рода Mycobacterium (Lehmann and Neumann, 1896). Выдвинуто предположение, что значения AAI в диапазоне 66-69% соответствуют расстояниям между геномами родов одного семейства -промежуточной таксономической единицы между родом и порядком.

Филогенетическое дерево микобактерий содержит более 400 видов, и для навигации и быстрой оценки фенотипических свойств, а также предсказания патогенности удобно использовать концепцию комплексов - групп близкородственных геномов. Проведенный в настоящей работе анализ значительно расширяет список комплексов. Можно предположить также и существование суперкомплексов - более высокой организации групп видов, включающих в себя несколько комплексов.

В процессе анализа выборки клинических изолятов микобактерий выявлены 4 новых вида, расширяющие наши знания о разнообразии рода Mycobacterium. Найден ближайший родственник орфанного вида M. talmoniae, что позволяет утверждать о существовании комплекса, отделяющего комплексы M. terrae и M. triviale от остальных быстрорастущих микобактерий. Данное обстоятельство также свидетельствует против предложенного разделения Mycobacterium на пять родов, требуя

введения шестого. Геномные последовательности новых видов депонированы в международные базы данных.

На основе полученных данных Всемирной Организацией Здравоохранения выпущены нормативные документы об изменении критических концентрации фторхинолонов, канамицина, введены критические концентрации для гатифлоксацина и бедаквилина. Показана клиническая значимость появления мутаций в локусах ттрИ5 и atpE, ассоциированных с устойчивостью к бедаквилину. В данной работе выявлено большое количество новых типов мутаций, результаты исследований использованы при создании «Каталога мутаций...» ВОЗ, связывающего генетику возбудителя туберкулеза и фенотипическую устойчивость. Также выявлены новые детерминанты, приводящие к увеличению уровня устойчивости возбудителя к бедаквилину.

Подтверждена кросс-резистентность между изониазидом, этионамидом и новым препаратом перхлозоном, обусловленная общими механизмами активации и действия на биосинтез миколовых кислот. Показано, что для части МЛУ штаммов, определяемых через устойчивость к рифампицину и изониазиду, сохраняется чувствительность к этионамиду и перхлозону, что позволяет использовать их в качестве резервных при условии тестирования фенотипической резистентности или выявления молекулярных детерминант.

Новый подход к поиску полногеномных ассоциаций расширяет возможности для идентификации детерминант резистентности и маркеров адаптации различных микроорганизмов к стрессам, вызванным действием лекарственных препаратов и иммунной системы организма-хозяина. Методика подсчета и анализа гомопластических динуклеотидных замен расширят наши знания об общей траектории эволюции и адаптации на уровне как отдельных белков, так и всего организма.

Методика для выявления устойчивости к рифампицину, изониазиду, этамбутолу, фторхинолонам, канамицину, амикацину, капреомицину и генотипирования возбудителя туберкулеза ТБ-ТЕСТ на основе гибридизационных биологических микрочипов (биочипов) зарегистрирована для медицинского применения и широко используется в лабораториях Российской Федерации с 2015 года. Тест-система МИКО-БИОЧИП находится на высокой стадии готовности, опробована в клинических лабораториях учреждений противотуберкулезного профиля и легко может быть внедрена в клинические лаборатории, обладающие компетенциями в области ПЦР диагностики.

Методология и методы исследования

В работе использован комплексный подход, включавший в себя микробиологические, биоинформатические и молекулярно-биологические методы. В процессе работы были разработаны быстрые методы идентификации видов микобактерий и определения детерминант резистентности возбудителя туберкулеза на основе биочипов, с помощью которых также проводилось и исследование структуры популяции возбудителей, циркулирующих в настоящее время на территории Российской

Федерации и Болгарии. В качестве теоретического обоснования исследования использованы данные научной литературы, посвященные филогенетике, генотипированию, структуре популяций и характеристике лекарственной устойчивости микобактерий.

В основании исследования находится разработанный метод массового анализа геномов микобактерий и родственных микроорганизмов на уровне родов, видов и штаммов, с помощью которых были построены и валидированы филогенетические деревья микобактерий и отдельно - M. tuberculosis. Сравнение методов эволюционных дистанций позволило построить непротиворечивое филогенетическое дерево микобактерий и определить локус для специфической идентификации видов микобактерий. Филогенетическое дерево M. tuberculosis, построенное на основании секвенированных геномов в исследовании CRyPTIC (618), позволило валидировать мутации, связанные с устойчивостью при анализе данных полногеномного секвенирования и разработать новый подход для идентификации локусов, связанных с адаптивностью возбудителя в дополнение к известным детерминантам устойчивости.

Спектр нетуберкулезных микобактерий, выявляемых у пациентов с подозрением на туберкулез, был исследован на сплошной выборке из 3171 образца 2259 пациентов в трех научных центрах России, в Москве, Санкт-Петербурге, Новосибирске: ГБУЗ «МНПЦ борьбы с туберкулезом ДЗМ» (Носова Е.Ю.), ФГБУ «СПб НИИФ» Минздрава России (Журавлев В.Ю., Соловьева Н.С.) и ФГБУ «Новосибирский НИИ туберкулеза» Минздрава России (Гордеева Е.И., Гусельникова Е.П.). Дополнительно изучалось разнообразие клинических изолятов микобактерий совместно с Институтом микробиологии им. Стефана Ангелова Болгарской Академии Наук (Ю. Атанасова, Э. Бачийска).

Выделение культур нетуберкулезных микобактерий, деконтаминация образца, культивирование в автоматизированной системе Bactec MGIT 960, исключение принадлежности культуры комплексу M. tuberculosis с помощью иммунохроматографического метода и выделение тотальной ДНК проводилось на базе клинических центров. Все образцы культур, полученные от пациентов и охарактеризованные микробиологическими методами, тестировались с помощью вариантов тест-системы МИКО-БИОЧИП в клинических центрах и частично перепроверялись в ИМБ РАН, а сомнительные и неизвестные образцы дополнительно анализировались таргетным и полногеномным секвенированием в ИМБ РАН. Переход к такой модели взаимодействия с клиническими лабораториями позволил выявлять редко встречающиеся виды, в то время как обычно при разработке новой тест-системы проводится сравнение с уже имеющимися системами и используются охарактеризованные коллекции изолятов. В данном же исследовании анализировались все образцы культур от пациентов с подозрением на инфекции, вызванные нетуберкулезными микобактериями. Многократное выделение идентичного вида или подвида от одного пациента учитывалось при оценке клинической значимости.

В работе исследовались большие выборки клинических изолятов M. tuberculosis, выделенных от пациентов, проходящих лечение в МНЦПБТ (542 образца) и СПб НИИФ (274 образца), и

охарактеризованных по устойчивости к препаратам первого ряда модифицированным методом пропорций в автоматизированной системе Bactec MGIT 960. Кроме того, для 453 изолятов выборки МНПЦБТ были определены МИК препаратов первого и резервного рядов с использованием микротитровальных планшетов Sensititre.

Выборка в 787 клинических изолятов M. tuberculosis (МНПЦБТ) была исследована на устойчивость к бедаквилину измерением МИК на плотных и жидких средах (Перетокина И. В., Крылова Л. Ю.), 362 из них исследованы молекулярно-генетическими методами (ИМБ РАН). Дополнительно исследовалась выборка от пациентов Новосибирского НИИТ с длительным сохранением бактериовыделения на фоне терапии (Гордеева Е. И., Гусельникова Е. П.).

Выделение, очистка ДНК, амплификация, таргетное, полногеномное секвенирование, разработка праймеров, зондов проводилась с использованием общеизвестных методов и алгоритмов в ИМБ РАН автором лично и сотрудниками группы (Антонова О. В., Кулагина Е. В., Арсланбаева Л. Р., Холина М. С., Уштанит А. И.). Нестандартные подходы при разработке амплификационных схем, методов обработки информации подробно описаны в основном содержании диссертации.

Изготовление биочиов по стандартной методикие сополимеризационной иммобилизации осуществлялось на производстве созданном на базе лаборатории биологических микрочипов ИМБ РАН (рук. группы - М. А. Филиппова) (537).

Основные положения диссертации, выносимые на защиту

1. На основании доступных данных полногеномного секвенирования микобактерий, выделено 402 вида микобактерий, причем около половины видов выявлены в клинических образцах от пациентов. Это количество превышает примерно в два раза предыдущие оценки разнообразия микобактерий. Для 9% проанализированных геномов в базе данных NCBI некорректно сопоставлено название вида и для 26% приводится только название штамма, т.е. вид не описан или не сопоставлен.

2. Методика средней аминокислотной идентичности AAI для оценки эволюционных дистанций обладает необходимой аддитивностью и низким уровнем ошибок на уровне порядка Mycobacteriales по сравнению с другими метриками и позволяет построить наиболее точное филогенетическое дерево микобактерий. Предложенное в 2018 году разделение Mycobacterium на пять родов не подтверждается при анализе корреляции сигнатур с филогенетической структурой рода на полной выборке геномов. Более того, при разделении нарушаются пороговые значения демаркации родов, определенные для последовательностей генов rrs (94,5%), rrl (88,5%) и значения AAI (66-69%).

3. Разработанная методика видовой идентификации микобактерий на биологическом микрочипе позволяет идентифицировать как минимум 79 видов. В клинических образцах от 2260 пациентов выявлено 71 вид нетуберкулезных микобактерий, из них 4 ранее не описаны.

4. Мультиплексная система для выявления детерминант резистентности возбудителя туберкулеза ТБ-ТЕСТ обладает высокими диагностическими характеристиками в отношении препаратов как первого ряда, так и резервных. Кроме того, точное определение мутаций данной системой позволяет выявлять уровень устойчивости возбудителя, что имеет клиническую значимость при назначении персонализированной терапии.

5. Снижение восприимчивости возбудителя туберкулеза к бедаквилину в процессе неэффективной терапии сопровождается появлением большого спектра инактивирующих мутаций в гене-репрессоре эффлюксного оперона rv0678 (mmpR5) и в гене atpE, кодирующем мишень действия бедаквилина. Последние ассоциированы с высоким уровнем устойчивости и чаще выявляются на фоне дерегулированного эффлюкса препарата. Кроме того, найдены дополнительные замены в генах mmpL5 и mmpL4, связанные с дальнейшей фиксацией резистентности возбудителя.

6. Повышенная частота динуклеотидных замен является отдельным специфическим маркером селекционного давления, и позволяет, в частности, идентифицировать гены и локусы, ассоциированные с лекарственной устойчивостью и общей адаптивностью возбудителя туберкулеза.

Степень достоверности и апробация результатов

Достоверность полученных результатов работы обусловлена большим объемом обработанной информации, а именно последовательностей генов и геномов, значительным количеством проанализированных образцов микобактерий и возбудителя туберкулеза. Независимым подтверждением является совпадение основных результатов с результатами исследований последних лет. Новые результаты, полученные при анализе детерминант резистентности M. tuberculosis, были подтверждены более поздними исследованиями. При построении филогенетических деревьев микобактерий проанализировано большинство известных методик определения геном-геномных дистанций, и выбрана метрика, дающая наименьшую ошибку на исследуемых масштабах. Топология деревьев не противоречит консенсусным знаниям о наличии и структурах кластеров: линий и сублиний M. tuberculosis или групп родственных видов микобактерий. Дополнение выборок геномов новыми данными не вызывает топологических конфликтов и не приводит к изменению общей структуры деревьев.

Похожие диссертационные работы по специальности «Другие cпециальности», 00.00.00 шифр ВАК

Список литературы диссертационного исследования доктор наук Зименков Данила Вадимович, 2025 год

Источники

Спектр нетуберкулезных микобактерий, выявляемых у пациентов с подозрением на туберкулез, был исследован на сплошной выборке в трех научных центрах России, в Москве, Санкт-Петербурге, Новосибирске: ГБУЗ «МНПЦ борьбы с туберкулезом ДЗМ», ФГБУ «СПб НИИФ» Минздрава России и ФГБУ «Новосибирский НИИ туберкулеза» Минздрава России. Дополнительно изучалось разнообразие клинических изолятов микобактерий, в Институте микробиологии им. Стефана Ангелова Болгарской Академии Наук.

Коллекции и выборки

- нетуберкулезные микобактерии, выделенные от пациентов с подозрением на нетуберкулезные инфекции в Российской Федерации (СПБНИИФ, МНПЦБТ, Новосибирский НИИТ)

- нетуберкулезные микобактерии, выделенные от пациентов с подозрением на нетуберкулезные инфекции в Болгарии (ИМ им. Стефана Ангелова БАН)

- клинические изоляты возбудителя туберкулеза для анализа корреляции генотипа и фенотипа устойчивости к препаратам первого и резервного рядов (МНПЦБТ)

- клинические изоляты возбудителя туберкулеза, выделенные от пациентов, получавших бедаквилин в составе комплексной терапии (МНПЦБТ)

- клинические образцы, выделенные от больных туберкулезом для определения аналитической чувствительности молекулярных методов (СПБНИИФ)

Процедуры

При наличии клинико-рентгенологических, лабораторных или эпидемиологических подозрений на наличие заболевания, вызванного микобактериями, клинический материал исследуется согласно действующим клиническим рекомендациям с использованием методов культивирования на плотных или жидких питательных средах. В зависимости от локализации патологического процесса исследуются: мокрота, промывные воды бронхов, смыв с бронхов при проведении фибробронхоскопии и др. Культивирование микобактерий проводится согласно утвержденным рекомендациям с использованием посева на плотные (Левенштейн-Йенсена и Финн-2, длительность протокола до 70 дней) и жидкую питательные среды с использованием системы автоматического учета роста ВаС:ес MGIT 960 (BD «Бектон Дикинсон энд Компании» США, длительность протокола до 42 дней).

Выделение культур нетуберкулезных микобактерий, деконтаминация образца, культивирование в автоматизированной системе Ва^ес MGIT 960, исключение принадлежности культуры комплексу

M. tuberculosis с помощью иммунохроматографического метода, и выделение тотальной ДНК проводилось на базе клинических центров.

При получении роста культуры микроорганизмов проводится ее идентификация и исключение контаминации посторонней микрофлорой. Идентификация выросших микроорганизмов проводится микроскопией с окраской по Цилю-Нильсену с оценкой морфологических особенностей, а также применется технология с применением набора реагентов SD BIOLINE Туберкулез Антиген MPT64 («Стандарт Диагностикс, Инк.», Республика Корея). В спорных случаях дополнительно проводится ПЦР в формате realtime с использованием комплекта реагентов АМПЛИТУБ-РВ (ООО «НПФ Синтол», Россия).

Морфологическая картина кислотоустойчивых микобактерий при микроскопии и отрицательные результаты иммунохроматографического и ПЦР тестирования на наличие M. tuberculosis комплекса являются прямым показанием для целенаправленного использования молекулярно-генетических тестов для идентификации НТМБ. Для этого используются зарегистрированные в Российской Федерации наборы реагентов для идентификации микобактерий GenoType Mycobacterium CM/AS (Hain Lifescience, Германия), однако в настоящее время возможности их применения в практике ограничены в связи с приостановкой поставок.

Для части изолятов микробиологические исследования (расчистка колоний, измерения фенотипических характеристик роста и устойчивости, выделение ДНК) проводились в ИМБ РАН.

2.1.2. Определение лекарственной устойчивости

Bactec MGIT 960

Лекарственную чувствительность МБТ к стрептомицину, пиразинамиду, рифампицину, изониазиду, этамбутолу, офлоксацину, моксифлоксацину, канамицину и амикацину, ПАСК, этионамиду выполняли с использованием системы Bactec MGIT 960 модифицированным методом пропорций с использованием критических концентраций, как описано в руководстве пользователя.

Мы проводили тесты на чувствительность к бедаквилину и линезолиду с использованием модифицированного пропорционального метода на автоматической системе Bactec MGIT 960. Национальные рекомендации соответствуют рекомендациям ВОЗ, и использовались утвержденные в настоящее время критические концентрации для бедаквилина и линезолида в 1 мг/л для обоих тестов. Бедаквилин (Molekula Ltd., https://molekula.com) растворялся в ДМСО, и 100 мкл раствора использовалось для каждой пробирки MGIT.

Определение минимальных ингибирующих концентраций (МИК)

Тест по определению МИК c использованием Sensititre MycoTB Plate был выполнен, как описано ранее (229, 3). Рост МБТ в лунках с препаратом оценивали визуально с помощью зеркала относительно роста микобактерий в контрольной лунке без препарата на 14-21 день. МИК препарата считали, как наименьшую его концентрацию, подавляющую видимый рост микроорганизма в лунке. Пороговые

концентрации основаны на ранее установленных значениях: стрептомицин - 2,0, рифампицин - 1,0, рифабутин - 0.5, изониазид - 0.2, этамбутол - 5,0, офлоксацин - 2,0, моксифлоксацин - 0,5, канамицин ->5,0, амикацин - >4,0, ПАСК - 2, этионамид - 5 мкг/мл (246).

2.1.3. Выделение и очистка ДНК

Геномную ДНК выделяли с помощью набора магнитных шариков (ООО «НПФ Синтол», Россия) на автоматизированной станции выделения ДНК на базе Freedom EVO® Clinical (Tecan Group Ltd., Männedorf, Германия). Секвенирование ДНК проводили с помощью набора реактивов ABI PRISM® BigDye™ Terminator v. 3.1 с последующим анализом продуктов реакции на автоматическом секвенаторе Applied Biosystems 3730 DNA Analyzer.

Штаммы для полногеномного секвенирования рекультивировали на плотной питательной среде Левенштейна-Йенсена в течение примерно 4 недель при 37 °С, а затем термически инактивировали. Геномную ДНК выделяли с помощью набора Gentra Puregene Yeast/Bact. Kit B (QIAGEN, Германия, кат. № 158567).

2.2. Биоинформатические подходы

2.2.1. Источники данных и способы хранения и обработки информации

Обработка данных полногеномного секвенирования M. tuberculosis

Короткие прочтения в fastq формате, полученные после проведения секвенирования по технологии Illumina или BGI/MGI, подвергались стандартной обработке на локальном сервере с установленными программами для биоинформатического анализа. Удаление адаптеров проводилось с помощью Trimmomatic (66). Затем проводилось выравнивание на референсный геном M. tuberculosis H37Rv (NC_000962.3) (125) с помощью алгоритма BWA-MEM2 (347), и выравнивание по левому краю с помощью BamLeftAlign (197). Для идентификации мутаций использовался алгоритм FreeBayes (197), после чего, список вариантов фильтровался с помощью VCFlib toolkit (198). Для аннотации мутаций и аминокислотных замен использовалась программа SnpEff (121). Дальнейший анализ замен проводился с помощью собственных Python скриптов.

База данных геномов Mycobacterials

Геномы микобактерий были получены из базы данных NCBI Assembly, актуальность выборки -октябрь, 2024 г. Запрос к базе данных включал следующие термины: "Mycobacterium", "Mycobacteroides", "Mycolicibacillus", "Mycolicibacter" и "Mycolicibacterium". В исследовании использовалось «старое» обозначение рода Mycobacterium, соответствующее пяти «новым» родам. Все последовательности в формате fasta, собранные до уровней «complete genome» и «assembly» были скачаны с FTP-сервера, за исключением геномов, относящихся к видам M. tuberculosis, M. abscessus, M. avium и M. leprae, для

которых было получено примерно по 50 для каждого. В настоящее время депонировано порядка 190 тысяч геномов M. tuberculosis, 10 тысяч M. abscessus, 4,5 тысячи M. avium и 1000 M. leprae.

Аналогично, были получены геномы остальных видов порядка Mycobacteriales: Hoyosella, Williamsia, Nocardia, Rhodococcus, Prescottella, Tsukamurella, Gordonia, Antrihabitans, Skermania, Tomitella, Aldersonia, Dietzia, Lawsonella, Corynebacterium и Segniliparus. Всего 315 геномов было получено и использовано в выборке «остальные Mycobacteriales» при сравнении геном-геномных дистанций и построении филогенетического дерева порядка.

Начальная сортировка на виды и подвиды проводилась с помощью FastANI подхода (278) и порогов делинеации видов и подвидов - 95% и 98%, соответственно (635). В группах геномов одного вида предпочтение отдавалось геномам типовых штаммов с корректно опубликованным названием в соответствие с номенклатурой LPSN (472). Кластеры видов, содержащие только геномы собранные из метагеномных данных исключались из анализа. Данные для фенотипического разделения видов на быстро и медленно растущие были получены из базы данных образцов NCBI, публикаций, связанных с образцами, и двух недавних исследований (736, 738).

База данных геномных вариаций M. tuberculosis

В работе использовалась выборка клинических изолятов возбудителя туберкулеза, дополненная несколькими десятками геномов, относящимися к видам M. tuberculosis комплекса, вызывающими заболевания у животных - M. bovis, M. orygis, M. microti и др, использованная при поиске детерминант устойчивости в международном проекте CRyPTIC (619, 618). Молекулярные и фенотипические данные были получены из официального FTP-сервера проекта (http://ftp.ebi.ac.uk/pub/databases/cryptic/). Использовались следующие файлы, скачанные из поддиректории:

/release_june2022/reproducibility/data_tables/cryptic-analysis-group (июль 2023 г):

• VARIANTS.csv, содержащий данные по всем нуклеотидным мутациям,

• MUTATIONS.csv, содержащий данные по все аминокислотным заменам и заменам кодонов,

• CRyPTIC_reuse_table_20211019.csv, содержащий фенотипические данные для всех 12288 изолятов.

Обработка и анализ данных проводились с помощью собственных скриптов, выполняемых на Python версии 3.11. Сначала все аминокислотные замены и SNPs для 12288 изолятов были извлечены из таблиц VARIANTS и MUTATIONS в отдельные таблицы. Из анализа были исключены высокоповторяющиеся гены PE/PPE, инсерционные элементы и фаги. Итоговые 3680 генов общей длиной 3,62 Мбайт составили 82 % генома M. tuberculosis H37Rv (NC_000962.3).

Две тысячи триста восемьдесят восемь изолятов были исключены из исследования из-за наличия смешанных и неизвестных мутаций, отмеченных в аннотации как «x» или «o». Мутации окончательного набора из 9941 изолята были переаннотированы на геном M. canetti (NC_015848.1). Список

аминокислотных замен был использован для построения таблиц на основе модулей numpy и gmpy2 в Python с бинарными данными о наличии тех или иных замен для всех изолятов.

2.2.2. Методы сравнения геномов бактерий

Попарное сравнение геномов в fasta формате в большинстве подходов проводилось на локальном сервере, автоматизация процесса массового сравнения обеспечивалась локальной базой данных и Python скриптами. Для визуализации преимущественно использовался пакет Microsoft Excel.

Средняя нуклеотидная идентичность (ANI) (320) была рассчитана с помощью программы FastANI, которая является менее требовательной к вычислительным ресурсам по сравнению с альтернативными программами, но при этом дает сопоставимые результаты (278). Межгеномные расстояния (GGDC) (244, 404) рассчитывали с помощью онлайн-сервера (http://ggdc.dsmz.de/ggdc.php), поскольку отдельно программа не выпускалась. Были проанализированы три альтернативные формулы для значений алгоритмической ДНК-ДНК гибридизации (DDH), и поскольку не было обнаружено существенной разницы между значениями полученными по формулам 1 и 3, третья формула была исключена из анализа.

MASH-расстояния рассчитывали с помощью свободно распространяемого программного обеспечения (460). Этот метод строит мини хэш выборки из геномов, позволяя проводить независимое от последовательности сравнение наборов хэшей путем вычисления общих хэшей в двух наборах. В работе использовалась рекомендованная длина k-меров 22 нуклеотида и относительно большим размером выборки в 100 тыс. хэш-значений, что дает более точную оценку дистанций по сравнению с полученными при стандартном размере 1000 хэш-значений.

Для мультилокусного анализа последовательностей (MLSA) были выбраны 15 генов fusA, atpD, pheT, glnA, topA, secA, glpK, murC, pta, rrl, rrs, rpoB, recF, groL и gyrB) были случайным образом выбраны из списка 24 генов домашнего хозяйства, использованных в исследовании по типированию M. avium (68). Последовательности генов для анализируемых геномов были получены из геномных FASTA-файлов с помощью локальной установки программы BLAST (19). Расстояние измеряли как среднее расстояние (Jukes-Cantor) 15 генов, выровненных в BLAST с параметрами по умолчанию, при этом неполные гены были исключены из усреднения.

Мультипептидное выравнивание (MLPA) основывалось на 15 белковых последовательностях (RpsI, RpsH, RplJ, GrpE, RimP, Pnp, RsmH, PheT, SecA, AtpD, GyrB, MurC, RpoB, DnaN, Rnc) выбранных из списка 120 консервативных белков, используемых для анализа метагеномных данных (470). Поиск гомологов в последовательностях геномов и оценка дистанций осуществлялись в программе tblastn локального пакета BLAST.

Полногеномную метрику аминокислотной идентичности (AAI) (321) рассчитывали в алгоритмическком подходе ezAAI (311).

2.2.3. Филогенетический анализ геномов M. tuberculosis и поиск полногеномных ассоциаций.

Для выборки геномов из базы CRYpTIC, представленной в виде базы данных мутационных профилей, вычислялось попарное расстояние между геномами, и филогенетическое дерево было построено с использованием метода ближайших соседей (546) в программе MEGA 11 (607). Робастность дерева была проверена с помощью SNPs, специфичных для каждой линии (127). Изоляты, в-основном, принадлежали к четырем основным линиям - индо-океанической (L1), восточно-африканско-индийской (L3), восточно-азиатской (L2) и евро-американской (L4). Филогенетическое дерево экспортировалось в текстовом виде и использовалось для выявления предковых событий, общих для ветвей, и коррекции частот мутаций в выборке.

Отслеживание мутаций в филогенетическом дереве также было реализовано на языке программирования Python. В качестве начального расчета корректированной частоты каждая мутация прослеживалась как можно выше по филогенетическому дереву путем объединения потомков, если она присутствовала в обоих. Затем использовалась гипотеза о возможной реверсии мутации в части изолятов, вернувшая нуклеотид в исходное состояние. Для этого выявлялась наиболее полно предсказывающая единое происхождение мутации ветвь дерева (приближение первого порядка), а затем, в нисходящем переборе более мелких ветвей рассчитывались скорректированные частоты с учетом гипотезы обратной замены. Т.е. все изоляты в мелкой ветви считались как мутантные, и добавлялась инвертированная матрица мелкой ветви, как отражение реверсии. Отдельно считались филогенетические частоты, и в процессе перебора выбиралась минимальная сумма событий.

Эти корректировки списков мутаций позволили нанести мутации на филогенетическое дерево и определить узлы, в которых возникли мутации. В общей сложности в этом наборе изолятов было обнаружено 325 419 различных мутаций. Исходное и филогенетически скорректированное число мутационных событий в популяции составило 42 379 768 и 449 223, соответственно. Скорректированные частоты трехнуклеотидных замен в одном кодоне и динуклеотидных замен, приводящих к синонимичным заменам аминокислот (Arg, Leu, Ser), оказались равными 42 и 97, и были исключены из анализа.

Анализировались три основные величины - условное соотношение несинонимичных и синонимичных замен dN/dS, соотношение динуклеотидных и однонуклеотидных несинонимичных замен d2N/d1N и соотношение динуклеотидных и синонимичных замен d2N/dS.

Для всех замен оценивалась разница между филогенетически скорректированными мутационными событиями и ожидаемыми значениями на уровне отдельных кодонов. Для получения нулевой гипотезы сравнения из общего числа филогенетически скорректированных событий замены кодонов (n = 449223) была получена матрица замен кодонов. Затем для каждого кодона из матрицы методом Монте-Карло оценивали ожидаемые значения синонимичных и несинонимичных замен,

вызванных одно- и динуклеотидными заменами. Количество моделированных событий приводилось к общему числу наблюдаемых мутаций в конкретном кодоне. Для увеличения статистической мощности теста события рассматривались интегрально на уровне целого гена.

Для статистического анализа мутационных событий использовали точный тест Фишера, как и в подходе GWAS (177, 115, 357). Значимость событий оценивалась на основе поправки Бонферрони (292).

2.2.4. Филогенетический анализ микобактерий

Эволюционная история была определена с помощью метода соседних связей (546). В этом анализе участвовали 402 генома Mycobacterium, представляющих все виды. Эволюционный анализ проводился в программе MEGA11 с использованием квадратных матриц расстояний (607). В качестве группы сравнения использовались четыре генома родов oyosella, Antrihabitans, Tomitella и Tsukamurella (GCF_026041215.1, GCF_012932915.1, GCF_029167405.1, GCF_023162105.1). Ветви дерева подвергались минимальной топологически-разрешенной перестановке в MEGA11 для лучшего соответствия филогенетическому дереву в исследовании Тортоли (635).

Оценка топологии дерева анализировалась с использованием правила четырех точек (600, 186, 120), аналогичного недавно описанному подходу выборки квартетов (476). Каждая внутренняя ветвь разбивает все терминальные листья (все геномы, включая используемый в качестве корня) на четыре независимых набора, названных квартетами или квадруплексами. Из полученного дерева подразумевается только одна топология таких квадруплексов {ab|cd}, где вертикальная линия обозначает внутреннюю ветвь, разделяющую две соединенные пары. Здесь сумма расстояний ab + cd должна быть меньше сумм ac + bd и ad + bc, а две последние должны быть равны в случае идеального филогенетического дерева. Таким образом, минимальная сумма пар расстояний определяет топологию на участке, и в случае реальных данных она может быть иной. Расстояния для каждой из трех возможных комбинаций четырех листьев сравнивались по этому правилу (476), и были протестированы все варианты выбора конкретных листьев из четырех наборов. Ошибка рассчитывалась как отношение числа альтернативных топологий {ac|bd или ad|bc}, отличающихся от заданной {ab|cd}, к общему числу комбинаций. Дерево экспортировалось из программы MEGA11 в текстовом формате, а все расчеты проводились с помощью специального скрипта на Python.

Выборка нуклеотидных и аминокислотных последовательностей из набора геномов филогенетического дерева осуществлялась последовательным поиском и выравниванием с помощью программ blastn и tblastp пакета BLAST (19).

РАЗДЕЛ 3. ЭКСПЕРИМЕНТАЛЬНАЯ ЧАСТЬ

3.1. Филогенетический анализ рода Mycobacterium

С развитием методов секвенирования проблема систематики уже неотделима от задачи реконструкции эволюционного процесса и построения филогенетических деревьев, отражающих родственные связи биологических видов. Более того, недавно введен новый Кодекс номенклатуры прокариот исходя из данных секвенирования (Code of Nomenclature of Prokaryotes Described from Sequence Data) или SeqCode (462), как альтернатива используемому Международному кодексу номенклатуры прокариот (ICNP). Если для описания нового вида ранее требовалось депонирование культуры в две международные коллекции микроорганизмов, находящихся в разных странах, то по кодексу SeqCode требуется только депонирование последовательности полного генома достаточного качества.

Филогенетика рода Mycobacterium активно изучается благодаря принадлежности данному роду возбудителей туберкулеза и лепры, и нарастанию количества случаев инфекций, вызванных нетуберкулезными микобактериями. Филогенетические деревья микобактерий строятся с использованием различных методов сравнения геномов, использующих данные о нуклеотидных или белковых последовательностях (632, 224, 405, 390, 636, 123, 401, 54, 648, 736). Эти методы делятся на две основные категории: использующие полные геномы или выборку консервативных генов, или белков. Последний метод похож на широко применяемый экспериментальный подход мультилокусного анализа последовательностей (MLSA), однако на настоящее время так и не выработан консенсусный список генов или белков, необходимых для надежной таксономической реконструкции. Количество локусов, анализируемых одновременно в этих исследованиях, варьирует от нескольких (648) до сотен (54, 471).

При определении вида бактерий стандартом является таксономическая база данных LPSN (https://www.bacterio.net). В настоящее время она интегрирована с Геномным сервером типовых штаммов TYGS (https://tygs.dsmz.de/), последний содержит данные полногеномного сравнения только для 78 штаммов микобактерий, принадлежащих 46 видам. Клинические и природные изоляты, несомненно, более разнообразны. Считается, что в настоящее время известно более 200 видов микобактерий (54). В базе LPSN депонировано 218 последовательностей 16S рРНК, относящихся к 210 видам.

В опубликованных филогенетических деревьях рода Mycobacterium существуют серьезные расхождения как в принадлежности отдельных видов кластерам, так и объединении кластеров в родственные группы (390, 635). Эта проблема усугубляется тем, что для некоторых депонированных геномов был неправильно определен вид, опираясь на последовательность одного локуса. Например, широко используемый фрагмент гена 16S рРНК сам по себе недостаточен для точной видовой идентификации (239). Другие гены, такие как rpoB, gyrB и hsp65, которые широко используются в

клинических исследованиях (297, 629), обеспечивают большую надежность. Однако интерпретация этих последовательностей затруднена из-за отсутствия всеобъемлющего эталонного дерева и отсутствия границ идентичности, разграничивающих штаммы, подвиды и виды бактерий.

Недавнее предложение разделить род Mycobacterium на пять отдельных родов на основе вертикально наследуемых консервативных признаков (224) еще больше усложняет идентификацию видов (634, 738) из-за параллельного использования различных номенклатур. Этот двойственный подход к наименованию распространен как в литературе, так и в базах данных, что вносит дополнительные сложности при аннотации гомологичных последовательностей.

3.1.1. Сравнение геном-геномных дистанций

При существовании довольно большого количества методов сравнения геномов все они используют единый подход выравнивания нуклеотидных или белковых последовательностей и оценки эволюционных дистанций. Вариативность результатов обусловлена размером выборки локусов, способом выравнивания и способом расчета дистанций. При попарном сравнении различных методов можно оценить границы применимости и выбрать оптимальный для таксономической реконструкции рода.

Геномные последовательности Mycobacterium (включая «новые» Mycolicibacterium, Mycolicibacillus, Mycolicibacter, and Mycobacteroides) были загружены с ftp-сервера NCBI. Интенсивное изучение отдельных клинически-значимых видов микобактерий привело к депонированию тысяч соответствующих геномов в базе данных. Так, известно около 100 тысяч геномов M. tuberculosis, 50 тысяч геномов M. leprae, 30 тысяч геномов M. avium. Соответственно в исследовании их количество ограничивалось несколькими десятками. Всего было проанализировано 1390 микобактериальных геномов разной степени полноты.

В качестве внешней группы для сравнения различных метрик эволюционных расстояний использовались геномы других родов порядка Mycobacteriales: Hoyosella, Williamsia, Nocardia, Rhodococcus, Prescottella, Tsukamurella, Gordonia, Antrihabitans, Skermania, Tomitella, Aldersonia, Dietzia, Lawsonella, Corynebacterium, Segniliparus, представленных в NCBI. Суммарно были выбраны 315 геномов со статусом сборки от контигов до полных геномов.

После первоначальной сортировки на группы геномов, соответствующих отдельным видам, с использованием порогового значения ANI = 95% (213) было выявлено 568 видов микобактерий. При исключении ветвей, содержащих геномы, собранные только при анализе данных метагеномных исследований, список видов микобактерий сократился до 402. Часть видов была разделена на подвиды (порог ANI = 98%) (635), в результате чего было получено 497 различных записей. В группах близкородственных геномов, соответствующих видам, предпочтение отдавалось типовым штаммам с достоверно опубликованным статусом в базе LPSN.

Анализировались основные полногеномные методы сравнения нуклеотидных последовательностей и вычисления дистанций: метод средней нуклеотидной идентичности (ANI) в реализации fastANI (278), метод in silico геном-геномной гибридизации методом GGDC (genome-genome digital calculator) по двум формулам - отношение длины гомологичных пар фрагментов к полной длине генома (Рисунок 8.A) и отношение суммы идентичных нуклеотидов в этих сегментах к полной длине сегментов (Рисунок 8.B) (406), метод сравнения минихэшей коротких последовательностей MASH (Рисунок 8.C) (460). Кроме того, анализировалась способность оценивать расстояние путем анализа отдельных генов, и усредненного расстояния для 15 консервативных генов домашнего хозяйства - fusA, atpD, pheT, glnA, topA, secA, glpK, murC, pta, rrl, rrs, rpoB, recF, groL и gyrB (MLSA, multilocus sequence analysis, Рисунок 8.G). При сравнении белковых последовательностей использовался полногеномный подход измерения средней аминокислотной идентичности AAI в реализации EzAAl (Рисунок 8.I) (311) и выравнивание 15 консервативных белков (RpsI, RpsH, RplJ, GrpE, RimP, Pnp, RsmH, PheT, SecA, AtpD, GyrB, MurC, RpoB, DnaN, Rnc) MLPA (Рисунок 8.H). Анализировались две группы попарных расстояний: между геномами внутри рода Mycobacterium и между геномами Mycobacterium и другими представителями Mycobacterials.

Результаты попарных сравнений расстояний приведены на Рисунке 8, причем в качестве референса для всех расстояний использовалось значение ANI. Все полногеномные дистанции за исключением GGDC(1) (Рисунок 8.A), хорошо коррелировали при значениях ANI в области от 100% до 90% и ниже с небольшим увеличением разброса. Метрика GGDC(1) имеет ограничения в установлении филогенетических связей: попарное распределение ANI-GGDC имеет сигмоидную форму со значительными отклонениями в сторону увеличения расстояния GGDC или большего сходства ANI при высоких значениях ANI вплоть до 100% (Рисунок 8.A).

Вторая формула для GGDC хорошо коррелирует со значениями ANI для близкородственных геномов. Граница применения этих метрик составляет 85-90% для ANI, что соответствует расстоянию GGDC в 0,10-0,15. Для более отличающихся геномов оба расчета приводят к высокой частоте ошибок. Метрика MASH имеет небольшое преимущество перед ANI для сравнения менее родственных геномов, что видно по изменению наклона зависимости при ANI = 82%: ниже этого значения наблюдается уширение распределения ANI.

Межвидовые расстояния, вычисленные по уровню идентичности отдельных генов дали ожидаемые результаты: гены rrs и rrl, кодирующие рибосомальную рРНК, ограниченно применимы для разграничения видов и подвидов, поскольку разным видам могут соответствовать идентичные или очень близкие нуклеотидные последовательности (Рисунок 8.D и Рисунок 8.E). Однако, как правило, такие схожие по последовательностям генов рРНК виды не отстоят далеко друг от друга на филогенетическом дереве, и принадлежат одному комплексу внутри рода (построение филогенетического дерева и выделение комплексов описаны ниже, в пункте 3.1.3). Так, например, последовательности генов rrs

видов М. septicum и М. регедппит, принадлежащих комплексу М. ^^и^ит, отличаются 4 нуклеотидами при полной длине 1530 п.н.

GGDC(l) В GGDC(2) С MASH

Рисунок 8. Попарное сравнение геном-геномных расстояний внутри рода Mycobacterium (синие точки) и между Mycobacterium и остальными геномами Mycobacterials (красные точки). Область перекрытия отображена за счет полупрозрачности и представляет собой фиолетовую область. В качестве референса на всех графиках приведена метрика ANI - ось X. ANI, AAI и белковая метрика MLPA измеряется в процентах гомологии или идентичности, остальные метрики приведены в единицах эволюционной дистанции от 0 до 1, для идентичных и максимально различных

последовательностей, соответственно.

Анализ других типичных генов, используемых для видовой идентификации и филогенетической реконструкции, выявил иной характер распределений. Для гена субъединицы ДНК-гиразы gyrB наблюдается линейный тренд с наклоном между 80-100% ANI, хотя и с более высоким процентом ошибок по сравнению с полногеномными метриками (Рисунок 8.F). Тем не менее, при использовании только последовательности гена gyrB вполне возможно разделять виды микобактерий, и, соответственно, проводить идентификацию секвенированием. Небольшое нарушение этого правила, наблюдаемое в виде трех точек с ANI около 95,2-95,4% и очень похожими последовательностями gyrB, было обусловлено схожестью последовательностей гена у геномов разных подвидов внутри очень разнообразного и малоисследованного вида M. phocaicum.

Увеличение мультиплексности от одного до 15 генов при MLSA-анализе значительно уменьшает ошибку, и использованный подход дает наилучшие результаты по сравнению с другими нуклеотидными расстояниями. Для него характерен самый маленький разброс значений, и он обеспечивает наилучшее разделение внутриродовых и межродовых расстояний. Характер зависимости MLSA(ANI) также показывает неприменимость метрики ANI ниже 80-85% (Рисунок 8).

Эволюционные расстояния на основе аминокислотных последовательностей демонстрируют схожий характер распределений, но имеют больший разброс по сравнению с распределениями MASH, GGDC (формула 2) и MLSA. Метрика MLPA для 15 белков сильнее компрессирована в области 100% по сравнению с метрикой AAI, вычисляемой на основе полных геномов.

Все мультилокусные и полногеномные метрики хорошо коррелировали для близкородственных геномов со значениями ANI более 90%. Таким образом, видовая идентификация с использованием любой из метрик и установленных порогов является вполне надежной, если доступен любой геном, принадлежащий виду. Так, при ранее установленном пороге ANI в 95% (213) соответствующее значение MASH в нашем исследовании составило 0,04-0,05.

Метод MASH показал несколько более широкий диапазон применимости, однако мультилокусное расстояние выравнивания нуклеотидов (MLSA) и методы на основе белков (MLPA и AAI) привели к еще большему улучшению дискриминационных свойств: для этих методов характерно значительно меньшее пересечение межгеномных расстояний внутри рода и между геномами разных родов.

В случае AAI полная дискриминация рода достигалась при значениях ниже 66,4%, а зазор между двумя распределениями находился в диапазоне 65,6-66,4%. Схожее пороговое значение, равное 65%, было получено в исследовании Meehan et al. для того же рода (401). Однако в других исследованиях пороговые значения AAI для разграничения родов варьируют в широких пределах от 60% до 80% (322, 449, 366, 200). Эволюционные изменения накапливались неравномерно в разных таксонах, и локальные деревья могут иметь значительно отличающиеся формы, что затрудняет установление четких границ между разными таксонами (474). Вопрос о том, можно ли предложить универсальное значение, является предметом текущих исследований и дискуссий (648).

3.1.2. Кластерный анализ и вопросы топологии деревьев

Строгость разделения различных групп геномов также может быть оценена с использованием математических методов кластерного анализа, которые являются более чувствительными и специфичными по сравнению с описанным выше подходом к определению внутри- и межкластерных расстояний между геномами по принципу «все против всех». Простой подход парных сравнений расстояний внутри кластера и между кластерами может обеспечить надежную классификацию только в том случае, если размеры кластеров меньше, чем расстояние между ними. В противном случае внутрикластерные и межкластерные диапазоны расстояний будут перекрываться, что и наблюдалось выше.

Если в классической задаче кластерного анализа используются координаты узлов в некотором пространстве, то в нашем случае имеется только матрица расстояний между узлами (эволюционных дистанций между геномами), что накладывает серьезные ограничения на применимость методов кластеризации. Фактически, напрямую можно применить только значения полного, среднего и минимального кластерного расстояния.

Анализ средних расстояний и распределений расстояний для двух кластеров Mycobacterium и «остальные Mycobacterials» был проведен в предыдущем разделе, и только метрика AAI позволяла надежно дискриминировать род микобактерий от остальных родов порядка. Пороговое значение AAI составило около 66%. На практике это означает возможность определить принадлежность роду микобактерий для неизвестного генома по расстоянию AAI до любого генома из рода Mycobacterium, или, точнее, выбранных в данном исследовании геномов, и сравнению с пороговым значением. Для остальных метрик возможно ошибочное определение принадлежности, с вероятностью пропорциональной пересечению двух распределений. Тем не менее, анализ метрик имеет помимо теоретического еще и практический смысл: дело в том, что скорость вычисления расстояний сильно отличается для разных подходов, и AAI, даже в имплементации FastAAl, требует значительных вычислительных ресурсов и занимает больше времени по сравнению с другими методами.

При выборе оптимальной метрики эволюционных дистанций для построения филогенетического дерева, применимой на масштабе бактериального рода Mycobacterium, было протестировано два подхода к оценке межгеномных расстояний и возможности кластеризации: метод медоидов и модифицированный линейный дискриминантный анализ.

Одним из подходов кластерного анализа является измерение расстояний до специальных точек в пространстве кластеров - центроидов. В классической задаче кластерного анализа центроид определяется как средняя точка в евклидовом пространстве, с минимальным расстоянием до всех точек кластера. Напрямую из матрицы дистанций определить центроид невозможно, однако можно определить узел кластера, для которого среднее расстояние до всех точек кластера минимально. Этот

узел, называемый медоидом (299), наиболее приближен к центроиду, однако его поиск не требует восстановления пространственной структуры кластеров, и вычисляется путем перебора по всем узлам и оценке средней дистанции до остальных (Рисунок 9).

Рисунок 9. Кластерный анализ попарных расстояний между геномами внутри рода Mycobacterium (синие точки) и между геномами Mycobacterium и остальными Mycobacterials (красные точки): метод медоидов (A) и линейный дискриминационный анализ (Б).

Сравнение расстояний от медоидов Mycobacteria до других геномов в кластере и геномов в кластере «другие Mycobacterials» улучшило дискриминацию межкластерных и внутрикластерных расстояний для всех метрик по сравнению с подходом включавшем все возможные пары геномов (Рисунок 9). Так, для MLSA и MLPA пересечение двух распределений находится в пределах 1%. Подробные параметры распределений приведены в Таблице 1.

Второй подход основан на линейном дискриминантном анализе Фишера (LDA), который предполагает проекцию точек кластера на низкоразмерное пространство. Этот метод тесно связан с методом главных компонент. Оба подхода используют проецирование узлов анализируемых кластеров на пространство меньшей размерности и анализ получившегося распределения. В наиболее простом

случае, при парном анализе, узлы принадлежат двумерной плоскости и используется проекция на прямую. При вращении данной прямой в плоскости меняется характер распределения проекций, и если в методе главных компонент минимизируется среднеквадратичное отклонение высот проекций, то в линейном дискриминантном анализе максимизируется расстояние между спроецированными на прямую кластерами, используя предварительную разметку узлов.

Таблица 1. Статистика распределений геном-геномных расстояний.

Метод

вычисления

дистанций

Геномы, обеспечивающие максимальное разделение кластеров

Средние расстояния

5 а

X

QQ

S 15

г то

ш о

X

а

ш

15

то

s а

£ х

со

о о

X

а

£

а о

Полные расстояния

ANI 0,205 0,240 0,250 0,211 -0,04 9,4%

GGDC-1 0,809 0,868 0,873 0,847 -0,026 8,6%

GGDC-2 0,792 0,799 0,826 0,596 -0,230 73,2%

MASH 0,208 0,274 0,310 0,204 -0,106 9,8%

MLSA 0,159 0,243 0,321 0,175 -0,145 4,6%

MLPA 0,110 0,201 0,192 0,126 -0,065 2,9%

AAI 0,266 0,385 0,336 0,344 0,008 0,0%

Метод медоидов

ANI GCF_009741445.1 M. avium 0,193 0,237 0,222 0,220 -0,002 2,4%

GGDC-1 GCF_001667275.1 M. sp. E2989 0,755 0,868 0,862 0,859 -0,003 2,3%

GGDC-2 GCA_026005275.1 M. sp. NGTWS1803 0,768 0,802 0,791 0,781 -0,010 7,2%

MASH GCF_009741445.1 M. avium 0,188 0,268 0,243 0,226 -0,017 6,1%

MLSA GCF_900161855.1 M. colombiense 0,139 0,230 0,255 0,183 -0,072 0,4%

MLPA GCF_001722425.1 M. porcinum 0,092 0,188 0,140 0,127 -0,013 0,8%

AAI GCF_002086215.1 M. heidelbergense 0,244 0,382 0,321 0,353 0,031 0,0%

Метод линейного дискриминационного анализа

ANI GCF_009192875.1 GCF_009939605.1 M. phlei Rhodococcus sp. YH1 0,092 0,114 0,100 0,108 0,008 0,0%

GGDC-1 GCF_003402475.1 GCF_004011825.1 M. sp. MFM001 R. xishaensis 0,401 0,440 0,428 0,432 0,005 0,0%

GGDC-2 GCA_026005275.1 GCF_009872365.1 M. sp. NGTWS1803 Rhodococcus sp. T7 0,380 0,408 0,389 0,386 -0,003 1,6%

MASH GCF_032883035.1 GCF_005049235.1 M. sp. 21AC1 Rhodococcus oryzae 0,114 0,153 0,127 0,140 0,013 0,0%

MLSA GCF_036409095.1 GCF_002993285.1 M. sp. SCH5140682 Gordonia iterans 0,082 0,137 0,096 0,113 0,016 0,0%

MLPA GCF_020172685.1 GCF_004006015.1 M. sp. MYC340 R. sp. X156 0,049 0,105 0,065 0,091 0,026 0,0%

AAI GCF_003201655.1 GCF_000308515.1 M. sp. GAS496 Nocardia carnea 0,129 0,200 0,160 0,186 0,026 0,0%

Однако, как и в случае центроида, применить данный подход без изменений для анализа матриц эволюционных дистанций невозможно в силу отсутствия координат узлов. Аналогично подходу с определением медоидов кластеров, в качестве прямой на которую будут проецироваться все узлы двух кластеров, можно выбрать отрезок, соединяющий два узла. Соответственно, при переборе всех возможных отрезков, проецировании остальных узлов и анализе одномерных распределений, можно выбрать оптимальную пару узлов, позволяющую максимально разделить точки двух кластеров. В качестве оценки разделения использовались максимизация расстояния между ближайшими точками кластеров.

Вторым препятствием к применению линейного дискриминантного анализа является вопрос о метрике анализируемого пространства расстояний и способе вычисления проекций узлов на прямую. В классическом методе парной корреляции и кластерного анализа используется евклидово пространство, и для вычисления проекций применяется векторные преобразования. Принимая во внимание, что пространство парных межгеномных расстояний является отражением филогенетического дерева видов, геномы должны соединяться трехлучевой звездой. В центре звезды, которая представляет собой точку ветвления, локализуется отдаленный гипотетический предок двух из трех геномов. Таким образом, можно вычислить проекцию точки на линию, соединяющую две точки двух кластеров, исходя из простого арифметического правила: проекция C на AB равна (AC + AB - BC)/2, где все длины отрезков известны (Рисунок 9). В ходе полного перебора точек C, принадлежащих разным кластерам, и анализа пересечения распределений, а затем и полного перебора всех точек A и B, были выбраны точки A и B, обеспечивающие наилучшее разделение внутрикластерных и межкластерных расстояний.

Подход модифицированного линейного дискриминационного анализа позволил еще лучше отделить микобактерии от других видов порядка Mycobacterials. Полное разделение с заметными разрывами между двумя наборами наблюдалось для всех расстояний, кроме метрики GGDC, вычисленной по формуле 1 (Рисунок 9). Дискриминация неизвестного генома при таком подходе требует вычисления двух расстояний до центров двух кластеров и расчета проекции по приведенной формуле.

Интересно, что наблюдалось расщепление кластеров, когда в качестве расстояния между геномами использовали AAI как для медоидного, так и для LDA-подхода (Рисунок 9). Отдельные группы схожих проекций отражают наличие в анализируемых кластерах генетически родственных геномов, находящихся на одинаковом расстоянии от общего предка. Как и ожидалось, самая дистальная полоса кластера Mycobacterium, а, значит, и самая близкая к другим Mycobacterials, относится к наиболее укорененному комплексу M. chelonae-abscessus. Для Mycobacterials аналогично можно выделить резкие полосы для разных родов. Такая субкластеризация может указывать на то, что дистанция AAI обладает необходимой аддитивностью на рассматриваемых масштабах и построение филогенетического дерева с ее помощью будет наиболее точным.

Рисунок 10. Сравнение филогенетических деревьев микобактерий построенных на основе дистанций AAI (слева) и MLSA (справа). Разделение быстро- и медленнорастущих микобактерий происходит между кластерами M. rhodesiae и M. terrae. Выделены предлагаемые суперкластеры

M. aurum, M. neumanii и M. fortuitum.

Филогенетический анализ также представляет собой один из подходов кластерного анализа, позволяющий устанавливать иерархические связи узлов, и тем самым - выявлять родство видов. В качестве основной метрики построения филогенетического дерева использовалась дистанция аминокислотной идентичности AAI. Из методов нуклеотидных сравнений наибольшее разделение обеспечивал метод MLSA, а его сравнение с ANI обладало наименьшим разбросом значений на всем протяжении анализируемых расстояний.

Для анализа рода Mycobacterium были построены два филогенетических дерева с помощью метода соединений соседей (neighbor joining) (546). Всего в анализе использовались 402 генома, соответствующие различным видам, а четыре генома родов Hoyosella, Antrihabitans, Tomitella и Tsukamurella были использованы в качестве группы сравнения (GCF_026041215.1, GCF_012932915.1, GCF_029167405.1, GCF_023162105.1). Эволюционный анализ проводили в программе MEGA11 с использованием квадратных матриц попарных расстояний (607). Деревья были минимально реорганизованы путем разрешенных перестановок поддеревьев, чтобы лучше соответствовать филогенетическому дереву, предложенному Тортоли (635).

Полученные филогенетические деревья микобактерий очень схожи и характеризуются строением, подобным кусту (474), - строении, отражающем историю давно дивергировавших видов (Рисунок 10). Для него характерно наличие консервативных комплексов с короткими общими ветвями, обусловленных притяжением ветвей, в которых вполне вероятны ошибки в топологии.

Возможность проверки соответствия матрицы дистанций топологии деревьев может быть основана на условии четырех вершин, впервые предложенном Смоленским и Зарецким и переоткрытым впоследствии в зарубежной литературе (120). При рассмотрении элементарного эволюционного графа для четырех ветвей мы предполагаем, что для каждой пары существовал общий предок (Рисунок 11). В этом случае возможна только одна топология попарного объединения двух ветвей и соединение полученных предковых точек общим ребром. Случаем четырехлучевой звезды или одновременного соединения четырех ветвей в одной точке можно пренебречь, поскольку такой случай соответствует одновременному разделению предковой линии на три сублинии. Если рассмотреть три суммы расстояний от вершины до вершины: AB + CD, AC + BD и AD + BC - то две из них должны быть равны, а третья должна быть меньше именно за счет общей грани, соединяющей два предка (Рисунок 11). Проверка равенства двух максимальных сумм расстояний на разных масштабах анализируемого дерева может служить мерой робастности выбранного метода оценки эволюционных дистанций. В качестве меры ошибки использовалась отношение разности длин максимальных сумм к минимальному расстоянию между двумя из четырех вершин.

н^^шmнcn^lлfoнm^lлfnнcn^lлmнcл^lлfoнol^lлмнol^lлfoнcл^lлfnнffl^lлf0rtcrl^lnmн нNm<f^lЛ^o^oocйmoнNl^lm^JlЛШ^o^coolOOrlfмmяf^JlЛ^o^мй(ЛOH(Nrмm^ílЛ^oю^ooolO нннннннннннигмрд(\гмгммгмгм(мрд(мгммттттттг0ттттт^

Рисунок 11. Вычисление топологической ошибки деревьев по правилу четырех ветвей. А -вычисляемые суммы дистанций; Б - пример всех терминальных ветвей на реальном филогенетическом дереве; В - ошибки внутренних ветвей деревьев, построенных на пространстве

дистанций АА1 и MLSA, упорядоченные по убыванию.

Средняя топологическая ошибка, рассчитанная по правилу четырех точек для филогенетического дерева, построенного с использованием АА1, оказалась ниже, чем для дерева, построенного с использованием MLSA (12% против 17%). Кроме того, значительно большее число ветвей имело 100-процентную поддержку - 192 против 67 (Рисунок 11), в то время как общее число внутренних ветвей было равно 403 для обоих вариантов. Этот результат убедительно подтверждает надежность АА1 для таксономической реконструкции на уровне видов и родов.

Вопрос о границах, отделяющих различные таксономические группы, тесно связан с метрикой и размерностью пространства межгеномных расстояний. Было высказано предположение, что они не являются евклидовыми, а принадлежат гипергеометрическому пространству с отрицательной кривизной (391, 704). В этой метрике треугольник, соединяющий три генома, имеет изогнутые внутрь границы. По мере уменьшения кривизны дерево становится ближе к трехлучевой звезде, которая сама по себе является идеальным представлением наименьшей единицы филогенетического дерева. Гипергеометрическое пространство лучше соответствует четырехточечному условию для филогенетических деревьев и реальным данным о межгеномных расстояниях (704). Наиболее важным следствием такого подхода к моделированию является то, что расстояния нельзя сравнивать напрямую,

что делает проблему добавления новых таксонов в филогению более сложной, чем выведение пограничных расстояний на разных уровнях классификации (368).

При дивергенции двух видов от общего предка замены накапливаются независимо, и расстояние между двумя видами будет являться суммой расстояния от них до общего предка. Иначе говоря, треугольник расстояний между тремя узлами должен быть вырожден до трехлучевой звезды. При этом добавление узлов к этому элементарному графу не должно нарушать его топологию и не выходить за двумерное пространство. При идеальном иерархическом эволюционном процессе и невырожденном методе оценки расстояний, все точки должны укладываться на плоскость и формировать филогенетическое дерево. Взаимоотношения ветвей в идеальном филогенетическом дереве должны определяться с помощью манхэттенских расстояний (расстояния городских кварталов), или метрики Минковского с параметром р = 1. В этом случае между геномами нужно «перемещаться» по улицам гипотетического города, где перекрестки совпадают с положением общих предков. В отличие от манхэттенского расстояния пространство филогенетического дерева ограничено и для путешествия между геномами нельзя выбрать альтернативные пути. Однако если учесть существование и широкое применение метода филогенетических сетей (265), то параллель становится еще более наглядной.

Гомопластические изменения, или одинаковые замены в разных ветвях, притяжение ветвей, рекомбинация и горизонтальный перенос, будут локально нарушать метрику расстояний. В свою очередь, вычислительные ограничения эволюционных расстояний дистальных геномов будут приводить к глобальным нарушениям топологии дерева на больших масштабах. Для преодоления этих ограничений как раз и применяются аппроксимация гипергеометрическим пространством, с точки зрения математики, или геномные сети альтернативных путей эволюции - с точки зрения эволюционной биологии.

3.1.3. Филогенетическое дерево микобактерий

Полученное филогенетическое дерево микобактерий характеризуется набором консервативных комплексов, или кластеров близкородственных видов, редко перемежающихся орфанными видами (Рисунок 12). Были использованы почти все депонированные геномы, и во многих случаях существование подвидов, видов и комплексов подтверждается наличием независимых геномных последовательностей, относящихся к одному подвиду (заполненные окружности на рисунке).

Комплекс М. chelonae-abscessus наиболее близок к общему предку микобактерий и укоренен глубоко и отдельно от других кладов и видов (646, 635, 401, 54). В этот комплекс входят 12 отдельных видов, что превышает предыдущие оценки (52). Только два вида были представлены одним геномом: патогенный для рыб М stephanolepidis (193) и штамм, выделенный из мокроты пациента с муковисцидозом (408). Другие виды были подтверждены наличием нескольких геномов, а шесть видов были разделены на подвиды (Рисунок 12). На примере этого же кластера видны неточности аннотации секвенированных геномов в базе NCBI: М. salmoniphШum представляет собой два отдельных

близкородственных вида, которые к тому же и распадаются на отдельные подвиды (Рисунок 12). Причем это подтверждается большим количеством секвенированных геномов. Типовой штамм ATCC 13758 принадлежит отдельной ветви, и является патогеном рыб, в то время как для второго вида, обозначенного как M. sp. CCUG 60883, описаны образцы, связанные с патологическим процессом у людей. Также оба вида были обнаружены в образцах питьевой воды и природных водоемов (52).

Кластерный анализ (показано выше), как и филогенетический анализ порядка Mycobacterials, помещает комплекс M. chelonae-abscessus между микобактериями и представителями других Mycobacterials, но на одной ветви с Mycobacteria. Длина общей ветви M. chelonae-abscessus намного больше, чем длина общих ветвей Corynebacterium, Nocardia или Rhodococcus (Рисунок 13).

Известное разветвление микобактерий на медленно- и быстрорастущие имело одно исключение: кластер быстрорастущих микобактерий M. rhodesiae был присоединен к общей ветви медленнорастущих (Рисунок 12). Однако ошибка общей ветви кластера в 66% указывала на локальное нарушение топологии. Расчет альтернативных топологий квартетов действительно показал, что этот кластер присоединился к быстрорастущей ветви с меньшей ошибкой в 47%. Подсчеты для топологии {ac|bd} составили 9 997 631, а для топологий {ab|cd} и {ad|bc} - 6 406 629 и 2 657 782, соответственно. Здесь ветвь {с} относится к кластеру M. rhodesiae; {d} - ко всем медленно растущим, {b} - к быстро растущим микобактериям, исключая кластеры M. chelonae-abscessus, M. tokaiense и M. insubricum; а {a} - к трем последним кластерам плюс корневые геномы Mycobacteriales. В альтернативном исследованном филогенетическом дереве, построенном по метрике MLSA, данный кластер сохранял свое более вероятное расположение в суперкомплексе быстрорастущих микобактерий (Рисунок 10).

Филогенетическое позиционирование геномов и описанная скорость роста видов совпадают, но с рядом исключений, что вероятно связано с более поздней адаптацией к экологическим нишам. Так, если M. icosiumassiliensis и M. bourgelatii являются быстрорастущими видами, локализующимися среди ветви медленнорастущих микобактерий, то M. tusciae, M. salfingeri, M. doricum, M. sp. 018/SC-01/001 и M. insubricum - медленнорастущие, расположенные на ветви быстрорастущих (646).

Помимо M. chelonae-abscessus, в группе быстрорастущих микобактерий можно наблюдать и другие хорошо выделенные комплексы (695): M. tokaiense, M. insubricum, M. aurum, M. hippocampi, M. poriferae, M. chubuense, M. duvalii, M. litorale, M. agri, M. tusciae, M. elephantis, M. neumannii, M. flavescens, M. neoaurum, M. mucogenicum, M. hodleri, M. smegmatis, M. brisbanense, M. fortuitum и M. rhodesiae.

Быстрорастущие микобактерии являются предшественниками медленнорастущих микобактерий. Три кластера, M. terrae, M. triviale и M. talmoniae, предположительно занимают промежуточное положение между медленно и быстро растущими (646), и действительно, они глубже других укоренены на ветви медленно растущих. Следующим отдельно отстоящим комплексом является M. xenopi, который включает в себя 16 видов.

Медленнорастущие микобактерии подразделяются на восемнадцать отдельных комплексов: M. terrae, M. triviale, M. talmoniae, M. shimodei, M. xenopi, M. asiaticum-gordonae, M. intermedium, M. kubicae, M. szulgai, M. tuberculosis, M. marinum, M. gastri-kansasii, M. leprae, M. lentiflavum, M. interjectum, M. bohemicum, M. scrofulaceum и M. avium (Рисунок 12).

Большинство комплексов введено впервые в дополнение к хорошо известным M. abscessus-chelonae, M. phocaicum/mucogenicum, M. fortuitum-smegmatis, M. terrae, M. celatum, M. xenopi, M. simiae, M. parascrofulaceum/scrofulaceum, M. avium, M. kansasii (695, 141). Одним из примеров нововведений является комплекс M. neumannii (Рисунок 10), который топологически существенно отличается от кластеров M. rhodesiae и M. mucogenicum меньшей длиной общей ветви. Возможно, что такой комплекс будет разделен более строго на отдельные комплексы по мере открытия новых видов микобактерий.

Концепция комплексов микобактерий является привлекательной с точки зрения удобства применения в лабораторной диагностике, позволяя объединять группы видов на основании строгой классификации, которая имеет отражение как в сходстве нуклеотидных последовательностей, так и, что вполне вероятно, в фенотипических и клинических признаках. На основании наличия крупных общих ветвей, объединяющих несколько комплексов, можно предложить выделять суперкомплексы, объединяющие в себе несколько комплексов. Так, суперкомплекс M. aurum объединяет комплексы M. aurum, M. hippocampi, M. poriferae, M. chubuense и M. duvalii. Кроме того, внутри более крупного суперкомплекса M. fortuitum можно выделить отдельные клады M. smegmatis и M. brisbanense, а также три орфанных вида. Аналогичным образом, M. neumanii имеет неоднородную структуру, которая включает, по крайней мере, комплекс M. flavescens. С увеличением числа открытых видов, во многих считающихся гомогенными комплексах можно ожидать проявление более тонкой структуры, с выделением более узких групп видов.

Ряд групп и кластеров, таких как M. hodleri, M. hippocampi, M. insubricum, M. rhodesiae, практически не содержат патогенных видов, однако это может быть связано как с низкой вирулентностью, так и с отсутствием необходимого контакта человека с нишей, где обитают эти виды (Рисунок 12).

Многим опубликованным геномам не были присвоены таксономические названия, и они не были опубликованы в соответствии с кодексом микроорганизмов (646). Из 402 видов только 181 имел корректные обозначения видов, для других 22 видов названия приведены как «предпочтительные» в соответствии с LPSN (26). Еще семь видов имели статус «орфанных», а M. leprae был обозначен как «некультивируемый». В этом исследовании другие предсказанные неназванные или неправильно названные виды (n = 191) были обозначены как M. sp. с названием штамма, для которого был получен сиквенс генома. Предпочтение отдавалось более ранним депонированным геномам. Существование 39 из этих видов было подтверждено наличием нескольких геномов, относящихся к подвидам или штаммам внутри вида. У 151 из 402 видов всего было обнаружено несколько независимых геномов. Примерно

половина геномов, представляющих различные виды (п = 209), была получена в результате секвенирования типовых штаммов (Рисунок 12).

Пятнадцать видов имели альтернативные названия, вызванные их независимым открытием, и можно полагать, что большинство из них представляют собой один и тот же вид в соответствии с измерениями эволюционных расстояний (54). Эти данные обобщены в Таблице 2.

Таблица 2. Синонимичные названия видов микобактерий.

11 о S „ Типовой

5 а то Вид Статус Штамм Ссылка

00 о э штамм

1 • M. tokaiense correct name T ATCC 27282 Tsukamura, 1981

M. murale correct name T DSM 44340 Vuorio, 1999

2 • M. neumannii correct name T CECT 8766 Nouioui, 2017

• M. lehmannii correct name T CECT 8763 Nouioui, 2017

M. acapulense preferred name CSUR P1424 Gupta, 2018

3 • M. manitobense preferred name T DSM 44615 Turenne, 2003

• M. hippophais preferred name T CPCC 205372 Deng, 2023

• M. arseniciresistens orphaned species T KC 300 Zhu, 2024

4 • M. chubuense correct name T DSM 44219 Tsukamura, 1981

• M. chlorophenolicum correct name T JCM 7439 Haggblom, 1994

5 • M. obuense correct name T DSM 44075 Tsukamura, 1981

• M. kyogaense correct name T DSM 107316 Nouioui, 2018

6 • M. houstonense correct name T ATCC 49403 Schinsky, 2004

• M. farcinogenes correct name T DSM 43637 Chamoiseau, 1973

7 • M. senegalense correct name T ATCC 35796 Chamoiseau, 1979

M. conceptionense correct name T CCUG50187 Adekambi, 2006

8 • M. septicum correct name T DSM 44393 Schinsky, 2000

• M. nivoides orphaned species T DL90 Dahl, 2019

9 • M. fluoranthenivorans correct name T JCM 14741 Hormisch, 2004

• M. hackensackense preferred name T DSM 44833 Hong, 2003

10 • M. pallens correct name T JCM 16370 Hennessee, 2009

• M. crocinum correct name T JCM 16369 Hennessee, 2009

11 • M. hiberniae correct name T ATCC 49874 Kazda, 1993

• M. engbaekii correct name T ATCC 27353 Tortoli, 2013

12 • M. algericum correct name T DSM 45454 Sahraoui, 2011

• M. sinensis preferred name T JDM601 Mun, 2008

M. novum T JCM 6391 Tsukamura, 1967

13 • M. eburneum correct name T DSM 44358 Nouioui, 2017

M. talmoniae correct name T ATCC BAA-2683 Davidson, 2017

14 • M. marinum correct name T CCUG 20998 Aronson, 1926

• M. shottsii T JCM 12657 Rhodes, 2003

15 • M. timonense correct name T JCM 30726 Ben Salah, 2009

• M. marseillense correct name T DSM 45437 Ben Salah, 2009

Большинство синонимов относятся к отдельным подвидам в пределах одного вида, и наиболее раннее название использовалось в качестве видового. Однако некоторые исключения из этого правила были оставлены без изменений. Так, М. fluoranthenivorans (254) был описан позже, чем М. hackensackense (253), хотя первое название является правильным, а второе - «предпочтительным» согласно LPSN. Еще более сложный случай - правильное именование вида с рекомендованным

названием M. algericum (545). Два других известных генома были открыты раньше M. algericum, представляют отдельный подвид этого вида и названы по-разному: M. sinensis (435) и M. novum (642).

Пять видов с корректными названиями в соответствии с LPSN не имели секвенированных геномов: M. aquiterrae (339), M. arcueilense (318), M. montmartrense (318), M. oryzae (502) и M. pseudoshottsii (521). Опубликованные последовательности генов 16S существенно не отличаются от последовательностей других известных видов. Так, M. arcueilense и M. montmartrense очень близки (0 и 7 замен) к M. peregrinum str. 852002-51209_SCH5440388, который был помещен как отдельный подвид внутри M. peregrinum, представленного штаммом DSM 43271. Ген 16S рРНК M. pseudoshottsii находится в пределах 5 замен с геном вида M. marinum, а M. oryzae сходен с Mycobacterium str. djl-10 (SAMN05415090), который является подвидом M. tokaiense. Последовательность гена M. aquiterrae сходна с последовательностью гена SAMEA3906798, полученного в ходе предыдущего метагеномного исследования (5).

Во всем списке из 402 видов 37 вероятно имели некорректные аннотации. Так, восемь геномов, аннотированных как M. heraclionense, распределены в отдельные виды M. virginiense, M. nonchromogenicum и два орфанных вида в кладе M. terrae. Они расположены близко к корректному M. heraclionense, представленному типовым штаммом JCM 30995. Кроме того, наибольший разброс в таксономическом положении наблюдался для геномов, аннотированных как M. colombiense, M. asiaticum и M. gordonae, которые относились к 6, 5 и 4 отдельным видам, соответственно.

Было подтверждено разделение M. salmoniphilum (696) на два отдельных вида со средним расстоянием ANI между ними 92% (52). Один вид представлен типовыми штаммами ATCC 13758, DSM 43276, CCUG 60884 и CCUG 62472, а второй - CCUG 60883 и CCUG 60885. Существование двух видов поддерживается наличием и других секвенированных изолятов (52).

Также имеется два разных вида, аннотированных как M. malmoense (563). Четыре генома, включая геном типового штамма DSM 44163, сгруппированы в кладе M. interjectum, что согласуется с предыдущими исследованиями Tortoli и Behra (54, 635). Другая группа из пяти штаммов, E826, E896, E614, E1298 и E3012 (PRJNA305922), выделенных в Камбодже, относится к виду M. parascrofulaceum в рамках отдельного комплекса M. scrofulaceum, представленной геномом типового штамма ATCC BAA-614.

Аналогичным образом M. neoaurum (644) разделяется на два вида, представленных типовыми штаммами JCM 6365 (DSM 44074) и DSM 43536, которые были выявлены ранее (53). Оба вида были подтверждены независимым выделением штаммов (281, 76).

Кроме того, геномы, аннотированные как M. sinensis, встречаются у двух видов, которые были обозначены как M. sp. E1876 и M. sp. CSUR_Q5927, в то время как анализ последовательности типового штамма M. sinensis JDM 601 позиционирует его как подвид M. algericum.

Неразрешимой на настоящее время оказалась ситуация с наличием двух альтернативных геномов у одного и того же штамма (123). В первом случае речь идет о M. interjectum DSM 44064, который имеет

два секвенированных генома, GCF_002102225.1 и GCF_025821415.1. Они существенно отличаются: ANI = 93,1%, MASH = 0,06 и AAI = 93,9%, что ниже границ разграничения видов. При этом отсутствуют другие последовательности для валидации. Второй случай был выявлен для штаммов M. parafortuitum CCUG 20999 (GCF_002086815.1) и JCM 6367 (CCUG 20999, GCF_010725485.1). Геном-геномные расстояния были близки к пограничным значениям (ANI = 94,7%, AAI = 95,8%), и также секвенированы еще два генома из разных изолятов, которые поддерживают обе ветви: GCF_900417285.1 и GCF_002946335.1.

Рисунок 12. Филогенетическое дерево микобактерий на основе расстояний АА1. Количество окружностей для вида соответствует количеству идентифицированных подвидов. Заполненные окружности обозначают наличие нескольких геномных сиквенсов для вида или подвида. Обозначение колонок со значениями: первая колонка, зеленый И и красный S - быстро- и медленнорастущие микобактерии, соответственно; вторая колонка - черным квадратом обозначены виды, обнаруженные в клинических образцах выделенных от человека; третья колонка, буква Т - типовой штамм из коллекций; четвертая колонка - обозгначение вида в LPSN: (С) - корректное название, (Р)

- предпочтительное, (О) - орфанный вид.

M. salmoniphilum

m. sp. ccug 60883 M. chelonae-

M. sp. D16R24 abscessus

M. sp. D16Q16 UUSLeSSUS

M. chelonae (ssp. gwanakae, bovis)

M. stephanolepidis

M. saopaulense

M. franklinii

M. immunogenum

M. abscessus (ssp. massiliense, bolletii)

M. sp. LB1

M. sp. CBMA326_

r t c M. chitae

■ M. sp. Mu0050

■ M. sp. Mu0053 r t c M. confluentis

■ M. sp. ACS4331 r t c M. palauense

i ic M. komossense

r to M. mengxianglii

r ■ t c M. tokaiense (syn. murale)

M._sp. MS1601_

M. tokaiense

r t c M. brumae «■ic M. insubricum i c M. fallax

M. insubricum

M. sp. BiH015 M. iranicum m. sp. H39 M. bulgaricum * M. sp. 236(2023) m. sp. AT2.18

M. gilvum M. Ourum

M. parafortuitum II M. parafortuitum I M. aurum

M. austroafricanum (syn. vanbaalenii) M. vaccae M. sp. NAZ190054

M. sp. SMC-8_

M. sp. NGTWS1803 M. sp. CR10 t c M. pyrenivorans M. sp. DL M. sp. BC8 1 ic M. hippocampi

M. hippocampi

to M. xanthum r t c M. poriferae M. sp. P02

M. sp. PSTR-4-N R■t c M. obuense

s m sp. oi8/sc-oi/ooi M.chubuense

r t c M. rufum

r t c M. psychrotolerans

r ■ t c M. chubuense (syn. chlorophenolicum)

■ M. sibiricum * r ■ t c M. duvalii

■ M. sp. SMC-4

M. duvalii

r ■ t p M. manitobense (ssp. hippophais, arseniciresistens) M. sp. NPDC050551

■ M. sp. F2034L t p M. gossypii

m. sp. PS03-16

■ M. sp. GA-2829

r• m. sp. NMD-NTM18 M. litorale

r t c M. litorale r t o M. baixiangningiae s ■ t c M. doricum

r ■ t c M. monacense

m M. sp. IS-1496

■ m. spJS-1742_

■ M. sp. 120270

m. sp. ITM-2016-00318 to m. stellerae m aari

■ M. sp. 1274761.0

i »ic M.agri_

M. hubeiense

m. sp. ACS1612 m. sp.3519A m. sp. NPDC048908 M. sp. OAS707 m. sp.JS623 m. sp. GAS496

M. tuberculosis

sbtc M. triviale

■ M. sp. 1274756.6

s ■ t c M. koreense

s■t c M. parakoreense

M. triviale

■ M. moscowiensis s ■ t c M. talmoniae (synteburneum)

s■t c M. branden

5 ■ t c M. kyorinense

sbtc M. celatum

M. sp. MFM001

s ■ M. sp. E861

s ■ t c M. shimoidei

sbtc M.fragae

. p M. methanotrophicum

s T c M. cookii

■p M. wuenschmannii

■ M. sp. 1245111.1

s«Tc M. paraterrae_

M. shimodei

s t c M. botniense

M. sp. SM1 s ■ t c M. noviomagense s■t c M. xenopi s ■ t c M. heckeshornense

M. xenopi

M. paragordonae M. sp. CTRI 14-8773 M. sp.TY814 M. sp. X7091 M. gordonae M. sp. 1165133.8 M. sp. 1245139.5 M. asiaticum M. sp. 1275241.6 M. sp. 1081914.2 M. vicinigordonae M. kiyosense_

M. osiaticum-gordonae

s ■ t c M. intermedium rtc M. bourgelatii

M. intermedium

s ■ t c M. kubicae m M. sp. 1423905.2

s ■ t c M. riyadhense

s«tp M. simulans

s ■ t c M. szulgai

s t c M. anqelicum_

s ■ t c M. tuberculosis (vor. canetti)

i ■ t c M. decipiens M. spongiae

s ■ t c M. shinjukuense

s ■ t c M. locus

M. szulgai

s ■ t c M. marinum (syn. liflandii, ssp. shotsii) ■ t c M. ulcerans M. i

marinum

s ■ t c M. basiliense SB M. sp. JAL-560-SIM

s ■ t c M. attenuatum

s ■ t c M. gastri

s ■ t p M. ostraviense

s.tc m. pseudokansasü M. gastri-kansosü

5 ■ t c M. kansasii

s ■ t c M. persicum

s'tc M. innocens_

s ■ t c M. lepromatosis

s ■ re M. leprae

s t i M. uberis

s ■ t c M. haemophilum

m M. sp. 1164966.30

■ M. sp. SCH5372311 s'tc M. conspicuum sbtp M. ahvazicum

■ M. sp. 050272

■ M. peterburgensis

■ M. sp. 050128 * s ■ t c M. lentiflavum

M. sp. Aquia 213

s t c M. stomatepiae

s»tc M.florentinum

s ■ t c M. triplex

sbtc M.genavense

M. sp. Aquia 216

s t c M. montefiorense

■ M. sp. 1100029.70

■ •p M. tilburgii s m t c m. simiae

s ■ t c M. sherrisii

s t p M. numidiamassiliense

s ■ t c M. shigaense

s t p M. rhizamassiliense

M. lentiflavum

or more genomes for each

Рисунок 13. Филогенетическое дерево порядка Mycobacteriales на основе расстояний АА1.

3.1.4. Валидация предложенного разделения рода Mycobacterium на пять родов

В 2018 году на основании анализа так называемых консервативных сигнатурных белков (Conserved Signature Proteins, CSP) и аминокислотных инсерций/делеций, или инделов (Conserved Signature Indels, CSI), было предложено разделение рода Mycobacterium на пять родов (224). Считается, что монофилетическое присутствие таких признаков отражает глубокие эволюционные отношения, позволяющие разделять различные роды.

Дальнейшие исследования поставили под вопрос данное разделение, не возражая однако против использования метода сигнатур (646, 401, 648). Что немаловажно, разделение родов приводит к сложностям, связанным с клиническим применением терминологии в диагностике, постановке диагноза, и требует изменения клинических рекомендаций (634). Тем не менее, новые названия родов используются в базах данных NCBI, а в современных исследованиях используются «новые» названия наряду со «старой», объединенной классификацией (736, 738).

На филогенетическом дереве микобактерий Гупта и др. выделяют пять сильно дивергировавших ветвей: M. chelonae-abscessus (предложенное название рода - Mycobacteroides), M. fortuitum-vaccae (Mycolicibacterium), M. terrae (Mycolicibacter), M. triviale (Mycolicibacillus) и M. tuberculosis-simiae (Mycobacterium). В исследовании была использована выборка из всего 150 геномов микобактерий, и учитывая ряд вопросов к проведенному в исследовании биоинформатическому анализу, представляло интерес проведение валидации сигнатур с использованием более полной выборки геномов.

В исследовании были проанализированы сигнатуры, выделяющие основные ветви: группы M. fortuitum-vaccae (4 CSI и 10 CSP), группы медленнорастущих микобактерий (3 CSI и 4 CSP), включающей в себя M. tuberculosis-simiae (3 CSI и 3 CSP), M. terrae, M. trviale, и группы M. tuberculosis-simiae отдельно (224). Все гомологи белков и соответствующие инделы были идентифицированы в списке из 402 геномов микобактерий, представляющих различные виды с помощью программы tblast.

Анализ распределения инделов не подтвердил их исключительную и всеобъемлющую принадлежность одной ветви филогенетического дерева. Если в группе M. fortuitum-vaccae делеция в LacI-подобном белке демонстрировала 90% чувствительность, то чувствительность определения наличия делеции аминокислот DP в Cyc составила всего 64% (Рисунок 14). Специфическое распределение CSI в PgsA было частично нарушено в комплексе M. tokaiense; делеция одной аминокислоты в PpsA не была характерна для всей ветви и не встречалась в комплексах M. hodleri, M. neoaurum и M. rhodesiae (Рисунок 14).

Более того, гомологи белков, содержащие CSI, были найдены только в части геномов кластера M. fortuitum-vaccae. Так, например, отсутствовали гомологи LacI и Cyc, что привело к завышению параметров чувствительности и специфичности обнаружения консервативных сигналов в этом кластере. Аналогичное наблюдение справедливо и для остальных проанализированных групп геномов. Наиболее

надежными сигнатурами были инделы в гипотетическом белке (обозначенном как Нур2) и RlmB для комплекса М. tuberculosis-simiae (Рисунок 14).

Рисунок 14. Валидация консервативных сигнатурных инделов для дискриминации кластеров M. fortuitum-vaccae, медленнорастущих микобактерий и M. tuberculosis-simiae с использованием

полной выборки геномов Mycobacterium.

Распределение консервативных белков CSP по филогенетическому дереву микобактерий характеризовалось еще более высокой степенью фрагментированности: средние значения чувствительности и специфичности для 17 проанализированных маркеров составили 58% и 87%, соответственно (Рисунок 15). Наибольшей робастностью обладали белки А, Е и N не достигая, однако, стопроцентных показателей.

Рисунок 15. Валидация консервативных сигнатурных белков для дискриминации кластеров M. fortuitum-vaccae, медленнорастущих микобактерий и M. tuberculosis-simiae с использованием

полной выборки геномов Mycobacterium.

Концепцию консервативных молекулярных признаков, использованную для разделения рода Mycobacterium, нельзя назвать широко применяемой и хорошо валидированной. В основном, наличие аминокислотных инделов использовалось для уточнения позиционирования крупных таксономических ветвей (532). Вполне правомерно считалось, что в отличие от простых однонуклеотидных замен, вероятность параллельной замены в разных ветвях, как и вероятность реверсии, для инделов значительно ниже. Таким образом, делеция в несколько аминокислот была бы предпочтительней для выявления филогенетических отношений. Однако несмотря на их большую редкость по сравнению с однонуклеотидными заменами, для таких признаков также обнаруживаются эффекты гомоплазии (8) и

притяжения ветвей (55). Проведенная валидация предложенных сигнатур с использованием значительно большего набора геномов, не подтвердила их надежность в приложении к роду Mycobacterium.

Предложенный метод сигнатур сомнителен и из общих соображений. Во-первых, один из подходов построения филогенетических деревьев бактерий заключается в сравнении консервативных генов домашнего хозяйства, которые повсеместно встречаются в исследуемом наборе геномов (206). Можно предположить, что в таких генах специфические модификации некоторых консервативных областей действительно могли бы отражать филогенетические связи. Однако в исследовании Gupta et al. список белков включал плохо охарактеризованные или даже гипотетические белки, не все из которых были найдены во всех видах микобактерий (224).

Кроме того, например, использование гена транскрипционного репрессора семейства LacI не может быть оправдано, поскольку регуляторные сети у разных видов значительно различаются в связи с адаптацией к различным условиям среды. Так, оперон mmpS5-mmpL5, обеспечивающий экспорт сидерофоров для импорта железа в клетку M. tuberculosis, регулируется MarR-подобным репрессором MmpR5, а у M. intracellulare и M. abscessus этот оперон находится под регуляцией TetR-подобных репрессоров (12, 523).

Во-вторых, делеция одной или нескольких аминокислот является сомнительным филогенетическим маркером. Например, под селективным давлением рифампицина помимо точечных мутаций в гене rpoB, в кодонах 426, 431, 435, 446 и вокруг них, с заметной общей частотой наблюдались делеции или инсерции нескольких аминокислот (677).

Также, один геном не может рассматриваться как репрезентативная выборка вида при анализе филогенетических маркеров с малым числом событий. При анализе консервативных сигнатур мы не можем быть уверены, является ли наличие индела свойством всего вида, или это частное отклонение, характерное только для этого единственного проанализированного штамма. В классических методах филогенетического анализа используется выравнивание протяженных нуклеотидных или аминокислотных последовательностей, что соответствует количеству параметров от сотен до миллионов, усредняя дистанцию и снижая ошибку ее определения. Более того, сами филогенетические дистанции валидированы для разных бактериальных таксонов, и в том числе, и с использованием выборок, содержащих штаммы одного вида. Аналогично, и наличие/отсутствие гена в определенном виде бактерий должно быть подтверждено анализом кор-генома вида, что в случае в целом малоисследованных видов микобактерий является недостижимой целью. Плохая сходимость результатов анализа консервативных белков отчасти обусловлена различиями выборок геномов, и постепенным накоплением более точных последовательностей геномов. Так, для 8 из 27 предложенных пептидных последовательностей в базе данных NCBI запись была исключена (suppressed, removed), или обновлена на начало 2025 года, по сравнению с использованными в исследовании Gupta и др. 2018 года.

Однако основным ограничением метода является то, что численных критериев демаркации видов и родов по наличию инделов не предложено, а дискуссия о таксономическом положении сводится к анализу единичных генов и событий. Фактически, даже при условии существовании трех филогенетически строгих инделов в группе M. fortuitum-vaccae, выделение группы в отдельный род ничем не обосновано.

При этом, хорошо известным подходом для делинеации родов являются анализ последовательности гена 16S рРНК rrs, и пороговое значение идентичности равное 94,5-95,0%, установлено на большом наборе геномных данных (535, 322, 333). Сравнение уровня идентичности гена rrs, проведенное на данной выборке, показало почти полное разделение распределений в области 94,595,5% (Рисунок 16), что полностью совпадает с предыдущими оценками.

Ген rrl, кодирующий 23S рРНК, также позволяет дифференцировать род Mycobacterium от остальных родов Mycobacterials (Рисунок 16). Интересно, что он дивергировал сильнее, чем rrs: порог, определяющий принадлежность к роду, оценивается в районе 88,5-89,0%. Для обоих генов пересечения распределения расстояний были незначительными (Рисунок 16).

Проведенное в пункте 3.1.2 сравнение геном-геномных расстояний показало, что значения средней аминокислотной идентичности AAI позволили надежно различать геномы Mycobacterium (полный набор, включающий в себя все пять «новых» родов) и геномы, принадлежащие другим родам порядка Mycobacterials (Рисунок 16). Два распределения расстояний AAI разделялись в диапазоне от 65,6 до 66,4%, что хорошо согласуется с предыдущими оценками границы рода на уровне 65% (401).

Аналогичный анализ был проведен с точки зрения разделения рода микобактерий на пять родов и построения отношений внутри этих более мелких единиц и между ними. Все внутри- и межкластерные расстояния были выше пороговых значений дискриминации родов - 94,5% для гена rrs, и 89% для rrl. Разделение на пять родов потребовало бы сдвинуть пороговое значение для гена rrs от 95% в область около 97%, причем строгую границу провести было бы невозможно из-за различий для разных «новых» родов (Рисунок 16). Для гена rrl на настоящий момент не установлено пороговое значение идентичности, отделяющее бактериальный род. Однако, аналогично гену rrs разделение внутри микобактерий приводит к широкой вариативности такой границы, в отличие от строгой границы для общего рода микобактерий в 86%.

Хотя дискриминация M. chelonae-abscessus по гену rrs почти идеально укладывается во внутриродовой диапазон, 36% межкластерных расстояний для гена rrl оказались выше порога разграничения родов (Рисунок 16). Существенной разницы в расстояниях между M. chelonae-abscessus и другими кластерами, принадлежащими Mycobacterium, не было обнаружено: все кластеры содержали геномы, расстояния между которыми и членами M. chelonae-abscessus были как ниже, так и выше порога (данные не приведены). Таким образом, нельзя выделить кластер, наиболее близкий или наиболее далекий от M. chelonae-abscessus.

rrs r^xS^

М. chelonae-abscessus clade (Mycobacteroides) \mimm

M. fortuitum-vaccae clade (Mycolicibacterium)

M. terrae clade (Mycolicibacter)

M. triviale clade (Mycolicibacillus)

M. tuberculosis-simiae clade (emended Mycobacterium)

g 80.0-80.51 ^ 80.5-81.01 i 81.0-81.5 I | g" 81.5-82.0 I i О 82.0-82.5 ■ | Q 82.5-83.0 I i S" 83.0-83.5 i | g 83.5-84.0 I i с 84.0-84.5 1 i n 84.5-85.0 I 85.0-85.51 ™ 85.5-86.0 i 86.0-86.5 i 86.5-87.0 ^ 87.0-87.5 \ 87.5-88.0 i V 88.0-88.5 \ 4 89.0-89.5 ' у 89.5-90.0 J» 90.0-90.5 U 90.5-91.0 Г 91.0-91.5 < 91.5-92.0 1 92.0-92.5 1 92.5-93.0 1 93.0-93.5 1 93.5-94.0 | 94.0-94.5 | 94.5-95.0 1 95.0-95.5 1 95.5-96.0 1 96.0-96.5 < 96.5-97.0 < 97.0-97.5 1 I 97.5-98.01 % 98.0-98.5 < i 98.5-99.01 ^ 99.0-99.5 1 W 99.5-100.0'

M. fortuitum-vaccae clade ........

M. terrae clade

M. triviale clade r

M. tuberculosis-simiae clade

Лл/v A AI

60-611 61-62 1 62-63 1 63-64 1 64-65 1 65-66 1 66-67 1 67-68 1 68-69 1 69-70 1 70-711 71-72 1 72-73 ' 73-74 < 74-75 1 75-76 ' 76-77 1 CO 78-79 ( 79-80 ( 80-81 ( 81-82 < 82-83 ( 83-84 1 84-85 ( 85-86 ( 86-87 ( 87-88 ( 88-89 < 89-90 ( 90-91 1 91-92 1 92-93 1 93-94 94-95 1 95-96 1 96-97 1 97-98 1 98-99 1 99-100 1

M. chelonae-abtfes$us clade vv

M. fortuitum-vaccae^

Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.