Применение методов сравнительной геномики к анализу геномов прокариот и эукариот тема диссертации и автореферата по ВАК РФ 03.00.03, кандидат биологических наук Новичков, Павел Сергеевич

  • Новичков, Павел Сергеевич
  • кандидат биологических науккандидат биологических наук
  • 2001, Москва
  • Специальность ВАК РФ03.00.03
  • Количество страниц 91
Новичков, Павел Сергеевич. Применение методов сравнительной геномики к анализу геномов прокариот и эукариот: дис. кандидат биологических наук: 03.00.03 - Молекулярная биология. Москва. 2001. 91 с.

Введение диссертации (часть автореферата) на тему «Применение методов сравнительной геномики к анализу геномов прокариот и эукариот»

ЛИТЕРАТУРНЫЙ ОБЗОР.8

ГЛАВА 1. ПРИМЕНЕНИЕ МЕТОДА СРАВНИТЕЛЬНОЙ ГЕНОМИКИ К АНАЛИЗУ РЕГУЛЯЦИИ В ПОЛНЫХ ГЕНОМАХ: КАТАБОЛИТНАЯ РЕПРЕССИЯ В ГАММА-ПРОТЕОБАКТЕРИЯХ.18

1.1. Материалы и методы.19

1.1.1. Выборка операторных участков.19

1.1.2. Геномы.19

1.1.3. Матрица весов нуклеотидов и определение потенциальных операторных участков.21

1.1.4. Поиск ортологов.23

1.2. Матрица весов нуклеотидов.24

1.2.1. Свойства матрицы весов нуклеотидов.24

1.2.2. Оценка улучшения качества предсказания при использовании родственных геномов.26

1.3. Перенос информации об операторных участках го исходной выборки на геномы Haemophilus influenzae и Vibrio cholerae.27

1.3.1. Схема переноса.:.л.;.27

1.3.2. Результаты и обсуждение.28

1.4. Поиск новых операторных участков.31

ГЛАВА 2. МЕТОД ПРЕДСКАЗАНИЯ ЭКЗОН-ИНТРОННОЙ СТРУКТУРЫ ГЕНОВ ЭУКАРИОТ СРАВНЕНИЕМ НУКЛЕОТИДНЫХ ПОСЛЕДОВАТЕЛЬНОСТЕЙ РАЗЛИЧНЫХ ОРГАНИЗМОВ.37

2.1. Выборки.39

2.1.1. выборка а-глобинов.40

2.1.2. выборка триозофосфатизомераз.41

2.1.3. выборка гомологичных пар генов человек-мышь.42

2.1.4. выборка гомологичных пар генов человек-дрозофила.44

2.1.5. Выборка гомологичных пар генов человек-лягушка.45

2.2. Критерии оценки результатов тестирования.45

2.3. блочный вариант алгоритма.47

2.3.1. Алгоритм.47

2.3.1.1. Поиск участков сильных совпадений - пре-экзонов.48

2.3.1.2. Уточнение границ пре-экзонов.49

2.3.1.3. Поиск оптимальной цепочки из пре-экзонов.50

2.3.2. Результаты и обсуждения.53

2.3.2.1. Качественный анализ алгоритма.54

2.3.2.2. Определение границ применимости алгоритма.56

2.4. блочный вариант алгоритма - старт с самого тяжелого пре-экзона.61

2.4.1. Анализ наиболее сильных участков сходств.61

2.4.2. Модификация алгоритма.62

2.4.3. Результаты и обсуждение .63

2.4.3.1. Тестирования на выборках человек-мышь, человек-лягушка и человек-дрозофила. 63

2.4.3.2. Анализ причин перепредсказания при тестировании на выборке человек-мышь.66

2.5. Сайтовый вариант алгоритма.67

2.5.1. алгоритм.67

2.5.1.1. Типы переходов.68

2.5.1.2. Рекурентные соотношения для оценки веса наилучшего выравнивания.70

2.5.1.3. Реализация алгоритма.72

2.5.2. Результаты и обсуждение.73

2.5.2.1. Тестирование на выборках человек-мышь, человек-лягушка и человек дрозофила. . 73

2.5.2.2. Время работы алгоритма.80

2.5.2.3. Сравнение с алгоритмом Procrustes.81

2.6. Сравнение предсказательной силы алгоритма Pro-Frame и стандартной процедуры blastx.82

ВЫВОДЫ.85

ЛИТЕРАТУРНЫЕ ССЫЛКИ.86

Введение

Первый геном самостоятельного организма - грам-отрицательной бактерии Haemophilus influenzae - был отсеквенирован в 1995 году (Fleischmann el al., 1995). Практически сразу после этого был отсеквенирован геном грам-положительной бактерии Mycoplasma genitalium (Fraser et al, 1995) и архебактерии Methanococcus jannaschii (Bult el al., 1996). В 1997 опубликован полный геном Escherihia coli (Blattner et al, 1997). Кроме открытых академических проектов появилось множество биотехнологических компаний, секвенирующих геномы как в рамках открытых, так и в рамках закрытых проектов. В результате в настоящее время база данных GenBank насчитывает уже 60 полных геномов. В публичном доступе находятся 45 геномов бактерий, 10 геномов архебактерий и 4 генома эукариот, в том числе полный геном дрозофилы. Сделано официальное заявление о завершении секвенирования генома человека.

Такой очевидный интерес к полным геномам не случаен и, по-видимому, напрямую связан с большими надеждами, которые возлагаются именно на компьютерные методы анализа нуклеотидных последовательностей, т.к. абсолютно очевидно, что работать с таким огромным количеством информации можно не иначе как с применением компьютерных подходов. Достаточно отметить, что размер генома Haemophilus influenzae, одного из сравнительно небольших геномов бактерий, составляет около 1.8 миллионов пар нуклеотидов (Fleischmann et al, 1995), в то время как размер геномов эукариот - это уже сотни миллионов и миллиарды пар нуклеотидов. Так, в частности, размер генома человека составляет около 3 миллиардов пар нуклеотидов.

К моменту появления первых полных геномов, т.е. к 1995-1996 году, уже был разработан обширный набор алгоритмов и готовых компьютерных программ, позволяющих изучать самые разные аспекты нуклеотидных последовательностей. Для осуществления поиска родственных или похожих последовательностей по банку данных, содержащему известные нуклеотидные и аминокислотные последовательности, были разработаны программные комплексы BLAST (Altschul et al., 1990, 1994) и FASTA (Wilbur and Lipman, 1983; Pearson, 1990). Созданы алгоритмы, позволяющие производить поиск повторов и микросателлитов (Jurka et al.,

1992; Milosavljevic and Jurka, 1993), фильтрацию повторов, которая необходима для более качественного поиска по банку данных (Jurka et al., 1996), поиск сайтов связывания факторов транскрипции (Freeh et al., 1993; Wolfertstetter et al., 1996), промотеров (Prestridge, 1995), сайтов сплайсинга (Haggstrom and Gustafsson, 1983). Разработаны алгоритмы предсказания белок-кодирующих областей в геномах прокариот (Borodovsky and Mclninch, 1993) и экзон-интронной структуры генов эукариот (Snyder and Stormo, 1995; Gelfand et al., 1996).

В результате, определив полную нуклеотидную последовательность генома, исследователь сразу же может провести его анализ с применением ряда готовых программ. В частности, в публикациях, посвященных секвенированию геномов, как правило, одновременно приводятся результаты поиска белок-кодирующих областей и попыток приписать им конкретные клеточные функции, используя программы поиска по банку данных.

Наличие полных секвенированных геномов и возможность проводить их компьютерный анализ позволяет существенно уменьшить количество экспериментов. Экспериментально обнаружив ту или иную особенность определенного участка ДНК, можно попытаться ее формализовать и затем провести анализ сразу всего генома, используя при этом чисто компьютерные подходы. В качестве примера можно привести две работы, появившиеся сразу после публикации первого полного генома Haemophilus influenzae. В первой работе проводился поиск олигонуклеотида 5'-AAGTGCGGT, который, как было известно, играл важную роль в процессе трансформации (Smith et al, 1995), В результате полного анализа Haemophilus influenzae было обнаружено 1465 копий этого олигонуклеотида, в то время как ожидаемое количество копий в случайной последовательности длинной 1.8 млн. нуклеотидов (размер генома Haemophilus influenzae) составляет всего 7. Дальнейшее исследование показало, что значительная часть этих сайтов входит в состав инвертированных повторов, расположенных непосредственно после окончания генов. Эти повторы возможно образуют шпильку в матричной РНК, которая сигнализирует о терминации транскрипции. Во второй работе продемонстрировано, как анализ полных геномов позволяет находить новые гены вирулентности. В данном случае в Haemophilus influenzae проводился поиск тандемных повторов, состоящих из известных тетрануклеотидов (Hood et al, 1996). Как было известно, эти повторы содержатся внутри генов, а увеличение или уменьшение их копийности непосредственно влияет на приспособляемость патогенных бактерий к организму хозяина. Прямой поиск этих повторов привел к обнаружению 9 открытых рамок считывания, содержащих от 6 до 36 копий повтора. Одна из рамок считывания оказалась гомологом гена гликозилтрансферазы (продукт гена IgtC) генома Neisseria, играющего важную роль в такой приспособляемости. Дальнейшие эксперименты показали, что мутирование этого гена приводит к снижению вирулентности Haemophilus influenzae.

С появлением все большего количества полных геномов одним из наиболее перспективных методов анализа становятся методы сравнительной геномики. В таких подходах предполагается наличие в геномах тех или иных общих закономерностей, а затем делаются попытки выявить эти закономерности путем одновременного анализа двух или более геномов. Некоторые крупные проекты, такие как проект по секвенированию генома мыши MSC (Mouse Sequencing Consortium), проект по секвенированию и аннотированию дрозофилы BDGP (Berkeley Drosophila Genome Project) (Rubin, 1996), видят в качестве одной из своих целей анализ генома человека сравнением с геномом мыши или дрозофилы соответственно. В тоже время, важную информацию можно получить не только при анализе сходств между геномами, но и при анализе их отличий. Такой анализ может быть полезен, например, для определения генов, отвечающих за патогенность определенных штаммов бактерий. Именно с этой целью был секвенирован патогенный штамм Escherihia coli 0157:Н7 и затем проведено его сравнение с непатогенным штаммом Escherihia coli К-12 (Perna et al., 2001). В GenBank присутствуют полные геномы двух различных штаммов также и для бактерии Helicobacter pylory (Aim et al., 1999), которая, как известно является возбудителем язвы желудка.

Опубликован ряд работ, в которых авторы успешно применяют методы сравнительной геномики для изучения регуляции в бактериях. Так, в частности, были описаны пуриновый (PurR) и аргинтновый (ArgR) регулоны, регулоны ароматических аминокислот (TrpR и TyrR), а также регулон, отвечающий за SOS-ответ (LexA). Показано, что сравнительный подход может быть эффективно использован для предсказания границ генов в наиболее сложном случае - в случае генов эукариот, имеющих экзон-интронную структуру (Gelfand et al., 1996; Mironov et al, 1998). Важно отметить, что среди различных типов алгоритмов именно в этом случае удается с наибольшей точностью предсказывать белок-кодирующие области генов эукариот.

Данная работа посвящена применению и разработке новых методов сравнительной геномики для анализа нуклеотидных последовательностей геномов прокариот и эукариот. Центральная идея, которая активно использовалась во всей работе, состоит в попытке выявить смысловые участки геномной последовательности сравнением двух или более геномов. Под смысловыми участками в данном случае можно понимать сайты связывания регуляторных белков или экзоны генов эукариот, а под несмысловыми - области, лежащие вокруг сайтов связывания или интронные области соответственно. Основным предположением при этом является то, что при сравнении двух геномов соответствующие смысловые участки являются консервативными островками на фоне менее консервативных несмысловых участков. Чем больше контраст между степенью консервативности смысловых и несмысловых последовательностей, тем больше вероятность корректно определить границы смысловых участков.

Работа состоит из двух глав. Первая глава посвящена применению методов сравнительной геномики к анализу СЫР-регулона в гамма-протеобактериях. Вторая глава посвящена разработке нового метода предсказания экзон-интронной структуры генов эукариот сравнением нуклеотидных последовательностей различных геномов.

Литературный обзор

Предсказание экзон-интронной структуры генов эукариот.

Определение белок-кодирующих участков ДНК является одним из первых и наиболее важных этапов компьютерного анализа нуклеотидных последовательностей, полученных в результате секвенирования геномов. Первые работы в этом направлении появились в начале 80-х годов и основывались на различии статистических характеристик кодирующих и некодирующих участков ДНК (Ficket, 1982; Staden and McLachlan, 1982). В большинстве алгоритмов для определения белок-кодирующих участков ДНК используется так называемый кодирующий потенциал, в основе которого обычно лежит статистика кодонов, т.е. различие частот встречаемости синонимичных кодонов в кодирующих и некодирующих участках ДНК (Sharp and Li, 1987; Staden and McLachlan, 1982). Один из подходов к предсказанию генов в прокариотических геномах состоит в том, что нуклеотидная последовательность сканируется окном шириной 60-120 нуклеотидов и при этом строится график кодирующего потенциала. В результате на фоне областей с достаточно низким значением потенциала, которые соответствуют некодирующим участкам ДНК, можно выявить пики или области с высоким плато, которые отвечают реальным генам. Для бактериальных геномов такого анализа оказывается достаточно для получения приемлемых результатов. Наиболее популярными алгоритмами для определения границ генов в полных секвенированных геномах прокариот в настоящее время являются программы GenMark (Borodovsky and Mclninch, 1993) и GLIMMER (Salzberg et al., 1998).

Предсказание белок-кодирующих участков в геномах эукариот является более сложной задачей, т.к. гены имеют экзон-интронную структуру. Эукариотические гены состоят из относительно коротких экзонов, средний размер которых например для человека составляет 130-140 нуклеотидов, разделенных достаточно длинными интронами. В результате применение метода сканирования нуклеотидной последовательности окном шириной в 60-120 нуклеотидов с одновременной оценкой кодирующего потенциала является не приемлемым, т.к. размер окна оказывается сравнимым с длиной экзонов, и как следствие реальные экзоны не возможно выделить на фоне шума. Поэтому современные алгоритмы обычно пытаются предсказать не отдельные экзоны, а сразу вею экзон-интронную структуру целиком.

В настоящее время существует три основных типа алгоритмов предсказания экзон-интронной структуры генов эукариот. Статистические алгоритмы используют для предсказания как локальные так и глобальные свойства белок-кодирующих участков нуклеотидных последовательностей. Второй тип алгоритмов - это алгоритмы, основанные на выравнивании геномной последовательности с EST с целью выявить экзоны. Алгоритмы третьего типа основаны на поиске гомологий и используют для предсказания гомологичные белковые или нуклеотидные последовательности.

Статистические алгоритмы

Статистические алгоритмы предсказания белок-кодирующих участков в геномах эукариот основываются, как и в случае прокариотических геномов, на использовании кодирующих потенциалов. Для определения границ экзонов дополнительно учитываются веса сайтов сплайсинга (Haggstrom and Gustafsson, 1983). Алгоритмы этого типа принципиально можно разделить на две группы. К первой группе относятся алгоритмы, результатом работы которых является набор не связанных между собой экзонов, обнаруженных в нуклеотидной последовательности. Ко второй группе относятся алгоритмы, которые позволяют предсказывать полную экзон-интронную структуру генов.

Характерным представителем алгоритмов первой группы является алгоритм SORFIND (Hutchinson and Hayden, 1992), который пытается предсказывать "сплайсируемые открытые рамки считывания". Алгоритм рассматривает все возможные пары динуклеотидов GT и AG, которые являются потенциальными донорными и акцепторными сайтами сплайсинга и определяют потенциальные экзоны. Алгоритм не позволяет предсказывать короткие экзоны, т.к. изначально в рассмотрение принимаются пары динуклеотидов, расстояние между которыми более 60 нуклеотидов. Для каждого потенциального экзона рассчитываются пять величин -вес донорного и акцепторного сайта, кодирующий потенциал открытой рамки считывания и падение кодирующего потенциала на обеих границах потенциального экзона. В случае, когда значения всех величин превышает соответствующие пороговые значения потенциальный экзон принимается в качестве предсказанного.

К этой же группе принадлежат алгоритмы FEX (Solovyev et al., 1994) и CRM модуль системы GRAIL (Uberbacher and Mural, 1991; Xu et al., 1994), отвечающий за распознавание экзонов.

В связи с появлением полных геномов эукариот наибольший интерес представляют алгоритмы позволяющие предсказывать полную экзон-интронную структуру генов. Задача предсказания полной экзон-интронной структуры является более сложной по сравнению с предсказанием набора независимых экзонов. Основные трудности комбинаторного характера заключаются в том, что количество различных структур, которое можно построить на основе заданного набора экзонов, экспоненциально растет с увеличением количества экзонов.

В первых работах по предсказанию полной экзон-интронной структуры поиск оптимального варианта проводился полным перебором всех возможных структур (Gelfand, 1990). Сначала определялись потенциальные сайты сплайсинга, после чего рассматривались все допустимые комбинации донорных и акцепторных сайтов, порождающих различные экзон-интронные структуры. Каждой структуре приписывался вес, рассчитываемый на основе средних весов донорных сайтов, акцепторных сайтов и кодирующего потенциала всех экзонов, входящих в структуру. Проблема недопустимо большого количества структур решалась путем анализа только сравнительно коротких последовательностей или с помощью высокого значения порога для определения потенциальных сайтов сплайсинга.

Эти ограничения можно снять, если на этапе поиска оптимальной структуры использовать метод динамического программирования. В этом случае задача предсказания экзон-интронной структуры теоретически решается за полиномиальное время. Основная трудность в этом случае состоит в том, что обычно для характеристики экзона используются несколько числовых параметров имеющих различную природу, и поэтому определить одну функцию, с помощью которой можно было бы рассчитывать вес структуры, оказывается достаточно сложным. К тому же такая функция должна обладать свойством транзитивности, т.к. в противном случае применять стандартную процедуру динамического программирования нельзя.

Алгоритм GeneParser (Snyder and Stormo, 1995) позволяет решить эту проблему с помощью одновременного использования метода динамического программирования и нейронной сети. Как и в предыдущем случае на первом этапе определяются потенциальные сайты сплайсинга и как следствие потенциальные экзоны. Для оценки веса экзона рассчитываются несколько кодирующих потенциалов и веса сайтов сплайсинга, которые все вместе служат базовыми параметрами экзона Pj 0 = 1, .,к). Тогда вес i-ro экзона определяется как 1

1 +1 / exp ^ Wj (Pj(i) + U j ) j где Wj и Uj весовые константы, отвечающие соответствующему типу параметров. Аналогично определяется вес интронов S'. Окончательно, вес R(t) всей структуры t определяется как сумма весов экзонов и интронов, из которых эта структура состоит. i i

Для определения оптимальных весовых констант Wj и Uj используется нейронная сеть. Этап обучения состоит из нескольких итераций. На очередной итерации процедура динамического программирования применяется ко всем последовательностям входящим в обучающую выборку. На основе сравнения результатов предсказания с реальными структурами весовые константы уточняются. После того, как достигается желаемое качество предсказания, весовые константы фиксируются и затем используются для поиска оптимальных структур в последовательностях из выборки для тестирования.

В 1996 появилась работа, посвященная независимому тестированию наиболее распространенных и общедоступных статистических алгоритмов, существовавших к этому времени (Burset and Guigo, 1996). В тестирование принимали участие 7 алгоритмов: GeneID(Guigo et al., 1992), SORFIND (Hutchinson and Hayden, 1992), GeneParser (Snyder and Stormo, 1995), GRAIL 2 (Xu et al., 1994), GenLang (Dong and Searls, 1994), FGENEH (Solovyev et al., 1994) и Xpound (Thomas and Skolnick, 1994).

S(i)

Тестирование программ проводилось на специально созданных выборках геномных последовательностей позвоночных. Последовательности были извлечены из GenBank версии 85.0 от 15 октября 1994г. Основная выборка ALLSEQ состояла из 570 последовательностей, при этом средняя кодирующая плотность составляла 15%, a GC состав - 49%. Дополнительная выборка NEWSEQ являлась подвыборкой ALLSEQ и состояла из "новых" последовательностей, опубликованных после января 1993 г. и не имеющих достаточной гомологии с последовательностями, опубликованными ранее. Выборка NEWSEQ состояла из 196 последовательностей со средним значением кодирующей плотности 14% и GC составом 50%. Результаты тестирования показали, что качество предсказания алгоритмов является не достаточно высоким. Так среднее значение коэффициента корреляции, полученное на выборке ALLSEQ, составляло от 65% для алгоритма GenelD до 80% для алгоритма FGENEH. Несмотря на то, что интегральные характеристики обеих рассматриваемых выборок одинаковы, значения коэффициента корреляции на выборке NEWSEQ оказались меньше чем на выборке ALLSEQ во всех случаях. Минимальные и максимальные значения в этом случае составили 62% и 73% соответственно. Также были протестированы версии алгоритмов GeneParser и GenelD, в которых при оценке веса экзонов использовалась информация о наличии аминокислотной гомологии с известными белковыми последовательностями. Результаты в этих случаях оказались существенно выше. Так для алгоритма GenelD на выборке ALLSEQ значение коэффициента корреляции выросло с 65% до 88%). Аналогичную картину можно наблюдать для алгоритма GeneParser. Таким образом сравнение с гомологичными последовательностями позволяет существенно улучшить качество предсказания.

Одним из лучших статистических алгоритмов в настоящее время является GenScan (Bürge and Karlin, 1997). Для предсказания экзон-интронной структуры алгоритм использует широкий спектр статистической информации такой, как статистика сайтов сплайсинга, транскрипционных и трансляционных сигналов, распределения длин и состава экзонов, интронов и межгенных областей. Тестирование алгоритма на выборке ALLSEQ (Burset and Guigo, 1996) показало, что средний коэффициент корреляции существенно лучше, чем для остальных алгоритмов, и составляет 92%.

Выравнивании геномной последовательности с EST

Одним из подходов к предсказанию экзон-интронной структуры генов эукариот является выравнивание геномной последовательности с последовательностями EST (Expressed Sequence Tag). EST представляют собой короткие последовательности, полученные в результате прочтения тотальной мРНК клетки с одного прохода. Основная идея предсказания генов с помощью библиотек EST состоит в том, что эти последовательности в большинстве случаев содержат участки уже сплайсированной мРНК. Поэтому выравнивание EST с геномной последовательностью должно позволить выявить на последней кодирующие участки. Очевидно чем больше количество EST, тем полнее можно определить закодированные гены. Принципиальная возможность такого подхода была продемонстрирована в работе Адамса и соавторов (Adams et al., 1991). Начиная с 1995 наметился быстрый рост последовательностей EST в GenBank и к середине 1996 года количество последовательностей EST составило уже 600000, причем 450000 из них принадлежали человеку. В настоящее время разработан ряд алгоритмов, позволяющих выравнивать геномные последовательности с EST (Mott, 1997; Florea et al., 1998; Jiang and Jacob, 1998; Mironov et al., 1999; Usuka et al., 2000).

Алгоритм EbEST (Jiang and Jacob, 1998) состоит из трех функциональных модулей. Первый модуль выделяет гомологичные EST в отдельные кластеры, после чего внутри каждого кластера определяет наиболее информативные EST. Второй модуль использует наиболее информативные EST для проведения выравнивания с геномной последовательностью и предсказания экзон-интронных границ. Третий модуль генерирует текстовой файл и графическое представление, иллюстрирующее ориентацию, экзонную структуру, и нетранслируемые области. Для тестирования была использована подвыборка из 176 генов человека, построенная на основе выборки ALLSEQ (Burset and Guigo, 1996). Результаты тестирования приводятся в терминах чувствительности и специфичности. Сравнение со статистическими алгоритмами показывает, что данный алгоритм существенно уступает в чувствительности (43% для данного алгоритма и 80% для алгоритма FGENEH), что является следствием того, что EST содержит в себе информацию только о части гена. По мнению авторов выравнивание с EST может являться дополнительным модулем, позволяющим улучшить качество предсказания в программах, основанных например на статистических алгоритмах.

Предсказание генов с использованием только лишь библиотек EST сопряжено с некоторыми трудностями. Во первых качество самих последовательностей EST достаточно низкое, так как они читаются с одного прохода. Более того библиотеки EST содержат много артефактов (Tsai et al., 1994; Bouck et al., 1999). Около 20% процентов EST, представленных в базах данных, картируются в интронные или межгенные области (Wolfsberg and Landsman, 1997). Другой проблемой использования EST для предсказания генов является то, что они не могут помочь в случае генов, экспрессирующихся только лишь на ранних стадиях развития организма или в случае тканеспецифичных генов.

Алгоритмы, основанные на поиске гомологий

Алгоритмы, основанные на поиске гомологий предсказывают экзон-интронную структуру генов эукариот сравнением геномной последовательности с гомологичной белковой или нуклеотидной последовательностью (Gish and States, 1993; Gelfand et al., 1996; Birney and Durbin, 1997; Laub and Smith, 1998; Mironov et al., 1998; Pachter et al., 1999; Gotoh, 2000; Usuka and Brendel, 2000). Одной из первых работ в этом направлении была работа Гиша и Стейтса (Gish and States, 1993). Авторы предложили предложили проводить поиска генов в нуклеотидной последовательности путем ее сравнения, с банком данных белковых последовательностей, при этом нуклеотидная последовательность автоматически транслировалась во всех 6 рамках считывания. Однако в этом случае не ставилась задача точного предсказания границ генов.

Алгоритм Procrustes разработан для предсказания полной экзон-интронной структуры генов эукариот путем сравнения геномной последовательности с гомологичным белком и является вариантом сплайсированного выравнивания (Gelfand et al., 1996; Mironov et al., 1998). Тестирования на выборке из 47 мульти-экзонных геномных последовательностей человека и соответствующих гомологичных белков показало высокую точность предсказания алгоритма. Средний коэффициент корреляции составил 99%.

Логическим продолжением этого алгоритма служит алгоритм Pro-Frame, позволяющий делать предсказание с высокой точностью в случае наличия в нуклеотидных последовательностях ошибок секвенирования (Mironov et al., 2001).

При наличии достаточно гомологичного белка алгоритм допускает до 5% ошибок (в том числе вставок и делеций) без заметного падения качества предсказания.

Однако алгоритмы такого типа не позволяют предсказывать абсолютно новые гены, т.к. всегда необходимо наличие гомологичного белка с известной аминокислотной последовательностью.

Секвенирование больших фрагментов геномной ДНК, и даже целых эукариотических хромосом, позволило для идентификации белок-кодирующих областей применять сравнение геномных последовательностей. Данный подход основывается на том факте, что белок кодирующие области являются более консервативными чем некодирующие области. В результате этого в выравнивании геномных последовательностей потенциальные экзоны можно видеть как островки сходства. В частности данный подход был успешно применен для поиска новых генов в синтенных областях геномов мыши и человека (Ansari-Lari et al., 1998), а также в геномах нематод Caenorhabditis elegans и Caenorhabditis briggsae (Thacker et al., 1999; Kent and Zahler, 2000). При этом предсказание новых генов велось одновременно в двух последовательностях. Однако эти работы были выполнены путем визуального анализа нуклеотидного выравнивания.

Первые работы позволяющие автоматизировать процесс предсказания генов эукариот путем сравнения геномных последовательностей появились только в 2000 году. Алгоритм ROSETTA (Batzoglou et al., 2000а, b) на первом этапе выравнивает нуклеотидные последовательности используя систему GLASS. После этого внутри консервативных областей определяются потенциальные экзоны (точнее пары экзонов), и затем с применением метода динамического программирования в обеих последовательностях строятся оптимальные цепочки из потенциальных экзонов. При этом максимизируется вес цепочки, зависящий от набора как статистических параметров, так и параметров, описывающих сходство.

Метод консервативных экзонов (СЕМ, Bafna and Huson, 2000) определяет потенциальные пары экзонов, используя выравнивание аминокислотных последовательностей, полученных формальной трансляцией геномных последовательностей. Экзон-интронная структура определяется с помощью динамического программирования как цепочка из консервативных экзонов.

Оба алгоритма ROSETTA и СЕМ на первом этапе проводят поиск консервативных пар экзонов. Алгоритм СЕМ является более устойчивым, т.к. основывается на белковом выравнивании, и поэтому позволяет проводить более далекие сравнения.

Еще один недавно появившийся алгоритм, SGP (Wiehe et al., 2000), на первом этапе проводит нуклеотидное выравнивание, после чего строится цепочка сегментов, ограниченных потенциальными сайтами сплайсинга. Важно отметить, что все эти алгоритмы требуют наличия одинаковой экзонной структуры в паре гомологичных генов, которые предположительно содержатся в геномных последовательностях. В результате предсказание генов человека можно вести только сравнением с геномной последовательностью мыши или в более общем случае с позвоночными. Использовать для предсказания геномные последовательности например дрозофилы уже не представляется возможным, т.к. гены дрозофилы и человека во многих случаях имеют разную экзон-интронную структуру. В этой связи следует также отметить, что полный геном дрозофилы уже опубликован, а геном мыши еще секвенируется.

Анализ регуляции в геномах прокариот

Основным подходом к изучению регуляции в полных геномах компьютерными методами является поиск операторных участков. Традиционно эта задача решается следующим образом. На первом этапе необходимо получить список сигналов, отвечающих исследуемому регуляторному белку. Для этого сначала составляется список совместно регулируемых генов, который можно получить путем анализа литературы, поиска по базе данных или в экспериментах по экспрессии генов (Spellman et al., 1998), После этого 5' некоДирующие области полученных генов выравниваются с целью обнаружить в нуклеотидных последовательностях консервативные области. Альтернативным способом является составление списка готовых сигналов, полученных в экспериментах по футпринтингу. На втором этапе на основе полученного списка сигналов строится распознающее правило. В наиболее простом варианте это может быть консенсусная последовательность. Более сложная процедура построения распознающего правила включает в себя построение позиционной матриц весов нуклеотидов, которая является более чувствительной, чем консенсусная последовательность. Окончательно построенное распознающее правило с целью поиска новых операторных участков применяется к 5' некодирующим областям всех генов в геноме. Однако в большинстве случаев построить хорошее распознающее правило не представляется возможным, всегда вместе с правильно предсказанными операторными областями находится много лишних.

Применение методов сравнительной геномики позволяет существенно уменьшить количество перепредсказанных операторных участков. Суть данного метода состоит в том, что регулон одного и того же регуляторного белка исследуется одновременно в двух или более близко родственных бактериях. Для простоты рассмотрим случай двух геномов. Как и в традиционном подходе сначала создается распознающее правило. Однако затем это правило применяется одновременно ко обеим геномам. Для каждого гена из первого генома определяется ортологичный ген во втором геноме. В результате правильным считается только такой сигнал, если он обнаружен одновременно перед обеими ортологичными генами. Такой подход позволяет существенно уменьшить вероятность случайного предсказания неправильного операторного участка.

Возможны две модификации данной методики. В первом случае ставится задача перенести существующую информацию о регуляции из одного хорошо изученного генома на другой менее изученный. Для этого анализируются только гены из рассматриваемого регулона и их соответствующие ортологи, принадлежщие слабо изученному геному. Данной процедура позволила охарактеризовать в геноме Haemophilus influenzae ряд регулонов: пуриновый (PurR), аргинтновый (ArgR), регулоны ароматических аминокислот (TrpR и TyrR), а также регулон, отвечающий за SOS-ответ (LexA) (Gelfand and Mironov, 1999; Mironov et al., 1999).

Во втором случае ставится задача найти новых членов изучаемого регулона. В этом случае один из геномов играет роль дополнительного (подтверждающего). Поиск сигналов производится перед всеми генами главного генома и их соответствующими орто логами в дополнительном геноме. С помощью такого подхода удалось обнаружить семейство пуриновых транспортеров в геноме Ecoli и HI (Mironov et al., 1999).

Похожие диссертационные работы по специальности «Молекулярная биология», 03.00.03 шифр ВАК

Заключение диссертации по теме «Молекулярная биология», Новичков, Павел Сергеевич

Выводы

1. Построена матрица весов нуклеотидов для регуляторного белка CRP и проведен анализ ее основных свойств. Показано, что при таком пороге веса сигнала, что в число предсказанных входят все сайты из исходной выборки, потенциальные сайты обнаруживаются почти у 50% генов Escherichia coli

2. Сделаны количественные оценки качества предсказания операторных областей при одновременном анализе нескольких геномов. Показано, что при использовании генома Н.influenzae в качестве дополнительного к E.coli можно ожидать уменьшения появления случайных сигналов приблизительно в 4 раза, при использовании V.cholerae - приблизительно в 9 раз.

3. Описан CRP регулон в геномах Haemophilus influenzae и Vibrio cholerae

4. Получен список из 31 гена генома Escherichia coli, которые с большой вероятностью находятся под регуляцией белка CRP.

5. Показано, что при определении экзон-интронной структуры генов эукариот в случае наличия ошибок секвенирования предсказательная сила алгоритма ProFrame существенно превосходит таковую для стандартной процедуры Blastx.

6. Построены пять выборок геномных последовательностей, содержащих гомологичные белки из различных геномов. Каждая выборка имеет свою специфику и позволяет тестировать различные возможности алгоритмов сравнительного предсказания экзон-интронной структуры генов эукариот.

7. Разработан и протестирован новый алгоритм предсказания экзон-интронной структуры генов эукариот сравнением нуклеотидных последовательностей различных организмов. Показано, что алгоритм позволяет с высокой точностью предсказывать структуру генов эукариот. Проанализированы основные типы ошибок предсказания. Показано, что использование пар организмов, более далеких, чем пара человек-мышь, является более предпочтительным. Наилучшие результаты получены для пары человек-дрозофила, для которой средний коэффициент корреляции составил 98.1%.

Литературные ссылки

1. Adams MD, Kelley JM, Gocayne JD, Dubnick M, Polymeropoulos MH, Xiao H, Merril CR, Wu A, Olde B, Moreno RF, et al. (1991) Complementary DNA sequencing: expressed sequence tags and human genome project. Science 252(5013): 1651 -6

2. Alm RA, Ling LS, Moir DT, King BL, Brown ED, Doig PC, Smith DR, Noonan B, Guild BC, deJonge BL, Carmel G, Tummino PJ, Caruso A, Uria-Nickelsen M, Mills DM, Ives C, Gibson R, Merberg D, Mills SD, Jiang Q, Taylor DE, Yovis GF, Trust TJ. (1999) Genomic-sequence comparison of two unrelated isolates of the human gastric pathogen Helicobacter pylori. Nature 397(6715): 176-80

3. Altschul SF, Gish W, Miller W, Myers EW, Lipman DJ. (1990) Basic local alignment search tool. J Mol Biol 215(3):403-410

4. Altschul SF, Boguski MS, Gish W, Wootton JC. (1994) Issues in searching molecular sequence databases. Nat Genet 6(2): 119-129

5. Ansari-Lari, M.A., Oeltjen, J.C., Schwartz, S., Zhang, Z., Muzny, D.M., Lu, J., Gorrell, J.H., Chinault, A.C., Belmont, J.W., Miller, W. and Gibbs, R.A. (1998) Comparative sequence analysis of a gene-rich cluster at human chromosome 12pl3 and its syntenic region in mouse chromosome 6. Genome Res. 8, 29-40.

6. Bafna V., Huson D.H. (2000) The conserved exon method for gene finding. Proc. 8th Int. Conf. on Intelligent Systems for Molecular Biology ISMB '2000, pp. 3-12.

7. Batzoglou, S., Pachter, L., Mesirov, J.P., Berger, B. and Lander, E.S. (2000) Human and mouse gene structure: comparative analysis and application to exon prediction. Genome Res. 10,950-958.

8. Batzoglou, S., Pachter, L., Mesirov, J., Berger, B. and Lander, E.S. (2000) Human and mouse gene structure: comparative analysis and application to exon prediction. Proc. 4th Annu. Int. Conf. on Computational Molecular Biology RECOMB'2000, pp. 46-53.

9. Benson DA, Boguski MS, Lipman DJ, Ostell J, Ouellette BF.(1998) GenBank. Nucleic Acids Res 26(1): 1-7

10. Blattner FR, Plunkett G 3rd, Bloch CA, PernaNT, Burland V, Riley M, Collado-Vides J, Glasner JD, Rode CK, Mayhew GF, Gregor J, Davis NW, Kirkpatrick HA, Goeden MA, Rose DJ, Mau B, Shao Y. (1997) The complete genome sequence of Escherichia coli K-12. Science 277(5331):1453-1474

11. Borodovsky M, Mclninch (1993) Recognition of genes in DNA sequence with ambiguities. J. Biosystems 30(1-3): 161 -171

12. Bouck, J., Yu, W., Gibbs, R. and Worley, K. (1999) Comparison of gene indexing databases. Trends Genet. 15, 139-162.

13. Breathnach R, Chambon P. Organization and expression of eucaryotic split genes coding for proteins. (1981) Annu Rev Biochem 50:349-83

14. Bult CJ, White O, Olsen GJ, Zhou L, Fleischmann RD, Sutton GG, Blake JA, FitzGerald LM, Clayton RA, Gocayne JD, Kerlavage AR, Dougherty BA, Tomb JF, Adams MD, Reich CI, Overbeek R, Kirkness EF, Weinstock KG, Merrick JM, Glodek A, Scott JL, Geoghagen NS, Venter JC. (1996) Complete genome sequence of the methanogenic archaeon, Methanococcus jannaschii. Science 273(5278):1058-1073

15. Bürge, C. and Karlin, S. (1997) Prediction of complete gene structures in complete human DNA. J. Mol. Biol. 268, 78-94.

16. Bürge, C.B. and Karlin, S. (1998) Finding the genes in genomic DNA. Current Opin. Struct. Biol. 8,346-354.

17. Burset M, Guigo R. (1996) Evaluation of gene structure prediction programs. Genomics 34(3):353-67

18. Dong S, Searls DB. (1994) Gene structure prediction by linguistic methods. Genomics 23(3):540-51

19. Duret L, Mouchiroud D, Gouy M. (1994) HOVERGEN: a database of homologous vertebrate genes. Nucleic Acids Res 22(12):2360-5

20. Fickett JW. (1982) Recognition of protein coding regions in DNA sequences. Nucleic Acids Res 10(17):5303-18

21. Fickett JW, Tung CS. (1992) Assessment of protein coding measures. Nucleic Acids Res 20(24):6441-50

22. Fleischmann RD, Adams MD, White O, Clayton RA, Kirkness EF, Kerlavage AR, Bult CJ, Tomb JF, Dougherty BA, Merrick JM, et al. (1995) Whole-genome random sequencing and assembly of Haemophilus influenzae Rd. Science 269(5223):496-512

23. Florea, L., Hartzell, G., Zhang, Z., Rubin, G.M. and Miller, W. (1998) A computer program for aligning a cDNA sequence with a genomic DNA sequence. Genome Res. 8, 967-974.

24. Fraser CM, Gocayne JD, White O, Adams MD, Clayton RA, Fleischmann RD, Bult CJ, Kerlavage AR, Sutton G, Kelley JM, et al. (1995) The minimal gene complement of Mycoplasma genitalium. Science 270(5235):397-403

25. Frech K, Herrmann G, Werner T. Computer-assisted prediction, classification, and delimitation of protein binding sites in nucleic acids. (1993) Nucleic Acids Res 21(7): 1655-1664

26. Gelfand MS. (1990) Computer prediction of the exon-intron structure of mammalian pre-mRNAs. Nucleic Acids Res 18(19):5865-9

27. Gelfand, M.S. (1995) Prediction of function in DNA sequence analysis. J. Comput. Biol. 2,87-115.

28. Gelfand, M.S., Mironov A.A. (1995) Computer analysis of regulatory patterns in complete bacterial genomes. LexA and DinR binding sites, Mol. Biol. 33, 439-442

29. Gelfand MS, Mironov AA, Pevzner PA. (1996) Gene recognition via spliced sequence alignment. Proc Natl Acad Sei USA 20;93(17):9061-6

30. Gish, W. and States, D.J. (1993) Identification of protein coding regions by database similarity search. Nature Genet. 3, 266-272.

31. Guigo R, Knudsen S, Drake N, Smith T. (1992) Prediction of gene structure. J Mol Biol 226(1): 141-57

32. Harr R, Haggstrom M, Gustafsson P. (1983) Search algorithm for pattern match analysis of nucleic acid sequences. Nucleic Acids Res 11 (9):2943-57

33. Heidelberg JF, Eisen JA, Nelson WC, Clayton RA, Gwinn ML, Dodson RJ, Haft DH, Hickey EK, Peterson JD, Umayam L, Gill SR, Nelson KE, Read TD, Tettelin H, Richardson D, Ermolaeva MD, Vamathevan J, Bass S, Qin H, Dragoi I, Sellers P, McDonald L, Utterback T, Fleishmann RD, Nierman WC, White O. (2000) DNA sequence of both chromosomes of the cholera pathogen Vibrio cholerae. Nature 406(6795):477-83

34. Hood DW, Deadman ME, Jennings MP, Bisercic M, Fleischmann RD, Venter JC, Moxon ER. (1996) DNA repeats identify novel virulence genes in Haemophilus influenzae. Proc Natl Acad Sei USA 93(20):11121-11125

35. Hutchinson GB, Hay den MR. (1992) The prediction of exons through an analysis of spliceable open reading frames. Nucleic Acids Res 20(13):3453-62

36. Jiang, J. and Jacob, H.J. (1998) EbEST: an automated tool using expressed sequence tags to delineate gene structure. Genome Res. 8, 268-275.

37. Jurka J, Walichiewicz J, Milosavljevic A. (1992) Prototypic sequences for human repetitive DNA. J Mol Evol 35(4):286-291

38. Jurka J, Klonowski P, Dagman V, Pelton P. (1996) CENSOR-a program for identification and elimination of repetitive elements from DNA sequences. Comput Chem 20(1):119-121

39. Kent, W., Zahler, A. (2000) Conservation, regulation, synteny, and introns in a large-scale C. briggsae-C. elegans genomic alignment. Genome Res. 10, 1115-1125.

40. Mayor C, Brudno M, Schwartz JR, Poliakov A, Rubin EM, Frazer KA, Pachter LS, Dubchak I. (2000) VISTA : visualizing global DNA sequence alignments of arbitrary length. Bioinformatics 16(11): 1046-1047

41. Milosavljevic A, Jurka J. (1993) Discovering simple DNA sequences by the algorithmic significance method. Comput Appl Biosci 9(4):407-411

42. Mironov, A.A., Roytberg, M.A., Pevzner, P.A. and Gelfand, M.S. (1998) Performance-guarantee gene predictions via spliced alignment. Genomics 51,332-339.

43. Mironov, A.A., Fickett, J.W. and Gelfand, M.S. (1999) Frequent alternative splicing of human genes. Genome Res. 9, 1288-1293.

44. Mironov AA, Koonin EV, Roytberg MA, Gelfand MS. (1999) Computer analysis of transcription regulatory patterns in completely sequenced bacterial genomes. Nucleic Acids Res 27(14):2981-9

45. Mironov AA, Novichkov PS, Gelfand MS. (2001) Pro-Frame: similarity-based gene recognition in eukaryotic DNA sequences with errors. Bioinformatics 17(1): 13-5

46. Mott, R. (1997) ESTGENOME: A program to align spliced DNA sequences to unspliced genomic DNA. Comput. Appl. Biosci. 13,477-478.

47. Pearson WR. (1990) Rapid and sensitive sequence comparison with FASTP and FASTA. Methods Enzymol 183:63-98

48. Perna NT, Plunkett G 3rd, Burland V, Mau B, Glasner JD, Rose DJ, Mayhew GF, Evans PS, Gregor J, Kirkpatrick HA, Posfai G, Hackett J, Klink S, Boutin A, Shao Y, Miller L, Grotbeck EJ, Davis NW, Lim A, Dimalanta ET, Potamousis KD, Apodaca J, Anantharaman TS, Lin J, Yen G, Schwartz DC, Welch RA, Blattner FR. (2001) Genome sequence of enterohaemorrhagic Escherichia coli 0157:H7. Nature 409(6819):529-33

49. Prestridge DS. (1995) Predicting Pol II promoter sequences using transcription factor binding sites. J Mol Biol 249(5):923-932

50. Rubin GM. (1996) Around the genomes: the Drosophila genome project. Genome Res 6( 2):71-9

51. Salzberg SL, Deicher AL, Kasif S, White O. (1998) Microbial gene identification using interpolated Markov models. Nucleic Acids Res 26(2):544-8

52. Sawers G, Kaiser M, Sirko A, Freundlich M. (1997) Transcriptional activation by FNR and CRP: reciprocity of binding-site recognition. Mol Microbiol 23(4):835-45

53. Sharp PM, Li WH. (1987) The rate of synonymous substitution in enterobacterial genes is inversely related to codon usage bias. Mol Biol Evol 4(3):222-30

54. Smith TF, Waterman MS. (1981) Identification of common molecular subsequences. J Mol Biol 147(1 j:195-7

55. Smith HO, Tomb JF, Dougherty BA, Fleischmann RD, Venter JC. (1995) Frequency and distribution of DNA uptake signal sequences in the Haemophilus influenzae Rd genome. Science 269(5223):538-540

56. Snyder EE, Stormo GD. (1995) Identification of protein coding regions in genomic DNA.

J Mol Biol 248(1): 1-18

57. Solovyev VV, Salamov AA, Lawrence CB. (1994) Predicting internal exons by oligonucleotide composition and discriminant analysis of spliceable open reading frames. Nucleic Acids Res 22(24):5156-63

58. Spellman PT, Sherlock G, Zhang MQ, Iyer VR, Anders K, Eisen MB, Brown PO, Botstein D, Futcher B. (1998) Comprehensive identification of cell cycle-regulated genes of the yeast Saccharomyces cerevisiae by microarray hybridization Mol Biol Cell 9(12):3273-97

59. Staden R, McLachlan AD. (1982) Codon preference and its use in identifying protein coding regions in long DNA sequences. Nucleic Acids Res 10(l):141-56

60. Staden R. (1990) Finding protein coding regions in genomic sequences. Methods Enzymol 183:163-80

61. Schwartz S, Zhang Z, Frazer KA, Smit A, Riemer C, Bouck J, Gibbs R, Hardison R, Miller W. (2000) PipMaker~a web server for aligning two genomic DNA sequences. Genome Res 10(4):577-586

62. Thomas A, Skolnick MH. (1994) A probabilistic model for detecting coding regions in DNA sequences. IMA J Math Appl Med Biol 11 (3): 149-60

63. Thacker, C., Marra, M.A., Jones, A., Baillie, D.L., and Rose, A.M., (1999) Functional genomics in Caenorhabditis elegans: An approach involving comparisons of sequences from related nematodes. Genome Res. 9,348-359.

64. Tsai, J.-Y., Namin-Gonzalez, M.L. and Silver, L.M. (1994) False association of human ESTs. Nature Genet. 8, 321-322.

65. Uberbacher EC, Mural RJ. (1991) Locating protein-coding regions in human DNA sequences by a multiple sensor-neural network approach. Proc Natl Acad Sei USA 88(24): 11261-5

66. Usuka, J., Zhu, W., Brendel, V. (2000) Optimal spliced alignment of homologous cDNA to a genomic DNA template. Bioinformatics 16, 203-211.

67. Wiehe T, Guigo R, Miller W. (2000) Genome sequence comparisons: hurdles in the fast lane to functional genomics. Brief Bioinform l(4):381-388

68. Wilbur WJ, Lipman DJ. (1983) Rapid similarity searches of nucleic acid and protein data banks. Proc Natl Acad Sei USA 80(3):726-730

69. Wolfertstetter F, Frech K, Herrmann G, Werner T. (1996) Identification of functional elements in unaligned nucleic acid sequences by a novel tuple search algorithm. Comput Appl Biosci 12(l):71-80

70. Wolfsberg, T.G. and Landsman, D. (1997) A comparison of expressed sequence tags (ESTs) to human genomic sequences. Nucleic Acids Res. 25, 1626-1632.

71. Xu Y, Mural R, Shah M, Uberbacher E. (1994) Recognizing exons in genomic sequence using GRAIL II. Genet Eng (N Y) 16:241-53