Исследование общих закономерностей эволюции генома человека при дупликации генов и точечном мутагенезе тема диссертации и автореферата по ВАК РФ 03.01.09, кандидат биологических наук Панчин, Александр Юрьевич

  • Панчин, Александр Юрьевич
  • кандидат биологических науккандидат биологических наук
  • 2011, Москва
  • Специальность ВАК РФ03.01.09
  • Количество страниц 192
Панчин, Александр Юрьевич. Исследование общих закономерностей эволюции генома человека при дупликации генов и точечном мутагенезе: дис. кандидат биологических наук: 03.01.09 - Математическая биология, биоинформатика. Москва. 2011. 192 с.

Оглавление диссертации кандидат биологических наук Панчин, Александр Юрьевич

СОДЕРЖАНИЕ.

Введение.

Обзор литературы.

Актуальность исследуемой области.

Основные виды мутаций.

Влияние соматических и наследуемых мутаций.

Методы реконструкции мутационных и эволюционных событий.

Закономерности процессов мутагенеза и эволюции.

Глава 1 - Анализ загрязнений транскрипционных данных человека.

1.1 Введение.

1.2 Методы.

1.2.1 Создание коллекции «мусорных » EST.

1.2.2 Полимеразная цепная реакция (ПЦР).

1.3 Результаты и обсуждение.

1.3.1 Человеческие EST, не имеющие сходства с последовательностями из генома человека.

1.3.2 Загрязнения в базе данных EST человека.

1.3.3 Растительные EST в базе данных EST человека.

1.3.4 Анализ загрязнений рибосомальными мРНК в базе данных EST человека.

1.3.5 Экспериментальный поиск «пропущенных» генов человека.

1.4 Выводы.

Глава 2 - Сравнительных анализ частот нуклеотидных слов в геноме человека, а также в геномах других эукариот.

2.1 Введение.

2.2 Методы.

2.2.1 Выборка анализируемых геномов.

2.2.2 Разорванные слова.

2.2.3 Частотность.

2.2.4 Статистические методы для подсчета ожидаемых частот слов

2.2.5 Минимальная частотность.

2.3 Результаты и обсуждение.

2.3.1 Сравнение методов для подсчета ожидаемых частот слов.

2.3.2 Одно буквенные слова.

2.3.3 Недопредставленные двухбуквенные слова.

2.3.4 Перепредставленные двухбуквенные слова.

2.3.5 Недопредставленные трехбуквенные и четырехбуквенные словабО

2.3.6 Перепредставленные трехбуквенные и четырехбуквенные слова

2.3.7 Пятибуквенные, шестибуквенные и семибуквенные слова.

2.3.8 Сравнение с маскированными геномами.

2.3.9 Сравнение с кодирующими последовательностями.

2.4 Выводы.

Глава 3 - Исследование мутационных контекстов в геноме человека.

3.1 Введение.

3.2 Методы.

3.2.1 Критерии включения полиморфизмов.

3.2.2 Мутационный контекст и подконтекст.

3.2.3 Контраст.

3.2.4 Минимальный контраст.

3.2.5 Мутационное смещение.

3.2.6 Статистическая значимость.

3.3 Результаты.

3.4 Обсуждение.

3.5 Выводы.

Глава 4 - Исследование эволюции недавно дуплицированных генов человека.

4.1 Введение.

4.2 Методы.

4.2.1 Составление выборки семейств паралогичных генов человека.

4.2.2 Подсчет dN и dS.

4.2.3 Исследование асимметрии эволюции паралогов.

4.2.4 Сравнение с ортологами.

4.2.5 Анализ GOstat.^

4.2.6 Транскрипционные данные.

4.2.7 Анализ PolyPhen.

4.3 Результаты.

4.3.1 Оценка индивидуальных значений dN и dS.

4.3.2 Индивидуальные значения dN и dS паралогичных генов.

4.3.3 Асимметрия в несинонимичных сайтах.

4.3.4 Асимметрия в синонимичных сайтах.

4.3.5 Анализ программой PolyPhen.

4.3.6 Анализ с помощью базы данных Pride.

4.4 Обсуждение.

4.5 Выводы.

Глава 5 - Исследование эволюции сайтов сплайсинга в семействах паралогичных генов человека.

5.1 Введение.

5.2 Методы.

5.2.1 Составление выборки семейств паралогичных генов.

5.2.2 Определение сайтов сплайсинга.

5.2.3 Составление выравниваний окрестностей сайтов сплайсинга.

5.2.4 Построение деревьев.

5.2.5 Реконструкция предковых состояний.

5.2.6 Вычисление веса сайта.

5.3 Результаты и обсуждение.

5.4 Выводы.

Глава 6 - Метилированные цитозины реже мутируют в СрО островах.

6.1 Введение.

6.2 Методы.

6.2.1 Метилированные цитозины.

6.2.2 Полиморфизмы.

6.2.3 Направленные замены.

6.2.4 СрО острова.

6.2.5 Составление контрольных выборок Срв динуклеотидов.

6.2.6 Оценка частоты мутаций 5тСрО>ТрО.

6.2.7 Частоты аллелей.

6.2.8 Частота рекомбинаций.

6.2.9 Отрицательный отбор в генах.

6.3 Результаты.

6.3.1 Частота направленных мутаций 5тСрО>ТрО понижена в Срв островах.

6.3.2 Распределение частот аллелей в СрО островах смещено в сторону редких аллелей.

6.3.3 Смещенная генная конверсия не объясняет снижение частоты мутаций 5тСрО>ТрО в СрО островах.

6.3.4 Отрицательный отбор не может объяснить снижение частоты мутаций 5шСрО>ТрО в СрО островах.

6.3.5 Данные по полиморфизмам подтверждают сниженную частоту 5шСрС>ТрО мутаций в СрО островах.

6.4 Обсуждение.

6.5 Выводы.

Выводы.

Благодарности.

Список публикаций по теме диссертации.

Рекомендованный список диссертаций по специальности «Математическая биология, биоинформатика», 03.01.09 шифр ВАК

Введение диссертации (часть автореферата) на тему «Исследование общих закономерностей эволюции генома человека при дупликации генов и точечном мутагенезе»

Мутации служат основным источником разнообразия генетического материала живых организмов. При этом существуют определенные закономерности, как процесса мутагенеза, так и эволюции генетических последовательностей. Человек является одним из важнейших объектов исследования с точки зрения биологии и медицины, а его геном - одним из наиболее изученных, что делает его удобной моделью для поиска подобных закономерностей.

Даже самые базовые свойства геномов, такие как частоты нуклеотидных слов, существенно отличаются между геномами различных живых организмов. Например, в геноме человека существенно (примерно в 5 раз) недопредставлены СрС динуклеотиды, что отчасти связано с повышенной вероятностью мутаций С>Т в данном слове. Подобная недопредставленность. СО слов отсутствует, например, в геноме ИгоБоркИа melanogaster и в геномах некоторых других организмов. Сегодня достаточно хорошо изучен1 биологический механизм, за счет которого у человека и ряда других животных наблюдается избыток С>Т мутаций в СрО контексте. Это один из примеров, показывающих, что обнаружение отличий в базовых свойствах геномов среди представителей различных групп организмов может облегчить задачу поиска биологических механизмов, обуславливающих такие закономерности. Кроме того, детальный анализ словарного состава геномов позволяет строить более точные модели эволюции генетических последовательностей.

Со стремительным развитием проектов по широкомасштабному секвенированию нуклеотидных последовательностей открываются огромные возможности для систематического анализа эволюционных событий и сравнительного анализа генов, а также геномов представителей различных таксономических групп. Во второй главе данной работы приведен сравнительный анализ более 130 полностью прочитанных геномов эукариот, 7 целью которого являлся поиск закономерных отклонений наблюдаемых частот нуклеотидных слов от ожидаемых. Анализ такого масштаба ранее не проводился, так как не было доступно такого количества полностью прочитанных геномов, а таксономическое разнообразие организмов, геномы которых были прочитаны, было недостаточным. Здесь особый интерес представляет сравнение человека- и близких видов млекопитающих с представителями других крупных таксономических групп, в том числе с представителями других типов и царств.

Следующим логическим шагом является анализ непосредственно мутационных процессов, а именно, выявление зависимости частот мутаций различного типа от нуклеотидного контекста. Например, как будет видно из главы 3 данной работы, частоты одиночных нуклеотидных мутаций в геноме' человека могут варьировать более чем в 20 раз. Чтобы привнести что-то ¡новое в современные представления о частотах мутаций в каком-либо геноме, необходимо огромное количество данных, чтобы отличить реально существующие закономерности от случайного шума. Такие данные накапливались на протяжении последних лет в крупных базах данных геномных-полиморфизмов, таких как с1Ь8МР. Полиморфизмы в большинстве случаев возникают в результате мутаций, направление которых можно установить, используя методы сравнительной геномики. Такой подход открывает новые возможности для тщательного поиска закономерностей мутагенеза. В частности, он позволил нам выявить несколько ранее неизвестных мутационных контекстов, существенно сказывающихся на частоте определенных мутаций и выделяющихся на фоне всех остальных контекстов.

Подобные массовые данные по вариациям в геноме человека можно использовать не только для поиска ранее неизвестных закономерностей мутагенеза, но и для углубленного изучения уже описанных закономерностей.

Упомянутая выше недопредставленность Срв динуклеотидов в геноме человека, а также повышенная частота мутаций СрО>ТрО менее выражены в особых участках генома человека, называемых Срв островами. Это ассоциировано с пониженным уровнем метилирования цитозинов в СрО контексте в таких участках генома. Можно предположить, что именно разница в степени метилирования между СрО островами и остальным геномом является причиной отличий частот С>Т мутаций в СрО контексте в этих областях. В главе 6 данной работы мы постарались проверить эти гипотезу, привлекая современные данные по метилированию в масштабах всего генома человека. Мы сравнивали частоты мутаций в СрО островах и в остальном геноме, контролируя степень метилирования, а также ряд других известных факторов, сказывающихся на наблюдаемых частотах мутаций.

Выше речь шла о мутациях, ведущих к одиночным нуклеотидным заменам. Кроме таких мутаций, существенный вклад в эволюцию генома человека и геномов других живых организмов вносят дупликации генов. Дупликации представляют собой особый и очень важный тип мутаций, так как они легко приводят к увеличению белкового разнообразия. Существенная часть генов в геноме человека представлена несколькими копиями. Хотя часто после дупликаций одна из копий быстро элиминируется или подвержена псевдогенизации, можно встретить множество случаев закрепления новых копий, в том числе в результате действия естественного отбора. В начале обе копии гена могут быть полезны, увеличивая количество производимой РНК данного гена, а затем, при накоплении критического количества мутаций, могут приобрести разные специализированные функции.

Эволюции недавно дуплицированных генов человека посвящены четвертая и пятая главы данной работы. Во-первых, нас интересовали закономерности изменения силы действующего отбора после дупликации, а также вопрос о симметричном накоплении мутаций между двумя копиями молодых паралогов. Во-вторых, нас интересовал вопрос о закономерностях эволюции сайтов сплайсинга при дупликации генов. Сплайсинг - процесс, при котором из исходной мРНК вырезаются отдельные сегменты, называемые интронами, а остальные, экзоны - сшиваются. В ряде случаев этот процесс может происходить по-разному, с получением варьирующих зрелых мРНК. Наиболее ярким примером альтернативного сплайсинга является ген Dscaml у плодовой мушки Drosophila melanogaster, потенциально имеющий более 30000 альтернативных изоформ [1]. Благодаря наличию такого альтернативного сплайсинга, один ген может "кодировать более одного белка, т.е. это еще один способ создания разнообразия, в данном случае, на уровне протеома. В связи с этим эволюция сайтов сплайсинга после дупликации, рассмотренная в пятой главе диссертации, представляет особый интерес.

Поскольку для определения сайтов сплайсинга, - прежде всего, используются транскрипционные данные, а это в первую очередь последовательности EST (expressed sequenced tags - прочитанные фрагменты кДНК, длиной около несколько сотен нуклеотидов), при подготовке данных особое внимание в данной работе уделено анализу загрязнений базы данных человеческих EST, который проводился путем сравнения генома человека и доступных транскрипционных данных. Этот анализ, описанный в первой главе диссертации, позволил найти ряд интересных типов загрязнений.

Обзор литературы

Актуальность исследуемой области

Активное развитие технологий секвенирования генетических последовательностей сделало возможными широкомасштабные проекты по чтению геномов. В 1995-ом году был опубликован первый полный геном — геном гемофильной палочки Haemophilus influenzae [2], а уже в 2001 году -геном человека [3]. На сегодняшний день прочитаны геномы представителей практически всех известных крупных таксономических групп эукариот [4]. За последние десять лет разработаны такие методы, как SOLiD [5, 6], метод пиросеквенирования [7] (технология 454), SOLEXA [8] и Ion Torrent [9]. Интенсивно разрабатываются методы секвенирования последовательностей ДНК, позволяющие анализировать одиночные молекулы, например, технологии Helicos [10] и SMART [11, 12]. Стали доступны не только последовательности генов и полных геномов огромного количества живых организмов, но и, в ряде случаев, данные по полиморфизмам в этих последовательностях, данные по транскрипции (например, EST - expressed sequence tags), сплайсингу [13], наличию белковых продуктов, функциональной аннотации генов, а также профили метилирования ДНК в различных тканях и типах клеток [14-16].

Геном человека является удобной моделью для анализа закономерностей эволюции и мутагенеза благодаря высокому качеству сборки и постоянному притоку большого количества сопряженных данных. Наряду с полностью прочитанным геномом человека [3], также прочитаны геномы ископаемых представителей рода Homo: неандертальца Homo neanderthalensis [17] и Денисовского человека Denisova hominin [18], а также геномы родственных приматов, таких как шимпанзе Pan troglodytes [19], орангутанов Pongo abelii, Pongo pygmaeus [20] и макаки Macaca mulata [21]. Большой интерес представляют как закономерности точечного мутагенеза (например, зависимость мутационных процессов от нуклеотидного контекста), так и закономерности эволюционных событий большего масштаба, например, дупликаций генов и последующего изменения их моделей сплайсинга.

Целью данного исследования является выявление закономерностей эволюции генетических последовательностей человека. Особенное внимание здесь уделено закономерностям точечного мутагенеза и эволюции генов после дупликаций. При этом были поставлены следующие задачи:

• Создание коллекции "мусорных" фрагментов транскриптов (EST) человека. Анализ источников загрязнений.

• Анализ встречаемости 1-7 нуклеотидных слов в 139 полных геномах эукариот.

• Установление предковых состояний одиночных нуклеотидных полиморфизмов в геноме человека и поиск ранее не описанных мутационных контекстов, в которых наблюдается избыток или недостаток мутаций.

• Анализ эволюции генов человека, возникших в результате недавних дупликаций.

• Анализ закономерностей эволюции сайтов сплайсинга в генах человека после дупликаций.

• Исследование взаимосвязи между степенью метилирования цитозинов и частотой CpG>TpG мутаций в CpG островах и в остальных областях генома человека.

Основные виды мутаций

Мутации — это изменения генетических последовательностей, например, последовательностей ДНК в хромосомах эукариотических и прокариотических клеток, (а также ДНК и РНК в геномах вирусов). Основными источниками мутаций являются излучение, вставки провирусов или мобильных элементов [22, 23], действие мутагенных химических агентов, а также ошибки при репликации ДНК [24]. В некоторых случаях процесс мутагенеза инициируется самой клеткой, например, при рекомбинации в предшественниках лимфоцитов человека [25] - процессе необходимом для нормального развития специфического иммунитета, для создания разнообразия антител. У многоклеточных организмов таких как человек выделяют мутации в соматических клетках и мутации в клетках зародышего пути. Первые могут приводить к неблагоприятным последствиям для конкретного индивида, например, к развитию раковых заболеваний [26, 27], но не наследуются. Наследоваться могут только мутации, происшедшие в клетках зародышего пути (например,- в гаметах или их предшественниках, в том числе в некоторых эмбриональных стволовых клетках и гаметогониях).

Мутации играют огромную роль в эволюции живых организмов, создавая в популяции генетическое разнообразие, необходимое для эволюции под действием естественного отбора. Например, высокая частота мутаций в геномах вирусов делает более вероятным появление штаммов, способных обойти-защитные механизмы хозяина, в том числе иммунную систему человека [28] [2931].

Мутации, в результате которых один нуклеотид меняется на другой, называют точечными. Также бывают вставки (например, в результате встраивания транспозона или провируса в геном клетки) и делеции различных размеров. Встречаются и крупные хромосомные перестройки. К ним иногда относят дупликации генов (амплификация), очень крупные делецииг (ведущие к утрате целых генов), объединение различных последовательностей ДНК, иногда с образованием новых генов на стыке, хромосомные инверсии. Известны примеры полногеномных дупликаций [32, 33]. Считается, что полногеномная дупликация случалась дважды в ходе эволюции позвоночных. Один хорошо изученный пример крупной перестройки генома — появление второй хромосомы человека в результате объединения двух хромосом в процессе эволюции [34]. J

Однако в данной работе нас будут больше интересовать точечные мутации и дупликации. Это связано с тем, что такие события происходят сравнительно часто, что облегчает их систематический анализ и поиск закономерностей.

Влияние соматических и наследуемых мутаций

Мутации в соматических клетках являются одной из* основных причин возникновения раковых заболеваний [35]. Некоторые наследуемые мутации также могут увеличивать риск появления различных заболеваний, в том числе раковых. Например, мутации в гене супрессора опухолей человека АРС приводят к очень высокой вероятности развития рака% прямой кишки [36]. Наследуемые мутации нередко сказываются на приспособленности живых организмов. Создаваемые таким образом отличия в приспособленности необходимые для эволюции под действием естественного отбора. Наследуемые мутации могут уменьшать приспособленность носителя - такие мутации называются вредными и они, как правило, удаляются из популяции под давлением отрицательного отбора. Также мутации могут быть нейтральными или полезными. В качестве примера сравнительно недавних полезных мутаций в геноме человека можно привести появление аллеля rs429358(T) в гене аполипротеина Е (сейчас этот аллель самый распространенный в популяции людей). Предковый аллель rs429358(C) (присутствующий в геномах шимпанзе и макаки) в гомозиготном состоянии ассоциирован более, чем с 10-и кратным увеличением риска болезни Альцгеймера по сравнению с гомозиготным rs429358(T) [37].

Эффект мутации зависит как от характера мутации, так и от геномного локуса, где она произошла. К серьезным заболеваниям приводят мутации в функционально важных участках генома, например, в кодирующих участках, сайтах сплайсинга. Например, делеция трех нуклеотидов в гене регулятора трансмембранной проводимости при муковисцидозе, ведущая к утрате аминокислоты фенилаланина в позиции 508, как и целый ряд других мутаций в том же гене, приводит к патологии, характеризуемой тяжелыми последствиями для работы органов дыхания и желудочно-кишечного тракта [38]. Часто к серьезным генетическим заболеваниям приводит появление преждевременных стоп-кодонов в генах, кодирующих белки. Такие мутации отвечают примерно за 11% всех генетических изменений, ведущих к наследуемым заболеваниям у людей и около 20% от наследуемых заболеваний, вызванных мутациями одиночных нуклеотидов [39]. Большую долю таких мутаций составляют мутации кодона CGA в стоп-кодон TGA, высокая частота которых связана с высокой вероятностью мутации CG>TG в геноме человека предположительно в связи с частым метилированием и последующим дезаминированием цитозина в данном контексте [40, 41]. Упомянутое метилирование CpG динуклеотидов играет важную роль в эпигенетической регуляции [42, 43] и является важной чертой многих живых организмов и объектом активных исследований [44, 45]. Подробнее о метилировании CpG динуклеотидов будет сказано ниже. Таким образом, частоты мутаций, ведущих к серьезным наследуемым патологиям, напрямую связаны с базовыми частотами мутаций в геноме.

Известно, что около 10% всех изученных генетических заболеваний человека вызваны одиночными мутациями в сайтах сплайсинга генов [46], однако, есть основания полагать, что данная оценка занижена [47]. Большинство генов человека подвергается процессу сплайсинга, в ходе которого определенные участки незрелой мРНК вырезаются, такие участки называются интронами, а остальные участки, экзоны, сшиваются между собой, образуя новую укороченную молекулу зрелой мРНК. Примерами заболеваний, вызываемых нарушениями этого процесса являются некоторые формьграка [48, 49], мышечная дистрофия [50], аутоиммунные заболевания [51], семейная дисавтономия [52], синдром Фрейзера [53]. Одиночные мутации в сайтах сплайсинга; например, одиночные замены в ключевых динуклеотидах AG акцепторных сайтов сплайсинга и GT донорных сайтов сплайсинга, а также мутации в. соседних нуклеотидах [54]: иногда могут приводить к тому, что в-зрелой; мРНК будет присутствовать огромная, бессмысленная с. точки зрения функции гена, вставка, с. большой вероятностью содержащая преждевременный стоп-кодон. Такие мРНК с большой • вероятностью не функциональны или даже: вредны для организма.

Для борьбы с появлением молекул мРЫК, возникших в результате неправильного сплайсинга в клетках, существует механизм NMD ("nonsensemediated decay") [55]. К мРНК в местах сплайсинга прикрепляются специальные комплексы белков, которые способствуют трансляции мРНК [56]. Эти комплексы устраняются при первом-раунде трансляции при взаимодействии: мРНК с рибосомой: Если стоп кодон возникает ощутимо раньше, чем последний сайт сплайсинга на молекуле мРНК, часть таких комплексов на молекуле мРНК сохраняется и они служат сигналом к тому, что мРНК неправильно сплайсирована. Такие мРНК направляются в цитозоль для экзосомной деградации [57].

Методы реконструкции мутационных и эволюционных событий

Для исследования закономерностей мутагенеза и эволюции: необходимо уметь находить и правильно интерпретировать, эволюционные события: В рамках сравнительной геномики для этого используется несколько подходов; В самом простом случае можно сравнить гены или геномы двух организмов для обнаружения отличий между ними, например, для поиска нуклеотидных замен. Когда был прочитан геном шимпанзе, его сравнение с геномом человека показало, что эти два генома отличаются одиночными нуклеотидными заменами примерно в 1.23% позиций [19]. Подобные сравнения позволяют устанавливать некоторые закономерности эволюции. Например, еще до появления полностью прочитанных геномов мыши и крысы, сравнение некоторых генов из этих геномов позволило высказать гипотезу, что синонимичные нуклеотидные замены (не меняющие аминокислоту в кодируемом белке) в кодонах белок-кодирующих генов в большинстве случаев нейтральны, т.е. не подвержены отбору [58]. Эта гипотеза считается в значительной степени верной и по сей день, хотя были обнаружены важные исключения. Например, у дрозофилы использование "непредпочтительных" (более редких) синонимичных кодонов гена алкоголь дегидрогеназы приводит к снижению количества синтезируемого белка [59]. Известно, что синонимичные замены в кодонах сплайсируемых генов могут приводить к неправильному-сплайсингу [60]. Таким образом, хотя синонимичные замены в целом меньше подвержены отрицательному отбору, чем несинонимичные, они все-таки могут, влиять на работу генов и иметь адаптивное значение.

Сравнение последовательностей пар генов позволило сделать первые правдоподобные оценки скорости мутационных процессов. В 1969 Джукс и Кантор предложили одну из первых моделей нуклеотидных замен [61, 62], которая учитывала возможность множественных замен в одном и том же сайте. На тот момент из палеонтологических данных было известно, что самые древние акулы существовали примерно 400 миллионов лет назад. У акул, как и у людей, присутствуют гены альфа и бета гемоглобина, в то время как у более далеких человеку организмов таких генов не было найдено. При общей оценке возраста генов альфа и бета гемоглобина в 400 миллионов лет и предположении об их общем происхождении была получена оценка скорости мутагенеза — 1.4 замены на миллиард нуклеотидов в год, то есть, порядка 50-100 замен на гаплоидный геном на поколение (для человека). Это удивительно близко к современным оценкам (около 30 замен на геном на поколение), полученным при чтении полных геномов родителей и их детей [63], несмотря на то, что упомянутые оценки делались 40 лет назад, еще на заре появления технологий для чтения генетических последовательностей.

Теоретически выведенные оценки частоты мутаций, как те, что были получены Джуксом и Кантором, не учитывали нескольких важных факторов. Во-первых, на белок-кодирующие последовательности, в том числе на гены гемоглобина, действует довольно сильное давление естественного отбора. Другой неучтенный фактор - ошибочное допущение применимости матрицы замен Джукса и Кантора, в которой все замены считались равновероятными, что в большинстве случаев не верно. Существующие различия между частотами транзиций и трансверсий в 1980-ом году впервые предложил учитывать Кимура [64]. Другая модификация модели Джукса Кантора была предложена в 1981-ом году Фельзенштейном, она учитывала отличия в частотах нуклеотидов [65]. Однако модель Фельзенштейна не принимала во внимание разницу частот транзиций и трансверсий, как это делалось в матрице замен Кимуры. В 1985-ом появилась модель Хасегавы [66], которая, по сути, объединила модели Кимуры и Фельзенштейна, учитывая оба описанных выше наблюдения. Еще более сложной является модель Тамуры, которая не только учитывает частоты нуклеотидов и частоты транзиций и трансверсий (как это делает модель. Хасегавы), но и учитывает отличия между частотами двух типов транзиций (Аов) и (С<>Т). Программы, в которых используются эти и- другие модели нуклеотидных замен, такие как Рат1 [67], как правило, могут принимать на вход либо заданные параметры, такие как коэффициент каппа - отношение частоты транзиций к частоте трансверсий в матрице замен Кимуры, или вычислять эти параметры, исходя из предоставленных нуклеотидных последовательностей. Последний случай более успешно применяется в том случае, если доступных данных достаточно, чтобы полученные значения параметров отражали объективные закономерности, а не случайный шум.

Имея в наличии две последовательности, мы можем измерить дивергенцию между ними, найти консервативные участки, посчитать число замен различного типа, но, тем не менее, не можем определить направление эволюционных событий. Для того чтобы определить направление мутации, необходимо предсказать какой генетический вариант присутствовал у предка. При этом для реконструкции эволюционных событий строятся филогенетические деревья. Способы реконструкции предковых вариантов генетических последовательностей будут описаны ниже.

Для построения филогенетических деревьев используют несколько разных методов. Такие методы, как метод объединения соседей и метод ЦРвМА, имплементированные в большинство программ для анализа генетических последовательностей (например, в СИ^а^ [68]), используют матрицы расстояний, основанные на множественных нуклеотидных или аминокислотных выравниваниях анализируемых последовательностей. Алгоритм объединения соседей [69] таков:

1. На основании матрицы расстояний построить матрицу <3 по следующей формуле:

Я(ЬЗ) = {г - - к) 1

Здесь г - число последовательностей, а с!(У) - расстояние между последовательностями 1 и].

2. Найти пару последовательностей с наименьшим С) и объединить их в общий узел.

3. Посчитать расстояние от каждой из последовательностей в данной паре до этого узла.

4. Посчитать расстояние от всех остальных последовательностей до узла.

5. Вернуться в пункт один, только вместо пары последовательностей ближайших соседей, которых объединили на предыдущем этапе, использовать узел и расстояния от узла до других последовательностей в матрице весов.

Метод объединения соседей не использует гипотезу «молекулярных часов» (предположение о постоянной частоте изменений ДНК) и строит неукорененное дерево. При использовании метода иРОМА используется гипотеза «молекулярных часов» и строится укорененное дерево [70]. Сегодня для построения деревьев все чаще используют метод максимального правдоподобия, например, имплементированный в программе РЬуМ1 [71]. Подробней о молекулярных часах и методе максимального правдоподобия будет сказано ниже.

Для предсказания предковых последовательностей используются укорененные филогенетические деревья. Из укорененного дерева (все ветви которого имеют направление от предка к потомку) легко получается неукорененное дерево. Для этого достаточно убрать корень. А для получения укорененного дерева из неукорененного необходимо прибегнуть к дополнительным методам и использовать ряд допущений. Чаще всего используют метод внешней группы - когда к анализу добавляются последовательности достаточно близкие к исследуемым, чтобы их можно было сравнить с ними, но достаточно далекие, чтобы они гарантировано были "внешними" по отношению к исследуемым последовательностям на филогенетическом дереве. Типичный критерий для удачного выбора внешней группы - «филогенетическое расстояние от внешней группы до любой из анализируемых последовательностей должно быть больше, чем расстояние между любой парой анализируемых последовательностей». Если в некоторой позиции гена человека стоит нуклеотид А, в той же позиции ортологичного гена-шимпанзе стоит Т и в ортологичных генах внешней группы (например, орангутана, бабуина и макаки) тоже стоит Т, то мы можем установить не только факт произошедшей замены АоТ, но и указать ее направление Т>А. Такие же принципы используются при' сравнении паралогов - генов, возникших от общего предка в результате последовательных дупликаций. Точность реконструкции предковых состояний увеличивается, если использовать несколько последовательностей в качестве внешних групп.

Если внешние группы по каким-либо причинам не доступны, то можно использовать другие методы укоренения деревьев. Один такой метод использовать гипотезу о «молекулярных часах». При этом делается допущение,' что скорости мутационных изменений примерно постоянны во времени и между организмами (или последовательностями). Современной теоретической основой этого метода является нейтральная теория эволюции, предложенная Кимурой [72], которая гласит, что большая часть наблюдаемых нуклеотидных замен нейтральна. Разумеется, хотя эти допущения в значительной степени справедливы для нефункциональных участков генома, например, для псевдогенов, они часто оказываются ошибочными для кодирующих последовательностей, сайтов сплайсинга и других функциональных участков, поэтому такой метод надо использовать с осторожностью. Другой метод укоренения деревьев называется «методом укоренения в средней точке» (midpoint rooting), при котором корень дерева помещается в середину самой длинной ветви на дереве. Эмпирическая проверка показывает, что этот метод укоренения достаточно надежный — топология таких укорененных деревьев в большинстве случаев совпадает с топологией деревьев, для которых корень получен с использованием большого количества последовательностей, использованных в качестве внешней группы [73]. Более того, по всей видимости, этот метод может превосходить метод "внешней группы" в ряде условий (например, если нет нескольких согласованных между собой последовательностей внешних групп). В нашей работе требовались укорененные деревья последовательностей белок-кодирующих генов, для которых гипотеза "молекулярных часов" в большинстве случаев не верна. Поэтому, мы использовали укоренение деревьев в средней точке при построении филогенетических деревьев белков для анализа эволюции сайтов сплайсинга и укоренение с помощью внешней группы при анализе синонимичных и несинонимичных замен в дуплицированных генах человека.

Наличие филогенетического дерева необходимо, но не достаточно для поиска направленных изменений на его ветвях. Для реконструкции предковых состояний в узлах деревьев необходимо использовать какую-нибудь эволюционную модель. В настоящее время успешно используются два основных метода реконструкции. Метод «максимальной экономии», который заключается в том, что узлам деревьев присваиваются состояния таким-образом, чтобы минимизировать количество событий на всем дереве (без учета вероятности этих событий). Этот метод очень эффективен при большом спектре возможных условий [74],' особенно если анализируются редкие события. Но существуют ситуации, когда метод максимальной экономии дает заведомо неправильные результаты [75], например, при реконструкции предковых нуклеотидов, в случаях, когда вероятности мутаций в разных контекстах очень сильно отличаются. Предположим, что у нас есть дерево для трех видов -человека, шимпанзе и бабуина. Пусть у человека в некоторой позиции в геноме стоит дииуклеотид СО, у шимпанзе ТС и у бабуина тоже ТО. Бабуин формирует внешнюю группу для человека и шимпанзе, поэтому метод максимальной экономии укажет нам, что произошла мутация из ТО в СО на ветви дерева, ведущей к человеку от общего предка человека и шимпанзе. Однако, вероятность мутации СО>ТО превышает вероятность мутации ТО>СО в несколько раз. С учетом длин ветвей на указанном дереве, оказывается, что намного более вероятен сценарий, когда произошли две мутации СО>Тв на ветвях, ведущих к шимпанзе и бабуину. В таких ситуациях следует использовать метод максимального правдоподобия, параметрический метод, с помощью которого выбираются такие эволюционные параметры, при которых наблюдаемая картина эволюционных событий наиболее вероятна. Альтернативный способ - прибегнуть к методу максимальной экономии, но1-использовать большее число последовательностей в качестве внешней группы,, чтобы точно установить предковые состояния или использовать более близкие последовательности. Мы использовали метод максимальной экономии с двумя; последовательностями в качестве внешней группы при реконструкции предковых состояний полиморфизмов при анализе мутационных процессов в-геноме человека. Метод максимального правдоподобия был использован при анализе эволюции сайтов сплайсинга в семействах паралогичных генов человека.

Закономерности процессов мутагенеза и эволюции

Частоты мутаций в геноме человека и геномах других живых организмов существенно варьируют, как между хромосомами, так и между участками внутри одной хромосомы. На У хромосоме мутации происходят чаще, а на X хромосоме - реже, чем на аутосомах и, предположительно, это связано с различным количеством делений, через которые проходят клетки зародышего пути мужчин и женщин [76, 77]. В последовательностях ДНК человека транзиции происходят чаще, чем трансверсии, а сами частоты мутаций зависят от количества СрО динуклеотидов в рассматриваемом локусе [78, 79] и вС состава [80, 81]. До сих пор не существует общепринятой математической модели, которая хорошо описывала бы частоты нуклеотидных слов или мутаций в геномах живых организмов. Хотя наблюдаемые частоты очень сильно отличаются от предсказанных при использовании даже лучших моделей, исследования этих частот улучшают наше понимание происходящих процессов, в том числе облегчают поиск биологических и эволюционных механизмов, ответственных за наблюдаемые вариации [82, 83].

Цитозин, за, которым- следует гуанин (СрО или просто СО), является, самым известным и хорошо изученным примером короткого нуклеотидного слова в геноме человека, для которого существенно увеличена частота мутаций [40]. Еще в ранних 1960-ых было известно,,что во множестве геномов животных динуклеотиды СрО существенно недопредставлены [84, 85]. Позже это было объяснено тем, что особый фермент ДНК-метилтрансфераза метилирует, цитозины в таком контексте, превращая их в метил-цитозины, которые склонны-превращаться в тимин в результате процесса дезаминирования [41] (Рисунок 1). Этот механизм.мутагенеза сегодня активно изучается и представляет огромный интерес для биологов [44]. Также выяснилось, что этот механизм играет важную роль в патологическом процессе образования некоторых видов раковых опухолей [86]. Как уже упоминалось, эффект СрО>ТрО мутаций ярко выражен среди вредных мутаций, приводящих к появлению стоп-кодонов в кодирующих областях генов [39]. Существенные вариации существуют и в частотах мутаций в других нуклеотидных контекстах [45, 87], однако в случае человека конкретные мутационные мотивы не выделялись.

Повышенная частота мутаций СрО>ТрО у человека, по-видимому, является одной из причин существенной недопредставленности СрО динуклеотидов в геноме [88]. Для сравнения у плодовой мушки ОгозоркИа melanogaster не наблюдается недопредставленности Срй динуклеотидов, и отсутствует ключевой фактор, сказывающийся на повышенной частоте СрО>Трв мутаций — метилирование Срв динуклеотидов [89]. У дрозофилы отсутствует фермент ДНК-метилтрансфераза 01ЧМТ1, хотя у нее найдены похожие ферменты. Также интересно, что некоторые организмы, например, Ыеигоярога сгахяа и БассИаготусеБ сегеу18'ше по всей видимости не имеют стандартной ДНК метил-трансферазы, но все равно демонстрируют недостаток Св динуклеотидов [88]. а

N42 цитозин N

СНз метилирование

Н2 з 2 N О О б N

СНЗ

Н2

5"-метил цитозин о

5 з'4 5

СНз дезаминирование О

5'-МЄТІ1ЛЦИТ03ИН

5 4 ^Н тамин О

Рисунок 1. Метилирование цитозина (а) и последующее дезаминирование 5-метилцитозина (б).

Другое принципиальное отличие мутагенеза дрозофилы Огояоркйа melanogaster и человека — во многих областях генома дрозофилы одна из трансверсий, а именно (ОА) происходит с большей частотой, чем одна из транзиций [90]. У некоторых организмов вообще нет смещения мутаций в

25 пользу транзиций, например у кузнечика РосНята рес1е8М$ [91]. Наряду со словом СО, в геноме человека существуют другие слова, которые существенно недопредставлены в геноме, например, ТА [88] причины недопредставленности которого до сих пор не ясны.

Среди хорошо изученных механизмов мутагенеза человека следует упомянуть образование пиримидиновых димеров под действием ультрафиолетового света. Ультрафиолетовые лучи могут вызывать образование ковалентных связей между цитозинами или тиминами [92, 93] (Рисунок 2). Существуют специальные клеточные механизмы, направленные на восстановление таких повреждений ДНК, например, фермент ДНК-фотолиаза [94, 95]. Несмотря на это, клетка не успевает исправить часть образующихся под действием ультрафиолетового излучения пиримидиновых димеров. При репликации участка ДНК, содержащего пиримидиновый димер, часто происходят мутации [96]. Такие мутации являются одной из основных причин появления рака кожи — меланомы [97]. После воздействия ультрафиолета наиболее высокий риск появления меланомы наблюдается у людей с генетическими нарушениями системы фоторепарации, например, при рецессивном нарушении - пигментной ксеродерме. Недавно был прочитан полный геном злокачественной меланомы [98]. Анализ происшедших соматических мутаций в такой меланоме также свидетельствует о подавляющем количестве повреждений, вызванных ультрафиолетовыми светом.

В последнее время большое внимание при изучении процессов мутагенеза и эволюции в геноме человека и других эукариот уделяется явлению смещенной генной конверсии [99]. Многоклеточные эукариотические организмы при половом размножении используют мейоз, при котором возможен кроссинговер - сближение гомологичных хромосом с последующим обменом генетического материала между ними (рекомбинация). Если в гомологичных участках хромосом существуют отличия, например, разные нуклеотиды в какой-либо позиции, то может произойти конверсия - нуклеотид на одной из гомологичных хромосом станет таким же, как тот, что расположен на другой. Этот процесс смещен в сторону образования в и С нуклеотидов и, по-видимому, сказывается на увеличении СС состава в геномах различных организмов, начиная от дрожжей и заканчивая позвоночными [100]. Роль генной конверсии в эволюции пока до конца не ясна. В некоторых работах обосновывается, что смещенная генная конверсия может вести к фиксации вредных и слабовредных мутаций из аденина или тимина в цитозин или гуанин [101]. О О ны

О- N мї\1Н

IV 4 И

6' 2' N О

Я'

2'

N ^О

Рисунок 2. Образование пиримидинового димера под действием ультрафиолетового света.

Как уже упоминалось выше, цитозины в Срв динуклеотидах в геноме человека часто находятся в метилированном состоянии [40]. Еще одно важное свойство этих динуклеотидов заключается в том, что существуют участки ДНК, называемые Срв островами, в которых количество СрС динуклеотидов существенно больше, чем в среднем по геному [102]. Известно и то, что в этих участках метилирование цитозинов в составе Срв динуклеотидов менее выражено. Существует представление, что существование СрО островов отчасти вызвано таким неравномерным метилированием генома:: в участках, где метилирования меньше, будет меньше мутаций из цитозина в тимин, и такие участки, впоследствии, становятся СрО островами. Шестая глава данной диссертации посвящена исследованию вопроса: объясняет ли сниженный уровень метилирования упомянутое снижение частоты мутаций в Срв островах полностью.

Большой интерес представляют не только закономерности мутагенеза, но и закономерности действия естественного отбора. Отрицательный отбор, направленный на сохранение полезных генетических последовательностей, обнаружен не только в последовательностях генов [103], но и в некоторых межгенных участках [104, 105], функции которых пока не ясны. В некодирующих областях, более того, в областях далеких от генов, находят и участки, находящиеся под давлением положительного отбора [106]. Давление отрицательного отбора на вредные аллели генов, может приводить к уменьшению разнообразия нейтральных сцепленных аллелей [107]. У людей,, по-видимому, давление отбора различается между половыми хромосомами (например, X хромосомой) и аутосомами [108].

Одним из важнейших источников разнообразия генетического материала живых организмов является процесс дупликации генов [109]. Обычно дупликации происходят либо за счет гомологичной рекомбинации, либо в результате активности ретротранспозонов, либо при дупликации целой хромосомы [110] или всего генома. В теории, появление второй копии гена должно приводить не просто к накоплению дополнительного генетического материала, над которым может действовать отбор (в том числе положительный), но и к ослабленному действию отрицательного отбора на одной из копий гена, а значит, к повышенной вероятности появления гена с новой функцией. Дупликации генов способствуют увеличению генетического (и связанного с ним - фенотипического) разнообразия и имеют непосредственное отношение к целому ряду генетических заболеваний [111]. Эволюционное происхождение многогенных семейств исследовалось у разных организмов как на примере отдельных генных семейств [112-116], так и в масштабах полногеномного анализа [117-121].

Семейства дуплицированных генов человека также представляют хорошую модель для поиска закономерностей эволюции сайтов сплайсинга, особенно в свете все нарастающего интереса к взаимосвязи между эволюцией сплайсинга генов и дупликациями [122-124]. Здесь был выявлен целый ряд закономерностей [124]. Во-первых, у дуплицированных генов в среднем меньше альтернативных изоформ, чем у одиночных генов. Это может быть связано с тем, что и альтернативный сплайсинг и дупликации генов являются взаимозаменяющими методами увеличения разнообразия мРНК продуктов. Это предположение согласуется и с той закономерностью, что более крупные генные семейства имеют меньше альтернативных изоформ. Кроме того, , изменения моделей альтернативного сплайсинга чаще всего происходят в скором времени после дупликации - у молодых паралогов [124].

Сравнительные исследования эволюции сайтов сплайсинга у человека и мышей показали, что альтернативный сплайсинг генов ассоциирован с недавними рождениями и исчезновениями экзонов [125]. При этом интересно, что сами альтернативные сайты не очень консервативны между видами, как у насекомых [126], так и у млекопитающих [127, 128]. Консервативность альтернативных сайтов сплайсинга повышается, если расстояние между существующими альтернативными- сайтами кратно трем или если альтернативные изоформы используются примерно в равной мере [129].

По имеющимся оценкам, в среднем у млекопитающих (на примере грызунов) рождается 2.71 новых экзонов на 1000 генов за миллион лет [130]. При этом у таких новых экзонов преобладает ускоренная эволюция - высокие значения dN/dS с предположительным положительным отбором, высокие частоты инсерций и делеций. Такие экзоны в своем большинстве альтернативны, имеют низкий уровень экспрессии и часто имеют уникальные последовательности, свидетельствующие в пользу их образования из бывших интронов. Роль «экзонизации» интронов при появлении новых функциональных белков подтверждается сходством консервативности аминокислотных последовательностей, кодируемых новыми альтернативными экзонами, а также окружающих белковых последовательностей [131].

Поскольку каждая глава данной диссертации имеет свою специфику, для удобства читателя обзор литературы будет несколько расширен по каждой из тем во введениях к каждой из последующих глав.

Похожие диссертационные работы по специальности «Математическая биология, биоинформатика», 03.01.09 шифр ВАК

Заключение диссертации по теме «Математическая биология, биоинформатика», Панчин, Александр Юрьевич

7. Выводы

1. Создана коллекция фрагментов транскриптов человека, содержащая 4,260 последовательностей EST, которые, вопреки обозначенному источнику происхождения, не имеют сходства с какими-либо последовательностями в геноме человека. Анализ этой коллекции показал, что транскриптом человека загрязнен нуклеотидными последовательностями прокариот, вирусов и даже последовательностями других млекопитающих и растений.

2. Проведен анализ встречаемости 1-7 нуклеотидных слов в 139 полных ' геномах эукариот. Слово ТА является недопредставленным в наибольшем числе геномов. Описан ряд организмов, в геномах которых обнаружены отклонения от известных закономерностей недопредставленности и перепредставленности нуклеотидных слов, и выявлен ряд новых закономерностей.

3. Установлено предковое состояние для примерно трех миллионов одиночных полиморфизмов человека. Выявлен более чем трехкратный избыток Т>С мутаций во вторых позициях слов ATTG и ATAG, а также А>С мутаций в первой позиции слова АСАА.

4. Проведен анализ эволюции семейств паралогичных генов человека, содержащих более 500 генов. Примерно одна пятая часть пар ближайших паралогов человека накапливают несинонимичные замены с разной скоростью, при этом доля функционально важных несинонимичных замен существенно преобладает в быстро эволюционирующих копиях генов.

5. В 70% рассмотренных семейств многоэкзонных генов обнаружено хотя бы одно событие изменения модели сплайсинга гена после дупликации.

Альтернативные сайты эволюционно подвижнее: они чаще рождаются и умирают, а также чаще переходят в конститутивные, чем наоборот.

161

6. Подтверждено, что частота мутаций метилированных цитозинов в СрО динуклеотидах внутри СрО островов понижена по сравнению с остальным геномом. Показано, что этот эффект не объясняется отличиями в частоте рекомбинаций или локальным нуклеотидным составом.

Благодарности

Автор выражает благодарность своему научному руководителю Ирене Игоревне Артамоновой, а также своим учителям Михаилу Сергеевичу Гельфанду, Андрею Владимировичу Алексеевскому, Сергею Александровичу Спирину, Юрию Борисовичу Лебедеву, Сергею Менделевичу Глаголеву, Владимиру Вениаминовичу Алешину; а также своим соавторам Сергею Игоревичу Митрофанову, Юлии Анатольевне Медведевой, Всеволоду Юрьевичу Макееву, Сергею Анатольевичу Лукьянову, Василию Евгеньевичу Раменскому; а также людям, помогавшим в работе на разных ее этапах Александру Ивановичу Тужикову, Рамилю Наилевичу Нуртдинову, Степану Владимировичу Денисову, Евгению Владимировичу Леушкину, Георгию Александровичу Базыкину и многим другим, а также всем коллегам, с которыми происходил продуктивный обмен идеями на многочисленных семинарах и конференциях, а также уважаемым оппонентам Андрею Александровичу Миронову и Сергею Эдуардовичу Спиридонову, и своим родителям за постоянную поддержку.

Автор также благодарит за поддержку Российский фонд фундаментальных исследований и Министерство образования и науки Российский Федерации (Федеральная целевая программа « Научные и научно-педагогические кадры инновационной России на 2009 — 2013 годы »).

Список публикаций по теме диссертации

1. Panchin A.Y., Spirin S.A., Lukyanov S.A., Lebedev Y.B., Panchin Y.V. "Human trash ESTs - sequences from cDNA collection that are not aligned to genome assembly". // Journal of Bioinformatics and Computational Biology. - 2008 — V. 6 — P. 759-73.

2. Mitrofanov S.I., Panchin A.Y., Spirin S.A., Alexeevski A.V., Panchin Y.V. "Exclusive sequences of different genomes". // Journal of Bioinformatics and Computational Biology. - 2010 - V. 8 - P. 519-34.

3. Panchin A.Y., Gelfand M.S., Ramensky V.E., Artamonova I.I. Asymmetric and non-uniform evolution of recently duplicated human genes. // Biology Direct. - 2010 -V. 5-P. 54.

4. Panchin A.Y., Mitrofanov S.I., Alexeevski A.V., Spirin S.A., Panchin Y.V. "New words in human mutagenesis". // BMC Bioinformatics. - 2011 - V. 12 - P. 268.

5. Panchin A.Y., Shustrova E.N., Artamonova I.I. "Recently duplicated human genes: Basics of evolution". // J Biomol Struct Dyn. - V. 28 - P. 1068

6. Panchin A.Y. et al. "Human trash EST study". // Proceedings of the International Moscow Conference on Computational Molecular Biology (MCCMB'07) - 2007 - P. 124.

7. Паичин А. Ю., Артамонова И. И. "Эволюция недавно дуплицировавшихся паралогов генома человека". «Информационные технологии и системы» (ИТиС'08). Сборник тезисов. - 2008 - С. 308-313

8. Panchin A.Y., Artamonova I.I., Ramensky V.E., Gelfand M.S. "Major trends in the evolution of young human paralogs". // Proceedings of the International Moscow Conference on Computational Molecular Biology (MCCMB*09). - 2009 - P. 281.

9. Mitrofanov S.I., Panchin A.Y., Alexeevski A.V., Spirin S.S., Panchin Y.V. "Exceptional nucleotide sequences in genomes of different organisms" // Proceedings of the International Moscow Conference on Computational Molecular Biology (MCCMB'09). - 2009 - P. 240.

10. Митрофанов С.И., Панчин А.Ю., Спирин C.A., Панчин Ю.В., Алексеевский А.А. "Исключительные последовательности в геномах различных организмов". // «Информационные' технологии и системы» (ИТиС'09). Сборник тезисов -2009-С. 351-353.

11. Панчин А.Ю., Артамонова И.И. "Эволюция моделей альтернативного сплайсинга паралогичных генов человека". // «Информационные технологии и системы» (ИТиС'09). Сборник тезисов. - 2009 - С. 347-350.

12. Панчин А.Ю., Митрофанов С.И., Алексеевский А.В., Спирин С.А., Панчин Ю.В. "Зависимость мутационных процессов в геноме человека от контекста". // «Информационные технологии и системы» (ИТиС"10). Сборник тезисов. - 2010 -С. 358-360.

13. Panchin A.Y., Mitrofanov S.I., Spirin S.A., Alexeevski A.V., Panchin Y.V. "Human mutagenesis in context". // Proceedings of the International Moscow Conference on Computational Molecular Biology (MCCMB'l 1). - 2011 - P. 274-275

14. Panchin A.Y., Makeev V.Y., Medvedeva Y.A. "Decreased mutation rate of 5mCpG within CpG islands in the human genome. // Proceedings of the International Moscow Conference on Computational Molecular Biology (MCCMB'l 1). - 2011 - P. 228.

15. Панчин А.Ю., Артамонова И.И. "Эволюция сайтов сплайсинга в семействах недавно дуплицированных генов человека". // «Информационные технологии и системы» (ИТиС"11). Сборник тезисов. - 2011 - С. 107-111

16. Панчин А.Ю., Макеев В.Ю., Медведева Ю.А. "Снижение частоты мутаций метилцитозинов в CpG островах". // «Информационные технологии и системы» (ИТиС"11). Сборник тезисов. - 2011 - С. 271-275

17. Panchin A.Y., Shustrova E.N., Gelfand M.S., Artamonova I.I. "Evolution of recently duplicated human genes." // Abstract of papers presented at the 2010 Cold Spring Harbor Asia Conference "Computational Biology" — P. 12

Список литературы диссертационного исследования кандидат биологических наук Панчин, Александр Юрьевич, 2011 год

1. Schmucker D, Clemens JC, Shu H, Worby CA, Xiao J, Muda M, Dixon JE, Zipursky SL Drosophila Dscam is an axon guidance receptor exhibiting extraordinary molecular diversity. //Cell.-2000-V. 101-P. 671-684.

2. Fleischmann RD, Adams MD, White O, Clayton RA, Kirkness EF, Kerlavage AR, Bult CJ, Tomb JF, Dougherty BA, Merrick JM et al Whole-genome random sequencing and assembly of Haemophilus influenzae Rd. // Science. 1995 - V. 269 - P. 496-512.

3. Lander ES, Linton LM, Birren B, Nusbaum С, Zody MC, Baldwin J, Devon K, Dewar K, Doyle M, FitzHugh W et al Initial sequencing and analysis of the human genome. // Nature. 2001 - V. 409 - P. 860-921.

4. Mitrofanov SI, Panchin AY, Spirin SA, Alexeevski AV, Panchin YV Exclusive sequences of different genomes. // J Bioinform Comput Biol. 2010 - V. 8 - P. 519-534.

5. Shendure J, Porreca GJ, Reppas NB, Lin X, McCutcheon JP, Rosenbaum AM, Wang MD, Zhang K, Mitra RD, Church GM Accurate multiplex polony sequencing of an evolved bacterial genome. // Science. 2005 - V. 309 - P. 1728-1732.

6. King C, Scott-Horton T Pyrosequencing: a simple method for accurate genotyping. // J Vis Exp.-2008-V,-P.

7. Bennett ST, Barnes C, Cox A, Davies L, Brown С Toward the 1,000 dollars human genome. // Pharmacogenomics. 2005 - V. 6 - P. 373-382.

8. Rothberg JM, Ilinz W, Rearick TM, Schultz J, Mileski W, Davey M, Leamon JH, Johnson K, Milgrew MJ, Edwards M et al An integrated semiconductor device enabling non-optical genome sequencing. // Nature. 2011 - V. 475 - P. 348-352.

9. Harris TD, Buzby PR, Babcock H, Beer E, Bowers J, Braslavsky I, Causey M, Colonell J, Dimeo J, Efcavitch JW et al Single-molecule DNA sequencing of a viral genome. // Science. -2008 — V. 320-P. 106-109.

10. Eid J, Fehr A, Gray J, Luong K, Lyle J, Otto G, Peluso P, Rank D, Baybayan P, Bettman B et al Real-time DNA sequencing from single polymerase molecules. // Science. 2009 — V. 323-P. 133-138.

11. Korlach J, Bjornson KP, Chaudhuri BP, Cicero RL, Flusberg BA, Gray JJ, Holden D, Saxena R, Wegener J, Turner SW Real-time DNA sequencing from single polymerase molecules. // Methods Enzymol. 2010 - V. 472 - P. 431-455.

12. Nurtdinov RN, Neverov AD, Mal'ko DB, Kosmodem'ianskii IA, Ermakova EO, Ramenskii VE, Mironov AA, Gel'fand MS EDAS, databases of alternatively spliced human genes. // Biofizika. 2006 - V. 51 - P. 589-592.

13. Lister R, Pelizzola M, Dowen RH, Hawkins RD, Hon G, Tonti-Filippini J, Nery JR, Lee L, Ye Z, Ngo QM et al Human DNA methylomes at base resolution show widespread epigenomic differences. // Nature. 2009 - V. 462 - P. 315-322.

14. Illingworth RS, Gruenewald-Schneider U, Webb S, Kerr AR, James KD, Turner DJ, Smith C, Harrison DJ, Andrews R, Bird AP Orphan CpG islands identify numerous conserved promoters in the mammalian genome. // PLoS Genet. 2010 - V. 6 - P.

15. Smallwood SA, Tomizawa S, Krueger F, Ruf N, Carli N, Segonds-Pichon A, Sato S, Hata K, Andrews SR, Kelsey G Dynamic CpG island methylation landscape in oocytes and preimplantation embryos. // Nat Genet. 2011 - V. 43 - P. 811-814.

16. Green RE, Krause J, Briggs AW, Maricic T, Stenzel U, Kircher M, Patterson N, Li H, Zhai W, Fritz MH et al A draft sequence of the Neandertal genome. // Science. 2010 - V. 328 -P. 710-722.

17. Reich D, Green RE, Kircher M, Krause J, Patterson N, Durand EY, Viola B, Briggs AW, Stenzel U, Johnson PL et al Genetic history of an archaic hominin group from Denisova Cave in Siberia. // Nature. 2010 - V. 468 - P. 1053-1060.

18. Initial sequence of the chimpanzee genome and comparison with the human genome. // Nature. 2005 - V. 437 - P. 69-87.20. //-!!! INVALID CITATION !!! V. - P.

19. Gibbs RA, Rogers J, Katze MG, Bumgarner R, Weinstock GM, Mardis ER, Remington KA, Strausberg RL, Venter JC, Wilson RK et al Evolutionary and biomedical insights from the rhesus macaque genome. // Science. 2007 - V. 316 - P. 222-234.

20. Aminetzach YT, Macpherson JM, Petrov DA Pesticide resistance via transposition-mediated adaptive gene truncation in Drosophila. // Science. 2005 - V. 309 - P. 764-767.

21. Burrus V, Waldor MK Shaping bacterial genomes with integrative and conjugative elements. // Res Microbiol. 2004 - V. 155 - P. 376-386.

22. Bertram JS The molecular biology of cancer. // Mol Aspects Med. 2000 - V. 21 - P. 167223.

23. Hozumi N, Tonegawa S Evidence for somatic rearrangement of immunoglobulin genes coding for variable and constant regions. // Proc Natl Acad Sei USA.- 1976 V. 73 - P. 3628-3632.

24. Burdette WJ The somatic mutation hypothesis of cancer genesis. // Science. 1953 - V. 118 -P. 196-197.

25. Stratton MR Exploring the genomes of cancer cells: progress and promise. // Science. 2011 -V. 331-P. 1553-1558.

26. Holland J, Spindler K, Horodyski F, Grabau E, Nichol S, VandePol S Rapid evolution of RNA genomes. // Science. 1982 - V. 215 - P. 1577-1585.

27. Robertson DL, Hahn BH, Sharp PM Recombination in AIDS viruses. // J Mol Evol. — 1995 — V. 40-P. 249-259.

28. Rambaut A, Posada D, Crandall KA, Holmes EC The causes and consequences of HIV evolution. // Nat Rev Genet. 2004 - V. 5 - P. 52-61.

29. Drake JW Rates of spontaneous mutation among RNA viruses. // Proc Natl Acad Sci USA. 1993-V. 90-P. 4171-4175.

30. Kellis M, Birren BW, Lander ES Proof and evolutionary analysis of ancient genome duplication in the yeast Saccharomyces cerevisiae. // Nature. 2004 — V. 428 — P. 617-624.

31. Dehal P, Boore JL Two rounds of whole genome duplication in the ancestral vertebrate. // PLoS Biol. 2005 - V. 3 - P. e314.

32. JW IJ, Baldini A, Ward DC, Reeders ST, Wells RA Origin of human chromosome 2: an ancestral telomere-telomere fusion. // Proc Natl Acad Sci U S A. 1991 - V. 88 - P. 90519055.

33. Olivier M, Taniere P Somatic mutations in cancer prognosis and prediction: lessons from TP53 and EGFR genes. // Curr Opin Oncol. 2011 - V. 23 - P. 88-92.

34. Markowitz SD, Bertagnolli MM Molecular origins of cancer: Molecular basis of colorectal cancer. // N Engl J Med. 2009 - V. 361 - P. 2449-2460.

35. Rubinsztein DC, Easton DF Apolipoprotein E genetic variation and Alzheimer's disease, a meta-analysis. // Dement Geriatr Cogn Disord. 1999 - V. 10 - P. 199-209.

36. Bobadilla JL, Macek M, Jr., Fine JP, Farrell PM Cystic fibrosis: a worldwide analysis of CFTR mutations—correlation with incidence data and application to screening. // Hum Mutat. 2002 - V. 19 - P. 575-606.

37. Mort M, Ivanov D, Cooper DN, Chuzhanova NA A meta-analysis of nonsense mutations causing human genetic disease. // Hum Mutat. 2008 - V. 29 - P. 1037-1047.

38. Bird AP DNA methylation and the frequency of CpG in animal DNA. // Nucleic Acids Res. 1980-V. 8-P. 1499-1504.

39. Cooper DN, Krawczak M Cytosine methylation and the fate of CpG dinucleotides in vertebrate genomes. // Hum Genet. 1989 -V. 83 - P. 181-188.

40. Gagnon-Kugler T, Langlois F, Stefanovsky V, Lessard F, Moss T Loss of human ribosomal gene CpG methylation enhances cryptic RNA polymerase II transcription and disrupts ribosomal RNA processing. // Mol Cell. 2009 - V. 35 - P. 414-425.

41. Fujishiro H, Okugaki S, Yasumitsu S, Enomoto S, Himeno S Involvement of DNA hypermethylation in down-regulation of the zinc transporter ZIP8 in cadmium-resistant metallothionein-null cells. // Toxicol Appl Pharmacol. 2009 - V. 241 - P. 195-201.

42. Zemach A, McDaniel IE, Silva P, Zilberman D Genome-wide evolutionary analysis of eukaryotic DNA methylation. // Science. -2010 V. 328 - P. 916-919.

43. Arnheim N, Calabrese P Understanding what determines the frequency and pattern of human germline mutations. // Nat Rev Genet. 2009 - V. 10 - P. 478-488.

44. Krawczak M, Thomas NS, Hundrieser B, Mort M, Wittig M, Hampe J, Cooper DN Single base-pair substitutions in exon-intron junctions of human genes: nature, distribution, and consequences for mRNA splicing. // Hum Mutat. 2007 - V. 28 - P. 150-158.

45. Lopez-Bigas N, Audit B, Ouzounis C, Parra G, Guigo R Are splicing mutations the most frequent cause of hereditary disease? // FEBS Lett. 2005 - V. 579 - P. 1900-1903.

46. Dutertre M, Vagner S, Auboeuf D Alternative splicing and breast cancer. I I RNA Biol. -2010-V. 7-P. 403-411.

47. Berasain C, Goni S, Castillo J, Latasa MU, Prieto J, Avila MA Impairment of pre-mRNA splicing in liver disease: mechanisms and consequences. // World J Gastroenterol. — 2010 — V. 16-P. 3091-3102.

48. Pistoni M, Ghigna C, Gabellini D Alternative splicing and muscular dystrophy. // RNA Biol. -2010-V. 7-P. 441-452.

49. Evsyukova I, Somarelli J A, Gregory SG, Garcia-Blanco MA Alternative splicing in multiple sclerosis and other autoimmune diseases. // RNA Biol. — 2010 V. 7 - P. 462-473.

50. Rubin BY, Anderson SL The molecular basis of familial dysautonomia: overview, new discoveries and implications for directed therapies. // Neuromolecular Med. 2008 — V. 10 — P.148-156.

51. Faustino NA, Cooper TA Pre-mRNA splicing and human disease. // Genes Dev. 2003 - V. 17-P. 419-437.

52. Danckwardt S, Neu-Yilik G, Thermann R, Frede U, Hentze MW, Kulozik AE Abnormally spliced beta-globin mRNAs: a single point mutation generates transcripts sensitive and insensitive to nonsense-mediated mRNA decay. // Blood. 2002 - V. 99 - P. 1811-1816.

53. Nott A, Le Hir H, Moore MJ Splicing enhances translation in mammalian cells: an additional function of the exon junction complex. // Genes Dev. — 2004 V. 18 - P. 210-222.

54. Chang YF, Imam JS, Wilkinson MF The nonsense-mediated decay RNA surveillance pathway. // Annu Rev Biochem. 2007 - V. 76 - P. 51-74.

55. Wolfe KH, Sharp PM Mammalian gene evolution: nucleotide sequence divergence between mouse and rat. // J Mol Evol. 1993 - V. 37 - P. 441-456.

56. Carlini DB, Stephan W In vivo introduction of unpreferred synonymous codons into the Drosophila Adh gene results in reduced levels of ADH protein. // Genetics. 2003 - V. 163 -P. 239-243.

57. Pagani F, Raponi M, Baralle FE Synonymous mutations in CFTR exon 12 affect splicing and are not neutral in evolution. // Proc Natl Acad Sci USA.- 2005 V. 102 - P. 63686372.

58. Jukes TH, Cantor CR Evolution of protein molecules. // Mammalian Protein Metabolism. -1969-V.-P. 112.

59. Holmquist R, Cantor C, Jukes T Improved procedures for comparing homologous sequences in molecules of proteins and nucleic acids. // J Mol Biol. 1972 - V. 64 - P. 145-161.

60. Consortium TGP A map of human genome variation from population-scale sequencing. // Nature.-2010-V. 467-P. 1061-1073.

61. Kimura M A simple method for estimating evolutionary rates of base substitutions through comparative studies of nucleotide sequences. // J Mol Evol. 1980 - V. 16 - P. 111-120.

62. Felsenstein J Evolutionary trees from DNA sequences: a maximum likelihood approach. // J Mol Evol. 1981 - V. 17 - P. 368-376.

63. Hasegawa M, Kishino H, Yano T Dating of the human-ape splitting by a molecular clock of mitochondrial DNA. // J Mol Evol. 1985 - V. 22 - P. 160-174.

64. Yang Z PAML 4: phylogenetic analysis by maximum likelihood. // Mol Biol Evol. 2007 -V. 24-P. 1586-1591.

65. Larkin MA, Blackshields G, Brown NP, Chenna R, McGettigan PA, McWilliam H, Valentin F, Wallace 1M, Wilm A, Lopez R et al Clustal W and Clustal X version 2.0. // Bioinformatics. 2007 - V. 23 - P. 2947-2948.

66. Saitou N, Nei M The neighbor-joining method: a new method for reconstructing phylogenetic trees. // Mol Biol Evol. 1987 - V. 4 - P. 406-425.

67. Sokal R, Michener C A statistical method for evaluating systematic relationships. // University of Kansas Science Bulletin. 1958 - V. 38-P.30.

68. Guindon S, Dufayard JF, Lefort V, Anisimova M, Hordijk W, Gascuel O New algorithms and methods to estimate maximum-likelihood phylogenies: assessing the performance of PhyML 3.0. // Syst Biol. 2010 - V. 59 - P. 307-321.

69. Kimura M The neutral theory of molecular evolution and the world view of the neutralists. // Genome. 1989 - V. 31 - P. 24-31.

70. Hess PN, Russo CA An empirical test of the midpoint rooting method. // Biological Journal of the Linnean Society. 2007 - V. 92 - P. 6.

71. Kolaczkowski B, Thornton JW Performance of maximum parsimony and likelihood phylogenetics when evolution is heterogeneous. // Nature. 2004 - V. 431 - P. 980-984.

72. Duret L The GC content of primates and rodents genomes is not at equilibrium: a reply to Antezana. // J Mol Evol. 2006 - V. 62 - P. 803-806.

73. Miyata T, Hayashida H, Kuma K, Mitsuyasu K, Yasunaga T Male-driven molecular evolution: a model and nucleotide sequence analysis. II Cold Spring Harb Symp Quant Biol. 1987-V. 52-P. 863-867.

74. Makova KD, Li WH Strong male-driven evolution of DNA sequences in humans and apes. // Nature. 2002 - V. 416 - P. 624-626.

75. Walser JC, Furano AV The mutational spectrum of non-CpG DNA varies with CpG content. // Genome Res. 2010 - V. 20 - P. 875-882.

76. Hellmann I, Prufer K, Ji H, Zody MC, Paabo S, Ptak SE Why do human diversity levels vary at a megabase scale?//Genome Res. 2005 - V. 15 - P. 1222-1231.

77. Fryxell KJ, Moon WJ CpG mutation rates in the human genome are highly dependent on local GC content. // Мої Biol Evol. 2005 - V. 22 - P. 650-658.

78. Zhao Z, Jiang C Methylation-dependent transition rates are dependent on local sequence lengths and genomic regions. // Мої Biol Evol. 2007 - V. 24 - P. 23-25.

79. Rogozin IB, Pavlov YI Theoretical analysis of mutation hotspots and their DNA sequence context specificity. // Mutat Res. 2003 - V. 544 - P. 65-85.

80. Rogozin IB, Malyarchuk BA, Pavlov YI, Milanesi L From context-dependence of mutations to molecular mechanisms of mutagenesis. // Рас Symp Biocomput. 2005 - V. - P. 409420.

81. Josse J, Kaiser AD, Kornberg A Enzymatic synthesis of deoxyribonucleic acid. VIII. Frequencies of nearest neighbor base sequences in deoxyribonucleic acid. // J Biol Chem. -1961-V. 236-P. 864-875.

82. Swartz MN, Trautner TA, Kornberg A Enzymatic synthesis of deoxyribonucleic acid. XI. Further studies on nearest neighbor base sequences in deoxyribonucleic acids. // J Biol Chem. 1962 - V. 237 - P. 1961 -1967.

83. Kanai Y, Hirohashi S Alterations of DNA methylation associated with abnormalities of DNA methyltransferases in human cancers during transition from a precancerous to a malignant state. // Carcinogenesis. 2007 - V. 28 - P. 2434-2442.

84. Nevarez PA, DeBoever CM, Freeland BJ, Quitt MA, Bush EC Context dependent substitution biases vary within the human genome. // BMC Bioinformatics. 2010 - V. 11 — P. 462.

85. Bürge C, Campbell AM, Karlin S Over- and under-representation of short oligonucleotides in DNA sequences. // Proc Natl Acad Sei U S A. 1992 - V. 89 - P. 1358-1362.

86. Hung MS, Karthikeyan N, Huang B, Koo HC, Kiger J, Shen CJ Drosophila proteins related to vertebrate DNA (5-cytosine) methyltransferases. // Proc Natl Acad Sei USA.- 1999 V. 96-P. 11940-11945.

87. Singh ND, Arndt PF, Clark AG, Aquadro CF Strong evidence for lineage and sequence specificity of substitution rates and patterns in Drosophila. // Mol Biol Evol. 2009 - V. 26 -P. 1591-1605.

88. Keller I, Bensasson D, Nichols RA Transition-transversion bias is not universal: a counter example from grasshopper pseudogenes. // PLoS Genet. 2007 - V. 3 - P. e22.

89. Goodsell DS The molecular perspective: ultraviolet light and pyrimidine dimers. // Oncologist. 2001 - V. 6 - P. 298-299.

90. Whitmore SE, Potten CS, Chadwick CA, Strickland PT, Morison WL Effect of photoreactivating light on UV radiation-induced alterations in human skin. // Photodermatol Photoimmunol Photomed. 2001 - V. 17 - P. 213-217.

91. Essen LO, Klar T Light-driven DNA repair by photolyases. // Cell Mol Life Sei. 2006 - V. 63-P. 1266-1277.

92. Essen LO Photolyases and cryptochromes: common mechanisms of DNA repair and light-driven signaling? // Curr Opin Struct Biol. 2006 - V. 16 - P. 51-59.

93. Choi JH, Besaratinia A, Lee DH, Lee CS, Pfeifer GP The role of DNA polymerase iota in UV mutational spectra. // Mutat Res. 2006 - V. 599 - P. 58-65.

94. Vink AA, Roza L Biological consequences of cyclobutane pyrimidine dimers. // J Photochem Photobiol B. 2001 - V. 65 - P. 101-104.

95. Pleasance ED, Cheetham RK, Stephens PJ, McBride DJ, Humphray SJ, Greenman CD, Varela I, Lin ML, Ordonez GR, Bignell GR et al A comprehensive catalogue of somatic mutations from a human cancer genome. // Nature. — 2010 V. 463 - P. 191-196.

96. Duret L, Galtier N Biased gene conversion and the evolution of mammalian genomic landscapes. // Annu Rev Genomics Hum Genet. 2009 - V. 10 - P. 285-311.

97. Marais G Biased gene conversion: implications for genome and sex evolution. // Trends Genet. 2003 - V. 19 - P. 330-338.

98. Galtier N, Duret L, Glemin S, Ranwez V GC-biased gene conversion promotes the fixation of deleterious amino acid changes in primates. // Trends Genet. — 2009 — V. 25 — P. 1-5.

99. Gardiner-Garden M, Frommer M CpG islands in vertebrate genomes. // J Mol Biol. 1987 -V. 196-P. 261-282.

100. Hellmann I, Zollner S, Enard W, Ebersberger 1, Nickel B, Paabo S Selection on human genes as revealed by comparisons to chimpanzee cDNA. // Genome Res. — 2003 V. 13 — P. 831837.

101. Bush EC, Lahn BT Selective constraint on noncoding regions of hominid genomes. // PLoS Comput Biol. 2005 - V. 1 - P. e73.

102. Shabalina SA, Ogurtsov AY, Kondrashov VA, Kondrashov AS Selective constraint in intergenic regions of human and mouse genomes. // Trends Genet. 2001 - V. 17 - P. 373376.

103. Bush EC, Lahn BT A genome-wide screen for noncoding elements important in primate evolution. // BMC Evol Biol. 2008 - V. 8 - P. 17.

104. Charlesworth B, Morgan MT, Charlesworth D The effect of deleterious mutations on neutral molecular variation. // Genetics. 1993 -V. 134 - P. 1289-1303.

105. Payseur BA, Cutter AD, Nachman MW Searching for evidence of positive selection in the human genome using patterns of microsatellite variability. // Mol Biol Evol. 2002 — V. 19 -P. 1143-1153.

106. Ohta T Role of gene duplication in evolution. // Genome. 1989 - V. 31 - P. 304-310.

107. Zhang J Evolution by gene duplication: an update. // Trends in Ecology & Evolution. 2003 -V. 18-P. 7

108. Conrad B, Antonarakis SE Gene duplication: a drive for phenotypic diversity and cause of human disease. // Annu Rev Genomics Hum Genet. 2007 - V. 8 - P. 17-35.

109. Ye C, Sun H, Guo W, Wei Y, Zhou Q Molecular evolution of PKD2 gene family in mammals. // Genetica. 2009 - V. 137 - P. 77-86.

110. Lane RP, Cutforth T, Young J, Athanasiou M, Friedman C, Rowen L, Evans G, Axel R, Hood L, Trask BJ Genomic analysis of orthologous mouse and human olfactory receptor loci. // Proc Natl Acad Sci U S A. 2001 - V. 98 - P. 7390-7395.

111. Shustrova EN, Artamonova, II Evolutionary history of the SSX family of human C/T-antigens., // Mol Biol (Mosk). 2009 - V. 43 - P. 1025-1031.

112. Artamonova, II, Gelfand MS Evolution of the exon-intron structure and alternative splicing of the MAGE-A family of cancer/testis antigens. // J Mol Evol. 2004 - V. 59 - P. 620-631.

113. Kuepfer L, Sauer U, Blank LM Metabolic functions of duplicate genes in Saccharomyces cerevisiae.//Genome Res. 2005 - V. 15 - P. 1421-1430.

114. Conant GC, Wagner A Duplicate genes and robustness to transient gene knock-downs in Caenorhabditis elegans. // Proc Biol Sci. 2004 - V. 271 - P. 89-96.

115. Davis JC, Petrov DA Preferential duplication of conserved proteins in eukaryotic genomes. // PLoS Biol. 2004 - V. 2 - P. E55.

116. He X, Zhang J Higher duplicability of less important genes in yeast genomes. // Mol Biol Evol. 2006 - V. 23 - P. 144-151.

117. Lynch M, Conery JS The evolutionary fate and consequences of duplicate genes. // Science. 2000 - V. 290 - P. 1151-1155.

118. Zhan Z, Ren J, Zhang Y, Zhao R, Yang S, Wang W Evolution of alternative splicing in newly evolved genes of Drosophila. // Gene. 2011 — V. 470 - P. 1-6.

119. Zhang Z, Zhou L, Wang P, Liu Y, Chen X, Hu L, Kong X Divergence of exonic splicing elements after gene duplication and the impact on gene structures. // Genome Biol. 2009 — V. 10-P. R120.

120. Su Z, Wang J, Yu J, Huang X, Gu X Evolution of alternative splicing after gene duplication. // Genome Res.- 2006 V. 16-P. 182-189.

121. Modrek B, Lee CJ Alternative splicing in the human, mouse and rat genomes is associated with an increased frequency of exon creation and/or loss. // Nat Genet. 2003 - V. 34 - P. 177-180.

122. Malko DB, Makeev VJ, Mironov AA, Gelfand MS Evolution of exon-intron structure and alternative splicing in fruit flies and malarial mosquito genomes. // Genome Res. 2006 - V. 16-P. 505-509.

123. Nurtdinov RN, Artamonova, II, Mironov AA, Gelfand MS Low conservation of alternative splicing patterns in the human and mouse genomes. // Hum Mol Genet. 2003 - V. 12 - P. 1313-1320.

124. Nurtdinov RN, Neverov AD, Favorov AV, Mironov AA, Gelfand MS Conserved and species-specific alternative splicing in mammalian genomes. // BMC Evol Biol. 2007 - V. 7-P. 249.

125. Wang W, Zheng H, Yang S, Yu H, Li J, Jiang H, Su J, Yang L, Zhang J, McDermott J et al Origin and evolution of new exons in rodents. // Genome Res. 2005 - V. 15 - P. 12581264.

126. Kondrashov FA, Koonin EV Evolution of alternative splicing: deletions, insertions and origin of functional parts of proteins from intron sequences. // Trends Genet. 2003 - V. 19 -P. 115-119.

127. Boguski MS, Lowe TM, Tolstoshev CM dbEST—database for "expressed sequence tags". // Nat Genet. 1993 - V. 4 - P. 332-333.

128. Hess JL The Cancer Genome Anatomy Project: power tools for cancer biologists. // Cancer Invest. 2003 - V. 21 - P. 325-326.

129. Bonaldo MF, Lennon G, Soares MB Normalization and subtraction: two approaches to facilitate gene discovery. // Genome Res. 1996 - V. 6 - P. 791-806.

130. Adesnik M, Darnell JE Biogenesis and characterization of histone messenger RNA in HeLa cells. // J Mol Biol. 1972 - V. 67 - P. 397-406.

131. Levenson RG, Marcu KB On the existence of polyadenylated histone mRNA in Xenopus laevis oocytes. // Cell. 1976 - V. 9 - P. 311-322.

132. Dreyfus M, Regnier P The poly(A) tail of mRNAs: bodyguard in eukaryotes, scavenger in bacteria. // Cell. 2002 - V. 111 - P. 611-613.

133. Boguski MS The turning point in genome research. // Trends Biochem Sci. 1995 - V. 20 -P. 295-296.

134. Venter JC, Adams MD, Myers EW, Li PW, Mural RJ, Sutton GG, Smith HO, Yandell M, Evans CA, Holt RA et al The sequence of the human genome. // Science. 2001 — V. 291 — P. 1304-1351.

135. Venter JC, Remington K, Heidelberg JF, Halpern AL, Rusch D, Eisen JA, Wu D, Paulsen I, Nelson KE, Nelson W et al Environmental genome shotgun sequencing of the Sargasso Sea. // Science. 2004 - V. 304 - P. 66-74.

136. Schoenfeld T, Patterson M, Richardson PM, Wommack KE, Young M, Mead D Assembly of viral metagenomes from yellowstone hot springs. // Appl Environ Microbiol. — 2008 — V. 74 p. 4164-4174.

137. Baker BJ, Tyson GW, Webb RI, Flanagan J, Hugenholtz P, Allen EE, Banfield JF Lineages of acidophilic archaea revealed by community genomic analysis. // Science. 2006 — V. 314 -P. 1933-1935.

138. Arumugam M, Raes J, Pelletier E, Le Paslier D, Yamada T, Mende DR, Fernandes GR, Tap J, Bruls T, Batto JM et al Enterotypes of the human gut microbiome. // Nature. 2011 - V. 473-P. 174-180.

139. Kulikova T, Akhtar R, Aldebert P, Althorpe N, Andersson M, Baldwin A, Bates K, Bhattacharyya S, Bower L, Browne P et al EMBL Nucleotide Sequence Database in 2006. // Nucleic Acids Res. 2007 - V. 35 - P. D16-20.

140. Swindell SR, Plasterer TN SEQMAN. Contig assembly. // Methods Mol Biol. 1997 - V. 70-P. 75-89.

141. Altschul SF, Gish W, Miller W, Myers EW, Lipman DJ Basic local alignment search tool. // J Mol Biol. 1990- V. 215 -P. 403-410.

142. Levy S, Sutton G, Ng PC, Feuk L, Halpern AL, Walenz BP, Axelrod N, Huang J, Kirkness EF, Denisov G et al The diploid genome sequence of an individual human. // PLoS Biol. — 2007-V. 5-P. e254.

143. White SJ, den Dunnen JT Copy number variation in the genome; the human DMD gene as an example. // Cytogenet Genome Res. 2006 - V. 115 - P. 240-246.

144. Redon R, Ishikawa S, Fitch KR, Feuk L, Perry GH, Andrews TD, Fiegler H, Shapero MH, Carson AR, Chen W et al Global variation in copy number in the human genome. // Nature. 2006 - V. 444 - P. 444-454.

145. Montgomery MK, Xu S, Fire A RNA as a target of double-stranded RNA-mediated genetic interference in Caenorhabditis elegans. // Proc Natl Acad Sci USA.- 1998 V. 95 - P. 15502-15507.

146. Edgar R, Domrachev M, Lash AE Gene Expression Omnibus: NCBI gene expression and hybridization array data repository. // Nucleic Acids Res. 2002 - V. 30 - P. 207-210.

147. Fire A, Xu S, Montgomery MK, Kostas SA, Driver SE, Mello CC Potent and specific genetic interference by double-stranded RNA in Caenorhabditis elegans. // Nature. 1998 -V.391-P. 806-811.

148. Feinberg EH, Hunter CP Transport of dsRNA into cells by the transmembrane protein SID-1. // Science. 2003 - V. 301 - P. 1545-1547.

149. Duxbury MS, Ashley SW, Whang EE RNA interference: a mammalian S1D-1 homologue enhances siRNA uptake and gene silencing efficacy in human cells. // Biochem Biophys Res Commun. 2005 - V. 331 - P. 459-463.

150. Karlin S, Campbell AM, Mrazek J Comparative DNA analysis across diverse genomes. // Annu Rev Genet. 1998 - V. 32 - P. 185-225.

151. Karlin S, Mrazek J, Campbell AM Compositional biases of bacterial genomes and evolutionary implications. // J Bacteriol. 1997 -V. 179 - P. 3899-3913.

152. Schbath S, Prum B, de Turckheim E Exceptional motifs in different Markov chain models for a statistical analysis of DNA sequences. // J Comput Biol. — 1995 V. 2 - P. 417-437.

153. Regnier M, Vandenbogaert M Comparison of statistical significance criteria. // J Bioinform Comput Biol. 2006 - V. 4 - P. 537-551.

154. Karlin S, Cardon LR Computational DNA sequence analysis. // Annu Rev Microbiol. 1994 -V. 48-P. 619-654.

155. Sabater-Munoz B, Legeai F, Rispe C, Bonhomme J, Dearden P, Dossat C, Duclert A, Gauthier JP, Ducray DG, Hunter W et al Large-scale gene discovery in the pea aphid Acyrthosiphon pisum (Hemiptera). // Genome Biol. 2006 - V. 7 - P. R21.

156. Breslauer KJ, Frank R, Blocker H, Marky LA Predicting DNA duplex stability from the base sequence. // Proc Natl Acad Sci USA.- 1986 V. 83 - P. 3746-3750.

157. Delcourt SG, Blake RD Stacking energies in DNA. // J Biol Chem. 1991 - V. 266 - P. 15160-15169.

158. Babinger P, Volkl R, Cakstina I, Maftei A, Schmitt R Maintenance DNA methyltransferase (Metl) and silencing of CpG-methylated foreign DNA in Volvox carteri. // Plant Mol Biol. -2007-V. 63-P. 325-336.

159. Gehring M, Henikoff S DNA methylation dynamics in plant genomes. // Biochim Biophys Acta. 2007 - V. 1769 - P. 276-286.

160. Ashikawa I, Numa H, Sakata K Segmental distribution of genes harboring a CpG island-like region on rice chromosomes. // Mol Genet Genomics. 2006 - V. 275 - P. 18-25.

161. Moroz LL, Edwards JR, Puthanveettil SV, Kohn AB, Ha T, Heyland A, Knudsen B, Sahni A, Yu F, Liu L et al Neuronal transcriptome of aplysia: neuronal compartments and circuitry. // Cell. 2006 - V. 127 - P. 1453-1467.

162. Hodgkinson A, Ladoukakis E, Eyre-Walker A Cryptic variation in the human mutation rate. // PLoS Biol. 2009 - V. 7 - P. el000027.

163. Blake RD, Hess ST, Nicholson-Tuell J The influence of nearest neighbors on the rate and pattern of spontaneous point mutations. // J Mol Evol. 1992 - V. 34 - P. 189-200.

164. Hwang DG, Green P Bayesian Markov chain Monte Carlo sequence analysis reveals varying neutral substitution patterns in mammalian evolution. // Proc Natl Acad Sci USA.- 2004 -V. 101 -P. 13994-14001.

165. Kondrashov AS, Rogozin IB Context of deletions and insertions in human coding sequences. // Hum Mutat. 2004 - V. 23 - P. 177-185.

166. Gaffney DJ, Keightley PD The scale of mutational variation in the murid genome. // Genome Res.-2005-V. 15-P. 1086-1094.

167. Matassi G, Sharp PM, Gautier C Chromosomal location effects on gene sequence evolution in mammals.//Curr Biol. 1999-V. 9-P. 786-791.

168. Jeffreys AJ, Royle NJ, Wilson V, Wong Z Spontaneous mutation rates to new length alleles at tandem-repetitive hypervariable loci in human DNA. // Nature. 1988 - V. 332 - P. 278281.

169. Xu B, Roos JL, Dexheimer P, Boone B, Plummer B, Levy S, Gogos JA, Karayiorgou M Exome sequencing supports a de novo mutational paradigm for schizophrenia. // Nat Genet. -2011 -V.-P.

170. Rhead B, Karolchik D, Kuhn RM, Hinrichs AS, Zweig AS, Fujita PA, Diekhans M, Smith KE, Rosenbloom KR, Raney В J et al The UCSC Genome Browser database: update 2010. // Nucleic Acids Res. 2010 - V. 38 - P. D613-619.

171. Hakes L, Pinney JW, Lovell SC, Oliver SG, Robertson DL All duplicates are not equal: the difference between small-scale and genome duplication. // Genome Biol. — 2007 V. 8 — P. R209.

172. Scannell DR, Wolfe KH A burst of protein sequence evolution and a prolonged period of asymmetric evolution follow gene duplication in yeast. // Genome Res. 2008 - V. 18 - P. 137-147.

173. Wagner A Asymmetric functional divergence of duplicate genes in yeast. // Мої Biol Evol. — 2002-V. 19-P. 1760-1768.

174. Conant GC, Wagner A Asymmetric sequence divergence of duplicate genes. // Genome Res. 2003 - V. 13 - P. 2052-2058.

175. Jordan IK, Wolf YI, Koonin EV Duplicated genes evolve slower than singletons despite the initial rate increase. // BMC Evol Biol. 2004 - V. 4 - P. 22.

176. Kondrashov FA, Rogozin IB, Wolf YI, Koonin EV Selection in the evolution of gene duplications. // Genome Biol. 2002 - V. 3 - P. RESEARCH0008.

177. Hughes T, Liberies DA The pattern of evolution of smaller-scale gene duplicates in mammalian genomes is more consistent with neo- than subfunctionalisation. // J Mol Evol. -2007-V. 65-P. 574-588.

178. Zhang P, Gu Z, Li WH Different evolutionary patterns between young duplicate genes in the human genome. // Genome Biol. 2003 - V. 4 - P. R56.

179. Cusack BP, Wolfe KH Not born equal: increased rate asymmetry in relocated and retrotransposed rodent gene duplicates. // Mol Biol Evol. 2007 - V. 24 - P. 679-686.

180. Chain FJ, Ilieva D, Evans BJ Duplicate gene evolution and expression in the wake of vertebrate allopolyploidization. // BMC Evol Biol. 2008 - V. 8 - P. 43.

181. Pruitt KD, Tatusova T, Maglott DR NCBI reference sequences (RefSeq): a curated nonredundant sequence database of genomes, transcripts and proteins. // Nucleic Acids Res. -2007-V. 35-P. D61-65.

182. Kent WJ, Sugnet CW, Furey TS, Roskin KM, Pringle TH, Zahler AM, Haussler D The human genome browser at UCSC. // Genome Res. 2002 - V. 12 - P. 996-1006.

183. Tarailo-Graovac M, Chen N Using RepeatMasker to identify repetitive elements in genomic sequences. // Curr Protoc Bioinformatics. 2009 - V. Chapter 4 - P. Unit 4 10.

184. Zhang Z, Schwartz S, Wagner L, Miller W A greedy algorithm for aligning DNA sequences. // J Comput Biol. 2000 - V. 7 - P. 203-214.

185. Lynch M, Katju V The altered evolutionary trajectories of gene duplicates. // Trends Genet. 2004 - V. 20 - P. 544-549.

186. Feller W: An introduction to probability theory and its applications. 3rd edn. New York ; Chichester: Wiley; 1970. // — V. P.

187. Beissbarth T, Speed TP GOstat: find statistically overrepresented Gene Ontologies within a group of genes. // Bioinformatics. 2004 - V. 20 - P. 1464-1465.

188. Ramensky V, Bork P, Sunyaev S Human non-synonymous SNPs: server and survey. // Nucleic Acids Res. 2002 - V. 30 - P. 3894-3900.

189. Kim SH, Yi SV Correlated asymmetry of sequence and functional divergence between duplicate proteins of Saccharomyces cerevisiae. // Mol Biol Evol. 2006 - V. 23 - P. 10681075.

190. Chung WY, Albert R, Albert I, Nekrutenko A, Makova KD Rapid and asymmetric divergence of duplicate genes in the human gene coexpression network. // BMC Bioinformatics. 2006 - V. 7 - P. 46.

191. Sunyaev S, Kondrashov FA, Bork P, Ramensky V Impact of selection, mutation rate and genetic drift on human genetic variation. // Hum Mol Genet. 2003 — V. 12 - P. 3325-3330.

192. Gorlov IP, Gorlova OY, Sunyaev SR, Spitz MR, Amos CI Shifting paradigm of association studies: value of rare single-nucleotide polymorphisms. // Am J Hum Genet. 2008 - V. 82 -P. 100-112.

193. Vizcaino JA, Cote R, Reisinger F, Foster JM, Mueller M, Rameseder J, Hermjakob H, Martens L A guide to the Proteomics Identifications Database proteomics data repository. // Proteomics. 2009 - V. 9 - P. 4276-4283.

194. Stoletzki N, Eyre-Walker A Synonymous codon usage in Escherichia coli: selection for translational accuracy. // Mol Biol Evol. 2007 - V. 24 - P. 374-381.

195. Pavlov MY, Watts RE, Tan Z, Cornish VW, Ehrenberg M, Forster AC Slow peptide bond formation by proline and other N-alkylamino acids in translation. // Proc Natl Acad Sci U S A. -2009 — V. 106-P. 50-54.

196. Marais G, Duret L Synonymous codon usage, accuracy of translation, and gene length in Caenorhabditis elegans. // J Mol Evol. 2001 - V. 52 - P. 275-280.

197. Crombie T, Swaffield JC, Brown AJ Protein folding within the cell is influenced by controlled rates of polypeptide elongation. // J Mol Biol. 1992 - V. 228 - P. 7-12.

198. Willie E, Majewski J Evidence for codon bias selection at the pre-mRNA level in eukaryotes. // Trends Genet. 2004 - V. 20 - P. 534-538.

199. Urrutia AO, Hurst LD Codon usage bias covaries with expression breadth and the rate of synonymous evolution in humans, but this is not evidence for selection. // Genetics. 2001 — V. 159 -P. 1191-1199.

200. Parmley JL, Hurst LD Exonic splicing regulatory elements skew synonymous codon usage near intron-exon boundaries in mammals. // Mol Biol Evol. 2007 - V. 24 - P. 1600-1603.

201. Dhir A, Buratti E Alternative splicing: role of pseudoexons in human disease and potential therapeutic strategies. // FEBS J. 2010 - V. 277 - P. 841-855.

202. Itoh H, Washio T, Tomita M Computational comparative analyses of alternative splicing regulation using full-length cDNA of various eukaryotes. // RNA. 2004 - V. 10 - P. 10051018.

203. Yang W, Li QZ One parameter to describe the mechanism of splice sites competition. // Biochem Biophys Res Commun. 2008 - V. 368 - P. 379-381.

204. Zhang MQ Statistical features of human exons and their flanking regions. // Hum Mol Genet. 1998-V. 7-P. 919-932.

205. Nurtdinov RN, Mironov AA, Gelfand MS Rodent-specific alternative exons are more frequent in rapidly evolving genes and in paralogs. // BMC Evol Biol. 2009 - V. 9 - P. 142.

206. Kopelman NM, Lancet D, Yanai I Alternative splicing and gene duplication are inversely correlated evolutionary mechanisms. // Nat Genet. 2005 - V. 37 - P. 588-589.

207. Xu EY, Moore FL, Pera RA A gene family required for human germ cell development evolved from an ancient meiotic gene conserved in metazoans. // Proc Natl Acad Sci USA. 2001 - V. 98 - P. 7414-7419.

208. Smith PJ, Zhang C, Wang J, Chew SL, Zhang MQ, Krainer AR An increased specificity score matrix for the prediction of SF2/ASF-specific exonic splicing enhancers. // Hum Mol Genet. 2006 - V. 15 - P. 2490-2508.

209. Cartegni L, Wang J, Zhu Z, Zhang MQ, Krainer AR ESEfinder: A web resource to identify exonic splicing enhancers. //Nucleic Acids Res. -2003 -V. 31 P. 3568-3571.

210. Chalasani N, Wo JM, Hunter JG, Waring JP Significance of intestinal metaplasia in different areas of esophagus including esophagogastric junction. // Dig Dis Sci. — 1997 V. 42 — P. 603-607.

211. O'Sullivan MJ, Kyriakos M, Zhu X, Wick MR, Swanson PE, Dehner LP, Humphrey PA, Pfeifer JD Malignant peripheral nerve sheath tumors with t(X;18). A pathologic and molecular genetic study. // Mod Pathol. 2000 - V. 13 - P. 1253-1263.

212. Qiu WQ, de Bruin D, Brownstein BH, Pearse R, Ravetch JV Organization of the human and mouse low-affinity Fc gamma R genes: duplication and recombination. // Science. 1990 -V. 248-P. 732-735.

213. Sved J, Bird A The expected equilibrium of the CpG dinucleotide in vertebrate genomes under a mutation model. // Proc Natl Acad Sci U S A. 1990 - V. 87 - P. 4692-4696.

214. Tomso DJ, Bell DA Sequence context at human single nucleotide polymorphisms: overrepresentation of CpG dinucleotide at polymorphic sites and suppression of variation in CpG islands. // J Mol Biol. 2003 - V. 327 - P. 303-308.

215. Razin A, Riggs AD DNA methylation and gene function. // Science. 1980 - V. 210 - P. 604-610.

216. Grunau C, Renault E, Rosenthal A, Roizes G MethDB~a public database for DNA methylation data. // Nucleic Acids Res. 2001 - V. 29 - P. 270-274.

217. Bradbury J Human epigenome project—up and running. // PLoS Biol. 2003 - V. 1 - P. E82.

218. Oswald J, Engemann S, Lane N, Mayer W, Olek A, Fundele R, Dean W, Reik W, Walter J Active demethylation of the paternal genome in the mouse zygote. // Curr Biol. — 2000 V. 10-P. 475-478.

219. Najm FJ, Chenoweth JG, Anderson PD, Nadeau JH, Redline RW, McKay RD, Tesar PJ Isolation of epiblast stem cells from preimplantation mouse embryos. // Cell Stem Cell. -2011 -V. 8-P. 318-325.

220. Shamblott MJ, Axelman J, Wang S, Bugg EM, Littlefield JW, Donovan PJ, Blumenthal PD, Huggins GR, Gearhart JD Derivation of pluripotent stem cells from cultured human primordial germ cells. //ProcNatl Acad Sci U S A. 1998 -V. 95 - P. 13726-13731.

221. Guan K, Nayernia K, Maier LS, Wagner S, Dressel R, Lee JH, Nolte J, Wolf F, Li M, Engel W et al Pluripotency of spermatogonial stem cells from adult mouse testis. // Nature. — 2006 V. 440-P. 1199-1203.

222. Graves JA Sex chromosome specialization and degeneration in mammals. // Cell. 2006 -V. 124-P. 901-914.

223. Broman KW, Murray JC, Sheffield VC, White RL, Weber JL Comprehensive human genetic maps: individual and sex-specific variation in recombination. // Am J Hum Genet. — 1998 — V. 63-P. 861-869.

224. Dib C, Faure S, Fizames C, Samson D, Drouot N, Vignal A, Millasseau P, Marc S, Hazan J, Seboun E et al A comprehensive genetic map of the human genome based on 5,264 microsatellites. I I Nature. 1996 - V. 380 - P. 152-154.

225. Kong A, Gudbjartsson DF, Sainz J, Jonsdottir GM, Gudjonsson SA, Richardsson B, Sigurdardottir S, Barnard J, Hallbeck B, Masson G et al A high-resolution recombination map of the human genome. // Nat Genet. 2002 - V. 31 - P. 241-247.

226. Hare JT, Taylor JH Methylation in eucaryotes influences the repair of G/T and A/C DNA basepair mismatches. // Cell Biophys. 1989 - V. 15 - P. 29-40.

227. Stamatoyannopoulos JA, Adzhubei I, Thurman RE, Kryukov GV, Mirkin SM, Sunyaev SR Human mutation rate associated with DNA replication timing. // Nat Genet. 2009 — V. 41 -P. 393-395.

228. Medvedeva YA, Fridman MV, Oparina NJ, Malko DB, Ermakova EO, Kulakovskiy IV, Heinzel A, Makeev VJ Intergenic, gene terminal, and intragenic CpG islands in the human genome. // BMC Genomics. 2010 - V. 11 - P. 48.

Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.