Определение регуляторных сегментов в геномах методами теоретического анализа последовательностей нуклеотидов ДНК тема диссертации и автореферата по ВАК РФ 03.00.02, доктор физико-математических наук Макеев, Всеволод Юрьевич

  • Макеев, Всеволод Юрьевич
  • доктор физико-математических наукдоктор физико-математических наук
  • 2009, Москва
  • Специальность ВАК РФ03.00.02
  • Количество страниц 182
Макеев, Всеволод Юрьевич. Определение регуляторных сегментов в геномах методами теоретического анализа последовательностей нуклеотидов ДНК: дис. доктор физико-математических наук: 03.00.02 - Биофизика. Москва. 2009. 182 с.

Оглавление диссертации доктор физико-математических наук Макеев, Всеволод Юрьевич

Содержание.

1. Введение.

1.1. Предмет, объект и метод исследования. Актуальность проблемы.

1.1.1. Цель и задачи исследования.

1.1.2. Научная новизна и практическая ценность работы.

1.1.3. Основные положения, выносимые на защиту.

1.1.4. Практическое значение работы.

1.1.5. Апробация работы.

1.1.6. Публикации.

2. Обзор литературы. Задача об управлении экспрессией генов в эмбриональном развитии £). melanogaster. Анализ нуклеотидых последовательностей регуляторных сегментов ДНК.

2.1. Экспериментальные данные, содержащиеся в открытом доступе, и их использование для анализа регуляторных областей.

2.1.1. Данные, полученные методами высокотехнологичной молекулярной биологии.

2.1.2. Базы данных, аккумулирующие сведения о мухах Бго8орЫ1ае.

2.1.3. Определяющая роль регуляции генов в формировании морфологических различий.

2.1.4. Физико-химические предпосылки методов анализа генетических текстов, и роль этих методов для решения проблем молекулярной биологии

2.2. Строение сегментов'молекулы ДНК, выполняющих регуляторную функцию.

2.3. Система энхансеров управляющих ранним развитием ОгозорИПа ше1ап

§аз1ег, как полигон для исследования строения последовательностей цис-регуляторных элементов.

2.4. Текстовые мотивы в последовательностях биополимеров и в случайных текстах.

2.5. Математические методы описания встречаемости мотивов в текстовых последовательностях.

2.5.1. Основные термины.

2.5.2. Представления мотивов.

2.5.3. Выделение оптимального мотива из множества последовательностей

2.5.4. Наиболее известные алгоритмы поиска мотивов.

2.6. Экспериментальные данные, позволяющие получать информацию об участках ДНК, взаимодействующих с регуляторными белками.

2.7. Статистический анализ встречаемости нескольких вхождений мотивов в последовательности протяженной регуляторной области.

2.7.1. Статистическая значимость нескольких одновременных вхождений мотива в случайный текст.

2.8. Вероятностное описание случайных последовательностей, содержащих фиксированное число вхождений заданного мотива в случайный текст.

2.8.1. Регулярные языки.

2.8.2. Вычисление математического ожидания числа появлений мотива в случайной последовательности длины п.

2.9. Выбор оптимальной случайной модели последовательности ДНК, хорошо приближаемой последовательностью независимых случайных испытаний.

3. Использование метода регулярных языков для вычисление статистических характеристик числа вхождений мотива, встреченных в случайной последовательности.

3.1. Явный вид производящей функции и вычисление математического ожидания.

3.2. Вычисление моментов через производящие функции.

3.3. Дифферецирование производящей функции для текста, порожденного последовательностью независимых случайных испытаний.

3.3.1. Вычисление вклада неперекрывающихся вхождений слов-компонент мотива в элемент матрицы ковариаций.

3.3.2. Последовательность независимых случайных испытаний. Вычисление вклада перекрывающихся мотивов.

3.3.3. Полные формулы для матрицы ковариации компонент мотива и дисперсии числа встреченных мотивов в случае текста, порожденного последовательностью независимых случайных испытаний.

3.3.4. Обсуждение выражения для дисперсии числа встреч мотива.

3.4. Вычисление дисперсии и ковариации числа встреч мотива в случае порождающего текста, являющегося цепью Маркова первого порядка.

4. Алгоритмическое вычисление Р-значепия для вероятности последовательности, содержащей минимальные количество встреч каждого мотива из заданного набора мотивов.

4.1. Конструкция Ахо-Корасик.

4.2. Текст, порожденный последовательностью случайных испытаний. Вероятность появления как минимум одного вхождения данного мотива.

4.3. Вероятность появления как минимум заданного числа вхождений мотива в текст, прожденный последовательностью независимых случайных испытаний.

4.4. Особенности практической реализации.

4.5. Вероятность найти как минимум данное число встреч для множества мотивов в тексте, порожденном последовательностью независимых случайных испытаний.

4.6. Представление мотива, заданного в виде комбинации матрицы позиционных весов и порога, в виде бора.

Рекомендованный список диссертаций по специальности «Биофизика», 03.00.02 шифр ВАК

Введение диссертации (часть автореферата) на тему «Определение регуляторных сегментов в геномах методами теоретического анализа последовательностей нуклеотидов ДНК»

1.1. Предмет, объект и метод исследования. Актуальность проблемы

Развитие методов современной экспериментальной биологии позволило подойти вплотную к пониманию того, как происходит реализация наследственной информации в живом организме. Живой организм устроен во многом сходным образом с вычислительной системой и с логической точки зрения состоит из двух составных частей, возобновляющихся в каждом поколении. Одна из этих частей — это геном, несущий большие объемы информации в закодированном виде; физическим носителем этой информации являются молекулы ДНК. Другой «частью» является остальной клеточный аппарат (для многоклеточных — аппарат организменный), служащий для декодирования, реализации и воспроизводства наследственной информации, включая и физическое воспроизводство генома.

Эти две составные части существуют достаточно независимо друг от друга: все успехи генной инженерии основываются на том, что средства реализации программы одного организма молено заставить работать с информацией, взятой из другого организма, и даже синтезированной заново. С ростом сложности организма специфичность соответствия генома и реализующего наследственную информацию аппарата, в общем, усиливается, поэтому генетические манипуляции с высшими многоклеточными существенно более сложны, чем таковые с более просто устроенными организмами. Это явление является главным препятствием промышленной генной инженерии с использованием клеточного материала млекопитающих, а также генной терапии наследственных болезней.

Первичная структура генома, т.е. структурная формула молекулы ДНК в настоящее время известна для многих организмов (более тысячи видов бактерий и около сотни эукариот). Знание первичной структуры генома позволяет получить информацию о структурах большого количества белков с достаточно высокой надежностью. Однако, жизнедеятельность организмов связана в первую очередь с взаимодействием биомакромолекул между собой. Биомакромолекулы постоянно синтезируются и деградируют в клетке, в разные моменты времени, разные наборы биомакромолекул присутствуют в одной и той же клетке и в разных клетках многоклеточного организма.

Современные технологии позволяют достаточно полно охарактеризовать набор типов биомакромолекул, одновременно присутствующих в клетке. Имеются данные о наличии в клетке различных типов мРНК, т.е. данные по экспрессии генов (публично доступны сотни наборов данных для тысяч генов). Исследования, полученные методом масс-спектрометрии, позволили получить информацию о наличии в клетке тех или иных типов белковых молекул. Современные технологии позволяют также получить сведения о взаимодействии различных белков между собой. Во многих случаях эта информация может быть связана с различными физиологическими процессами в клетке и в организме, в частности, с развитием различных патологий. В то же время, информация о том, каким образом происходит управление процессами синтеза и деградации различных биомакромолекул, в частности, до сих пор нет четкой картины ключевого процесса управления экспрессией различных генов.

Понимание природы молекулярных явлений, лежащих в основе процессов синтеза и деградации определенных биомакромолекул, необходимо для решения классических проблем молекулярной биологии, таких как детальное описание механизмов контроля клеточного деления и дифференцировки клеток, включая механизмы тканеобразования. В настоящее время получены значительные массивы различных экспериментальных данных, что дает надежду на продвижение в решении упомянутых классических проблем. Одной из непосредственных задач является систематизация и сопоставление данных, полученных различными экспериментальными методами.

Объемы данных, доступных для изучения в настоящее время, чрезвычайно велики. Для понимания межмолекулярных взаимодействий необходимо знать как структуру индивидуальных макромолекул, так и возможную комбинаторику их взаимодействий. Примерная оценка может быть построена следующим образом. Геномная ДНК человека содержит приблизительно 3*109 мономеров, в клетке одновременно находится около как минимум 5*103 различных молекул РНК, каждая из которых имеет длину около 5*103 мономеров. Кроме того, в клетке имеется около о

5*10 разных белков, каждый из которых имеет длину около 500 аминокислот.

Таким образом возможно как минимум 10 комбинаций контактов различных макромолекул и это без учета пространственных конформаций макромолекул. Большая часть этих контактов, однако, никогда не реализуется в природе. Тем не менее, считая, что ДНК функционально взаимодействует как минимум с 5000 белками и РНК, возможно около 1015 типов контактов. Существующие методики позволяют получить данные, по объему приближающиеся к этому числу. Например, один эксперимент СЫР-5едиепст§ дает информацию относительно 4-109 нуклеотидов [1], при этом в мире существуют десятки центров, в которых производятся эксперименты этого типа.

Для систематизации известных данных используются методы вычислительной биологии или биоинформатики. Может создаться впечатление, что оцененные выше объемы данных не позволяют никакой конструктивной обработки, однако, по-видимому, это не так. Объемы памяти современных компьютеров — порядка терабайт - т.е. 1012. Эта величина меньше на три порядка меньше, чем меньшая из оценок, но поскольку компьютеры объединяются в сеть, содержащую миллионы компьютеров то очевидно можно превзойти 1015 и приблизиться к объему 10 . Таким образом, амбициозная задача биоинформатики — описать живое на молекулярном уровне по крайней мере не ограничивается памятью доступных вычислительных средств.

При работе с данными подобных масштабов использование вычислительной техники в биологии является необходимым условием экспериментальной работы, на всех этапах проведения биологического эксперимента, а именно: при планировании эксперимента, получении экспериментальных результатов, и предоставлении этих экспериментальных результатов мировому научному сообществу [2]. Только вычислительные методы позволяют использовать результаты высокозатратных индустриальных биологических проектов для продвижения в решении фундаментальных проблем молекулярной биологии, а также разработки эффективных технологий в области биотехнологии, фармакогеномики, и индивидуальной медицины, включая молекулярную диагностику.

Особенностью современной науки является то, что огромные массивы данных находятся в открытом доступе и доступны для анализа. Несмотря на то, что при всех экспериментальных центрах имеются биоинформатические лаборатории, справиться с нарастающим потоком данных можно только совместными усилиями мирового научного сообщества. Поэтому в настоящее время имеется уникальная возможность вклада в мировой научный прогрессе путем анализа экспериментальных данных, доступных в открытых источниках.

Следует отметить, что вычислительное исследование данных, полученных с помощью индустриальных методов современной молекулярной биологии, является одним из самых интересных исследовательских предприятий нашего времени. За всю свою историю научные исследования никогда не располагали средствами такой мощи для переработки информации, никогда не сталкивались с необходимость переработки информации такого объема, приходящей из различных источников, и никогда искомый результат не был до такой степени загадочным. В отличии от близких задач распознавания речи или радиолокационных сигналов, а также от анализа данных социологической природы, в биоинформатических задачах исследователь часто имеет очень слабое представление о том, какое, собственно явление он планирует пронаблюдать. Поэтому, кроме анализа собственно экспериментального материала важнейшую роль играет формулировка естественнонаучных предположений, и оценка статистических зависимостей, присутствующих в экспериментальном материале, и позволяющих отвергнуть или принять естественнонаучные гипотезы. Все это приводит к тому, что вычислительная биология становится полигоном для применения сложных статистических методов анализа данных и оценки гипотез. Разработке подобных методов и посвящена настоящая работа.

Биологической темой настоящей работы является анализ регуляции инициации транскрипции у про- и эукариот, причем с большим смещением акцента в сторону задач, возникающих при изучении эукариот. Инициация транскрипции является первичным процессом взаимодействия генома с декодирующей его машиной и не исключено, что, процессы, происходящие при инициации транскрипции должны быть ответственны за определенную долю совместимости геномной последовательности и считывающего аппарата клетки. Прогресс в понимании этих вопросов может найти полезные приложения в биотехнологии и индивидуальной медицине. Кроме того, поскольку транскрипция является первой стадией реализации генетической информации, более глубокое понимание процесса инициации транскрипции может послужить прогрессу в области контроля над формированием функциональных особенностей клеток, в частности формирования и поддержания дифференцировки тканей. Действительно, зрелые дифференцированные ткани отличаются в первую очередь различными наборами постоянно экспрессирующихся в них генов. В наиболее широком смысле целью настоящего исследования является ответ на вопрос, сформулированный еще Тимофеевым-Ресовским как основной вопрос молекулярной биологии: «чем объясняется присутствие тех или иных биологических молекул в данном месте клетки или ткани в данное время».

В качестве объекта исследования выбраны последовательности нуклеотидах в геномах. Такой выбор имеет ряд технических преимуществ. Во-первых, ДНК-тексты дискретны и однозначны, достаточно просто определить, где в последовательности находится та или иная буква. При современном уровне технологий секвенирования число ошибок в последовательностях не превышает как максимум одной ошибки на пять тысяч оснований [3]. Этим уровнем можно пренебречь при решении различных задач, в частности описанных в настоящей работе. Во-вторых, современные методы секвенироване относительно дешево, а поэтому в открытом доступе имеются последовательности геномов тысяч видов прокариот и сотен видов эукариот. В третьих, геном является одномерной структурой, поэтому молекула гетерополимера ДНК могут рассматриваться как текст, составленный из символов — мономеров разных типов нуклеотидов. Анализ на уровне текста ДНК, как выясняется, позволяет понять значительное число эффектов, связанных с инициацией транскрипции на молекулярном уровне. С практической точки зрения анализ текстов ДНК позволяет сформулировать ряд решений, позволяющих повысить эффективность генноинженерных манипуляций с геномами эукариот. В то же время, анализ эффектов, связанных с трехмерными структурами биополимеров в настоящее время затруднен в виду значительно меньшего объема достоверных данных.

Основным методом исследования является анализ экспериментальных данных различной природы с помощью вычислительных методов. Если основной целью настоящей работы является понимание механизмов переключения генов то конкретной целью настоящей работы можно считать разработку и применение вычислительных методов, позволяющих показать, какие именно сегменты ДНК несут регуляторную нагрузку, и какие факторы белковой природы действуют на эти регуляторные сегменты, вызывая переключение экспрессии конкретных генов. В работе используется широкий арсенал математических методов анализа последовательностей. В частности, это методы сравнительного анализа последовательностей, грамматический анализ, т.е. анализ структурных закономерностей в последовательностях, распознавание характерных образов в последовательностях, а также оценка надежности найденных закономерностей путем построения статистических критериев, основывающихся на вычислении вероятности возникновения наблюдаемых закономерностей в случайных последовательностях, порожденных различными случайными моделями.

Важной задачей настоящей работы является нахождение участков ДНК, участвующих в работе механизмов, управляющих переключением генов. Для решения вопросов, связанных с пространственной структурой и физикой взаимодействия элементов регуляторных комплексов прежде всего надо знать какие именно сегменты ДНК несут регуляторную нагрузку и какие факторы белковой природы действуют на эти регуляторные сегменты, вызывая переключение экспрессии конкретных генов.

Похожие диссертационные работы по специальности «Биофизика», 03.00.02 шифр ВАК

Заключение диссертации по теме «Биофизика», Макеев, Всеволод Юрьевич

8. Выводы

1. Установлены специфические особенности последовательностей ДНК, определяющие архитектуру взаимодействия ДНК с белковым фактором и обеспечивающие иерархическую организацию компонент генома.

2. Оценена вероятность разномасштабных флуктуаций первичной структуры в модельной случайной последовательности ДНК, в результате которых самопроизвольно возникают участки специфического связывания регуляторных белков.

3. Проведена сегментация последовательности генома на разных масштабах на участки, однородные по своему нуклеотидному составу. Сегментация осуществлялась с помощью вычисления статсуммы всевозможных разбиений последовательности на сегменты, что позволило выявить участки ДНК, которые могут быть описаны статистическими моделями.

4. Локализованы участки ДНК, соответствующие специфическому взаимодействию с регуляторными белками-факторами. Большая точность локализации достигнута за счет учета симметрии структуры ДНК-белок, при взаимодействии с регуляторным фактором в форме димера.

5. Проведена идентификация регуляторных сегментов ДНК (промоторы и энхансеры) как участков ДНК, имеющих высокую афинность к кооперативно связывающимся белковым факторам.

6. Показано, что кооперативность взаимодействия регуляторных факторов с ДНК позволяет сформировать сложную картину экспрессии генов в пространстве развивающейся личинки Огояоркйа, под управлением трехмерных градиентов небольшого числа регуляторных белков.

9. Благодарности

Я неоценимо обязан своим учителям Натальи Георгиевне Есиповой и Владимиру Гаевичу Туманяну за более чем 20 летнюю поддержку моего пути в науке. Я благодарю участников Московского семинара по биоинформатике, в первую очередь Михаила Сергеевича Гельфанда, Андрея Александровича Миронова и Михаила Абрамовича Ройтберга, неустанными трудами которых поддерживался и поддерживается уникальный научный климат московской биоинформатической школы. Эта работа не могла бы состояться без моих друзей, коллег и соавторов ключевых работ по теме регуляции генов, а именно Дмитрия Папаценко, который привлек меня к изучению вопросов связанных с регуляцией генов у Drosophila, и Александра Лифанова, создателя первых версий программного обеспечения. Я благодарю также своих коллег и соавторов Дмитрия Малько, Елизавету Пермину, Марину Фридман, Ивана Кулаковского, Юлию Медведеву, Сергея Рахманова, Александра Фаворова, Елену Ставровскую, Анну Герасимову, Ольгу Калинину, Екатерину Ермакову, Рамиля Нуртдинова, Дмитрия Равчеева, Алексея Неверова, Нику Опарину, Петра Власова, за их часто определяющий вклад в работу и дружескую и творческую атмосферу. Я благодарю Мирей Ренье за более чем 10 летнее сотрудничество с ENRIA и ключевые идеи в области вероятностных методов анализа последовательностей. Я благодарен сотрудникам Диссертационного совета Татьяне Александровне Преображенской и Геннадию Борисовичу Хомутову за внимание и долготерпение при подготовке диссертации к защите. Я также хочу поблагодарить всех коллег, способствующих созданию творческой атмосферы в научной среде.

10. Публикации, содержащие материалы диссертации.

1. Полищук М.С., Хайнцель, А., Фаворов А.В., Макеев В.Ю. Сравнительный анализ участков связывания белков-регуляторов транскрипции в раннем развитии Drosophila Melanogaster, определенных методом ChIP-chip, и вычислительно предсказанных кластеров сайтов связывания этих белков. Биофизика. 2008, 53(5):754-7

2. Bogush VG, Sokolova OS, Davydova LI, Klinov DV, Sidoruk KV, Esipova NG, Neretina TV, Orchanskyi IA, Makeev VY, Tumanyan VG, Shaitan KV, Debabov VG, Kirpichnikov MP. A novel model system for design of biomaterials based on recombinant analogs of spider silk proteins. J Neuroimmune Pharmacol. 2009 Mar;4(l): 17-27.

3. Лифанов А.П., Власов П.К., Макеев В.Ю., Есипова Н.Г. Нуклеосомный повтор и расположение экзонов и интронов в генах коллагенов типов I и VII Биофизика. 2008, 53(3):524-8.

4. Рахманов C.B., Макеев В.Ю. Использование невзаимодействующих проб в пространстве белковой структуры для построения статистических потенциалов межатомного взаимодействия Биофизика, 2008; 53(3):389-96.

5. Britanova LV, Makeev VJ, Kuprash DV. In vitro selection of optimal RelB/p52 DNA-binding motifs. Biochem Biophys Res Commun. 2008 Jan 18;365(3):583-8.

6. Boeva V, Clément J, Régnier M, Roytberg MA, Makeev VJ. Exact p-value calculation for heterotypic clusters of regulatory motifs and its application in computational annotation of cis-regulatory modules. Algorithms Mol Biol. 2007 Oct 10;2:13.

7. Enikeeva FN, Kotelnikova EA, Gelfand MS, Makeev VJ. A model of evolution with constant selective pressure'for regulatory DNA sites. BMC Evol Biol. 2007 Jul 27;7:125.

8. Rakhmanov SV, Makeev VJ. Atomic hydration potentials using a Monte Carlo Reference State (MCRS) for protein solvation modeling. BMC Struct Biol. 2007 Mar 30;7:19.

9. B.A. Боева, M.B. Фридман, В.Ю. Макеев Эволюция микро- и мнинисателлитов в геноме человека. Биофизика. 2006, 51:650-655.

10. Е.Д.Ставровская, В.Ю.Макеев, А.А.Миронов CLUSTERTREE-RS: алгоритм кластеризации регуляторных сигналов с помощью бинарного дерева. Молекулярная биология. 2006, 40: 524-532.

11. Malko DB, Makeev VJ, Mironov AA, Gelfand MS. Evolution of exon-intron structure and alternative splicing in fruit flies and malarial mosquito genomes. Genome Res. 2006 Apr;16(4):505-9. Epub 2006.

12. Boeva V, Regnier M, Papatsenko D, Makeev V. Short fuzzy tandem repeats in genomic sequences, identification, and possible role in regulation of gene expression. Bioinformatics. 2006 Mar 15;22(6):676-84.

13. Favorov AV, Gelfand MS, Gerasimova AV, Ravcheev DA, Mironov AA, Makeev VJ. A Gibbs sampler for identification of symmetrically structured, spaced DNA motifs with improved estimation of the signal length. Bioinformatics. 2005 May 15;21(10):2240-5.

14. Kotelnikova EA, Makeev VJ, Gelfand MS. Evolution of transcription factor DNA binding sites. Gene. 2005 Mar 14;347(2):255-63.

15. Tompa M, Li N, Bailey TL, Church GM, De Moor B, Eskin E, Favorov AV, Frith MC, Fu Y, Kent WJ, Makeev VJ, Mironov AA, Noble WS, Pavesi G, Pesole G, Régnier M, Simonis N, Sinha S, Thijs G, van Helden J, Vandenbogaert M, Weng Z, Workman C, Ye C, Zhu Z. Assessing computational tools for the discovery of transcription factor binding sites. Nat Biotechnol. 2005 Jan;23(l): 137-44.

16. Рагулина, Jl.E., Макеев, В.Ю., Есипова, Н.Г., Туманян, В.Г., Богуш, В.Г., Дебабов В;Г. Анализ вторичных структур спидроинов первого и второго типов из пауков, принадлежащих различным видам. Биофизика, 2004;49(6):1147-9.

17. Рагулина, JI.E., Макеев, В.Ю., Есипова, Н.Г., Туманян, В.Г., Никитин, A.M., Богуш, В.Г., Дебабов В.Г.Исследование периодичностей в последовательностях аминокислот спидроинов» первого и второго типов из пауков различных видов. Биофизика, 2004,49(6) 1053-60

18. Kattenhorn LM, Mills R, Wagner M, Lomsadze A, Makeev V, Borodovsky M, Ploegh HL, Kessler BM. Identification of proteins associated with murine cytomegalovirus virions. J Virol. 2004 0ct;78(20):l 1187-97.

19. Makeev VJ, Lifanov AP, Nazina AG, Papatsenko DA. Distance preferences in the arrangement of binding motifs and^ hierarchical levels in organization of transcription regulatory information. Nucleic Acids Res. 2003 Oct 15;31(20):6016-26.

20. Kalinina OV, Makeev VJ, Sutormin RA, Gelfand MS, Rakhmaninova AB. The channel in transporters is formed by residues that are rare in transmembrane helices. In Silico Biol. 2003;3(1-2): 197-204.

21». Vandenbogaert M, Makeev V. Analysis of bacterial RM-systems through genome-scale analysis and related taxonomy issues. In Silico Biol. 2003;3(l-2):127-43. Epub 2003.

22. Lifanov АР, Makeev VJ, Nazina AG, Papatsenko DA. Homotypic regulatory clusters in Drosophila. Genome Res. 2003 Apr;13(4):579-88.

23. Кравацкая, Г.И., Франк, Г.К., Макеев, В.Ю., Есипова Н.Г. Сходство периодических структур в расположении нуклеотидов на участках начала репликации бактериальных геномов. Биофизика. 2002. 47(4):595-9.

24. Papatsenko DA, Makeev VJ, Lifanov АР, Régnier M, Nazina AG, Desplan С. Extraction of functional binding sites from unique regulatory regions: the Drosophila early developmental enhancers. Genome Res. 2002 Mar;12(3):470-81.

25. Ramensky VE, Makeev VJ, Roytberg MA, Tumanyan VG. Segmentation of long genomic sequences into domains with homogeneous composition with BASIO software. Bioinformatics. 2001 Nov;17(ll):1065-6.

26. Ramensky VE, Makeev VJu, Roytberg MA, Tumanyan VG. DNA segmentation through the Bayesian approach. J Comput Biol. 2000 Feb-Apr;7(l-2):215-31.

27. Есипова Н.Г., Кутузова Г.И., Макеев В.Ю., Франк Т.К., Баландина А.В., Камашев Д.Э., Карпов B.JI. Анализ особенностей распределения нуклеотидов на участке начала репликации хромосомы oriC из Е. coli. Биофизика, 2000, т. 45, № 3, с. 432-438.

28. Кривенцева Е.В., Макеев В.Ю., Гельфанд М.С. Статистический анализ экзон-интронной структуры генов высших эукариот. Биофизика, т. 44, № 4, 1999, с. 595600.

29. Кутузова, Г.И., Франк, Г.К., Есипова, Н.Г., Макеев, В.Ю., Полозов Р.В. Периодичности в контактах РНК-полимеразы с промоторами. Биофизика, 1999 Mar-Apr ;44(2) :216-23.

30. Frank GK, Makeev VJ. G and T nucleotide contents show specie-invariant negative correlation for all three codon positions. J Biomol Struct Dyn. 1997 Apr;14(5):629-39.

31. Кутузова Г.И., Франк Т.К., Макеев В.Ю., Есипова Н.Г., Полозов Р.В. Фурье-анализ нукле-отидных последовательностей. Периодичности в промоторных последовательностях Ecoli. Биофизика, 1997, 42(2):354-62.

32. Makeev VJu, Tumanyan VG. Search of periodicities in primary structure of biopolymers: a general Fourier approach. Comput Appl Biosci. 1996 Feb;12(l):49-54.

33. Макеев В.Ю., Франк Т.К., Туманян В.Г. Статистика периодических закономерностей в последовательностях интронов человека М., Наука. Биофизика, том 41, вып. 1., 1996.

34. Makeev VJu, Tumanyan VG, Esipova NG. The third nucleotide of the Gly coding triplet remembers the periodicity of the collagen chain. FEBS Lett. 1995; 366(l):33-6.

35. Макеев В.Ю., Туманян В.Г. О связи методов автокорреляционной функции и дискретного анализа Фурье при анализе биологических последовательностей. Биофизика, 1994,

36. Макеев В.Ю. Стохастический резонанс и его возможная роль в живой природе. Биофизика, 1993, 38, 1, ст. 194.

Список литературы диссертационного исследования доктор физико-математических наук Макеев, Всеволод Юрьевич, 2009 год

1. Robertson, G., et al., Genome-wide profiles of STAT1 DNA association using chromatin immunoprecipitation and massively parallel sequencing. Nat Methods, 2007. 4(8): p. 651-7.

2. Stein, L.D., Bioinformatics: alive and kicking Genome Biol, 2008. 9(12): p. 114.

3. Johnson, P.L. and M. Slatkin, Accounting for bias from sequencing error in population genetic estimates. Mol Biol Evol, 2008. 25(1): p. 199-206.

4. Tompa, M., et al., Assessing computational tools for the discovery of transcription factor binding sites. Nat Biotechnol, 2005. 23(1): p. 137-44.

5. Миронов, А. А., Н.П. Винокурова, and M.C. Гельфанд, Программное обеспечение анализа бактериальных геномов. Молекулярная биология, 2000. 34(2): р. 253-262.

6. Papatsenko, D.A., et al., Extraction of* functional binding sites from unique regulatory regions: the Drosophila early developmental enhancers. Genome Res, 2002. 12(3): p. 470-81.

7. Lifanov, A.P., et al., Homotypic regulatory clusters in Drosophila. Genome Res, 2003. 13(4): p. 579-88.

8. Makeev, V.J., et al., Distance preferences in the arrangement of binding motifs and hierarchical levels in organization of transcription regulatory information. Nucleic Acids Res, 2003. 31(20): p. 6016-26.

9. Kotelnikova, E.A., V.J. Makeev, and M.S. Gelfand, Evolution of transcription factor DNA binding sites. Gene, 2005. 347(2): p. 255-63.

10. Malko, D.B., et al., Evolution of exon-intron structure and alternative splicing in fruit flies and malarial mosquito genomes. Genome Res, 2006.16(4): p. 505-9.

11. Ochoa-Espinosa, A., et al., The role of binding site cluster strength in Bicoid-dependent patterning in Drosophila. Proc Natl Acad Sci USA, 2005.102(14): p. 4960-5.

12. Clyde, D.E., et al., A self-organizing system of repressor gradients establishes segmental complexity in Drosophila. Nature, 2003. 426(6968): p. 849-53.

13. Karolchik, D., et al., The UCSC Genome Browser Database: 2008 update. Nucleic Acids Res, 2008. 36(Database issue): p. D773-9.

14. Kyrpides, N.C., Genomes OnLine Database (GOLD 1.0): a monitor of complete and ongoing genome projects world-wide. Bioinformatics, 1999.15(9): p. 773-4.

15. Benson, D.A., et al., GenBank. Nucleic Acids Res, 2003. 31(1): p. 23-7.

16. Stoesser, G., et al., The EMBL Nucleotide Sequence Database: major new developments. Nucleic Acids Res, 2003. 31(1): p. 17-22.

17. Bock, C. and T. Lengauer, Computational epigenetics. Bioinformatics, 2008. 24(1): p. 1-10.

18. FlyBase, C., The Fly Base Database of the Drosophila Genome Projects and community literature. Nucleic Acids Res., 1999. 27(1): p. 85-88.

19. Ashburner, M., et al., Gene ontology: tool for the unification of biology. The Gene Ontology Consortium. Nat Genet, 2000. 25(1): p. 25-9.

20. Levine, M. and R. Tjian, Transcription regulation and animal diversity. Nature, 2003. 424(6945): p. 147-51.

21. Berg, O.G. and P.H. von Hippel, Diffusion-controlled macromolecular interactions. Annu Rev Biophys Biophys Chem, 1985. 14: p. 131-60.

22. Polyanovsky, O.L. and A.G. Stepchenko, Eukaryotic transcription factors. Bioessays, 1990.12(5): p. 205-10.

23. Berg, O.G. and P.H. von Hippel, Selection of DNA binding sites by regulatory proteins. Statistical-mechanical theory and application to operators and promoters. Journal of Molecular Biology, 1987. 193(4): p. 723-50.

24. Нечипуренко, Ю.Д., Кооперативные взаимодействия при связывании протяженных лигандов с ДНК. П. Контактные кооперативные взаимодействия между адсорбированными лигандами. Молекулярная биология, 1984.18: р. 1066 1079.

25. Нечипуренко, Ю.Д. and Г.В. Гурский, Анализ связывания белков и антибиотиков с фрагментами ДНК. . Доклады Академии Наук СССР, 1985. 281: р. 213-216.

26. Нечипуренко, Ю.Д., А.С. Заседателев, and Г.В. Гурский, Кооперативные взаимодействия при связывании протяженных лигандов с ДНК. 1 Неконтактные кооперативные взаимодействия. . Молекулярная биология, 1984.18: р. 798 812.

27. Hogan, M.E. and R.H. Austin, Importance of DNA stiffness in protein-DNA binding specificity. Nature, 1987. 329(6136): p. 263-6.

28. Berg, O.G., Selection of DNA binding sites by regulatory proteins. Functional specificity and pseudosite competition. J Biomol Struct Dyn, 1988. 6(2): p. 275-97.

29. Krogh, A., et al., Hidden Markov models in computational biology. Applications to protein modeling. J Mol Biol, 1994. 235(5): p. 1501-31.

30. Shivaswamy, S., et al., Dynamic remodeling of individual nucleosomes across a eukaryotic genome in response to transcriptional perturbation. PLoS Biol, 2008. 6(3): p. e65.

31. Latchman, D.S., Transcription factors: an overview. Int J Biochem Cell Biol, 1997. 29(12): p. 1305-12.

32. Latchman, Eukaryotic transcription factors. 1998, San Diego, CA: Academic Press.

33. Wimmer, E.A., et al., Trans- and cis-acting requirements for blastodermal expression of the head gap gene buttonhead. Mech Dev, 1995. 53(2): p. 235-45.

34. Wasserman, W.W. and A. Sandelin, Applied bioinformatics for the identification of regulatory elements. Nat Rev Genet, 2004. 5(4): p. 276-87.

35. Mismer, D., et al., Analysis of the promoter of the Rh2 opsin gene in Drosophila melanogaster. Genetics, 1988.120(1): p. 173-80.

36. Ohler, U., et al., Computational analysis of core promoters in the Drosophila genome. Genome Biol, 2002. 3(12): p. RESEARCH0087. Epub 2002 Dec 20.

37. Rogers, B.L. and G.F. Saunders, Transcriptional enhancers play a major role in gene expression. Bioessays, 1986. 4(2): p. 62-5.

38. Bornstein, P. and J. McKay, The first intron of the alpha 1(1) collagen gene contains several transcriptional regulatory elements. J Biol Chem, 1988. 263(4): p. 1603-6.

39. Halfon, M.S., S.M. Gallo, and C.M. Bergman, REDfly 2.0: an integrated database of cis-regulatory modules and transcription factor binding sites in Drosophila. Nucleic Acids Res, 2008. 36(Database issue): p. D594-8.

40. Rushlow, C. and M. Levine, Combinatorial expression of a ftz-zen fusion promoter suggests the occurrence of cis interactions between genes of the ANT-C. Embo J, 1988. 7(11): p. 3479-85.

41. Reinke, R. and S.L. Zipursky, Cell-cell interaction in the Drosophila retina: the bride of sevenless gene is required'in photoreceptor cell R8 for R7 cell development. Cell, 1988.55(2): p. 321-30.

42. Dearolf, C.R., J. Topol, and C.S. Parker, The caudal gene product is a direct activator of fushi tarazu transcription during Drosophila embryogenesis. Nature, 1989. 341(6240): p. 340-3.

43. Krasnow, M.A., et al., Transcriptional activation and repression by Ultrabithorax proteins in cultured Drosophila cells. Cell, 1989. 57(6): p. 1031-43.

44. Mismer, D. and G.M. Rubin, Definition of cis-acting elements regulating expression i of the Drosophila melanogaster ninaE opsin gene by oligonucleotide-directed mutagenesis.

45. Genetics, 1989.121(1): p. 77-87.

46. Moses, K., M.C. Ellis, and G.M. Rubin, The glass gene encodes a zinc-finger protein required by Drosophila photoreceptor cells. Nature, 1989. 340(6234): p. 531-6.

47. Stanojevic, D., T. Hoey, and M. Levine, Sequence-specific DNA-binding activities of the gap proteins encoded by hunchback and Kruppel in Drosophila. Nature, 1989. 341(6240): p. 331-5.

48. Fortini, M.E. and G.M. Rubin, Analysis of cis-acting requirements of the Rh3 and Rh4 genes reveals a bipartite organization to rhodopsin promoters in Drosophila' melanogaster. Genes & Development, 1990. 4(3): p. 444-63.

49. Ferretti, V., et al., PReMod: a database of genome-wide mammalian cis-regulatory module predictions. Nucleic Acids Res, 2007. 35(Database issue): p. D122-6.

50. Kinney, J.B., G. Tkacik, and C.G. Callan, Jr., Precise physical models of proteinDNA interaction from high-throughput data. Proc Natl Acad Sci USA, 2007. 104(2): p. 501-6.

51. Li, L., et al., Large-scale analysis of transcriptional cis-regulatory modules reveals both common features and distinct subclasses. Genome Biol, 2007. 8(6): p. R101.

52. Bulyk, M.L., DNA microarray technologies for measuring protein-DNA interactions. Curr Opin Biotechnol, 2006.17(4): p. 422-30.

53. Zhou, Q. and J.S. Liu, Extracting sequence features to predict protein-DNA interactions: a comparative study. Nucleic Acids Res, 2008. 36(12): p. 4137-48.

54. Euskirchen, G.M., et al., Mapping of transcription factor binding regions in mammalian cells by ChIP: comparison of array- and sequencing-based technologies. Genome Res, 2007.17(6): p. 898-909.

55. Hoey, T. and M. Levine, Divergent homeo box proteins recognize similar DNA sequences in Drosophila. Nature, 1988. 332(6167): p. 858-61.

56. Wolberger, C., Multiprotein-DNA complexes in transcriptional regulation. Annu Rev Biophys Biomol Struct, 1999. 28: p. 29-56.

57. Doe, C.Q., D. Smouse, and C.S. Goodman, Control of neuronal fate by the Drosophila segmentation gene even-skipped. Nature, 1988. 333(6171): p. 376-8.

58. Hoch, M., E. Seifert, and H. Jackie, Gene expression mediated by cis-acting sequences of the Kruppel gene in response to the Drosophila morphogens bicoid and hunchback. Embo J, 1991. 10(8): p. 2267-78.

59. Bender, W. and D.P. Fitzgerald, Transcription activates repressed domains in the Drosophila bithorax complex. Development, 2002.129(21): p. 4923-30.

60. Jeang, K.T. and G. Khoury, The mechanistic role of enhancer elements in eukaryotic transcription. Bioessays, 1988. 8(4): p. 104-7.

61. Basler, K. and E. Hafen, Specification of cell fate in the developing eye of Drosophila. Bioessays, 1991.13(12): p. 621-31.

62. Grad, Y.H., et al., Prediction of similarly acting cis-regulatory modules by subsequence profiling and comparative genomics in Drosophila melanogaster and D.pseudoobscura. Bioinformatics, 2004. 20(16): p. 2738-50.

63. Chandlee, J.M. and J.G. Scandalios, Regulatory gene action> during eukaryotic development. Adv Genet, 1987. 24: p. 73-125.

64. Davidson, E.H., et al., A genomic regulatory network for development. Science, 2002. 295(5560): p. 1669-78.

65. Desplan, C., J. Theis, and O.F. PH, The*sequence specificity of homeodomain-DNA interaction. Cell, 1988. 54(7): p. 1081-90.

66. Kel, O.V., et al., A compilation of composite regulatory elements affecting gene transcription in vertebrates. Nucleic Acids Res, 1995. 23(20): p. 4097-103.

67. Bulyk, M.L., et al., Exploring the DNA-binding specificities of zinc fingers with DNA microarrays. Proc Natl Acad Sci USA, 2001. 98(13): p. 7158-63.

68. Berman, B.P., et al., Exploiting transcription factor binding site clustering to identify cis-regulatory modules involved in pattern formation in the Drosophila genome. Proc Natl Acad Sci USA, 2002. 99(2): p. 757-62.

69. Ioshikhes, I., E.N. Trifonov, and M.Q. Zhang, Periodical distribution of transcription factor sites in promoter regions and connection with chromatin structure. Proc Natl Acad Sci USA, 1999. 96(6): p. 2891-5.

70. Takasuka, T.E., A. Cioffi, and A. Stein, Sequence information encoded in DNA that may influence long-range chromatin structure correlates with human chromosome functions. PLoS ONE, 2008. 3(7): p. e2643.

71. Majewski, J. and J. Ott, GT repeats are associated with recombination on human chromosome 22. Genome Res, 2000.10(8): p. 1108-14.

72. Ludwig, M.Z., N.H. Patel, and M. Kreitman, Functional- analysis of eve stripe 2 enhancer evolution in Drosophila: rules governing conservation and change. Development, 1998.125(5): p. 949-58.

73. Li, W., et al., Compositional heterogeneity within, and uniformity between, DNA sequences of yeast chromosomes. Genome Res, 1998. 8(9): p. 916-28:

74. Abe, T., et al., Informatics for unveiling hidden genome signatures. Genome Res, 2003.13(4): p. 693-702.

75. Mrazek, J. and J. Kypr, Middle-range clustering of nucleotides in genomes. Comput Appl Biosci, 1995.11(2): p. 195-9.

76. Oliver, J.L., et al., SEGMENT: identifying compositional domains in DNA sequences. Bioinformatics, 1999.15(12): p. 974-9;

77. Makeev, V. and V.G. Tumanyan, Search of periodicities in primary structure of biopolymers: a general Fourier approach. Comput Appl Biosci, 1996.12(1): p. 49-54.

78. Kennison, J.A. and J.W. Tamkun, Trans-regulation of homeotic genes in Drosophila. New Biol, 1992. 4(2): p. 91-6.

79. Sauer, F., et al., Gene regulation'in the Drosophila embryo. Philos Trans R Soc Lond B Biol Sci, 1996. 351(1339): p. 579-87.

80. Zhou, J., et al., The regulation of enhancer-promoter interactions in the Drosophila embryo. Cold Spring Harb Symp Quant Biol, 1997. 62: p. 307-12.

81. Biggin, M.D. and R. Tjian, Transcriptional regulation in Drosophila: the postgenome challenge. Funct Integr Genomics, 2001. 1(4): p. 223-34.

82. Arnosti, D.N., Design and function of transcriptional switches in Drosophila. Insect Biochem Mol Biol, 2002. 32(10): p. 1257-73.

83. Markstein, M. and M. Levine, Decoding cis-regulatory DNAs in the Drosophila genome. Curr Opin Genet Dev, 2002.12(5): p. 601-6.

84. Liaw, G.J. and J.A. Lengyel, Control of tailless expression-by bicoid, dorsal and synergistically interacting terminal,system regulatory elements. Mech Dev, 1993. 40(1-2): p. 47-61.

85. Bonneton, F., et al., Comparison of bicoid-dependent regulation of hunchback between Musca domestica and Drosophila melanogaster. Mech Dev, 1997. 66(1-2): p. 14356.

86. Gao, Q. and R. Finkelstein, Targeting gene expression to the head: the Drosophila orthodenticle gene is a direct target of the Bicoid morphogen. Development, 1998.125(21): p. 4185-93.

87. Qian, S., M. Capovilla, and V. Pirrotta, The bx region enhancer, a distant cis-control element of the Drosophila Ubx gene and its regulation by hunchback and other segmentation genes. Embo J, 1991.10(6): p. 1415-25.

88. Capovilla, M., E.D. Eldon, and V. Pirrotta, The giant gene of Drosophila encodes a b-ZIP DNA-binding protein«that regulates the expression of other segmentation gap genes. Development, 1992.114(1): p. 99-112.

89. Brown, S.J., et al., Molecular characterization and embryonic expression of the even-skipped ortholog of Tribolium castaneum. Mech Dev, 1997. 61(1-2): p. 165-73.

90. Small, S., A. Blair, and M. Levine, Regulation of even-skipped stripe 2 in the Drosophila embryo. Embo J, 1992.11(11): p. 4047-57.

91. Topol, J., et al., Synthetic oligonucleotides recreate Drosophila fushi tarazu zebra-stripe expression. Genes Dev, 1991. 5(5): p. 855-67.

92. Ohno, C.K., H. Ueda, and M. Petkovich, The Drosophila nuclear receptors FTZ-F1 alpha and FTZ-F1 beta compete as monomers for binding to a site in the fushi tarazu gene. Mol Cell Biol, 1994.14(5): p. 3166-75.

93. Kondo, T., J. Zakany, and D. Duboule, Control of colinearity in AbdB genes of the mouse HoxD complex. Mol Cell, 1998. 1(2): p. 289-300.

94. Florence, B., et al., Ftz-Fl is a cofactor in Ftz activation of the Drosophila engrailed gene. Development, 1997. 124(4): p. 839-47.

95. Klingler, M., et al., Disperse versus compact elements for the regulation of runt stripes in Drosophila. Dev Biol, 1996.177(1): p. 73-84.

96. Mihaly, J., et al., Chromatin domain boundaries in the Bithorax comple. Cell Mol Life Sci, 1998. 54(1): p. 60-70.

97. Lewis, E.B., et al., Sequence analysis of the cis-regulatory regions of the bithorax complex of Drosophila. Proc Natl Acad Sci USA, 1995. 92(18): p. 8403-7.

98. Papatsenko, D. and M.S. Levine, Dual regulation by the Hunchback gradient in the Drosophila embryo. Proc Natl Acad Sci USA, 2008.105(8): p. 2901-6.

99. Reinitz, J. and D.H. Sharp, Mechanism of eve stripe formation. Mech Dev, 1995. 49(1-2): p. 133-58. •

100. Wagner, A., A computational "genome walk" technique to identify regulatory interactions in gene networks. Pac Symp Biocomput, 1998: p. 264-78.

101. Wagner, A., Genes regulated cooperatively by one or more transcription factors and their identification in whole eukaryotic genomes. Bioinformatics, 1999.15(10): p. 776-84.

102. Murakami, K., T. Kojima, and Y. Sakaki, Assessment of clusters of transcription factor binding sites in relationship to human promoter, CpG islands and gene expression. BMC Genomics, 2004. 5(1): p. 16.

103. Jegga, A.G., et al., Detection and visualization of compositionally similar cis-regulatory element clusters in orthologous and coordinately controlled genes. Genome Res, 2002.12(9): p. 1408-17.

104. Aerts, S., et al., Computational detection of cis -regulatory modules. Bioinformatics, 2003.19 SuppI 2: p. II5-II14.

105. Thompson, W., et al., Decoding human regulatory circuits. Genome Res, 2004. 14(1 OA): p. 1967-74.

106. Zhong, D., et al., Establishment of the methods for searching eukaryotic gene cis-regulatory modules. Di Yi Jun Yi Da Xue Xue Bao, 2004. 24(2): p. 172-6.

107. Markstein, M., et al., A regulatory code for neurogenic gene expression in the Drosophila embryo. Development, 2004.131(10): p. 2387-94.

108. Rajewsky, N., et al., Computational detection of genomic cis-regulatory modules applied to body patterning in the early Drosophila embryo. BMC Bioinformatics, 2002. 3(1): p. 30. Print 2002 Oct 24.

109. Ettwiller, L.M., J. Rung, and E. Birney, Discovering novel cis-regulatory motifs using functional networks. Genome Res, 2003.13(5): p. 883-95.

110. Nazina, A.G. and D.A. Papatsenko, Statistical extraction of Drosophila cis-regulatory modules using exhaustive assessment of local word frequency. BMC Bioinformatics, 2003. 4(1): p. 65.

111. Frith, M.C., M.C. Li, and Z. Weng, Cluster-Buster: Finding dense clusters of motifs in DNA sequences. Nucleic Acids Res, 2003. 31(13): p. 3666-8.

112. Sinha, S., et al., Cross-species comparison significantly improves genome-wide prediction of cis-regulatory modules in Drosophila. BMC Bioinformatics, 2004. 5(1): p. 129.

113. Sosinsky, A., et al., Target Explorer: An automated tool for the identification of new target genes for a specified set of transcription factors. Nucleic Acids Res, 2003. 31(13): p. 3589-92.i

114. Sudarsanam, P., Y. Pilpel, and G.M. Church, Genome-wide co-occurrence of promoter elements reveals a cis-regulatory cassette of rRNA transcription motifs in Saccharomyces cerevisiae. Genome Res, 2002.12(11): p. 1723-31.

115. Aerts, S., et al., Toucan: deciphering the cis-regulatory logic of coregulated genes. Nucleic Acids Res, 2003. 31(6): p. 1753-64.

116. Davuluri, R.V., et al., AGRIS: Arabidopsis gene regulatory information server, an information resource of Arabidopsis cis-regulatory elements and transcription factors. BMC Bioinformatics, 2003. 4(1): p. 25. Print 2003 Jun 23.

117. Kreiman, G., Identification of sparsely distributed clusters of cis-regulatory elements in sets of co-expressed genes. Nucleic Acids Res, 2004. 32(9): p. 2889-900. Print 2004.

118. Ivan, A., M.S. Halfon, and S. Sinha, Computational discovery of cis-regulatory modules in Drosophila without prior knowledge of motifs. Genome Biol, 2008. 9(1): p. R22.

119. Boeva, V., et al., Exact p-value calculation for heterotypic clusters of regulatory motifs and its application in computational annotation of cis-regulatory modules. Algorithms Mol Biol, 2007. 2: p. 13.

120. Гренандер, У., Лекции no теории образов. Vol. 2. 1981, Москва: Мир. 446.

121. Pevzner, Р.А., М. Borodovsky, and А.А. Mironov, Linguistics of nucleotide sequences. II: Stationary words in genetic texts and the zonal structure of DNA. J Biomol Struct Dyn, 1989. 6(5): p. 1027-38.

122. Seely, O., Jr., et al., Construction of a facsimile data set for large genome sequence analysis. Genomics, 1990. 8(1): p. 71-82.

123. Regnier, M. and W. Szpankowski, On pattern frequency occurrences in a Markovian sequence. Algorithmica, 1998. 22(4): p. 631-649.

124. Миронов, A.A. and M.C. Гельфанд, Компьютерный анализ регуляторных сигналов в полных бактериальных геномах. Участки связывания PurR. Молекулярная биология, 1999. 33(1): р. 127-132.

125. Lawrence, С.Е., et al., Detecting subtle sequence signals: a Gibbs sampling strategy for multiple alignment. Science, 1993. 262(5131): p. 208-14.

126. Shannon, C.E. and W. Weaver, The mathematical theory of communication. 1949, Urbana,: University of Illinois Press, v (i.e. vii), 117 p.

127. Kullback, S., Information theory and statistics. Dover books on mathematics. 1997, Mineola, N.Y.: Dover Publications, xv, 399 p.

128. Favorov, A.V., et al., A Gibbs sampler for identification of symmetrically structured, spaced DNA motifs with improved estimation of the signal length. Bioinformatics, 2005. 21(10): p. 2240-2245.

129. Bailey, T.L. and C. Elkan, Fitting a mixture model by expectation maximization to discover motifs in biopolymers. Proc Int Conf Intell Syst Mol Biol, 1994. 2: p. 28-36.

130. Bailey, T.L. and C. Elkan, The value of prior knowledge in discovering motifs with MEME. Proc Int Conf Intell Syst Mol Biol, 1995. 3: p. 21-9.

131. Bailey, T.L. and C.P. Elkan, Unsupervised learning of multiple motifs in biopolymers using expectation maximization. Machine Learning J, 1995. 21: p. 51-83.

132. Grundy, W.N., T.L. Bailey, and C.P. Elkan, ParaMEME: a parallel implementation and a web interface for a DNA and protein motif discovery tool. Comput Appl Biosci, 1996. 12(4): p.'303-10.

133. Roth, F.P., et al., Finding DNA regulatory motifs within unaligned noncoding sequences clustered by whole-genome mRNA quantitation. Nat Biotechnol, 1998. 16(10): p. 939-45.

134. Thijs, G., et al., A Gibbs sampling method to detect overrepresented motifs in the upstream regions of coexpressed genes. J Comput Biol, 2002. 9(2): p. 447-64.

135. Liu, X., D.L. Brutlag, and J.S. Liu, BioProspector: discovering conserved DNA motifs in upstream regulatory regions of co-expressed genes. Рас Symp Biocomput, 2001: p. 127-38.

136. Sandve, G.K. and F. Drablos, A survey of motif discovery methods in an integrated framework Biol Direct, 2006.1: p. 11.

137. Waterman, M.S., Multiple sequence alignment by consensus. Nucleic Acids Res, 1986.14(22): p. 9095-102.

138. Hampshire, A.J., et al., Footprinting: a method for determining the sequence selectivity, affinity and kinetics of DNA-binding ligands. Methods, 2007. 42(2): p. 128-40.

139. Rouchka, E.C., A Brief Overview of Gibbs Sampling. 1997, Washington University Institute for Biomedical Computing1. Statistics Study Group.

140. Freeh, K., G. Herrmann, and T. Werner, Computer-assisted prediction, classification, and delimitation of protein binding sites in nucleic acids. Nucleic Acids Res, 1993. 21(7): p. 1655-64.

141. Wolfertstetter, F., et al., Identification of functional elements in unaligned nucleic acid sequences by a novel tuple search algorithm. Comput'Appl Biosci, 1996. 12(1): p. 7180.

142. Quandt, K., et al., Matlnd and Matlnspector: new fast and versatile tools for detection of consensus matches in nucleotide sequence data. Nucleic Acids Res, 1995. 23(23): p. 4878-84.

143. Kielbasa, S.M., et al., Combining frequency and positional information to predict transcription factor binding sites. Bioinformatics, 2001.17(11): p. 1019-26.

144. Pesole, G., et al., WORDUP: an efficient algorithm for discovering statistically significant patterns in DNA sequences. Nucleic Acids Res, 1992. 20(11): p. 2871-5.

145. Liuni, S., et al., SIMD parallelization of the WORDUP algorithm for detecting statistically significant patterns in DNA sequences. Comput Appl Biosci, 1993. 9(6): p. 701-7.

146. Hertz, G.Z. and G.D. Stormo, Identifying DNA and protein patterns with statistically significant alignments of multiple sequences. Bioinformatics, 1999. 15(7-8): p. 563-77.

147. Pevzner, P.A. and S.H. Sze, Combinatorial approaches to finding subtle signals in DNA sequences. Proc Int Conf Intell Syst Mol Biol, 2000. 8: p. 269-78.

148. Buhler, J. and M. Tompa, Finding motifs using random projections. J Comput Biol, 2002. 9(2): p. 225-42.

149. Jonassen, I., Efficient discovery of conserved patterns using a pattern graph. Comput Appl Biosci, 1997.13(5): p. 509-22.

150. Marsan, L. and M.F. Sagot, Algorithms for extracting structured motifs using a suffix tree with an application to promoter and regulatory site consensus identification. J Comput Biol, 2000. 7(3-4): p. 345-62.

151. Eskin, E. and P.A. Pevzner, Finding composite regulatory patterns in DNA sequences. Bioinformatics, 2002.18 Suppl 1: p. S354-63.

152. Ulyanov, A.V. and G.D. Stormo, Multi-alphabet consensus algorithm for identification of low specificity protein-DNA interactions. Nucleic Acids Res, 1995. 23(8): p. 1434-40.

153. Fraenkel, Y.M., et al., Identification of common motifs in unaligned DNA sequences: application to Escherichia coli Lrp regulon. Comput Appl Biosci, 1995. 11(4): p. 379-87.

154. Rocke, E. and M. Tompa. An algorithm for finding novel gapped motifs in DNA sequences, in Proceedings of the second annual international conference on Computational molecular biology RECOMB '98. 1998. New York, New York, United States: ACM Press.

155. Tompa, M., An exact method for finding short motifs in sequences, with application to the ribosome binding site problem. Proc Int Conf Intell Syst Mol Biol, 1999: p. 262-71.

156. Jensen, L.J. and S. Knudsen, Automatic discovery of regulatory patterns in promoter regions based on whole cell expression data and functional annotation. Bioinformatics, 2000. 16(4): p. 326-33.

157. Cho, R.J., et al., A genome-wide transcriptional analysis of the mitotic cell cycle. Mol Cell, 1998. 2(1): p. 65-73.

158. Wolfsberg, T.G., et al., Candidate regulatory sequence elements for cell cycle-dependent transcription in Saccharomyces cerevisiae. Genome Res, 1999. 9(8): p. 775-92.

159. Stormo, G.D. and G.W. Hartzell, 3rd, Identifying protein-binding sites from unaligned DNA fragments. Proc Natl Acad Sei USA, 1989. 86(4): p. 1183-7.

160. Hertz, G.Z., G.W. Hartzell, 3rd, and G.D. Stormo, Identification of consensus patterns in unaligned DNA sequences known to be functionally related. Comput Appl Biosci, 1990. 6(2): p. 81-92.

161. Lawrence, C.E. and A.A. Reilly, An expectation maximization (EM) algorithm for the identification and characterization of common sites in unaligned biopolymer sequences. Proteins, 1990. 7(1): p. 41-51.

162. Cardon, L.R. and G.D. Stormo, Expectation maximization algorithm for identifying protein-binding sites with variable lengths from unaligned DNA fragments. J Mol Biol, 1992. 223(1): p. 159-70.

163. Frishman, D., A. Mironov, and M. Gelfand, Starts of bacterial genes: estimating the reliability of computer predictions. Gene, 1999. 234(2): p. 257-65.

164. Gelfand, M.S., E.V. Koonin, and A.A. Mironov, Prediction of transcription regulatory sites inArchaea by a comparative genomic approach. Nucleic Acids Res, 2000. 28(3): p. 695-705.

165. Hu, Y.J., et al., Combinatorial motif analysis and hypothesis generation on a genomic scale. Bioinformatics, 2000.16(3): p. 222-32.

166. Lukashin, A.V., J. Engelbrecht, and S. Brunak, Multiple alignment using simulated annealing: branch point definition in human mRNA splicing. Nucleic Acids Res, 1992. 20(10): p. 2511-6.

167. Geman, S. and D. Geman, Stochastic relaxation, Gibbs distribution and the Bayesian restoration of images. IEEE Transactions on Pattern Analysis and Machine Intelligence, 1984. 6: p. 621-641.

168. Liu, J.S., Monte Carlo, strategies in scientific computing. Springer series in statistics. 2001, New York: Springer. XVI, 343 s.

169. Robert, C.P. and G. Casella, Monte Carlo statistical methods. Springer texts in statistics. 1999, New York: Springer. XXI, 507 s.

170. Favorov, A.V., et al., A Markov Chain Monte Carlo Technique for Identification of Combinations of Allelic Variants Underlying Complex Diseases. Genetics, 2005.

171. Liu, Y., et al., A suite of web-based programs to search for transcriptional regulatory motifs. Nucleic Acids Res, 2004. 32(Web Server issue): p. W204-7.

172. Sze, S.H., M.S. Gelfand, and P.A. Pevzner, Finding weak motifs in DNA sequences. Pac Symp Biocomput, 2002: p. 235-46.

173. Eskin, E., et al., Genome-wide analysis of bacterial promoter regions. Pac Symp Biocomput, 2003: p. 29-40.

174. Buhler, J. and M. Tompa, Finding motifs using random projections. J Comput Biol, 2002. 9(2): p. 225-42.

175. Mathur, D., et al., Analysis of the mouse embryonic stem cell regulatory networks obtained by ChlP-chip and ChlP-PET. Genome Biol, 2008. 9(8): p. R126.

176. Galas, D.J. and A. Schmitz, DNAse footprinting: a simple method for the detection of protein-DNA binding specificity. Nucleic Acids Res, 1978. 5(9): p. 3157-70.

177. Tuerk, C. and L. Gold, Systematic evolution of ligands by exponential enrichment: RNA ligands to bacteriophage T4 DNA polymerase. Science, 1990. 249(4968): p. 505-10.

178. Blackwell, T.K. and H. Weintraub, Differences and similarities in DNA-binding preferences of MyoD and E2A protein complexes revealed by binding site selection. Science, 1990. 250(4984): p. 1104-10.

179. Noyes, M.B., et al., A systematic characterization of factors that regulate Drosophila segmentation via a bacterial one-hybrid system. Nucleic Acids Res, 2008. 36(8): p. 254760.

180. Blanchette, M., B. Schwikowski, and M. Tompa, Algorithms for phylogenetic footprinting. J Comput Biol, 2002. 9(2): p. 211-23.

181. Boffelli, D., et al., Phylogenetic shadowing of primate sequences to find functional regions of the human genome. Science, 2003. 299(5611): p. 1391-4.

182. Blanchette, M. and M. Tompa, Discovery of regulatory elements by a computational method for phylogenetic footprinting. Genome Res, 2002. 12(5): p. 739-48.

183. Matys, V., et al., TRANSFAC and its module TRANSCompel: transcriptional gene regulation in eukaryotes. Nucleic Acids Res, 2006. 34(Database issue): p. D108-10.

184. Bryne, J.C., et al., JASPAR, the open access database of transcription factor-binding profiles: new content and tools in the 2008 update. Nucleic Acids Res, 2008. 36(Database issue): p. D102-6.

185. Cartharius, K., et al., Matlnspector and beyond: promoter analysis based on transcription factor binding sites. Bioinformatics, 2005. 21(13): p. 2933-42.

186. Bergman, C.M., J.W. Carlson, and S.E. Celniker, Drosophila DNase I footprint database: a systematic genome annotation of transcription factor binding sites in the fruitfly, Drosophila melanogaster. Bioinformatics, 2005. 21(8): p. 1747-9.

187. Down, T.A., et al., Large-scale discovery of promoter motifs in Drosophila melanogaster. PLoS Comput Biol, 2007. 3(1): p. e7.

188. Wagner, A., A computational genomics approach to the identification of gene networks. Nucleic Acids Res, 1997. 25(18): p. 3594-604.

189. Nicodeme, P., B. Salvy, and P. Flajolet, Motif statistics. Theoretical Computer Science 2002. 287(2): p. 593-617.

190. Thijs, G., et al., A Gibbs sampling method to detect overrepresented motifs in the upstream regions of coexpressed genes. J Comput Biol, 2002. 9(2): p. 447-64.

191. Guibas, L. and A. Odlyzko, A string overlaps, pattern matching and nontransitive games. Journal of Combinatorial Theory, A, 1981. 30: p. 183-208.

192. Chrysaphinou, C. and S. Papastavridis, The occurrence of sequence of patterns in repeated dependent experiments. Theory of probability and applications, 1990. 79: p. 167173.

193. Robin, S. and J.J. Doudin, Exact distrition of word occurrences in a random sequence of letters. J. Appl. Prob., 1999. 36: p. 179-193.

194. Hertzberg, L., et al., Finding motifs in promoter regions. J Comput Biol, 2005. 12(3): p. 314-30.

195. Zhang, J., et al., Computing exact P-values for DNA motifs. Bioinformatics, 2007. 23(5): p. 531-7.

196. Vandenbogaert, M. and V. Makeev, Analysis of bacterial RM-systems through genome-scale analysis and related taxonomy issues. In Silico Biol, 2003. 3(1-2): p. 127-43.

197. Regnier, M;, A Unified Approach to Word Statistics. Proc. Second Annual International Conference, on« Computational Molecular Biology, March 22 25, 1998, Holiday Inn Manhattan, New York, NY, 1998: p. 203-207.

198. Regnier, M., A unified approach to word probabilities. Discrete Applied Mathematics, 2000.104: p. 259-280:

199. Pevzner, Nucleotide sequences versus markov models. Computers Chem, 1992. 16(2): p. 103-106.

200. Fickett, J.W., Recognition of protein coding regions in DNA sequences. Nucleic Acids Res, 1982.10(17): p. 5303-18.

201. Frank, G.K. and V.J. Makeev, G and T nucleotide contents show specie-invariant negative correlation for all three codon positions. J Biomol Struct Dyn, 1997.14(5): p. 62939.

202. Kypr, J., J. Mrazek, and J. Reich, Nucleotide composition bias and CpG dinucleotide content in the genomes of HIV and HTLV 1/2. Biochim Biophys Acta, 1989. 1009(3): p. 280-2.

203. Bernaola-Galvan, P., et al., Study of statistical correlations in DNA sequences. Gene, 2002. 300(1-2): p. 105-15.

204. Bernaola-Galvan, P., R. Roman-Roldan, and J.L. Oliver, Compositional segmentation and long-range fractal correlations in DNA sequences. Phys Rev E Stat Phys Plasmas Fluids Relat Interdiscip Topics, 1996. 53(5): p. 5181-5189.

205. Ramensky, V.E., et al., DNA segmentation through the Bayesian approach. J Comput Biol, 2000. 7(1-2): p. 215-31.

206. Ramensky, V.E., et al., DNA segmentation through the Bayesian approach. J Comp Biol, 1999. to appear.

207. Liu, J.S. and C.E. Lawrence, Bayesian inference on biopolymer models. Bioinformatics, 1999.15(1): p. 38-52.

208. Kucherov, G., L. Noe, and M. Roytberg, A unifying framework for seed sensitivity and its application to subset seeds. J Bioinform Comput Biol, 2006. 4(2): p. 553-69.

209. Aho, A. and M. Corasick, Efficient string matching: an aid to bibliographic search. Communications of the ACM, 1975.18: p. 333-340.

210. Knuth, D., The Art of Computer Programming. Sorting and Searching. Vol. 3. 1997: Addison-Wesley.

211. Harbison, C.T., et al., Transcriptional regulatory code of a eukaryotic genome. Nature, 2004. 431(7004): p. 99-104.

212. Boeva, V., et al., Short fuzzy tandem repeats in genomic sequences, identification, and possible role in regulation of gene expression. Bioinformatics, 2006. 22(6): p. 676-84.

213. Forney, G.D., The Viterbi algorithm. Proceedings of the IEEE, 1973. 61(3): p. 268278.

214. Finkelstein, A.V. and M.A. Roytberg, Computation of biopolymers: a general approach to different problems. Biosystems, 1993. 30(1-3): p. 1-19.

215. Гроот, М.д., Оптимальные статистические решения. 1974, Москва: Мир. 496.

216. Wolpert, D.H. and D.R. Wolf, Estimating functions ofprobability distributions from a finite set of samples. Phys Rev E Stat Phys Plasmas Fluids Relat Interdiscip Topics, 1995. 52(6): p. 6841-6854.

217. Розанов, Ю.А., Теория вероятностей, случайные процессы и математическая статистика. 1985, Москва: Наука. 320.

218. Sjolander, К., et al., Dirichlet mixtures: a method for improved detection of weak but significant protein sequence homology. Comput Appl Biosci, 1996.12(4): p. 327-45.

219. Li, W., The study of correlation structures of DNA sequences: a critical review. Comput Chem, 1997.21(4): p. 257-71.

220. Grosse, I., . Estimating Entropies from Finite Samples. Dynamik ~ Evolution — Strukturen, ed. J. Freund. 1996, Berlin: Kosster Verlag. 181-190.

221. Lin, J., Divergence measures based on the Shannon entropy. . IEEE Trans. Inf. Theor., 1991. 37: p. 145-149.

222. Li, H., et al., Identification of the binding sites of regulatory proteins in bacterial genomes. Proc Natl Acad Sci USA, 2002. 99(18): p. 11772-7. Epub 2002 Aug 14.

223. Sivia, D.S., Data analysis : a Bayesian tutorial. Oxford science publications. 1996, Oxford; New York: Clarendon Press; Oxford University Press, xi, 189 p.

224. Ramensky, V.E., et al., Segmentation of long genomic sequences into domains with homogeneous composition with BASIO software. Bioinformatics, 2001.17(11): p. 1065-6.

225. Lawrence, C.E., et al., Detecting subtle sequence signals: a Gibbs sampling strategy for multiple alignment. Science, 1993. 262: p. 208-214.

226. Berg, O.G. and P.H. von Hippel, Selection of DNA binding sites by regulatory proteins. Statistical-mechanical theory and application to operators and promoters. J Mol Biol, 1987.193(4): p. 723-50.

227. Pollard, D.A., et al., Widespread discordance of gene trees with species tree in Drosophila: evidence for incomplete lineage sorting. PLoS Genet, 2006. 2(10): p. el73.

228. Papatsenko, D. and M. Levine, A rationale for the enhanceosome and other evolutionarily constrained enhancers. Curr Biol, 2007. 17(22): p. R955-7.

229. Crooks, G.E., et al., WebLogo: a sequence logo generator. Genome Res, 2004. 14(6): p. 1188-90.

230. Schneider, T.D. and R.M. Stephens, Sequence logos: a new way to display consensus sequences. Nucleic Acids Res, 1990.18(20): p. 6097-100.

231. Pisarev, A., et al., FlyEx, the quantitative atlas on segmentation gene expression at cellular resolution. Nucleic Acids Res, 2009. 37(Database issue): p. D560-6.

232. Poustelnikova, E., et al., A database for management of gene expression data in situ. Bioinformatics, 2004. 20(14): p. 2212-21.

233. Waterman, M.S., Introduction to Computational Biology. 1995: Chapmen&Hall.

Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.