О достоверности процедуры выравнивания первичных структур биополимеров тема диссертации и автореферата по ВАК РФ 03.00.03, кандидат физико-математических наук Поляновский, Валерий Олегович

  • Поляновский, Валерий Олегович
  • кандидат физико-математических науккандидат физико-математических наук
  • 2008, Москва
  • Специальность ВАК РФ03.00.03
  • Количество страниц 90
Поляновский, Валерий Олегович. О достоверности процедуры выравнивания первичных структур биополимеров: дис. кандидат физико-математических наук: 03.00.03 - Молекулярная биология. Москва. 2008. 90 с.

Оглавление диссертации кандидат физико-математических наук Поляновский, Валерий Олегович

СПИСОК ТЕРМИНОВ И СОКРАЩЕНИЙ.

ВВЕДЕНИЕ.

Глава 1. ОБЗОР ЛИТЕРАТУРЫ.

1.1. Основы изменчивости генома.:.

1.2. Сравнение последовательностей и алгоритмы выравнивания.

1.3. Выравнивание последовательностей методом динамического программирования.

1.4. Выравнивание и расстояние.

1.5. Выравнивание и сходство.

1.6. Вхождение одной последовательности в другую.

1.7. Поиск сходных фрагментов.

Рекомендованный список диссертаций по специальности «Молекулярная биология», 03.00.03 шифр ВАК

Введение диссертации (часть автореферата) на тему «О достоверности процедуры выравнивания первичных структур биополимеров»

В последние годы установлены нуклеотидные последовательности большого числа геномов различной сложности - в том числе секвенированы геномы человека и нескольких млекопитающих. Установлено приблизительное число генов, кодирующих белки. В результате посттранскрипционных процессов число белков увеличивается в 2-3 раза по сравнению с числом кодирующих генов. Есть большое число родственных генов и, соответственно, родственных белков, объединяемых в семейства, некоторые из которых состоят из многих сотен представителей. Например, семейство иммуноглобулинов, семейства других белков, которые по степени сходства и функциональным свойствам подразделяют на подсемейства. Постоянно возникает необходимость сопоставления полипептидных последовательностей для установления степени родства, выявления наиболее консервативных и потенциально значимых участков. Аналогичные задачи стоят при исследовании родственных белков из разных организмов, находящихся на разных ступенях эволюции. Их решение позволяет устанавливать степень родства, а также скорость эволюции тех или иных белков. Для сравнения родственных полипептидных последовательностей, а также выявления врожденных и соматических мутаций проводится процедура выравнивания.

В последние годы в различных областях медицины исследуется генетический полиморфизм в отдельных локусах генома человека: анализ мутаций при диагностике наследственных заболеваний, определение наследственной предрасположенности к онкологическим заболеваниям, а также диагностика этих заболеваний на ранних стадиях (Senchenko et al,2004; Kolchinskiíí, Barskií, Zasedatelev, 2007; Rubina et al., 2008; Amit et al, 2007). Аналогичные задачи стоят при исследовании родственных белков из разных организмов, находящихся на разных ступенях эволюции. Их решение позволяет устанавливать степень родства, а также скорость эволюции тех или иных белков, разрешать проблемы молекулярной филогении (Koonin et al. 2000, Makarova, Kramerov, 2007).

Формально, выравнивание двух последовательностей представляет собой процедуру размещения символов одной последовательности под другой с добавлением пробелов, таким образом, чтобы взвешенная сумма сопоставленных позиций (премии) и пробелов (штрафы) достигало экстремального значения (минимума или максимума, в зависимости от метода расстояний или сходства).

Задача построения алгоритма для осуществления такой процедуры на основе методов динамического программирования была решена разными авторами (Туманян с соавт., 1966; Needleman and Wunsch, 1970; Smith and Waterman, 1981; Поройков с соавт., 1984). Среди наиболее широко используемых алгоритмов выравнивания укажем BLAST (Altschul, et al. 1990), FASTA (Lipman and Pearson, 1985). В последнее время разработан ряд алгоритмов для выравнивания последовательностей, учитывающих специфику вторичных структур белков (Wallqvist et al., 2000; Литвинов с соавт., 2006), а также их пространственных структур (Yang, 2002). При этом важно понимать -насколько алгоритмическое выравнивание, полученное оптимизацией той или иной целевой функции, восстанавливает эволюционное выравнивание аминокислотных последовательностей, т.е. такое выравнивание, в котором сопоставлены те позиции сравниваемых белков, которые происходят от одной и той же позиции их общего предка. Так, например, для построения эволюционных деревьев аминокислотных последовательностей в настоящее время широко применяются методы, основанные на определении расстояния между последовательностями (Saitou and Neil, 1987). Способы измерения расстояния между двумя последовательностями можно отнести к двум классам: 1-й — простым подсчетом доли (процентного содержания) несовпадающих позиций; 2-й — с использованием матриц весов замен аминокислот (Hollich et а1., 2005). При1 применении способов измерения расстояния второго типа необходимо иметь достоверные выравнивания каждой пары последовательностей, расстояние между которыми определяется. Процедура выравнивания, применяемая с целью выявления мутаций и делеций в белках, может иметь первостепенное значение для диагностики и выбора стратегии терапии заболеваний. Таким образом, решение вопроса о биологической корректности алгоритмически полученных выравниваний является актуальной задачей.

Цель настоящей работы состояла в разработке универсального метода оценки эффективности процедуры выравнивания двух последовательностей в зависимости как от эволюционного расстояния между выравниваемыми последовательностями, так и от типа применяемой процедуры выравнивания (алгоритм для глобального выравнивания Нидлмана-Вунша и для локального выравнивания Смита-Ватермана). Исходя из поставленной цели, были сформулированы задачи исследования:

1. На основании существующей модели эволюции аминокислотных последовательностей оценить качество восстанавливаемости истинных выравниваний методом глобального выравнивания; выяснить причины неточного восстановления истинных выравниваний.

2. На основании предложенной эволюционной модели произвести сравнительную оценку качества выравниваний, построенных глобальным и локальным алгоритмами; выявить предельные условия применения глобального и локального алгоритмов выравнивания.

Похожие диссертационные работы по специальности «Молекулярная биология», 03.00.03 шифр ВАК

Заключение диссертации по теме «Молекулярная биология», Поляновский, Валерий Олегович

выводы

1. Исследование достоверности алгоритмических выравниваний, проведённое на модельных парах аминокислотных последовательностей в диапазоне эволюционных расстояний от 60 до 300 РАМ показало, что уровень восстанавливаемости истинных выравниваний алгоритмическими существенно зависит от эволюционного расстояния между последовательностями и составляет 97-^98% для расстояния 60 РАМ и 70-^-72% для расстояния 300 РАМ, независимо от длины последовательностей биополимеров.

2. Показано, что относительное возрастание показателя сходства выровненных последовательностей (1с1) алгоритмических выравниваний по сравнению с истинными выравниваниями, происходящее с увеличением эволюционного расстояния, связано с уменьшением суммарной длины вставок-делеций в алгоритмических выравниваниях последовательностей биополимеров. Таким образом, за счёт уменьшения длины вставок-делеций в алгоритмических выравниваниях завышается число совпадений, что приводит к снижению сходства с истинными выравниваниями.

3. Показано, что наиболее выраженной тенденцией в алгоритмическом выравнивании, вызывающей снижение его сходства с истинным, является уменьшенное число ' вставок-делеций относительно истинного (в «70% выравниваний от общего числа). Тенденция к увеличению средней длины вставок-делеций менее значительна (в 26% от общего числа выравниваний). Наличие именно этих двух тенденций в алгоритмических выравниваниях приводит к наибольшему отличию от истинных выравниваний. Уровень сходства с эталоном этих выравниваний в среднем на 6-н9% ниже уровня, достигаемого при равенстве как числа, так и средней длины вставок-делеций в алгоритмическом и истинным выравниваниях, что является ресурсом для улучшения процедуры выравнивания.

4. Проведено исследование по определению области применения глобального и локального вариантов алгоритма выравнивания Смита-Ватермана на модельных последовательностях неоднородной по длине гомологии. Получены зависимости мер качества глобального и локального выравниваний последовательностей полипептидов с негомологичными консолями от следующих величин: 1) эволюционного расстояния между гомологичными фрагментами последовательностей; 2) длины консолей; 3) асимметрии консолей (сдвига ядра). Показано, что при симметричном расположении консолей глобальный алгоритм показывает большую устойчивость к увеличению эволюционного расстояния и длины консолей, чем локальный алгоритм.

5. Разработана методика определения порога применения глобального алгоритма, то есть тех значений указанных параметров (см. пункт 4) до которого качество глобального выравнивания выше качества локального выравнивания, но после которого происходит резкое понижение качества глобального выравнивания, но качество локального не снижается.

БЛАГОДАРНОСТИ

Приношу глубокую благодарность моему руководителю Владимиру Гайевичу Туманяну за предложенную тему, постоянное внимание к работе и плодотворное обсуждение полученных результатов. Я благодарен Михаилу Абрамовичу Ройтбергу за участие в оценке результатов и за внесенные им конструктивные предложения по расширению области исследования. Глубоко признателен Наталии Георгиевне Есиповой за моральную поддержку и внимание.

Благодарю Петра Власова за предоставленные программы и техническую поддержку, а также всех сотрудников лаборатории, помогавших мне на отдельных этапах проведения работы.

1.8. Заключение

За последнее время прогресс в области математического анализа биологических последовательностей был обусловлен двумя тенденциями: первая - уточнение формальных постановок задач с целью приблизить их к содержательным биологическим задачам и особенностям изучаемых объектов; вторая - привлечение новых математических идей. В качестве примера такого прогресса в области биологически-адекватного сравнительного анализа последовательностей можно назвать введение понятие частотного профиля семейств последовательностей, разработку методов их построения и использования при поиске родственных последовательностей (Eddy, 1998; Sunyaev et al., 1999; Stark et al. 2003; Finkelstein AV, Roytberg MA., 1993). Как уже было упомянуто, способность алгоритмов выравнивания отражать биологическую специфику последовательностей во многом определяется типом используемой весовой функции (см. комментарий к теореме 3). Выделению класса весовых функций делеций, допускающих построение эффективного алгоритма выравнивания посвящены работы (Myers and Miller, 1988; Ройтберг, 1984), которые могут быть примером привлечения усовершенствованных математических методов.

Предсказанию дальних гомологий структур белков, основаванному на статистической значимости, посвяшено значительное число работ (Bray et al., 2000; John and Sali, 2004; Madden et al.,.2001; Mayr et al., 2007; Mitrophanov and Borodovsky, 2006; Shah et al., 2008).

Другим направлением в изучении выравниваний последовательностей белков является решение вопроса о соответствии алгоритмически полученных выравниваний биологически корректным.

Качество» алгоритмов выравнивания, т.е. соответствие между алгоритмическими и «эталонными» выравниваниями рассматривалось с разных точек зрения. При этом в качестве эталона обычно использовались выравнивания, основанные на сопоставлении пространственных структур, что основано на том соображении, что трехмерные структуры белков более консервативны, чем их последовательности (Doolittle, 1981), хотя это само по себе не является безусловным критерием. В работе Вингрона и Аргоса (Vingron and Argos, 1990) показана связь между устойчивостью (консервативностью) области оптимального глобального выравнивания во множестве субоптимальных выравниваний и её сходством со структурным выравниванием. Показано, что области оптимального выравнивания, наиболее часто повторяющиеся в субоптимальных выравниваниях, имеют большее сходство со структурным выравниванием.

В работах (Mevissen and Vingron, 1996; Schlosshauer and Ohlsson, 2002) оценка достоверности оптимального выравнивания основана на определении достоверности каждой пары сопоставленных аминокислотных остатков, в результате чего строится зависимость «индекса надёжности» (robustness index) от номера выровненной пары остатков. Так, в работе Мевиссена и Вингрона в качестве меры надёжности сопоставления i-ro и j-ro остатков принимается разность весов оптимального выравнивания и выравнивания с наибольшим весом, в котором элементы i и j не сопоставляются. В работе (Schlosshauer and Ohlsson, 2002) мера надёжности сопоставления i-ro и j-ro остатков основана на замещении дискретной функции "шах" в определении алгоритма динамического программирования на непрерывную функцию, зависящую от параметра. Это позволяет оценить наличие субоптимальных конкурентов для данной выровненной пары остатков и, таким образом, получить значение достоверности их сопоставления. Полученный для каждой пары индекс даёт представление о локальной достоверности выравнивания.

В работах Фогт с соавторами (Vogt et al., 1995), Доминик с соавторами (Domingues et al., 2000) и Сюняев с соавторами (Sunyaev et al., 2004.) и на основании сравнения структурных выравниваний с локальными алгоритмическими выравниваниями Смита-Ватермана были сделаны выводы о возможности восстановления структурного выравнивания алгоритмическим в зависимости от степени сходства белков. Кроме того, в работе (Sunyaev et al., 2004.) изучение внутренней структуры тех и других выравниваний позволило создать более эффективную процедуру выравнивания двух последовательностей, учитывающую не только средний уровень их идентичности, но и распределение более или менее совпадающих участков последовательностей в структурном выравнивании.

Недостатком всех цитированных работ является то, что алгоритмические выравнивания сравнивались не с истинным эволюционным выравниванием, которое неизвестно, а с его приближением, что вносит в результаты погрешность, величина которой не поддается оценке. Мы предлагаем для оценки качества алгоритмов сравнивать искусственно сгенерированные последовательности, для которых истинное выравнивание известно «по построению». Подобный численный эксперимент был осуществлен (Polyanovskii, et al., 1995), однако, построение тестового набора последовательностей не отражало в полной мере имеющихся данных об эволюционном процессе, поскольку применялась упрощенная схема внесения делеций (вставки вообще не рассматривались). Впоследствии при генерации тестовых последовательностей нами была использована общепринятая в настоящее время модель эволюции, описанная в (Dayhoff et al. 1978; Benner et al., 1993; Reese, et al., 2002), которая включала в себя точечные замены, а также вставки и делеции. Проведён сравнительный анализ структуры вставок-делеций и замен в алгоритмических и эталонных выравниваниях. Анализ показал, что различия между алгоритмическими и эталонными выравниваниями, в основном, проявляются в различии в количестве и средних длинах вставок-делеций. Получены численные значения средней достоверности метода глобального выравнивания с аффинными штрафами за делеции (глобальный вариант метода Смита-Ватермана) для эволюционных расстояний от 60 до 300 РАМ. Эти значения существенно выше, чем соответствующие значения для локального варианта метода Смита-Ватермана. Таким образом, появляется возможность альтернативной оценки качества выравнивания, вне зависимости от информации о пространственной структуре.

Это позволяет выяснить причины неточного восстановления истинных выравниваний вне ошибки, вносимой особенностями той или иной базы данных.

Глава 2. МЕТОД ОЦЕНКИ КАЧЕСТВА ГЛОБАЛЬНОГО ВЫРАВНИВАНИЯ ДВУХ АМИНОКИСЛОТНЫХ ПОСЛЕДОВАТЕЛЬНОСТЕЙ

2.1. Общее описание процедуры определения качества выравнивания

Процедура определения качества алгоритма парного выравнивания состояла в следующем. Строится тестовое множество, состоящее из 10000 пар сгенерированных последовательностей в 20-буквенном алфавите, соответствующем кодам аминокислот. Первая последовательность в каждой паре - случайная последовательность, вторая получена из первой путём мутационного процесса, включающего как замены, так и вставки и делеции. Данные о внесенных в первую последовательность изменениях сохраняются и являются истинным выравниванием. Далее, с помощью тестируемого алгоритма строятся выравнивания для каждой тестовой пары последовательностей и производится сравнение алгоритмического выравнивания с истинным. Ниже описаны детали этой методики.

2.2. Генерация исходных последовательностей первые элементы пар)

Исходные последовательности - это случайные последовательности, в которых каждый символ генерировался датчиком случайных чисел независимо от остальных с некоторой частотой. Распределение частот встречаемости аминокислот было принято соответствующим среднему аминокислотному составу белков, приведенному в работе Дейхофф с соавт (Dayhoff М. е! а1., 1978). Мы построили два тестовых набора по 10000 последовательностей в каждом, в одном все последовательности имеют длину 200, в другом - 500. Соответствие полученного распределения частот встречаемости аминокислот заданному распределению оценивалось величиной || АБ151г || / || Б1з1х ||, где

- требуемое распределение частот встречаемости аминокислот, ADistr -разность векторов реально полученного распределения и требуемого распределения,

Х|| = Е |Xj| - норма числового вектора X = <xi, ., хп> - сумма абсолютных величин его компонентов. Полученное значение ошибки составило соответственно 1.6 и 1.5 % на наборах последовательностей длиной 200 и 500 символов.

2.3. Модифицирование исходных последовательностей вторые элементы пар)

Модифицирование исходных последовательностей состояло из поэтапного внесения делеций, точечных замен (мутаций) и вставок. При этом на основе каждой исходной последовательности мы строили 4 тестовых пары, соответствующих эволюционным расстояниям 60, 100, 200, 300 РАМ (РАМ -Point Accepted Mutations - число происшедших точечных замен). Таким образом, было получено 2x4=8 тестовых наборов по 10000 пар последовательностей в каждом.

2.3.1 Делеции и вставки i) Суммарная длина вставок и делеций

Суммарная длина вставок и делеций D для каждой исходной последовательности полагалась равной

D = L- P(indel)-M5, (1) где L - длина последовательности;

P(indel) - вероятность возникновения вставки-делеции, которая согласно работе Беннер с соавт.(Веппег S.A. et al., 1993), вычислялась по формуле:

P(indel) = 0.0224 - 0.0219- е ("°-01168*РАМ), (2) где РАМ - число, характеризующее эволюционное расстояние между исходной и измененной последовательностями;

Мб - математическое ожидание длины вставки-делеции:

M5 = Id=1.dmaxd-P{5=d}, (3) где P{5=d} - вероятность возникновения вставки-делеции длиной d, взятое из распределения Ципфа, которое, согласно работе Беннер с соавт., не зависит от значения эволюционного расстояния.

Для каждой пары исходной и модифицированной последовательностей суммарная длина вставок была равной суммарной длине делеций, и равна D/2. ii) Внесение делеций

В исходной последовательности длины L, с помощью датчика случайных чисел, исходя из равномерного распределения, выбирался номер элемента последовательности N, 1<N<L, соответствовавший началу делеции; с помощью другого случайного числа из распределения Ципфа выбиралась длина делеции d, l<d<D/2). Если d больше чем расстояние от N до конца последовательности или до уже внесенной делеции, или если суммарная длина делеций больше D/2, то попытка игнорировалась. Таким образом, предотвращалось внесение делеций, длина которых не равна значению, полученному из заданного распределения. Процедура повторялась до достижения суммарной длиной делеций значения D/2. При внесении делеций в исходную последовательность наблюдалось отклонение полученного распределения длин делеций от заданного (т.н. "эффект решета"). Для получения точного распределения длин применялась корректировка вектора распределения длин делеций (см. Дополнение 1).

Ш) Внесение вставок

Начало вставки и ее длина определялись так же, как для делеций. При этом точка начала вставки выбиралась только из множества позиций последовательности, полученной после внесения делеций. В случае совпадения выбранной позиции с началом уже имеющейся вставки, попытка игнорировалась. Так как отсеивание попыток не зависело от длины предполагаемой вставки, то нет оснований предполагать возникновение систематической ошибки в распределении длин вставок. Буквенный состав вставок генерировался аналогично исходным последовательностям.

2.3.2 Точечные замены (мутации)

Точечные замены вносились после делеций и вставок в неделетированные участки исходной последовательности (вставки также игнорировались). Внесение замен выполнялось двумя способами:

1) с использованием матрицы замен РАМ1. Для каждой буквы исходной последовательности с помощью датчика случайных чисел из соответствующего столбца матрицы выбирается другая буква или та же самая. Число проходов последовательности равно требуемому значению эволюционного расстояния (60, 100, 200 или 300 РАМ) для мутированной последовательности.

2) с использованием матрицы замен, полученной возведением матрицы РАМ1 в степень равную числу, определяющему эволюционное расстояние (60, 100, 200 или 300 РАМ). Число проходов последовательности равно одному. При тестировании процедуры (1) было получено следующее соответствие средней доли совпадений (%\6) числу РАМ (примерно одинаковые для обоих способов мутирования):

Список литературы диссертационного исследования кандидат физико-математических наук Поляновский, Валерий Олегович, 2008 год

1. Alberts B., Johnson A., Lewis J., Raff M., Roberts K., Walter P. 2002. Molecular Biology of the Cell. 4th Edition. Garland Science, US.

2. International Human Genome Sequencing Consortium. Initial sequencing and analysis of the human genome. Nature, 2001, 409, 860-921.

3. Altschul S.F., Gish W., Miller W., Myers E.W., Lipman D.J. 1990. Basic local alignment search tool. J Mol Biol. 215(3), 403-410.

4. Amit I, Wides R, Yarden Y. 2007. Evolvable signaling networks of receptor tyrosine kinases: relevance of robustness to malignancy and to cancer therapy.

5. Mol. Syst. Biol. 3, 151-172.

6. Arratia R., Gordon L. and Waterman M.S. 1986. An extreme value theory for sequence matching. Ann. Stat. 14, 971-993.

7. Benner S.A., Cohen M.A. and Gonnet G.H. 1993. Empirical and structural models for insertions and deletions in the divergent evolution of proteins. J. Mol.Biol., 229, 1065-1082.

8. Blaisdell B.E. 1985. Markov chain analysis finds a significant influence of neighboring bases on the occurence of a base in eukaryotic nuclear DNA sequences both protein coding and noncoding. J. Mol. Evol., 21, 278-288.

9. Bourque G., Pevzner P.A., Tesler G. 2004. Reconstructing the genomic architecture of ancestral mammals: lessons from human, mouse, and rat genomes. Genome Res. 14(4), 507-516.

10. Boussau B, Gueguen L, Gouy M. 2008. Accounting for horizontal gene transfers explains conflicting hypotheses regarding the position of aquificales in the phylogeny of Bacteria. BMC Evol Biol. 8(1), 272.

11. Bray J.E., Todd A.E., Pearl F.M., Thornton J.M., Orengo C.A. 2000. The CATH Dictionary of Homologous Superfamilies (DHS): a consensus approach for identifying distant structural homologues. Protein Eng. 13(3), 153-165.

12. Chimpanzee Sequencing and Analysis Consortium. 2005. Initial sequence of the chimpanzee genome and comparison with the human genome. Nature. 437(7055), 69-87. Comment in: Nature. 2005. 437(7055), 50-1.

13. Dayhoff M., Schwartz R. and Orcutt B. 1978. A model of evolutionary change in proteins. 345-352. In: Dayhoff M., ed., Atlas of protein sequence and structure. National Biomedical Research Foundation, Washington, DC.

14. Denker E, Bapteste E, Le Guyader H, Manuel M, Rabet N. 2008. Horizontal gene transfer and the evolution of cnidarian stinging cells. Curr Biol. 18(18), R858-859.

15. Domingues F.S., Lackner P., Andreeva A., et al. 2000. Structure-based evaluation of sequence comparison and fold recognition alignment accuracy. J. Mol. Biol. 297, 1003-1013.

16. Doolittle R.F. 1981. Similar amino acid sequences: chance or common ancestry? Science. 214, 149-159

17. Eddy S.R. 1998. Profile hidden Markov models. Bioinformatics, 14, 755-763.

18. Ewing B., Green P. 2000. Analysis of expressed sequence tags indicates 35,000 human genes. Nature Genet., 25, 232-234.

19. Finkelstein A.V., Roytberg M.A. 1993. Computation of biopolymers: a general approach to different problems. Biosystems. 30(1-3), 1-19.

20. Gamier N., Friedrich A., Bolze R., Bettler E., Moulinier L., Geourjon C., Thompson J.D., Deleage G., Poch O. 2006. MAGOS: multiple alignment and modelling server.

21. Bioinformatics. 22(17), 2164-2165.

22. Gotoh O. 1982. An improved algorithm for matching biological sequences. J. Mol. Biol., 162, 705-708.

23. Gotoh O. 1999. Multiple sequence alignment: algorithms and applications. Adv Biophys. 36, 159-206. Review.

24. Hollich V, Milchert L, Arvestad L, Sonnhammer ELL. 2005. Assessment of Protein Measures and Tree Building Methods for Phylogenetic Tree Reconstruction. Mol. Biol. Evol. 22(11), 2257-2264.

25. John B., Sali A. 2004. Detection of homologous proteins by an intermediate sequence search. Protein Sci. 13(1), 54-62.

26. Jordan I.K., Kondrashov F.A., Adzhubei I.A., et al. 2005. A universal trend of amino acid gain and loss in protein evolution. Nature. 433, 633-638.

27. Kaback D.B., Guacci V., Barber D., Mahon J.V. 1992. Chromosome size-dependent control of meiotic recombination. Science. 256, 228-232.

28. Karlin S. and Ost F. 1987. Counts of long aligned word matches among random letter sequences. Adv. Appl. Prob. 19, 293-351.

29. Karlin S., Morris M., Ghandour G. and Leung M.-Y. 1988. Efficient algorithms for molecular sequence analysis. Proc. Natl. Acad. Sci. U.S.A. 85, 841-845.

30. Karlin S., Morris M., Ghandour G., Leung M.Y. 1988. Algorithms for identifying local molecular sequence features. Comput Appl Biosci. 4(1), 41-51.

31. Keese P. 2008. Risks from GMOs due to Horizontal Gene Transfer. Environ Biosafety Res. 7(3), 123-149.

32. Kolchinskiii A.M., Barskii V.E., Zasedatelev A.S. 2007. Biochips in the laboratory of A. D. Mirzabekov: 1988-2007. Mol Biol. 41(5), 757-764. Russian.

33. Koonin E.V., Aravind L., Kondrashov A.S. 2000. The impact of comparative genomics on our understanding of evolution. Cell. 101(6), 573-576.

34. Kruskal J.B. and Sankoff D. 1983. Time Warps, String Edits, and Macromolecules: The Theory and Practice of Sequence Comparison. In: Sankoff, D. and Kruskal, J.B., Eds., Addison-Wesley, London.

35. Laurie D.A. and Hulten M.A. 1985. Further studies on bivalent chiasma in human males with normal kariotypes. Ann. Hum. Genet. 49, 189-201.

36. Lipman D.J. and Pearson W.R. 1985. Rapid and sensitive protein similarity searches. Science. 227, 1435-1441.

37. Madden T.L., Shavirin S., Spouge J.L, Wolf Y.I., Koonin E.V., AltSchul S.F. 2001. Improving the accuracy of PSI-BLAST protein database searches with composition-based statistics and other refinements. Nucleic Acids Res. 29(14), 29943005.

38. Makarova Iu.A, Kramerov D.A. 2007. Small nucleolar RNA genes. Genetika. 43(2), 149-58.

39. Mayr G., Domingues F.S., Lackner P. 2007. Comparative analysis of protein structure alignments. BMC Struct Biol. 26(7), 50.

40. Mevissen H.Th. and Vingron M. 1996. Quantifying the local reliability of a sequence alignment. Prot. Eng. 9, 127-132.

41. Mitrophanov A.Y., Borodovsky M. 2006. Statistical significance in biological sequence analysis. Brief Bioinform. 7(1), 2-24

42. Mouse genome sequenbing Consortium 2002. Initial sequencing and comparative analysis of the mouse genome. Nature. 420(6915), 520-62. Comments in: Nat. Biotechnol. 2003. 21(1), 31-2. Nature. 2002. 420(6915), 512-4. Nature. 2002. 420(6915), 515-6.

43. Myers E., Miller W. 1988. Sequence comparison with concave weighting functions. Bull. Math. Biol. 50, 97-120.

44. Needleman S.B. and Wunsch C.D. 1970. A general method applicable to the search of similarity in the amino-acid sequence of two proteins. J. Mol. Biol. 48, 443453.

45. Notredame C., Higgins D.G., Heringa J. 2000. T-Coffee: A novel method for fast and accurate multiple sequence alignment. J Mol Biol. 302(1), 205-217

46. Pearson W.R. and Lipman D.J. 1988. Improved tools for biological sequence comparisons. Proc. Natl. Acad. Sci. U.S.A. 85, 2444-2448.

47. Perrodou E., Chica C., Poch O., Gibson T.J., Thompson J.D. 2008.

48. A new protein linear motif benchmark for multiple sequence alignment software. BMC Bioinformatics. 25(9), 213.

49. Pontius J.U., Mullikin J.C., Smith D.R. et al. 2007. Initial sequence and comparative analysis of the cat genome. Genome Res. 17(11), 1675-89. Comment in: Genome Res. 2007. 17(11), 1547-1549.

50. Reese J.T., Pearson W.R. 2002. Empirical determination of effective gap penalties for sequence comparison. Bioinformatics, 18, 1500-1507.

51. Rigoutsos I., Huynh T., Floratos A., Parida L., Piatt D. 2002. Dictionary-driven protein annotation. Nucleic Acids Res. 30(17), 3901-3916.

52. Rosenberg M.S. 2005. Evolutionary distance estimation and fidelity of pair wise sequence alignment. BMC Bioinformatics. 19(6), 102.

53. Rubina A.Y., Kolchinsky A., Makarov A.A., Zasedatelev A.S. 2008. Why 3-D? Gel-based microarrays in proteomics. Proteomics. 8(4), 817-831

54. Saitou N., Nei M. 1987. The Neighbor-joining Method: A New Method for Reconstructing of Phylogenetic Trees. Mol. Biol. Evol. 4, 406-425.

55. Sankararaman S, Sjolander K. 2008. INTREPID INformation-theoretic TREe traversal for Protein functional site IDentification. Bioinformatics. 24(21), 24452452.

56. Schlosshauer M. and Ohlsson M. 2002. A novel approach to local reliability of sequence alignments. Bioinformatics. 6, 847-854.

57. Sellers P. 1974. On the theory and computation of evolutionary distances. SIAM J. Appl. Math., 26, 787-793.

58. Sellers P. 1980. The theory and computation of evolutionary distances: pattern recognition. J. Algorithms, 1, 359-373.

59. Sellers, P. 1984. Pattern recognition in genetic sequences by mismatch density. Bull. Math. Biol. 46, 501-514.

60. Senchenko V.N., Liu J., Loginov W. et al. 2004. Discovery of frequent homozygous deletions in chromosome 3p21.3 LUCA and AP20 regions in renal, lung and breast carcinomas. Oncogene. 23(34), 5719-5728.

61. Shah A.R., Oehmen C.S., Webb-Robertson B.J. 2008. SVM-HUSTLE an iterative semi-supervised machine learning approach for pairwise protein remote homology detection. Bioinformatics. 24(6), 783-790.

62. Smith T.F. and Waterman M.S. 1981. Identification of common molecular subsequnces. J. Mol. Biol. 147, 195-197.

63. Stark A., Sunyaev S., Russell R.B. 2003. A model for statistical significance of local similarities in structure. J Mol Biol. 326(5), 1307-1316.

64. Sunyaev S.R., Eisenhaber F., Rodchenkov I.V., Eisenhaber B., Tumanyan V.G., Kuznetsov E.N. 1999. PSIC: profile extraction from sequence alignment with position-specific counts of independent observations. Prot. Eng. 12, 387-394.

65. Thomas P.D., Campbell M.J., Kejariwal A., Mi H., Karlak B., Daverman R., Diemer K., Muruganujan A., Narechania A. 2003. PANTHER: a library of protein families and subfamilies indexed by function. Genome Res. 13(9), 2129-41.

66. Thompson J.D., Plewniak F., Poch O. 1999. BAliBASE: a benchmark alignment database for the evaluation of multiple alignment programs. Bioinformatics. 15, 8788.

67. Thompson J.D., Koehl P., Ripp R., Poch O. 2005. BAliBASE 3.0: latest developments of the multiple sequence alignment benchmark. Proteins. 61(1), 127136.

68. Thompson J.D., Prigent V., Poch O. 2004. LEON: multiple alignment Evaluation Of Neighbours. Nucleic Acids Res. 32(4), 1298-307.

69. Thompson J.D., Koehl P., Ripp R., Poch O. 2005. BAliBASE 3.0: latest developments of the multiple alignment benchmark. Proteins. 61(1), 127-136.

70. Thompson J.D., Muller A., Waterhouse A., Procter J., Barton G.J., Plewniak F., Poch O. 2006. MACSIMS: multiple alignment of complete sequences information management system. BMC Bioinformatics. 23, 7, 318-329.

71. Vingron M. and Argos P. 1990. Determination of reliable regions in protein sequence alignments. Prot. Eng. 3, 565-569.

72. Vingron M and Argos P. 1991. Motif recognition and alignment for many sequences by comparison of dot-matrices. J Mol Biol. 218(1), 33-43.

73. Vogt G., Etzold T., Argos P. 1995. An assessment of amino acid exchange matrices in aligning protein sequences: the twilight zone revisited. J. Mol. Biol. 249, 816-831.

74. Waterman M.S., Smith T.F. and Beyer W.A. 1976. Some biological sequence metrics. Adv. Math. 20, 367-387.

75. Waterman M.S. 1984. Efficient sequence alignment algorithms. J. Theor. Biol. 108, 333- 337.

76. Waterman M.S., Galas D. and Arratia R. 1984. Pattern recognition in several sequences: consensus and alignment. Bull. Math. Biol., 46, 515-527.

77. Waterman M.S. 1987. A new algorithm for best subseqence alignment with application to tRNA-rRNA comparisons. J. Mol. Biol., 197, 723-728.

78. Waterman M.S., ed. 1989. Mathematical methods for DNA sequences. CRC Press, Boca Raton, Florida.

79. Wilbur W.J. and Lipman D.J. 1983. Rapid similarity searches of nucleic acid and protein data banks. Proc. Natl. Acad. Sci. U.S.A. 80, 726-730.

80. Yamada S., Gotoh O., Yamana H. 2006. Improvement in accuracy of multiple sequence alignment using novel group-to-group sequence alignment algorithm with piecewise linear gap cost. BMC Bioinformatics. 7, 524.

81. Yang AS. 2002. Structure-dependent sequence alignment for remotely related proteins. Bioinformatics. 18(12), 1658-1665.

82. Литвинов И.И., Лобанов М.Ю., Миронов А.А., Финкелынтейн A.B., Ройтберг M.A. 2006. Информация о вторичной структуре белка улучшает качество выравнивания. Мол. Биол., 40(3), 533-540.

83. Поройков В.В., Есипова Н.Г., Туманян В.Г. 1984. Распределение аминокислотных остатков в первичных структурах белков. Мол. Биол., 18(2),

84. Ройт А., Бростофф Дж., Мейл Д. 2000. В кн. Иммуноглобулины, Мир, Москва, стр. 131-144.

85. Ройтберг, М.А. 1984. Алгоритм определения первичных структур. Пущино, Препринт НЦБИ, 24.

86. Самарский A.A., Гулин A.B. 1989. В кн.: Численные методы. Наука, Москва, стр. 209.

87. Туманян В.Г., Сотникова Л.Е., Холопов A.B. 1966. Об определении вторичной структуры РНК по последовательности нуклеотидов. Докл. Акад. Наук, 166(6), 1465-1468.541.547.

Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.