Банк образов белковых семейств Prof-pat для быстрой идентификации аминокислотных последовательностей

Низоленко, Лилия Филипповна

Банк образов белковых семейств Prof-pat для быстрой идентификации аминокислотных последовательностей тема диссертации и автореферата по ВАК РФ 03.00.03, кандидат биологических наук Низоленко, Лилия Филипповна

Низоленко, Лилия Филипповна
кандидат биологических наук
2007

Специальность ВАК РФ03.00.03

Количество страниц 127

Низоленко, Лилия Филипповна. Банк образов белковых семейств Prof-pat для быстрой идентификации аминокислотных последовательностей: дис. кандидат биологических наук: 03.00.03 - Молекулярная биология. Кольцово. 2007. 127 с.

Оглавление диссертации кандидат биологических наук Низоленко, Лилия Филипповна

СПИСОК СОКРАЩЕНИЙ.

ВВЕДЕНИЕ.

ГЛАВА 1. АНАЛИЗ АМИНОКИСЛОТНЫХ ПОСЛЕДОВАТЕЛЬНОСТЕЙ ДЛЯ ПРЕДСКАЗАНИЯ РОДСТВЕННЫХ СВЯЗЕЙ, СТРУКТУРНЫХ И ФУНКЦИОНАЛЬНЫХ ОСОБЕННОСТЕЙ КОДИРУЕМЫХ ИМИ БЕЛКОВ (обзор литературы).

1.1 Предсказание функции, структуры и родственных связей белка по его аминокислотной последовательности: основные проблемы.

1 2 Методы анализа аминокислотных последовательностей и реализующие их программные продукты.

12 1. Прямое сравнение последовательностей

1.2 2. «Вторичные» базы данных.

12.2.1. Базы данных профилей.

1 2 2 2 Базы данных одною мошва.

1 2 2 3. Базы данных множественных мотивов.

1 224 SBASE

1 2 3 Интегрированные базы данных.

1 3 Методы предсказания функции, основанные на структурных данных

ГЛАВА 2. ПОСТРОЕНИЕ БАНКА ОБРАЗОВ БЕЛКОВЫХ СЕМЕЙСТВ

PROF PAT И ПРИНЦИПЫ РАБОТЫ С НИМ.

2 1 Формирование и выравнивание групп родственных белков.

2 2 Формирование образов белковых семейств.

2 3 Сравнение аминокислотных последовательностей с образами.

2 4 Сравнение образов с банком Swiss-Prot.

2 5 Программное обеспечение

2 6 Сетевая версия

2 7 Ввод данных и представление результатов.

ГЛАВА 3. ОБНОВЛЕНИЕ И ПОДДЕРЖКА БАНКА PROFPAT.

ГЛАВА 4. АНАЛИЗ НЕКОТОРЫХ ОСОБЕННОСТЕЙ БАНКА PROFPAT

4 1 Разделение случайного и значимого сходства

4 2 Сравнение чувствительности и специфичности банка Prof Pat при разных параметрах поиска.

4.3 Количественная оценка чувствительности и специфичности банка ProfPat

4 4 Оценка числа белковых семейств, представленных в Prof Pat

ГЛАВА 5. СРАВНЕНИЕ С ДРУГИМИ «ВТОРИЧНЫМИ» БАЗАМИ ДАННЫХ.

ГЛАВА 6. ПРИМЕРЫ ИСПОЛЬЗОВАНИЯ PROFPAT

6 1 Использование банка Prof Pat для аннотирования полных геномов

6 2 Использование банка Prof Pat для аннотирования последовательностей в базах данных.

Введение диссертации (часть автореферата) на тему «Банк образов белковых семейств Prof-pat для быстрой идентификации аминокислотных последовательностей»

Актуальность проблемы Последние десятилетия стали свидетелями беспрецедентно быстрого накопления данных о структурах геномов, нуклеотидных последовательностях, аминокислотных последовательностях (АКП) белков и связанного с этим развития биоинформатики Однако для того чтобы эта наука вышла за пределы простого коллекционирования фактов, необходимы согласованные усилия по расшифровке биохимической и биофизической информации, скрытой в этих данных, структурных, функциональных и эволюционных текстов, записанных на языке биологических последовательностей Поэтому способы быстрого и достоверного описания структурных и функциональных особенностей также как родственных связей новых последовательностей* оказываются определяющим фактором многих исследований. Наиболее распространенным способом такого описания до сих пор остается сравнение новых последовательностей с последовательностями, описанными ранее Сравнение может проводиться напрямую с последовательностями из банков первичных структур, таких как GenBank, EMBL, PIR- PSD, Swiss-Prot Но гораздо удобнее и информативнее исследование с помощью «вторичных» банков данных, или «банков данных второго поколения» в которых, в некоторых объектах сконцентрирована информация о целых группах (семействах) родственных белков, наиболее характерных и часто уникальных особенностях этой группы Помимо выигрыша в скорости, которая перестает быть лимитирующим фактором после появления мощных суперкомпьютеров, часто только сравнение с «вторичными» базами может выявить достаточно отдалённое родство или сходство на уровне доменов, поскольку, как правило, проводится поиск локального сходства с короткими, наиболее консервативными участками последовательностей. Доказательством всеобщего признания именно такого способа анализа новых последовательностей может служить большое количество и разнообразие «вторичных» баз данных «Банки данных второго поколения» еще долго будут служить главным инструментом при аннотировании вновь секвенируемых геномов, а проблема их развития и совершенствования оставаться актуальной

В частности, современная протеомика - это крупномасштабное изучение всего набора белков, экспрессируемых в клетке, ткани, органе и организме в целом Однако большинство существующих белковых информационных систем, доступных в Далее в тексте предсказание функциональных особенностей и родственных связей белков, кодируемых новыми последовательностями, для краткости будем называть идентификацией аминокислотных последовательностей.

Интернете, обрабатывают за раз по одной последовательности С увеличением числа секвенированных последовательностей получение данных о больших группах белков становится всё более трудоемким процессом Для крупномасштабных исследований геномов необходимы системы, способные обрабатывать большой объем данных.

Цель Целью данной работы являлась разработка банка образов белковых семейств, обеспечивающего высокие чувствительность, специфичность и скорость анализа, а также методов его поддержания и обновления

Научная новизна и практическая ценность.

1) Создан уникальный банк образов белковых семейств ProfPat, содержащий максимально возможное число объединенных в группы родственных белков базы UniProt. Банк является одним из первых в мире, а также первым и единственным в России «банком второго поколения»

2) Сравнение Prof Pat с другими «вторичными» банками показало, что по чувствительности, специфичности и скорости обработки данных он, по крайней мере, не уступает, а, часто, и превосходит все доступные ресурсы такого рода.

3) С помощью банка Prof Pat проанализированы последовательности открытых рамок трансляции полного генома штамма H37Rv Mycobacterium tuberculosis. Для 44 открытых рамок впервые предсказана функция кодируемого белка

4) С высокой степенью достоверности произведена идентификация более четырнадцати тысяч ранее не описанных последовательностей гипотетических белков и открытых рамок трансляции базы UniProt. Тем самым подтверждена целесообразность использования банка Prof Pat для описания вновь секвенированных последовательностей при создании и обновлении баз первичных последовательностей белков

Банк доступен по адресу http //wwwmgs bionet nsc ru/mgs/programs/profpat/ и через ftp bionet nsc ru/pub/biology/\ector/prof pat и ftp ebi ac uk/pub/databases/prof pat.

Публикации По теме диссертации опубликовано 7 статей в российских и зарубежных журналах.

Апробация работы Банк ProfPat, результаты его исследования и применения представлялись:

1) как самостоятельные работы на Международном симпозиуме по теоретическим и компьютерным методам исследования генома (Гейдельберг 1996), Международной конференции "Оценка спонсируемых биологических исследований в России в новом тысячелетии" (Новосибирск 1999), Первом международном рабочем совещании "Биоразнообразие и динамика экосистем Северной Евразии: информационные технологии и моделирование" (Новосибирск 2001), Международных конференциях по биоинформатике регуляции и структуры генома - BGRS (Новосибирск 2000, 2002,2004,2006), Международной московской конференции по компьютерной молекулярной биологии - МССМВ'03 (Москва 2003),

2) как часть разработок ГНЦ ВБ "Вектор" на Рабочих совещаниях "Развитие партнерства с Россией" (Бостон 2001, Москва 2001);

3) обсуждались на семинарах Института молекулярной биологии ГНЦ ВБ «Вектор» и Европейского Института Биоинформатики

Получено свидетельство об официальной регистрации банка Федеральной службой по интеллектуальной собственности Российской Федерации № 2005620050 от 10 февраля 2005 г

Структура работы Работа состоит из введения, шести глав, заключения, выводов и списка литературы (165 наименований) Материал изложен на 127 страницах, содержит 23 рисунка и 16 таблиц В первой главе, которая носит обзорный характер, рассматриваются основные методы предсказания функции белка по его аминокислотной последовательности, возникающие при этом проблемы и подходы к их решению Вторая глава содержит описание принципов построения банка образов белковых семейств Prof Pat на основе информации, содержащейся в базах аминокислотных последовательностей Swiss-Prot и TrEMBL, работы его поисковой системы, а также структуры банка и способов ввода и вывода данных. Третья глава посвящена автоматизированному обновлению базы данных, которое производится по мере выхода новых выпусков порождающих банков. Четвертая и пятая главы содержат анализ особенностей банка Prof Pat, определяющих уровень достоверности сделанных с его помощью предсказаний и отличающих его от других известных «вторичных» баз данных В шестой главе приводятся примеры практического использования банка ProfPat

Благодарности

Считаю своим приятным долгом поблагодарить:

• А.Г. Бачинского, научного руководителя диссертации,

• А.Н. Наумочкина, А.А. Ярыгина (ГНЦ ВБ «Вектор»), JI.A. Мирошниченко (Институт Математики СО РАН), обеспечивших банк данных большинством программных продуктов,

• Д.А. Григоровича (Институт Цитологии и Генетики СО РАН) за обеспечение постоянной поддержки сетевой версии банка,

• С.И. Бажана, А.З. Максютова, О.И. Серпинского, Д.В. Антонца, О.Е. Белову, Г.В. Шестакову, Е.А. Рыжикова за полезные советы, помощь и под держку при написании и оформлении диссертации

Заключение диссертации по теме «Молекулярная биология», Низоленко, Лилия Филипповна

выводы

1 На основе банка UniProt создан «вторичный» банк образов белковых семейств Prof Pat для быстрой идентификации новых аминокислотных последовательностей, поиска как значительного, так и отдаленного сходства с известными белковыми семействами с целью предсказания функций белков, кодируемых вновь расшифрованными аминокислотными последовательностями.

2. При анализе 3670 новых, не входивших в ProfPat последовательностей базы UniProt кодирующих ферменты, показано, что при уровне сходства 90% и соблюдении пороговых условий, обеспечивающих достоверность результатов, чувствительность банка ProfPat составляет 94.8%, а специфичность достигает 99 6%

3. Показано, что Prof Pat по скорости сравнения во много раз превосходит все известные "вторичные" банки. По чувствительности и специфичности банк ProfPat не уступает существующим аналогам, и во многих случаях способен распознавать последовательности, не опознанные другими базами данных.

4. С помощью банка Prof Pat проанализированы последовательности открытых рамок трансляции (ОРТ) полного генома штамма H37Rv Mycobacterium tuberculosis Из 3924 последовательностей, 3922 опознаются хотя бы одним элементом образа банка ProfPat Для 44 ОРТ возможная функция кодируемого белка предсказана впервые.

5 С высокой степенью достоверности произведена идентификация более 14000 ранее не описанных последовательностей гипотетических белков и открытых рамок трансляции базы UniProt В то же время, показано, что из почти миллиона последовательностей банка UniProt, имеющих ссылку на ресурс Interpro, банком Prof Pat не опознаются только четыре

ЗАКЛЮЧЕНИЕ

Целью данной работы являлось создание и исследование банка образов белковых семейств для быстрой идентификации аминокислотных последовательностей и методов его поддержания и обновления.

Основным методом предсказания возможных функций вновь определяемых аминокислотных последовательностей до сих пор остается их сравнение с белками, обладающими известными функциями, и приписывание этим последовательностям функций близких по структуре белков

При наличии групп родственных белков, содержащаяся в них информация может быть сконцентрирована в некоторых объектах, например, блоках, мотивах, паттернах, с тем, чтобы проводить сравнение с банком этих объектов, а не с банком первичных последовательностей. Анализ новых белков с помощью таких баз данных, называемых «вторичными» или «базами второго поколения», помимо экономии времени значительно превосходит прямое сравнение по чувствительности и специфичности

Банк образов белковых семейств Prof Pat, которому посвящена данная работа -типичный представитель «вторичных» баз данных множественных мотивов По аналогии с паттернами банка PROSITE элементы (мотивы) образа представляют интервалы позиций выравненных последовательностей белков, не содержащие делеций/вставок, содержат до десяти «активных» позиций, и некоторые позиции могут быть объявлены «пассивными» или «незначимыми». Однако поскольку, в отличие от PROSITE, Prof Pat является классическим представителем баз данных множественных мотивов, он избежал основных недостатков поиска гомологии по единственному мотиву.

Группы родственных последовательностей строятся в автоматическом режиме на основании сходства последовательностей, автоматически же производится их выравнивание и построение элементов (мотивов) образа, что обеспечивает полноту данных, недоступную при формировании семейств вручную и исключает субъективные факторы Элемент образа Prof Pat представляет собой вырожденное слово THnaK-[D,E]-F-[I,V]-C-X-[A,S,T]-X-[M,N,D], что обеспечивает большую гибкость сравнения и исключает потерю информации

Специфичность мотива оценивается по частоте встречаемости входящих в него аминокислот в белках

При сравнении последовательностей с банком Prof Pat используется известный и хорошо зарекомендовавший себя метод оценки степени сходства с использованием матриц близости аминокислот, таких как матрицы семейства РАМ или BLOSUM

Несмотря на то, что банк Prof Pat создавался ранее большинства других вторичных банков, он сочетает в себе положительные качества многих «вторичных» банков данных, и учитывает их слабые стороны Кроме того, банк Prof Pat обладает и уникальными особенностями, не характерными для других аналогичных баз данных.

С самого начала он создавался таким образом, чтобы входящие в него образы (паттерны) представляли возможно большее число белков банка Swiss-Prot /TrEMBL. Этот принцип соблюдается и во всех последующих выпусках банка. Если вторичный банк не является действительно представительным, он не сможет найти широкого применения. Отрицательные результаты сравнения последовательности с этим вторичным банком вынуждают пользователя обращаться к другим базам данных или проводить прямые сравнения с большими исходными банками последовательностей

Для крупномасштабных исследований геномов необходимы системы, способные обрабатывать большой объем данных. Prof Pat может обработать за один сеанс сколь угодно большой набор (при необходимости десятки и сотни тысяч), а не единственную последовательность

ProfPat снабжен чрезвычайно быстрой программой поиска как высокого, так и достаточно отдаленного сходства (превосходящей по скорости, к примеру, один из самых крупных и современных банков Interpro более чем в 100 раз).

Банк Prof Pat существует в двух версиях - полной сетевой, и локальной редуцированной Редукция банка состоит в ограничении числа мотивов в каждом паттерне пятью лучшими

К сожалению, представить в рамках одной работы достаточно подробное описание содержащихся в банке ГРП и соответствующих им образов не представляется возможным Даже если ограничиться только цифровыми идентификаторами и полем DE образов, для выведения их полного списка потребовалось бы более полутора тысяч страниц, напечатанных в том же формате, что и данная работа

При работе с белковыми банками (как и с любыми базами, содержащими информацию, изменяющуюся очень быстро) важна не только полнота, но и актуальность представленных данных. Таким образом, обновление базы становится первоочередной задачей Банк Prof Pat обновляется в полуавтоматическом режиме по мере выхода новых выпусков порождающих банков Swiss-Prot и TrEMBL Обновление проходит три основных этапа1

1 - модификация существующих групп родственных белков

2 - пополнение существующих групп родственных белков.

3 - построение новых групп родственных белков

При работе с любой базой данных необходимо знать, при каких условиях результаты анализа окажутся достоверными. Для банка Prof Pat существует количественная оценка неслучайности выявленного сходства анализируемой последовательности с белками опознающего ее семейства Она определяется параметром Score, который приводится в протоколе сравнения. Этот параметр учитывает длину белка, число мотивов в образе, задаваемый уровень сходства и зависит от используемой матрицы сходства Показано, что при Score/n > 3 , где п -число мотивов в паттерне, отсекается более 92% ложноположительных результатов и при этом теряется не более 6% положительных. Можно также пользоваться пороговым значением Score/m > 7, где m - число мотивов, обнаруживших сходство. При этом теряются 2% положительных, но отсекаются более 87% ложноположительных случаев сходства

Исследования новых АКП, кодирующих ферменты и не входивших в ProfPat, показали, что при уровне сходства 90% и соблюдении пороговых условий, чувствительность банка оказывается 94 8%, а специфичность достигает 99.6%.

Отдельный образ банка ProfPat не всегда описывает какое-то семейство целиком. Ограничения, введенные в банке для большей достоверности результатов сравнения и качества выравнивания, иногда приводят к тому, что семейства разбиваются на две или более подгрупп белков Таким образом, число групп родственных белков банка превышает реальное количество представленных в нём семейств, которое по оценке составляет ~98000

Как уже было сказано, банк Prof Pat построен так, что сочетает в себе положительные качества многих «вторичных» банков данных, и учитывает их слабые стороны. В результате Prof Pat, не уступая зарубежным аналогам в чувствительности, во всех исследованных случаях превосходит по скорости получения результатов и по специфичности наиболее известные базы и даже интегрированный ресурс Interpro.

Банк Prof Pat можно использовать для предсказания функций белка, кодируемого новой аминокислотной последовательностью Однако, хотя точность этого предсказания не уступает точности других банков, описания ГРП ProfPat все же являются довольно краткими. Поэтому для каждой отдельной последовательности такое предсказание оказывается лишь первым, хотя и необходимым, этапом исследования

Поскольку преимуществом банка Prof Pat является очень быстрый алгоритм сравнения, а также возможность работать со сколь угодно большими группами последовательностей за один проход, это делает целесообразным его использование для предварительной сортировки открытых рамок трансляции больших фрагментов геномов - полных геномов прокариотов и участков либо целых хромосом эукариотов Примером такого использования банка Prof Pat может служить исследование аминокислотных последовательностей открытых рамок трансляции наиболее активно изучаемого во всем мире штамма H37Rv Mycobacterium tuberculosis

Другой областью применения банка ProfPat может быть описание новых или еще не идентифицированных АКП при обновлении баз первичных последовательностей белков

Банк Prof Pat, доступный по адресу http //wwwmgs2 bionet nsc ru/mgs/programs/prof pat/ ftp bionet nsc ru/pub/biology/vector/prof pat и ftp ebi ac uk/pub/databases/prof pat, достаточно широко известен среди ученых, занимающихся аннотированием баз данных или полных геномов. (Srinivasarao et al., 1999, Higgins, Taylor, 2000, P'erez et al,. 2002, Cai, Doig, 2004, Dobson et al., 2004, Miguel, 2004)

Список литературы диссертационного исследования кандидат биологических наук Низоленко, Лилия Филипповна, 2007 год

1. Бачинский А Г., Ярыгин А.А., Куличков. В.А, Гусева Е Г. 1995, Банк образов белковых семейств PROFIMAGE для быстрого определения возможных функций произвольных аминокислотных последовательностей // Молекулярная Биология, 29, 907-917.

2. Бачинский А Г., Ярыгин А А , Наумочкин А.Н, Низоленко JIФ., Куличков В А 1999, Сетевая версия банка образов белковых семейств PROF PAT 1.1// Молекулярная Биология, 33, .873-880.

3. Зеленин А В , 2003, Геном растений // Вестник Российской Академии Наук, 73, 797-806

4. Низоленко J1. Ф., Бачинский А Г., Наумочкин А. Н., Ярыгин А. А., Григорович Д А 2004, Банк образов белковых семейств ProfPat, оценка эффективности //

5. Молекуляр Биология, 38, 256-264

6. Abhiman S , Sonnhammer ELL 2005 FunShift: a database of function shift analysis on protein subfamilies 11 Nucleic Acids Res ,33, D197-D200

7. Aho A V , Corasic M J 1975, Efficient String Matching: An Aid to Bibliographic Search // Commun ACM 18, 333-340

8. Andreeva A, Howorth D , Brenner S.E., Hubbard T J P , Chothia C., Murzin A.G. 2004 SCOP database in 2004• refinements integrate structure and sequence family data // Nucleic Acids Res, 32, D226-D229.

9. AshburnerM, DrysdaleR 1994 Flybase the Drosophila genetic database // Development, 120,2077-2079

10. Altshul S F , Gish W, Miller W , Myers E W , Lipman D J 1990, Basic local alignment search tool // J Mol Biol, 9, 403-410

11. Altschul S.F., Lipman D.J. 1990. Protein database searches for multiple alignments HProc Natl Acad Sci USA, 87, 5509-5513.

12. Altschul S F, Madden T. L, Schaffer A. A , Zhang J , Zhang Z , Miller W., Lipman D J 1997. Gapped BLAST and PSI-BLAST: a new generation of protein database search programs // Nucleic Acids Res., 25, 3389-3402

13. Amitai G, Shemesh A, Sitbon E, Shklar M, Netanely D, Venger I, Pietrokovski S 2004. Network analysis of protein structures identifies functional residues IIJ Mol Biol, 344,1135-1146

14. Attwood T К, Beck M.E., Bleasby A.J., Parry-Smith D J. 1994, PRINTS A database of protein motif fingerprints // Nucleic Acids Res, 22, 3590-3596.

15. Attwood T К, Flower D R., Lewis A.P, Mabey J E., Morgan S R., Scordis P., Selley J.N, Wright W 1999. PRINTS prepares for the new millennium // Nucleic Acids Res, 27,220-225.

16. Attwood T К 2000 The quest to deduce protein function from sequence, the role of pattern databases // International Journal of Biochemistry and Cell Biology, 32,139 -155.

17. Attwood T.K, Craning M. D. R, Flower D. R, Lewis A. P , Mabey J. E., Scordis P., Selley J N., Wright W. 2000. PRINTS-S. the database formerly known as PRINTS // Nucleic Acids Res, 28,225-227.

18. Attwood, Т.К., Bradley, P., Flower, D.R., Gaulton, A , Maudling, N., Mitchell, A.L , Moulton, G, Nordle, A., Paine, К, Taylor, P., Uddin, A & Zygoun, C. 2003 PRINTS and its automatic supplement, prePRINTS I/Nucleic Acids Res, 31,400-402.

19. Bachinsky A.G , Yangin A.A., Guseva E H., Kulichkov V A , Nizolenko L.Ph. 1997, A bank of protein family patterns for rapid identification of possible functions of amino acid sequences II Comput Apphc Biosci, 13,115-122

20. Bachinsky A G., Frolov A.N , Naumochkin A. N , Nizolenko L. Ph, Yangin A A 2000, PROFPAT 1.3' Updated database of patterns used to detect local similarities IIBioinformatics, 16,358-366.

21. Bairoch A, Boeckmann В. 1991, The SWISS-PROT protein sequence data bank// Nucleic Acids Res , 19, Suppl. 2247,2247-2249.

22. Bairoch A. 1993, The PROSITE dictionary of sites and patterns in proteins, its current status // Nucleic Acids Res, 21, 3097-3103.

23. Bairoch A, Bucher P. 1994, PROSITE: recent developments// Nucleic Acids Res, 22, 3583-3589.

24. Bairoch A , Apweiler R. 1996, The SWISS-PROT protein sequence data bank and its new supplement TREMBL/ /Nucleic Acids Res, 24, 21-25

25. Baker D. 2006. Prediction and design of macromolecular structures and interactions // Phil Trans R Soc 5,361,459^163

26. Bateman,A., Birney,E, Durbin,R., Eddy,S R, Howe,К L , Sonnhammer,E L L 2000 The Pfam protein families database // Nucleic Acids Res, 28,263-266

27. Bateman A , Birney E, Cerruti L , Durbin R, Etwiller L, Eddy S R, Griffiths-Jones S , Howe К L , Marshall M, Sonnhammer E.L L 2002, The Pfam protein families databassJINucleic Acids Res, 30, 276-280

28. Bateman A , Coin L, Durbin R, Finn R.D., Hollich V., Griffiths-Jones S , Khanna A, Marshall M., Moxon S , Sonnhammer E. L. L , Studholme D J , Yeats C., Eddy S R 2004. The Pfam protein families database // Nucleic Acids Res, 32, D138-D141

29. Berman H M , Westbrook J , Feng Z , Gilliland G., Bhat T.N , Weissig H , Shindyalov IN , Bourne P E. 2000 The Protein Data Bank // Nucleic Acids Res , 28, 235-242

30. Binkowski T A , Naghibzadeh S., Liang J 2003. CASTp: Computed Atlas of Surface Topography of proteins IINucleic Acids Res ,31, 3352-3355.

31. Binkowski T A , Freeman P., Liang J. 2004. pvSOAR- detecting similar surface patterns of pocket and void surfaces of amino acid residues on proteins // Nucleic Acids Res, 32, W555-W558.

32. Bleasby A.J., Akrigg D., Attwood Т. K. 1994. OWL a non-redundant composite protein sequence database.// Nucleic Acids Res, 22, 3574-3577

33. Bork P, Schultz J, Ponting С P 1997, Cytoplasmic signalling domains- the next generation // Trends Biochem Sci, 22, 296-298

34. Bradley, P, Misura, K.M.S., Baker, D. 2005 Toward high-resolution de novo structure prediction for small proteins // Science, 309,1868-1871.

35. Brooksbank C., Cameron G., Thornton J. 2005. The European Bioinformatics Institute's data resources: towards systems biology // Nucleic Acids Res., 33, D46-D53.

36. Bru C., Courcelle E, Carrere S , Beausse Y., Dalmar S., Kahn D 2005. The ProDom database of protein domain families, more emphasis on 3D. // Nucleic Acids Res , 33, D212-D215

37. Buchan D.W, Rison S С, Bray J E, Lee D , Pearl F., Thornton J.M., Orengo C.A. 2003. Gene3D: structural assignments for the biologist and bioinformaticistalikeJ/Nucleic Acids Res ,31,469-473

38. Cai Y , Doig A J 2004, Prediction of Saccharomyces cerevisiae protein functional class from functional domain composition /УBioinformatics 20,1292-1300.

39. Cai С Z , Han L.Y , Ji Z L , Chen Y.Z. 2004 Enzyme family classification by support vector machines // Proteins, 55, 66-76

40. Camon E., Magrane M, Barrell D., Lee V., Dimmer E , Maslen J , Binns D , Harte N., Lopez R, Apweiler R 2004, The Gene Ontology Annotation (GOA) Database sharing knowledge in Uniprot with Gene Ontology.// Nucleic Acids Res, 32, D262-D266.

41. Corpet F , Gouzy J , Kahn D. 1999. Recent improvements of the ProDom database of protein domain families H Nucleic Acids Res, 27,263-267.

42. Dayhoff, M O., Eck,R V , Park C.M. 1972 A Model of Evolutionary Change in Proteins // In Dayhoff, M.O. (ed) Atlas of Protein Sequence and Structure, Silver Spring, MD: National Biomedical Research Foundation, 5,89-99.

43. Dobson P.D., Cai Y D., Stapley В J., Doig A J. 2004 Prediction of protein function in the absence of significant sequence similarity.HCurr Med Chem., 11,2135-2142

44. Dodge C., Schneider R, Sander С. 1998 The HSSP database of protein structure-sequence alignments and family profiles!/Nucleic Acids Res, 26, 313-315

45. Finn R.D , Marshall M, Bateman A. 2005. lPfam: visualization of protein-protein interactions m PDB at domain and amino acid resolutions // Bioinformatics, 21,410412

46. Finn R. D., Mistry J., Schuster-Bockler В., Griffiths-Jones S , Hollich V , Lassmann T, Moxon S., Marshall M., Khanna A., Durbin R, Eddy S R , Sonnhammer ELL, Bateman A. 2006. Pfam: clans, web tools and services /'/Nucleic Acids Res, 34, D247-D251.

47. EddySR 1996 Hidden Markov models.//Current Opinion in Structural Biology 6, 361-365

48. Eddy S. R. 1998 Profile Hidden Markov Models //Bioinformatics, 14, 755-763.

49. Ferre F., Ausiello G., Zanzoni A., Helmer-Citterich M 2004. SURFACE a database of protein surface regions for functional annotation // Nucleic Acids Res , 32, D240-D244

50. Gasteiger E, Gattiker A , Hoogland С , Ivanyi I., Appel R D., Bairoch A. 2003. ExPASy: the proteomics server for in-depth protein knowledge and analysis // Nucleic Acids Res, 31,3784-3788

51. The Gene Ontology Consortium 2000, Gene Ontology tool for the unification of biology //Nat Genet, 25,25-29.

52. George D G , Barker W.C., Hunt L.T. 1986, The protein identification resource (PIR) // Nucleic Acids Res, 14,11-15

53. Glaser, F., Pupko, T, Paz, I, Bell, R E , Bechor-Shental, D., Martz, E., Ben-Tal, N. 2003 ConSurf: identification of functional regions in proteins by surface-mapping of phylogenetic information. IIBioinformatics, 19. 163-164

54. Golovin A., Dimitropoulos D , Oldfield T, Rachedi A and Henrick К 2005 MSDsite A Database Search and Retrieval System for the Analysis and Viewing of Bound Ligands and Active Sites IIProteins Structure, Function, and Biomformatics, 58,190199

55. Gough, J., Karplus, K., Hughey, R, Chothia, С 2001. Assignment of Homology to Genome Sequences using a Library of Hidden Markov Models that Represent all Proteins of Known Structure IIJ Mol Biol., 313,903-919.

56. Gnbskov M, McLachlan AD, Eisenberg D. 1987 Profile analysis1 detection of distantly related proteins Proc Natl Acad Sci U S A, 13,4355-4358

57. Gribskov M., Homyak M., Edenfield J., Eisenberg D. 1988, Profile scanning for three-dimensional structural patterns in protein sequences // Comput Applic Biosci, 4, 61-66.

58. Gutteridge A, Bartlett G.J., Thornton J.M.2003. Using a neural network and spatial clustering to predict the location of active sites in enzymes Л J Mol Biol, 330,719734

59. Haft D.H, Loftus В J, Richardson D L , Yang F , Eisen J A , Paulsen IT , WhiteO 2001. TIGRFAMs: a protein family resource for the functional identification of proteins // Nucleic Acids Res, 29,41-43.

60. Haft D.H , Selengut J D , White O. 2003 The TIGRFAMs database of protein families.// Nucleic Acids Res, 31, 371-373

61. Hanks S К, Quinn A M , Hunter T 1988 The protein kinase family conserved features and deduced phylogeny of the catalytic domains // Science, 241,42-52

62. Hannenhalli S S., Russell R В 2000 Analysis and prediction of functional sub-types from protein sequence alignments IIJ Mol Biol, 303, 61-76

63. Harrison A., Pearl F., Sillitoe I, Slidel T, Mott R., Thornton J M , Orengo C. 2003, Recognising the fold of a protein structure // Bioinformatics, 19,1748-1759

64. Henikoff S , Wallace J С , Brown J P. 1990, Finding protein similarities with nucleotide sequence databases // Methods Enzymol, 183,111-132

65. Henikoff S., Henikoff J G 1991, Automated assembly of protein blocks for database searching // Nucleic Acids Res, 19, 6565-6572

66. Henikoff S., Henikoff J.G. 1992, Amino acid substitution matrices from protein blocks II Proc Natl Acad Set, USA, 89, 10915-10919

67. Henikoff S., Henikoff J G 1994, Protein family classification based on searching a database of blocks // Genomics, 19, 97-107.

68. Henikoff S , Henikoff J G Position-based sequence weights.// J Mol Biol 1994. 243, 574-578

69. Henikoff S , Henikoff J.G., Alford W.J., Pietrokovski S 1995, Automated construction and graphical presentation of protein blocks from unaligned sequences // Gene, 163, GC17-26

70. Henikoff J G , Greene E.A., Pietrokovski S , Henikoff S. 2000. Increased coverage of protein families with the blocks database servers // Nucl Acids Res., 28, 228-230.

71. Higgins D G, Bleasby A.G, Fuch R. 1992, CLUSTAL V: Improved software for multiple sequence alignment.// Comput Applic Biosci, 8,189-191.

72. Higgins D , Taylor W 2000, Bioinformatics Sequence, Structure, and Databanks a Practical Approach (Practical Approach Series). // Oxford Univ Pr 270 pp.83.

73. Holm L, Sander C. 1993, Protein structure comparison by alignment of distance matrices // J Mol Biol ,233,123-138

74. Huang J Y, Brutlag LB 2001 The EMOTIF database.// Nucleic Acids Res, 29,2224.

75. Huang H, Barker W.C., Chen Y., Wu С. H. 2003. iProClass an integrated database of protein family, function and structure information // Nucleic Acids Res ,31, 390-392.

76. Hulo N., Bairoch A , Bulliard V , Cerutti L , De Castro E ,Langendijk-Genevaux P.S., Pagni M., Sigrist C.J A 2006. The PROSITE database //Nucleic Acids Res, 34, D227-D230

77. Ivanisenko V A., Pintus S S , Gngorovich D A, Kolchanov N A. 2004. PDBSiteScan a program for searching for active, binding and posttranslational modification sites in the 3D structures of proteins // Nucleic Acids Res, 32, W549-W554.

78. Jambon M, Imberty A., Deleage G., Geourjon С 2003 A new bioinformatic approach to detect common 3D sites in protein structures // Proteins, 52,137-145.

79. Jones S., van Heyningen P., Berman, H.M., Thornton, J M 1999, Protein-DNA Interactions A structural analysis IIJMol Biol, 287, 877-896.

80. Karp P.D., Riley M, Paley S M., Pelligrini-Toole A. 1996. EcoCyc an encyclopedia of Escherichia coli genes and metabolism 11 Nucleic Acids Res, 24, 32-39

81. Karplus K, Barrett C, Hughey R 1988. Hidden Markov models for detecting remote protein homologies.//Biomformatics, 146, 846-856

82. Karplus К, Karchin R., Barrett С , Tu S , Clme M., Diekhans M, Grate L , Casper J , Hughey R 2001. What is the value added by human intervention in protein structure prediction // Proteins, 45 Suppl. 5, 86-91.

83. Kleywegt G J 1999 Recognition of spatial motifs in protein structures HJ Mol Biol, 285,1887-1897

84. Kopp J., Schwede T, 2004 The SWISS-MODEL Repository of annotated three-dimensional protein structure homology models //Nucleic Acids Res , 32, D230-D234

85. Krissinel E, Henrick K. 2004, Secondary-structure matching (SSM), a new tool for fast protein structure alignment in three dimensions.// Acta Crystallogr D Biol Crystallogr, D60, 2256-2268

86. Krogh,A , Brown,M , Mian,I.S., Sjolander,K., Haussler,D 1994 Hidden markov models in computational biology. Applications to protein modeling // J Mol Biol, 235,1501-1531.

87. Lander E.S , Linton L M , Birren В., Nusbaum C., Zody M С , et al., 2001, Initial sequencing and analysis of the human genome.//Nature 409, 860-921

88. LaskowskiR A. 1995 SURFNET: A program for visualizing molecular surfaces, cavities and intermolecular interactions.// J Mol Graph , 13, 323-330

89. Laskowski R. A., Watson J D, Thornton J. M. 2005 ProFunc. a server for predicting protein function from 3D structure // Nucleic Acids Res , 33, W89-W93.

90. Lipman DJ, Pearson WR. 1985, Rapid and sensitive protein similarity searches // Science, 227, 1435-1441.

91. Madej Т., Gibrat J F., Bryant S.H. 1995, Threading a database of protein cores // Proteins, 23, 356-369

92. Madera M., Vogel С , Kummerfeld S K., Chothia С , Gough J. 2004. The SUPERFAMILY database in 2004: additions and Improvements // Nucleic Acids Res, 32, D235-D239.

93. Marti-Renom M A, Stuart A., Fiser A., Sanchez R., Melo F., Sali A 2000 Comparative protein structure modeling of genes and genomes. HAnnu Rev Biophys Biomol Struct ,29,291-325

94. Mi H, Lazareva-Ulitsky В., Loo R, Kejanwal A , Vandergnff J., Rabkin S , Guo N , Muruganujan A, Doremieux О , Campbell M J., Kitano H , Thomas P D , 2005. The PANTHER database of protein families, subfamilies, functions and pathways.

95. Nucleic Acids Res, 33, D284-D288

96. Miguel R N 2004. Sequence patterns derived from the automated prediction of functional residues in structurally-aligned homologous protein families. // Bioinformatics, 20,2380-238

97. С J A, Vaughan R, Zdobnov E M 2003, The InterPro Database, 2003 brings increased coverage and new features // Nucl Acids Res., 31,315-318

98. Murzin,A , Brenner,S.E, Hubbard,T.J.P. and Chothia,C. 1995. SCOP-a Structural Classification of Proteins database for the investigation of sequences and structures // J Mol Biol, 247, 536-540

99. Needleman S В , Wunsh С D 1970, A general method applicable to the search for similarities in the amino acid sequence of two proteins // J Mol Biol, 48,443-453

100. Nizolenko L Ph, Bachmsky A.G, Naumochkin A.N., Yarigin A A., Grigorovich D.A. 2003, Database of patterns PROFPAT for detecting local similarities // In Silico Biology, 3,205-213.

101. Novotny M, Madsen D , Kleywegt G J. 2004 Evaluation of protein fold comparison servers // Proteins, 54,260-270

102. Ogiwara A, Uchiyama L, Seto Y., Kanehisa M. 1992, Construction of a dictionary of sequence motifs that characterize groups of related proteins // Protein Engineering, 5, 479-488

103. Orcutt, B.C, George, D.G., Dayhoff, MO 1983, Protein and Nucleic Acid Sequence Database Systems // Annu Rev Biophys Bioeng., 12, 419-441.

104. Orengo С , Michie A , Jones S , Jones D., Swindells M , Thornton J 1997 CATH a hierarchic classification of protein domain structures J/Structure, 5, 1093-1108

105. Pagel P., Kovac S , Oesterheld M., Brauner В., Dunger-Kaltenbach I., Frishman G., Montrone С , Mark P, Stumpflen V , Mewes H.W , Ruepp A , Frishman D 2005 The MIPS mammalian protein-protein interaction database //Bioinformatics, 21, 832-834

106. Pal D , Eisenberg D. 2005. Inference of protein function from protein structure // Structure, 13:1-10

107. Patthy L 1987, Detecting homology of distantly related proteins with consensus sequences// J Mol Biol, 198, 567-577.

108. Pearson W R, Lipman D J. 1988. Improved tools for biological sequence comparison // Proc Natl Acad Sci U S A, 85, 2444-2448

109. Perez A J., Rodr iguez A , Trelles О , ThodeG 2002. A computational strategy for protein function assignment which addresses the multidomain problem HComp Funct Genom, 3, 423^40

110. Petrey D., Honig В 2005. Protein Structure Prediction: Inroads to Biology // Molecular Cell, 20, 811-819 Pietrokovski,S 1996. Searching databases of conserved sequence regions by aligning protein multiple-alignments // Nucleic Acids Res, 24, 3836-3845

111. Pongor S., Skerl V , Cserzo M.,Hatsagi Z , Simon G, Bevilacqua V. 1993. The SBASE protein domain library, release 2 0- a collection of annotated protein sequence segments //Nucleic Acids Res ,21,3111-3115.

112. Pongor S , Hatsagi Z, Degtyarenko K., Fabian P., Skerll V.,Hegyi H , Murvai J , Bevilacqua V. 1994. The SBASE protein domain library, release 3 0a collection of annotated protein sequence segments // Nucleic Acids Res , 17,3610-3615

113. Ponting CP, Schultz J, Milpetz F, Bork P 1999. SMART: identification andannotation of domains from signalling and extracellular protein sequences // Nucleic Acids Res, 27,2292-2232

114. Porter C.T, Bartlett G J , Thornton J M. 2004. The Catalytic Site Atlas a resource of catalytic sites and residues identified in enzymes using structural data // Nucl Acids Res., 32, D129-D133

115. Rohl С A . Strauss С Ь M , Misura К M S , Baker D 2004 Protein structure prediction using rosetta // Melh Enzym ,383, 66-93

116. Rost В 2002, Enz>me function less conserved than anticipated // Journal of Molecular Biology 318. 595-608Sankoff D. 1972, Matching sequences under deletion-insertion constraints // Proc Natl Acad Sci USA, 69,4-6.

117. Sadreyev,R I, Gnshin,N V. 2003 COMPASS: a tool for comparison of multiple protein alignments with assessment of statistical significance // J Mol Biol, 326, 317-336

118. Shanahan HP, Garcia MA, Jones S, Thornton JM 2004, Identifying DNA-binding proteins using structural motifs and the electrostatic potential // Nucleic Acids Res, 32, 4732-4741

119. Shrager J 2003, The fiction of function.// Bioinformatics, 19,1934-1936

120. Shindyalov I.N., Bourne P E 1998, Protein structure alignment by incremental combinatorial extension (CE) of the optimal path // Protein Eng ,11, 739-747.

121. Schueler-Furman O., Wang С , Bradley Ph., Misura К, Baker D. 2005. Progress in Modeling of Protein Structures and Interactions // Science, 310, 638-642

122. Schultz,J., Milpetz,F., Bork,P., Ponting,C P 1998 SMART, a Simple Modular Architecture Research Tool: identification of signaling domains // Proc Natl Acad Sci USA, 95,5857-5864.

123. Sjolander К 2004 Phylogenomic inference of protein molecular function advances and challenges.// Bioinformatics, 20,170-179.

124. Smith TF., Waterman MS 1981 Identification of common molecular subsequences IIJ Mol Biol. 147:195-197

125. Smith R F, Smith T F 1990, Automatic generation of primary sequence patterns from sets of related protein sequences // Proc Natl Acad Sci USA, 87, 118-122

126. Smith,H.O., Annau,T.M., Chandrasegaran,S 1990. Finding sequence motifs in groups of functionally related proteins 11 Proc Natl Acad Sci USA, 87,826-830

127. Soding J. 2004. Protein homology detection by HMM-HMM comparison. Bioinformatics, 21, 951-960

128. Sonnhammer E.L.L, Kahn D. 1994. Modular arrangement of proteins as inferred from analysis of homology // Protein Sci, 3,482-492.

129. Sonnhammer,E L.L , Eddy,S.R, Durbin,R. 1997. Pfam: a comprehensive database of protein domain families based on seed alignments. // Proteins, 28,405^120.

130. Sonnhammer ELL, Eddy S R , Birney E , Bateman A, Durbin R 1998, Pfam multiple sequence alignments and HMM-profiles of protein domains // Nucleic Acids Res, 26, 320-322

131. Srinivasarao GY, Yeh LS, Marzec CR, Orcutt ВС, Barker WC 1999 PIR-ALN" a database of protein sequence alignments IIBioinformatics, 15, 382-390

132. Stain L 2001 Genome annotation: from sequence to biology // Nature Reviews, 2, 493-503.

133. Sternberg M J. 1996 Protein Structure Prediction: A Practical Approach // Oxford University Press, 320 pp.

134. Stark A , Shkumatov A , Russell R.B. 2004 Finding functional sites in structural genomics proteins // Structure, 12,1405-1412.

135. Todd A.E , Orengo C.A., Thornton J M (2001) Evolution of protein function, from a structural perspective IIJ Mol Biol, 307,1113-1143

136. Tsuchiya Y, Kinoshita К, Nakamura H , 2005, PreDs a server for predicting dsDNA-binding site on protein molecular surfaces // Bioinformatics, 21,1721-1723

137. Vinayagam A., Konig R., Moorman J., Schubert F , Eils R, Glatting K-H., Suhai S 2004. Applying support vector machines for Gene Ontology based gene function prediction // BMC Bioinformatics, 5,116.

138. Vlahovicek К, Kajan L , Agoston V , Pongor S. 2005. The SBASE domain sequence resource, release 12 prediction of protein domain-architecture using support vector machines // Nucleic Acids Res, 33, D223-D225.

139. Vogt G. Etzold Th, Argos P 1995, An assessment of amino acid exchange matrices in aligning protein sequences: the twilight zone revisited. IIJ Mol Biol 246, 816-831

140. Wallace J.C., Henikoff S 1992, PATMAT: a searching and extraction program for sequence, pattern and block queries and databases/// Comput Appl Biosci, 8,249254.

141. Wallace A.C.; Laskowski R A.; Thornton J.M. 1996, Derivation of 3D coordinate templates for searching structural databases: Application to the Ser-His-Asp catalytic triads of the serine proteinases and lipases // Protein Science, 5,1001-1003.

142. Wangikar P.P., Tendulkar A.V, Ramya S , Mali D N., Sarawagi S. 2003. Functional sites in protein families uncovered via an objective and automated graph theoretic approach l/JMol Biol, 326, 955-978

143. Watterman M S., Arratia R, Galas D.J. 1984, Pattern recognition in several sequences1 consensus and alignment 11 Bull Math Biol, 46, 515-527.

144. Watson J D , Laskowski R A., Thornton J.M. Predicting protein function from sequence and structural data //Current Opinion in Structural Biology, 2005, 15, 275284.

145. Whisstock J C., Lesk A M 2003, Prediction of protein function from protein sequence and structure HQ Rev Biophys, 36, 307-340

146. Wilson С A, Kreychman J , Gerstein M. (2000) Assessing annotation transfer for genomics quantifying the relations between protein sequence, structure and function through traditional and probabilistic scores // J Mol Biol, 297,233-249.

147. Wu С H , Zhao S , Chen H.L 1996 A protein class database organized with ProSite protein groups and PIR superfamilies // J Comput Biol, 3, 547-561.

148. Wu С H , Huang H, Nikolskaya A, Hu Z, Barker W.C. 2004b The iProClass integrated database for protein functional analysis H Comput Biol and Chem, 28, 87-96

149. Yao H, Kristensen DM, Mihalek I, Sowa ME, Shaw C, Kimmel M, Kavraki L, Lichtarge 0. 2003. An accurate, sensitive and scalable method to identify functional sites in protein structures IIJ Mol Biol, 334, 387-401

150. Yona G , Levitt M. 2002 Within the twilight zone a sensitive profile-profile comparison tool based on information theory//. J Mol Biol ,315,1257-1275

151. Zhu J., Weng Z. 2005, FAST, a novel protein structure alignment algorithm // Proteins, 58,618-627.

Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.

Оглавление диссертации кандидат биологических наук Низоленко, Лилия Филипповна

Рекомендованный список диссертаций по специальности «Молекулярная биология», 03.00.03 шифр ВАК

Влияние точечных аминокислотных замен на структуру и и функции белков2001 год, кандидат физико-математических наук Раменский, Василий Евгеньевич

Алгоритмы сравнительного анализа первичных структур биополимеров2009 год, доктор физико-математических наук Ройтберг, Михаил Абрамович

Введение диссертации (часть автореферата) на тему «Банк образов белковых семейств Prof-pat для быстрой идентификации аминокислотных последовательностей»

Похожие диссертационные работы по специальности «Молекулярная биология», 03.00.03 шифр ВАК

Компьютерный анализ закономерностей кодирования функциональных сайтов белков в генах позвоночных2014 год, кандидат наук Медведева, Ирина Вадимовна

Заключение диссертации по теме «Молекулярная биология», Низоленко, Лилия Филипповна

Список литературы диссертационного исследования кандидат биологических наук Низоленко, Лилия Филипповна, 2007 год