Выявление взаимосвязанных белков методами анализа геномов тема диссертации и автореферата по ВАК РФ 03.00.28, кандидат биологических наук Пятницкий, Михаил Алексеевич

  • Пятницкий, Михаил Алексеевич
  • кандидат биологических науккандидат биологических наук
  • 2009, Москва
  • Специальность ВАК РФ03.00.28
  • Количество страниц 119
Пятницкий, Михаил Алексеевич. Выявление взаимосвязанных белков методами анализа геномов: дис. кандидат биологических наук: 03.00.28 - Биоинформатика. Москва. 2009. 119 с.

Оглавление диссертации кандидат биологических наук Пятницкий, Михаил Алексеевич

СПИСОК СОКРАЩЕНИЙ.

ВВЕДЕНИЕ.

1. ОБЗОР ЛИТЕРАТУРЫ.

1.1 Молекулярная и контекстная функция белка.

1.2 Метод "розеттского камня" и анализ генных кластеров.

1.3 Метод филогенетических профилей.

1.4 Сравнение точности методов сравнительной геномики.

1.5 поиск логических взаимоотношений МЕЖДУ фп.

2. МАТЕРИАЛЫ И МЕТОДЫ.

2.1 Исходные данные.

2.2 Предсказание групп взаимосвязанных белков.

2.3 Сравнение кластеризации белков.

2.4 Оценка оптимального количества кластеров.

2.5 Построение филогенетического дерева.

2.6 Логическая регрессия.

2.7 Программное и аппаратное обеспечение.

3. РЕЗУЛЬТАТЫ И ОБСУЖДЕНИЕ.

3.1 анализ распределений расстояний между филогенетическими профилями.

3.2 определение оптимального набора референтных геномов.

3.4 определение оптимальных параметров для кластеризации ФП.

3.5 Предсказание состава известных метаболических путей методом ФП.

3.6 Предсказание групп взаимосвязанных белков de novo.

3.7 Поиск логических взаимосвязей между ФП белков.

Рекомендованный список диссертаций по специальности «Биоинформатика», 03.00.28 шифр ВАК

Введение диссертации (часть автореферата) на тему «Выявление взаимосвязанных белков методами анализа геномов»

Одной из важнейших задач современной биологии является выявление белков, которые либо физически взаимодействуют между собой (например, являются субъединицами белкового комплекса), либо взаимосвязаны функционально (участвуют в одних и тех же метаболических или регуляторных путях). Определение таких белков позволит идентифицировать белковые взаимодействия, отвечающие за различные клеточные процессы, а также выявить возможные пути развития патологических состояний на молекулярном уровне. Для выявления белок-белковых взаимодействий применяются многочисленные экспериментальные методы: коиммунопреципитация [Masters S., 2004], белковые чипы [Kerschgens J. et al., 2009], масс-спектрометрия [Arifuzzaman M. et al., 2006] и т.д.

Исследование взаимосвязанных белков в настоящее время особенно актуально благодаря успехам крупномасштабных проектов по секвенированию геномов различных организмов, что революционизировало современную биологию [Mushegian А., 2007]. В настоящее время данные о первичной структуре большинства белков получают путем трансляции соответствующих генов in silico, вместо непосредственного определения последовательности аминокислот.

Уже накоплены сведения о последовательностях геномов более тысячи организмов. При этом широко употребляющийся термин "расшифровка генома" не отражает реальность, поскольку знание последовательности ДНК само по себе не несет в явном виде информации о роли этого гена и кодируемого им белка в функционировании клетки. Для определения функции белка необходимы трудоемкие экспериментальные исследования. Проведение таких работ является отчасти искусством, в то время как секвенирование геномов — это хорошо отработанная технология. Поэтому основной проблемой, стоящей перед постгеномной биоинформатикой, можно считать наиболее рациональное использование имеющегося массива данных о секвенированных геномах для предсказания функций белков и выявления взаимосвязей между белками, обеспечивающих ключевые клеточные процессы.

Для решения подобных задач были созданы вычислительные методы, предсказывающие функции белка и взаимосвязи между белками. В дополнение к традиционному прогнозированию функции белка на основании гомологии, в течение последних лет добавились методы, опирающиеся на данные сравнительной геномики. Для поиска взаимосвязей между белками используются контекстные свойства генов - распределение гомологов в ряду организмов [Pellegrini М. et al., 1999], положение и относительный порядок следования генов на хромосоме [Overbeek R. et al, 1999b], частота слияний генов [Marcotte С., Marcotte Е., 2002]. Подобные методы называются контекстно-ориентированными, поскольку используемые свойства генов имеют смысл лишь при их одновременном сравнительном изучении в ряду геномов, то есть в определенном контексте. Анализ контекстных свойств гена показывает, что геном и совокупность геномов представляют собой особый тип данных, который нельзя сводить к простому сочетанию последовательностей генов [Koonin Е., Galperin М., 2003].

Для предсказания групп взаимосвязанных белков в работе использовали метод филогенетических профилей (ФП), согласно которому функционально взаимосвязанные белки также связаны и эволюционно [Pellegrini М. et al., 1999]. Данный метод использует интуитивно понятную идею, а также относительно прост в реализации. В методе ФП предполагается, что гены, кодирующие взаимодействующие белки, либо совместно наследуются вновь образованным видом, либо элиминируются естественным отбором, то есть являются ко-эволюционирующими. Каждый белок изучаемого организма характеризуется бинарным вектором (профилем), определяющим наличие гомолога гена, кодирующего данный белок, в ряду других геномов (т.н. референтных геномов). При наличии достаточного количества референтных геномов, каждая пара взаимосвязанных белков, входящих в структурный комплекс или метаболический путь, будет иметь схожие ФП.

Предложены различные модификации основной идеи метода ФП. В большинстве работ используется единый методический подход: на первом этапе вводится метрика, определяющая взаимосвязь между парой белков как функцию сходства их филогенетических профилей. Затем выбирается определенное значение метрики (порог), и все пары белков, для которых метрика выше порога, считаются взаимосвязанными. Результаты работы алгоритма сравниваются с одной из баз данных (БД) по взаимодействующим белкам: оценивается количество ложнопозитивных и ложнонегативных предсказаний.

В данной работе используется более общий подход, ориентированный на поиск групп взаимосвязанных белков, называемых также функциональными белковыми модулями [Snel В., Huynen М., 2004]. Предсказание функциональных модулей производится путем кластерного анализа матрицы расстояний между ФП белков. Поиск функциональных белковых модулей представляется более осмысленным по сравнению с предсказанием пар взаимодействующих белков, поскольку, связывая системную и молекулярную биологию, позволяет раскрывать контекст предсказанных взаимосвязей [Chen J., Yuan В., 2006; Vinogradov А., 2008] и прогнозировать функции неохарактеризованных белков [Dittrich М. etal., 2008].

Для применения модульного подхода к поиску функционально связанных белков необходимо выбрать параметры, влияющие на результаты работы метода ФП. Таковыми параметрами являются: набор референтных геномов, метод кластерного анализа и способ вычисления сходства между ФП. Для достижения максимальной точности предсказания функциональных белковых модулей необходимо подобрать оптимальные значения этих параметров.

Важным этапом работы являлся выбор способа проверки и верификации предсказанных групп взаимосвязанных белков, поскольку в литературе отсутствует общепринятая методика. Алгоритмы предсказания групп взаимосвязанных белков предложено сопоставить с точки зрения задачи о сравнении разбиений [Gan G. et al, 2007]. В этом случае, заданное экспертами "истинное" группирование взаимосвязанных белков сравнивается с результатами работы алгоритма. Таким образом, появляется возможность количественно сопоставлять различные подходы к предсказанию взаимосвязанных белков. Этот подход также позволяет учитывать возможность принадлежности белков к нескольким функциональным модулям и автоматически находить оптимальное количество таких модулей.

В качестве источника "корректных" групп взаимосвязанных белков использовали метаболические пути микроорганизмов из БД KEGG [http://www.genome.jp/kegg]. Сравнивая состав предсказанных групп взаимосвязанных белков с составом метаболических путей, определяли оптимальные параметры метода ФП.

В то же время можно представить ситуацию, когда информация о составе метаболических путей и их количестве недоступна или недостоверна, например, при изучении организма с вновь секвенированным геномом. Возникает вопрос, можно ли использовать данные о ФП для предсказания оптимального количества метаболических путей и будут ли биологически осмысленными полученные группы белков. Для решения этой задачи в работе использовали индексы, оценивающие полученное группирование белков без привлечения дополнительных источников информации.

Принципиально новый подход к поиску взаимосвязей между белками был описан в работе [Bowers P. et al., 2004а], в которой предлагается использовать логические операции для выявления более сложных ассоциаций между белками, нежели простое сходство на уровне ФП. Однако, Bowers et al. провели логический анализ только для троек ФП, а использованный метод не мог быть обобщен на большее количество белков. В настоящей работе для поиска ассоциаций более высокого порядка предложено использовать математический аппарат логической регрессии [Ruczinski I. et al., 2003], свободный от вышеуказанных недостатков.

Таким образом, целью работы явилось выявление групп взаимосвязанных белков E.coli К12 и M.tuberculosis H37Rv путем сравнения соответствующих филогенетических профилей, отражающих закономерности наследования генов в ряду прокариотических организмов.

Для этого необходимо последовательно решить следующие задачи:

1. Определить численные критерии для оценки соответствия состава предсказанных групп взаимосвязанных белков и метаболических путей БД KEGG.

2. Исследовать степень соответствия между кластеризацией ФП белков E.coli К12 и распределением белков по разделам БД KEGG в зависимости от набора референтных геномов, метода кластерного анализа и способа расчета различий между ФП. Предсказать группы взаимосвязанных белков E.coli К12, используя найденные оптимальные параметры метода ФП.

3. Оценить количество групп взаимосвязанных белков M.tuberculosis H37Rv, используя данные о ФП белков. Предсказать группы взаимосвязанных белков M.tuberculosis H37Rv путем кластеризации ФП на оцененное число групп.

4. Выявить дополнительные группы белков M.tuberculosis H37Rv, взаимосвязи внутри которых определяются наличием устойчивых логических отношений между ФП.

В качестве объекта исследования были выбраны геномы микроорганизмов E.coli К12 и M.tuberculosis H37Rv. Такой выбор объясняется тем, что для подбора оптимальных параметров при выявлении взаимосвязанных белков требуется сравнение с уже известными данными о функциональных аннотациях белков и сведения о распределении белков по известным метаболическим путям. Кишечная палочка является наиболее популярным из модельных микроорганизмов, а ее протеом изучен в тысячах экспериментальных работ. Поэтому изучение и оптимизация параметров метода ФП были проведены для белков E.coli К12.

Туберкулезная микобактерия была выбрана для применения оптимизированной методики, в связи с большой социальной и медицинской значимостью данного микроорганизма. В настоящее время важнейшей проблемой является борьба с высокорезистентными к антибиотикам штаммами M.tuberculosis, а поиск групп взаимосвязанных белков может указать на новые потенциальные белки-мишени для противотуберкулезных препаратов.

За последние 10 лет область вычислительного предсказания функции генов и белков активно развивается [Barker D. et al., 2007; Wu J. et al., 2006]. Важнейшим стимулом для развития является выполнение высокопроизводительных экспериментов, в первую очередь проектов по секвенированию полных геномов. Если первые геномы (Haemophilus influenzae, Mycoplasma pneumonia) аннотировались в основном экспертами [Fleischmann R. et al., 1995; Himmelreich R. et al1996], то в настоящее время первичная разметка вновь секвенированных геномов и предсказание функций генов осуществляется автоматически. При этом неизбежно возникает необходимость в автоматической же проверке и уточнении сделанных аннотаций [Artamonova I. et al2007]. Можно утверждать, что работы по определению взаимосвязанных генов и белков методами in silico будут крайне востребованы в обозримом будущем.

1. ОБЗОР ЛИТЕРАТУРЫ

Белковые взаимодействия определяют большинство процессов в клетке [Gavin A. et al., 2006; Li S. et al., 2004]. Реконструкция и изучение сетей взаимосвязанных белков позволяет систематизировать представления о молекулярных механизмах биологических процессов. Функция белка наиболее полно раскрывается в контексте его структурно-функциональных взаимодействий с другими белками: субъединицами, если белок является компонентом молекулярного комплекса, либо участниками биохимического процесса, если белок участвует в метаболическом пути или внутриклеточной передаче сигнала [Gabaldon Т., Huynen М., 2004; Huynen М. et al., 2003]. Исследование белок-белковых взаимодействий позволит лучше понять физиологию и патологию клетки, а в конечном итоге — всего организма.

Изучение взаимосвязанных белков сейчас особенно актуально благодаря успехам крупномасштабных проектов по секвенированию геномов различных организмов, что революционизировало современную биологию. В настоящее время данные о первичной структуре большинства белков получают путем in silico трансляции соответствующих генов, вместо прямого определения последовательности аминокислот, например, методом Эдмана.

Однако само по себе знание первичной структуры биополимера - это только начало определения его биологической значимости, раскрывающейся при добавлении биологических фактов в процессе аннотации последовательности. Словарь Webster определяет аннотацию как "заметку, добавленную при комментировании или объяснении". В базах данных по биологическим последовательностям такие аннотации обычно содержат информацию о клеточной роли и механизмах действия генов и их продуктов. Однако, для определения функции белка необходимы трудоемкие экспериментальные исследования. Проведение таких работ является отчасти искусством, в то время как секвенирование геномов — это хорошо отработанная технология. На момент написания литературного обзора полностью секвенированны 869 геномов бактерий, 64 генома архей и 114 геномов эукариот [http://ncbi.nlrn.nih.gov/genbank]. При этом в настоящее время продолжаются проекты по секвенированию 2631 геномов бактерий, 97 геномов архей и 1049 геномов эукариот (по данным ресурса www.genomesonline.org).

Парадоксальность ситуации состоит в том, что объем получаемых данных намного больше того, который можно осмыслить, проверить и исследовать в эксперименте. Таким образом, увеличивается разрыв между получением биологических последовательностей (генов и белков) и определением функций этих последовательностей.

Обозначившееся отставание определения функции последовательностей от процесса их секвенирования возможно преодолеть развитием методов, которые позволят проводить функциональную аннотацию всех генов в геноме за приемлимое время. При этом возникает альтернатива между медленным и надежным аннотированием последовательностей экспертами-биологами и быстрым, но подверженным ошибкам, аннотированием с помощью полностью автоматизированных программных систем.

На протяжении 80-х и 90-х годов молекулярно-биологическое сообщество полагалось на высоко достоверные аннотации белков, которые разрабатывали относительно небольшие группы экспертов в процессе тщательного анализа опубликованных экспериментальных данных. В настоящее время ситуация в корне изменилась. Изучение записей в БД по биологическим последовательностям показывает, что для большинства последовательностей их аннотации были получены автоматическими методами. По данным системы RefSeq [http://www.ncbi.nlm.nih.gov/RefSeq/] от 1 мая 2009 года, всего 3,2% белков из БД было обработано экспертом для проверки качества автоматической функциональной аннотации. Близкие результаты дает и БД SwissProt [http://www.expasy.org/sprot/] — только для 6,6% функциональных аннотаций белков была проведена экспертиза. С течением времени доля проверенных специалистами аннотаций неуклонно уменьшается. В связи с экспоненциальным ростом потока данных о последовательностях (удвоение примерно каждые 18 месяцев), экспертам все больше приходится полагаться на предсказание функций методами in silico. В сложившейся ситуации совершенствование методов крупномасштабного автоматического аннотирования биологических последовательностей приобретает все большую значимость.

Похожие диссертационные работы по специальности «Биоинформатика», 03.00.28 шифр ВАК

Заключение диссертации по теме «Биоинформатика», Пятницкий, Михаил Алексеевич

5. ВЫВОДЫ

1. Показано, что для оценки соответствия состава предсказанных кластеров взаимосвязанных белков и метаболических путей БД KEGG можно использовать внешние индексы для сравнения разбиений: расстояние между матрицами принадлежности и индекс Рэнда.

2. Наилучшее соответствие состава кластеров белков E.coli К12 данным БД KEGG достигается при использовании 150 референтных геномов, кластеризации методом РАМ и взаимной информации как меры расстояния между ФП. Степень соответствия в большей степени зависит от меры расстояния, чем от способа кластеризации.

3. Внутренние индексы для оценки кластеризаций можно использовать для предсказания количества групп взаимосвязанных белков, опираясь исключительно на данные о ФП. Кластеризация ФП на оцененное количество групп, позволяет предсказывать физические и функциональные взаимосвязи между белками M.tuberculosis.

4. Метод логической регрессии позволяет выявлять взаимосвязи между белками, которые отличаются от результатов кластеризации ФП. Для белков M.tuberculosis выявили 991 логическую взаимосвязь, выполнявшуюся для всех референтных геномов.

4. ЗАКЛЮЧЕНИЕ

Метод ФП достаточно давно используется при решении задач сравнительной геномики [Pellegrini М. et al., 1999]. В заключение, хотелось бы еще раз подчеркнуть основные особенности данной работы.

Во-первых, задача выявления взаимосвязанных белков решалась не для пары белков, как это обычно проводится в работах, а путем поиска групп белков (функциональных модулей). Выявление таких групп взаимосвязанных белков осуществляли с помощью кластерного анализа матрицы ФП.

Во-вторых, провели систематический анализ методических аспектов задачи о нахождении групп взаимосвязанных белков. Для изучения влияния параметров метода ФП, использовали сравнение получаемых кластеризаций с данными БД KEGG. В результате, с помощью внешних индексов, определили параметры метода ФП, при которых достигалось наилучшее соответствие составов метаболических путей БД KEGG и найденных групп белков.

В-третьих, было показано, что возможно предсказывать количество функциональных белковых модулей, опираясь исключительно на данные о ФП. Для этого в работе изучали зависимость поведения внутренних индексов оценки кластеризаций от количества кластеров. Кластеризация ФП на определенное таким образом количество групп, позволяет предсказать как физические взаимодействия, так и функциональные взаимосвязи между белками.

Наконец, как альтернативу кластерному анализу, в работе впервые применили логическую регрессию для данных о ФП. Суть этого подхода состоит в поиске логических закономерностей среди ФП, когда присутствие в геноме одного гена может быть предсказано, используя наличие или отсутствие в геноме некоторого набора других генов (предикторов). Полученные группы логически ассоциированных белков имеют биологический смысл и позволяют выдвигать новые гипотезы о взаимосвязях между белками в клетке.

Список литературы диссертационного исследования кандидат биологических наук Пятницкий, Михаил Алексеевич, 2009 год

1. Altschul S.F., et al. (1997) Gapped BLAST and PSI-BLAST: a new generation of protein database search programs. //Nucleic Acids Res. 25: P.3389-3402.

2. Aravind L., Watanabe H., Lipman D.J., Koonin E.V. (2000) Lineage-specific loss and divergence of functionally linked genes in eukaryotes. //Proc. Natl. Acad. Sci. USA 97: P.l 1319-11324.

3. Archakov A.I., et al (2003) Protein-protein interactions as a target for drugs in proteomics. //Proteomics 3: P.380-391.

4. Arifuzzaman M., et al (2006) Large-scale identification of protein-protein interaction of Escherichia coli K-12. //Genome Res. 16: P.686-691.

5. Artamonova I.I., Frishman G., Frishman D. (2007) Applying negative rule mining to improve genome annotation. //BMC Bioinformatics 8: P.261.

6. Ashburner M., et al (2000) Gene ontology: tool for the unification of biology. The Gene Ontology Consortium. //Nat. Genet. 25: P.25-29.

7. Bader J.S., Chaudhuri A., Rothberg J.M., Chant J. (2004) Gaining confidence in high-throughput protein interaction networks. //Nat. Biotechnol. 22: P.78-85.

8. Barker D., Meade A., Pagel M. (2007) Constrained models of evolution lead to improved prediction of functional linkage from correlated gain and loss of genes. //Bioinformatics 23: P. 14-20.

9. Barker D., Pagel M. (2005) Predicting functional gene links from phylogenetic-statistical analyses of whole genomes. //PLoS Comput. Biol. 1: Р.еЗ.

10. Berggard Т., Szczepankiewicz O., Thulin E., Linse S. (2002) Myo-inositol monophosphatase is an activated target of calbindin D28k. //J. Biol. Chem. 277: P .4195441959.

11. Bowers P.M., Cokus S.J., Eisenberg D., Yeates Т.О. (2004a) Use of logic relationships to decipher protein network organization. //Science 306: P.2246-2249.

12. Bowers P.M., etal (2005) Utilizing logical relationships in genomic data to decipher cellular processes. //FEBS J 272: P.5110-5118.

13. Bowers P.M., et al (2004b) Prolinks: a database of protein functional linkages derived from coevolution. //Genome Biol. 5: P.1-35.

14. Brown A.K., etal (2007) Dimerization of inositol monophosphatase Mycobacterium tuberculosis SuhB is not constitutive, but induced by binding of the activator Mg2+. //BMC Struct Biol 7: P. 1-55.

15. Camacho L.R., et al (2001) Analysis of the phthiocerol dimycocerosate locus of Mycobacterium tuberculosis. Evidence that this lipid is involved in the cell wall permeability barrier. //J. Biol. Chem. 276: P.19845-19854.

16. Campuzano V., et al. (1996) Friedreich's ataxia: autosomal recessive disease caused by an intronic GAA triplet repeat expansion. //Science 271: P. 1423-1427.

17. Chang G.S., et al. (2008) Phylogenetic profiles reveal evolutionary relationships within the "twilight zone" of sequence similarity. //Proc. Natl. Acad. Sci. USA 105: P.13474-13479.

18. Chen J., Yuan B. (2006) Detecting functional modules in the yeast protein-protein interaction network. //Bioinformatics 22: P.2283-2290.

19. Chen O.S., Hemenway S., Kaplan J. (2002) Inhibition of Fe-S cluster biosynthesis decreases mitochondrial iron export: evidence that Yfhlp affects Fe-S cluster synthesis. //Proc. Natl. Acad. Sci. USA 99: P.12321-12326.

20. Cole S.T., Eisenach K.D., McMurray D.N., Jacobs W.R. (2005) Tuberculosis and the Tubercle Bacillus, ASM Press: Washington, DC.

21. Collado-Vides J., Hofestdt R. (2002) Gene regulation and metabolism : postgenomic computational approaches, MIT Press: Cambridge.

22. Date S.V., Marcotte E.M. (2003) Discovery of uncharacterized cellular systems by genome-wide analysis of functional linkages. //Nat. Biotechnol. 21: P. 1055-1062.

23. Date S.V., Marcotte E.M. (2005) Protein function prediction using the Protein Link EXplorer (PLEX). //Bioinformatics 21: P.2558-2559.

24. Dittrich M.T., et al. (2008) Identifying functional modules in protein-protein interaction networks: an integrated exact approach. //Bioinformatics 24: P.223-231.

25. Domenech P., et al. (2009) BacA, an ABC transporter involved in maintenance of chronic murine infections with Mycobacterium tuberculosis. //J. Bacteriol. 191: P.477-485.

26. Durek P., Walther D. (2008) The integrated analysis of metabolic and protein interaction networks reveals novel molecular organizing principles. //BMC Syst Biol 2: P.100.

27. Edgar R.C. (2004) MUSCLE: a multiple sequence alignment method with reduced time and space complexity. //BMC Bioinformatics 5: P.l 13.

28. Eisenberg D., Marcotte E.M., Xenarios I., Yeates Т.О. (2000) Protein function in the post-genomic era. //Nature 405: P.823-826.

29. El-Shazly S., et al. (2007) Internalization by HeLa cells of latex beads coated with mammalian cell entry (Mce) proteins encoded by the mce3 operon of Mycobacterium tuberculosis. //J. Med. Microbiol. 56: P.l 145-1151.

30. Enault F., et al. (2003) Annotation of bacterial genomes using improved phylogenomic profiles. //Bioinformatics 19 Suppl 1: P.il05-107.

31. Enright A.J., Ouzounis C.A. (2001) Functional associations of proteins in entire genomes by means of exhaustive detection of gene fusions. //Genome Biol. 2: P. 34.

32. Ermolaeva M.D., White 0., Salzberg S.L. (2001) Prediction of operons in microbial genomes. //Nucleic Acids Res. 29: P.1216-1221.

33. Felsenstein J. (2005) PHYLIP (Phylogeny Inference Package). P.Distributed by the author. Department of Genome Sciences, University of Washington, Seattle.

34. Fitch W.M. (1970) Distinguishing homologous from analogous proteins. //Syst. Zool. 19: P.99-113.

35. Fleischmann R.D., et al. (1995) Whole-genome random sequencing and assembly of Haemophilus influenzae Rd. //Science 269: P.496-512.

36. Gabaldon Т., Huynen M.A. (2004) Prediction of protein function and pathways in the genome era. //Cell. Mol. Life Sci. 61: P.930-944.

37. Gan G., Ma C., Wu J. (2007) Data clustering: theory, algorithms, and applications, SIAM, American Statistical Association: Philadelphia.

38. Gavin A.C., et al. (2006) Proteome survey reveals modularity of the yeast cell machinery. //Nature 440: P.631-636.

39. Gelfand M.S., Rodionov D.A. (2008) Comparative genomics and functional annotation of bacterial transporters. //Physics of Life Reviews 5: P.22-49.

40. Glazko G., Gordon A., Mushegian A. (2005) The choice of optimal distance measure in genome-wide datasets. //Bioinformatics 21 Suppl 3: Р.ШЗ-11.

41. Glazko G.V., Mushegian A.R. (2004) Detection of evolutionarily stable fragments of cellular pathways by hierarchical clustering of phyletic patterns. //Genome Biol. 5: P.R32.

42. Haft D.H., Paulsen I.T., Ward N., Selengut J.D. (2006) Exopolysaccharide-associated protein sorting in environmental organisms: the PEP-CTERM/EpsH system. Application of a novel phylogenetic profiling heuristic. //BMC Biol. 4: P.29.

43. Han J.D., et al. (2005) Effect of sampling on topology predictions of protein-protein interaction networks. //Nat. Biotechnol. 23: P.839-844.

44. Himmelreich R., et al. (1996) Complete sequence analysis of the genome of the bacterium Mycoplasma pneumoniae. //Nucleic Acids Res. 24: P.4420-4449.

45. Hornik K. (2005) A CLUE for CLUster Ensembles. //Journal of Statistical Software 14: P.l-25.

46. Hutvagner G., et al. (2001) A cellular function for the RNA-interference enzyme Dicer in the maturation of the let-7 small temporal RNA. //Science 293: P.834-83 8.

47. Huynen M.A., Diaz-Lazcoz Y., Bork P. (1997) Differential genome display. //Trends Genet. 13: P.389-390.

48. Huynen M.A., Snel В., Bork P., Gibson T.J. (2001) The phylogenetic distribution of frataxin indicates a role in iron-sulfur cluster protein assembly. //Hum. Mol. Genet. 10: P.2463-2468.

49. Huynen M.A., Snel В., von Mering C., Bork P. (2003) Function prediction and protein networks. //Curr. Opin. Cell. Biol. 15: P. 191-198.

50. Jim K., Parmar K., Singh M., Tavazoie S. (2004) A cross-genomic approach for systematic mapping of phenotypic traits to genes. //Genome Res. 14: P.109-115.

51. Jothi R., Przytycka T.M., Aravind L. (2007) Discovering functional linkages and uncharacterized cellular pathways using phylogenetic profile comparisons: a comprehensive assessment. //BMC Bioinformatics 8: P.173.

52. Kanehisa M., et al. (2008) KEGG for linking genomes to life and the environment. //Nucleic Acids Res. 36: P.D480-484.

53. Karimpour-Fard A., Leach S.M., Gill R.T., Hunter L.E. (2008) Predicting protein linkages in bacteria: which method is best depends on task. //BMC Bioinformatics 9: P.397.

54. Kaufman L., Rousseeuw P.J. (2005) Finding Groups in Data. Wiley-Interscience.

55. Kelly W., Stumpf M. (2008) Protein-protein interactions: from global to local analyses. //Curr. Opin. Biotechnol. 19: P.396-403.

56. Kensche P.R., van Noort V., Dutilh B.E., Huynen M.A. (2008) Practical and theoretical advances in predicting the function of a protein by its phylogenetic distribution. //J. R. Soc. Interface 5: P. 151-170.

57. Kerschgens J., Egener-Kuhn Т., Mermod N. (2009) Protein-binding microarrays: probing disease markers at the interface of proteomics and genomics. //Trends Mol Med 15: P.352-358.

58. Kirkpatrick S., Gelatt C D., Jr., Vecchi M.P. (1983) Optimization by Simulated Annealing. //Science 220: P.671-680.

59. Koonin E.V., Galperin M.Y. (2003) Sequence evolution - function : computational approaches in comparative genomics./Koonin E.V., Galperin M.Y. Kluwer Academic: Boston.

60. Koonin E.V., Mushegian A.R., Bork P. (1996) Non-orthologous gene displacement. //Trends Genet. 12: P.334-336.

61. Kreimer A., Borenstein E., Gophna U., Ruppin E. (2008) The evolution of modularity in bacterial metabolic networks. //Proc. Natl. Acad. Sci. USA 105: P.6976-6981.

62. Kubassova О., Boyle R.D., Pyatnizkiy M. (2005) Bone Segmentation in Metacarpophalangeal MR Data. //Lecture Notes in Computer Science 3687: P.726-735.

63. Lewis J., et al. (2006) Text similarity: an alternative way to search MEDLINE. //Bioinformatics 22: P.2298-2304.

64. Li H., Kristensen D.M., Coleman M.K., Mushegian A. (2009) Detection of biochemical pathways by probabilistic matching of phyletic vectors. //PLoS One 4: P.e5326.

65. Li H., Liang S. (2009) Local network topology in human protein interaction data predicts functional association. //PLoS One 4: P.6410.

66. Li J.B., et al. (2004a) Comparative genomics identifies a flagellar and basal body proteome that includes the BBS5 human disease gene. //Cell 117: P.541-552.

67. Li Q., Lee B.T., Zhang L. (2005) Genome-scale analysis of positional clustering of mouse testis-specific genes. //BMC Genomics 6: P.7.

68. Li S., et al. (2004b) A map of the interactome network of the metazoan C. elegans. //Science 303: P.540-543.

69. Lin F.P., Coiera E., Lan R., Sintchenko V. (2009) In silico prioritisation of candidate genes for prokaryotic gene function discovery: an application of phylogenetic profiles. //BMC Bioinformatics 10: P.86.

70. Loganantharaj R., Atwi M. (2007) Towards validating the hypothesis of phylogenetic profiling. //BMC Bioinformatics 8 Suppl 7: P.S25.

71. Makarova K.S., Wolf Y.I., Koonin E.V. (2003) Potential genomic determinants of hyperthermophily. //Trends Genet. 19: P.172-176.

72. Marcotte C.J., Marcotte E.M. (2002) Predicting functional linkages from gene fusions with confidence. //Appl. Bioinformatics 1: P.93-100.

73. Marcotte E.M., et al. (1999) Detecting protein function and protein-protein interactions from genome sequences. //Science 285: P.751-753.

74. Marcotte E.M., Xenarios I., van Der Bliek A.M., Eisenberg D. (2000) Localizing proteins in the cell from their phylogenetic profiles. //Proc. Natl. Acad. Sci. USA 97: P.12115-12120.

75. Masters S.C. (2004) Co-immunoprecipitation from transfected cells. //Methods Mol Biol 261: P.337-350.

76. McLean K.J., et al. (2007) Structure, function and drug targeting in Mycobacterium tuberculosis cytochrome P450 systems. //Arch. Biochem. Biophys. 464: P.228-240.

77. Mellor J.C., et al. (2002) Predictome: a database of putative functional links between proteins. //Nucleic Acids Res. 30: P.306-309.

78. Mikkelsen T.S., Galagan J.E., Mesirov J.P. (2005) Improving genome annotations using phylogenetic profile anomaly detection. //Bioinformatics 21: P.464-470.

79. Moreno-Hagelsieb G., Collado-Vides J. (2002) A powerful non-homology method for the prediction of operons in prokaryotes. //Bioinformatics 18 Suppl 1: P.329-336.

80. Morett E., et al (2003) Systematic discovery of analogous enzymes in thiamin biosynthesis. //Nat. Biotechnol. 21: P.790-795.

81. Murry J.P., Pandey A.K., Sassetti C.M., Rubin E.J. (2009) Phthiocerol Dimycocerosate Transport Is Required for Resisting Interferon-gamma-Independent Immunity. //J. Infect. Dis. 3: P.206-209

82. Mushegian A.R. (2007) Foundations of Comparative Genomics. Academic Press.

83. Mushegian A.R., Koonin E.V. (1996) Gene order is not conserved in bacterial evolution. //Trends Genet. 12: P.289-290.

84. Negre et al. (2005) Conservation of regulatory sequences and gene expression patterns in the disintegrating Drosophila Hox gene complex. //Genome Res. 15: P.692-700.

85. Overbeek R., et al (1999a) Use of contiguity on the chromosome to predict functional coupling. //In Silico Biol 1: P.93-108.

86. Overbeek R., et al. (1999b) The use of gene clusters to infer functional coupling. //Proc. Natl. Acad. Sci. USA 96: P.2896-2901.

87. Pellegrini Mv et al. (1999) Assigning protein functions by comparative genome analysis: protein phylogenetic profiles. //Proc. Natl. Acad. Sci. USA 96: P.4285-4288.

88. Ponomarenko E.AV et al. (2009) Identification of differentially expressed proteins using automatic meta-analysis of proteomics-related articles. //Biomed Khim 55: P.5-14.

89. Price M.N., Huang K.H., Aim E.J., Arkin A.P. (2005) A novel method for accurate operon predictions in all sequenced prokaryotes. //Nucleic Acids Res. 33: P.880-892.

90. Raman K., Chandra N. (2008) Mycobacterium tuberculosis interactome analysis unravels potential pathways to drug resistance. //BMC Microbiol 8: P.234.

91. Ravasz E., et al. (2002) Hierarchical organization of modularity in metabolic networks. //Science 297: P. 1551-1555.

92. Rencher A.C. (2002) Methods of Multivariate Analysis./Rencher A.C. Wiley-Interscience.

93. Rodionov D.A., Gelfand M.S. (2005) Identification of a bacterial regulatory system for ribonucleotide reductases by phylogenetic profiling. //Trends Genet. 21: P.385-389.

94. Rogozin I.B., et al (2002) Connected gene neighborhoods in prokaryotic genomes. //Nucleic Acids Res. 30: P.2212-2223.

95. Ruczinski I., Kooperberg C., LeBlanc M. (2003) Logic Regression Methods and Software. //Journal of Computational and Graphical Statistics 12: P.475-511.

96. Salwinski L., Eisenberg D. (2003) Computational methods of analysis of protein-protein interactions. //Curr. Opin. Struct. Biol. 13: P.377-382.

97. Sassetti C.M., Boyd D.H., Rubin E.J. (2003) Genes required for mycobacterial growth defined by high density mutagenesis. //Mol. Microbiol. 48: P.77-84.

98. Schlicker A., Domingues F.S., Rahnenfiihrer J., Lengauer T. (2006) A new measure for functional similarity of gene products based on Gene Ontology. //BMC Bioinformatics 7: P.302.

99. Shoemaker B.A., Panchenko A.R. (2007a) Deciphering protein-protein interactions. Part I. Experimental techniques and databases. //PLoS Comput. Biol. 3: P.42.

100. Shoemaker B.A., Panchenko A.R. (2007b) Deciphering protein-protein interactions. Part II. Computational methods to predict protein and domain interaction partners. //PLoS Comput. Biol. 3: P.e43.

101. Shrager J. (2003) The fiction of function. //Bioinformatics 19: P.1934-1936.

102. Snel В., Huynen M.A. (2004) Quantifying modularity in the evolution of biomolecular systems. //Genome Res. 14: P.391-397.

103. Snitkin E.S., et al. (2006) Comparative assessment of performance and genome dependence among phylogenetic profiling methods. //BMC Bioinformatics 7: P.420.

104. Stan S., Philip C. (2004) Determining the Number of Clusters/Segments in Hierarchical Clustering/Segmentation Algorithms. //Proceedings of the 16th IEEE International Conference on Tools with Artificial Intelligence.

105. Strong Mv et al. (2003a) Visualization and interpretation of protein networks in Mycobacterium tuberculosis based on hierarchical clustering of genome-wide functional linkage maps. //Nucleic Acids Res. 31: P.7099-7109.

106. Strong M., et al. (2003b) Inference of protein function and protein linkages in Mycobacterium tuberculosis based on prokaryotic genome organization: a combined computational approach. //Genome Biol. 4: P.59.

107. Sun J., et al. (2005) Refined phylogenetic profiles method for predicting protein-protein interactions. //Bioinformatics 21: P.3409-3415.

108. Tatusov R.L., et al. (2003) The COG database: an updated version includes eukaryotes. //BMC Bioinformatics 4: P.41.

109. Tatusov R.L., et al (1996) Metabolism and evolution of Haemophilus influenzae deduced from a whole-genome comparison with Escherichia coli. //Curr. Biol. 6: P.279-291.

110. Teichmann S.A. (2002) The constraints protein-protein interactions place on sequence divergence. //J. Mol. Biol 324: P.399-407.

111. Velmurugan Kv et al (2007) Mycobacterium tuberculosis nuoG is a virulence gene that inhibits apoptosis of infected host cells. //PLoS Pathog 3: P.l 10.

112. Watanabe H., Mori H., Itoh Т., Gojobori T. (1997) Genome plasticity as a paradigm of eubacteria evolution. //J. Mol. Evol. 44 Suppl 1: P.57-64.

113. Wu J., Hu Z., DeLisi C. (2006) Gene annotation and network inference by phylogenetic profiling. //BMC Bioinformatics 7: P.80.

114. Wu J., Kasif S., DeLisi C. (2003) Identification of functional links between genes using phylogenetic profiles. //Bioinformatics 19: P. 1524-1530.

115. Xenarios I., etal (2001) DIP: The Database of Interacting Proteins: 2001 update. //Nucleic Acids Res. 29: P.239-241.

116. Yamada Т., Kanehisa M., Goto S. (2006) Extraction of phylogenetic network modules from the metabolic network. //BMC Bioinformatics 7: P. 130.

117. Yanai I., Mellor J.C., DeLisi C. (2002) Identifying functional links between genes using conserved chromosomal proximity. //Trends Genet. 18: P.176-179.

118. Zanzoni A., et al (2002) MINT: a Molecular INTeraction database. //FEBS Lett 513: P.135-140.

119. Zweigenbaum P., Demner-Fushman D., Yu H., Cohen K.B. (2007) Frontiers of biomedical text mining: current progress. //Brief Bioinform 8: P.358-375.

Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.