Автоматический анализ научных текстов для создания семантических сетей белков тема диссертации и автореферата по ВАК РФ 03.00.28, кандидат биологических наук Пономаренко, Елена Александровна

  • Пономаренко, Елена Александровна
  • кандидат биологических науккандидат биологических наук
  • 2009, Москва
  • Специальность ВАК РФ03.00.28
  • Количество страниц 109
Пономаренко, Елена Александровна. Автоматический анализ научных текстов для создания семантических сетей белков: дис. кандидат биологических наук: 03.00.28 - Биоинформатика. Москва. 2009. 109 с.

Оглавление диссертации кандидат биологических наук Пономаренко, Елена Александровна

1. ВВЕДЕНИЕ, ЦЕЛЬ И ЗАДАЧИ.

2. ОБЗОР ЛИТЕРАТУРЫ.

2.1. Интеллектуальный анализ биомедицинских текстов.

2.1.1. Распознавание названий белков (генов) в публикациях.

2.1.2. База данных белков UniProt.

2.1.3. Применение ИАТ для выявления белковых взаимосвязей.

2.1.4. Оценка релевантности документов.

2.1.5. База данных MEDLINE и поисковая система PubMed.

2.2. Семантические модели молекулярной биологии.

2.2.1. Онтология генов Gene Ontology.

2.2.2. Энциклопедия метаболических путей KEGG.

2.2.3. UMLS - унифицированная система медицинского языка.

2.3. Семантические сети генов и белков.

3. МАТЕРИАЛЫ И МЕТОДЫ.

3.1. Алгоритм построения и анализа семантических сетей.

3.2. Выборки белков.

3.3. Методика работы с реферативной базой данных.

3.4. Идентификация названий белков.

3.5. Мера семантического сходства между белками.

4. РЕЗУЛЬТАТЫ И ОБСУЖДЕНИЕ.

4.1. Контекстный поиск названий белков в текстах рефератов.

4.2. Матрица семантического сходства.

4.3. Семантические сети белков.

4.4. Сопоставление сетевых подграфов с разделами KEGG и с аннотациями GO.

4.5. Сопоставление сетевых подграфов с видовой принадлежностью белков.

Рекомендованный список диссертаций по специальности «Биоинформатика», 03.00.28 шифр ВАК

Введение диссертации (часть автореферата) на тему «Автоматический анализ научных текстов для создания семантических сетей белков»

Постоянное увеличение количества научных статей в области биомедицины все больше усложняет поиск необходимой исследователю информации [Stapley В., Benoit G., 2000]. Сложности особенно очевидны в случае, если речь идет об анализе информации о функциях белков и генов, поскольку эти данные изложены в свободной форме на естественном языке и плохо поддаются структурированию. Необходимость выполнения широкомасштабного анализа опубликованных сведений о белковых функциях становится особенно актуальной при исследовании молекулярных взаимодействий в клетке.

Функционирование клетки обеспечивается за счет взаимодействия белков, примерами которого являются метаболические и регуляторные пути. Полагают, что взаимодействие белков в биологических процессах можно определить экспериментально с использованием высокоэффективных экспериментов в области транскриптомики [Al-Shahrour F. et al., 2006]. Кластеризация профилей ко-экспрессии генов позволяет сделать только предварительные предположения о молекулярных взаимосвязях, лежащих в основе исследуемого биологического процесса. Проверка предположений проводится в ходе изучения ассоциированной с названиями белков (или кодирующих их генов) научной литературы или с использованием аннотаций в белковых базах данных типа UniProt [Boutet Е. et al., 2007]. Ознакомление с соответствующими литературными источниками занимает длительное время и не всегда обеспечивает полноту анализа. Это обуславливает необходимость создания средств семантического анализа, предназначенных для повышения эффективности обработки результатов высокопроизводительных транскриптомных [Beissbarth Т., 2006] и протеомных экспериментов [UniProt Consortium, 2009].

Результаты транскриптомных и протеомных экспериментов в общем случае представляют собой соответственно либо выборки генов с измененным уровнем экспрессии или списки идентифицированных белков. Обработка экспериментально полученных выборок должна проводиться с учетом современного уровня знаний в области молекулярной биологии. Автоматизация процесса сопоставления экспериментальных данных с уровнем знаний в предметной области возможна при условии их формализации. Необходимый уровень формализация знаний поддерживается за счет получения экспертной оценки профильных научных публикаций. Результаты экспертной оценки размещаются в общедоступных базах данных и базах знаний, например, таких как база данных метаболических путей KEGG или база данных онтологий генов Gene Ontology (далее — GO, Harris М. et al., 2004).

В основе онтологии генов лежит семантическая сеть - формализованное описание объектов и процессов молекулярной биологии. Семантическая сеть представляет собой ориентированный граф, вершинами которого являются объекты предметной области, то есть гены и белки, а ребра задают отношения между ними. В системе GO поддерживается контролируемый словарь молекулярно-биологических терминов. С использованием этих терминов формируются аннотации генов, причем если гены выполняют сходную функцию или участвуют в одном биологическом процессе, то соответствующие им аннотации содержат одинаковые термины [Beissbarth Т., 2006].

Повсеместное применение системы GO для интерпретации транскриптомных и протеомных данных, привело к осознанию ее недостатков [Zheng В., Lu X., 2007]. Во-первых, белкам в составе общего метаболического или регуляторного пути зачастую присваиваются разные аннотации, что затрудняет их использование для автоматической обработки данных. Во-вторых, анализ только аннотаций, без изучения статей, не всегда позволяет понять биологический смысл анализируемого явления. В связи с этим, авторы ряда работ предлагают проводить семантический анализ функциональных взаимосвязей генов и белков, напрямую обращаясь к публикациям [Ананько Е. с соавт., 2000; Homayouni R., et al., 2005; Bundschus M. et al, 2008].

В работе [Homayouni R., et al, 2005] с применением семантического индексирования рефератов MEDLINE проводили кластерный анализ генов с целью аннотирования генома человека. Были получены кластеры генов, характеризующиеся выраженной семантической связностью, однако, не был исследован вопрос, насколько хорошо эти кластеры соотносятся с информацией в системах KEGG или GO. Другие исследователи предложили методы определения семантической связности на основе ассоциированных с белками биомедицинских статей. Bundschus и соавторы [Bundschus М. et al., 2008] предложили метод автоматического распознавания наименований заболеваний в текстах статей и определили ассоциативные связи между 4939 генами и 1745 патологиями. Рейчардхаури и Альтман [Raychaudhuri S., Altman R., 2003] продемонстрировали на примере задачи идентификации функциональных кластеров генов эффективность применения семантической метрики, чувствительность которой при сравнении с данными системы GO составила 96%. Этот подход получил развитие в работе [Zheng В., Lu X., 2007], где тематическая декомпозиция научных статей позволила получить графы, узлами которых являются не только белки, но и процессы молекулярной биологии -например, апоптоз. Наряду с описанием новых вычислительных подходов в вышеуказанных работах отмечается важность автоматического распознавания в текстах анализируемых документов специальных терминов, в том числе названий белков [Jenssen Т. et al., 2001].

В данной работе рассматривается методика сопоставления результатов высокопроизводительных протеомных экспериментов с информацией, представленной в виде множества рефератов научных публикаций в базе MEDLINE. В работе используются как публикации, найденные контекстным поиском по названию белка (релевантные), так и наиболее близкие им по смыслу (родственные). Предлагаемая методика основана на оценке семантической связности между белками, которая рассчитывается как функция от количества одинаковых релевантных или родственных публикаций, найденных для двух белков. Вычисленные значения семантической связности заносили в матрицу семантического сходства, которую затем отображали в виде неориентированного графа. Полученные в составе семантического графа изолированные подграфы сопоставляли с распределением белков по разделам базы данных KEGG и по категориям системы GO.

Целью работы являлась разработка метода представления информации о взаимосвязях между белками в виде семантической сети, построенной на основе автоматического анализа научных текстов. Для достижения цели решались задачи:

1. Для каждого из белков выборки, состоящей из пяти произвольно отобранных метаболических путей, сформировать специфичный семантический профиль релевантных публикаций.

2. Дополнить полученные профили родственными публикациями, найденными в результате автоматической оценки смыслового сходства документов.

3. Рассчитать меру семантической связности между белками как функцию пересечения множеств публикаций, входящих в состав релевантных и родственных профилей. На основе рассчитанной меры семантической связности построить семантическую сеть, отражающую белок-белковые взаимосвязи.

4. Выделить в полученной семантической сети изолированные подграфы и сравнить их с распределением белков по разделам базы данных метаболических путей KEGG и по категориям онтологии генов GO.

2. ОБЗОР ЛИТЕРАТУРЫ

Обзор литературы содержит описание методов выявления взаимосвязанных белков с использованием автоматического анализа текстов. В обзоре обсуждаются основные задачи, решаемые данными методами в области биомедицины: автоматическая идентификация названий белков и генов, поиск близких по содержанию документов среди научных публикаций и непосредственно выявление взаимосвязей между объектами. Во второй части обзора литературы рассматриваются онтологии и контролируемые словари терминов, разработанные для стандартизованного описания результатов исследований. В заключении приводятся сведения о способах визуализации найденных взаимосвязей между белками в виде графов и семантических сетей.

Интерес к взаимосвязанным белкам обусловлен необходимостью всесторонней (прежде всего, функциональной) характеристики большого количества расшифрованных в течение последних 10-15 лет геномов. Несмотря на то, что нуклеотидные последовательности большого количества геномов полностью определены, многие из них, включая геном человека, содержат пробелы в функциональной аннотации, что существенно затрудняет системное понимание молекулярных механизмов.

Молекулярные системы (например, метаболические сети) обладают модульностью, то есть такой внутренней структурой, при которой связи между узлами внутри модуля значительно плотнее, чем связи между модулями [Newman М., 2003]. Каждый функциональный модуль внутри клетки является дискретным и состоит из плотно связанных между собой объектов, выполняющих определенную функцию [Barabasi A., Oltvai Z., 2004]. Выявление модульности внутри сети дает не только детализированную информацию об объектах, составляющих сеть, но также позволяет проследить стадии формирования структуры сети.

Под взаимосвязанными белками в данной работе мы понимаем группу белков, входящих в состав одного модуля, то есть объединенных по каким-либо критериям. Это может быть одинаковая внутриклеточная локализация [Zhao J. et al., 2007], функциональные [Ulitsky I., Shamir R., 2007] или структурные характеристики [Wang Z., Zhang J., 2007], сходство происхождения, эволюционная консервативность [Spirin V. et al., 2006] и даже сходство экспериментальных условий изучения. Наиболее важным с практической точки зрения представляется выявление физически взаимодействующих между собой белков, поскольку такие комплексы являются потенциальными мишенями для создания лекарств [Archakov A. et al., 2003].

В основе реконструкции белковых сетей и анализа модульности лежат экспериментальные данные, полученные с использованием in vitro и in silico методов, а также системы формализованного описания белков и генов (онтологии) [Mungall С., 2004]. Существует две основные модели, позволяющие описывать структуру модуля: в центрической модели один белок связан со всеми белками внутри модуля, при этом другие связи отсутствуют, а в матричной каждый объект модуля связан со всеми другими объектами [Bader G., Hogue С., 2002]. В реальности в составе модуля обычно наблюдаются признаки обеих моделей. Для поиска списка белков, находящихся в составе одного модуля, обычно используют компьютерные подходы и высокоэффективные экспериментальные технологии, в то время как для детальной характеристики связей внутри модуля более значимы экспериментальные технологии, ориентированные на исследование взаимосвязей только между парами белков.

В области биоинформатики сети, в основном, используются двумя способами: в первом направлении компьютерные сети (например, нейронные сети) рассматриваются как способ моделирования биологических процессов -дифференцировка, репликация ДНК, апоптоз, малигнизация и прочее, второе направление представлено семантическими сетями, устанавливающими объекты предметной области - молекулярной биологии, и определяющими взаимосвязи между этими объектами. Эффективным инструментом для построения семантических сетей является исследование научно-технической литературы методами текстомики, в основе которой лежат подходы к интеллектуальному анализу текстов на естественных языках.

Похожие диссертационные работы по специальности «Биоинформатика», 03.00.28 шифр ВАК

Заключение диссертации по теме «Биоинформатика», Пономаренко, Елена Александровна

6. выводы

1. С использованием номенклатурных обозначений из базы данных UniProt в автоматическом режиме получены релевантные семантические профили, специфичные для каждого белка. Релевантный семантический профиль представлял собой множество идентификаторов публикаций из ресурса MEDLINE, найденных контекстным поиском в текстах рефератов по наименованиям белков.

2. Множество входящих в состав семантических профилей рефератов расширяется в три раза при включении в него родственных публикаций, предлагаемых автоматическими средствами оценки смыслового сходства документов. За счет родственных публикаций было установлено дополнительно около 3-х тыс. неявных семантических связей между белками из пяти различных метаболических путей базы данных KEGG.

3. Мера семантического сходства между двумя белками определена как множество рефератов публикаций, совпадающих при сравнении семантических профилей белков. С использованием этой меры получены семантические сети, отображающие взаимосвязи между белками в составе хорошо изученных биохимических и молекулярно-биологических процессов. Семантические сети, построенные на основе сопоставления релевантных и родственных профилей, сходны между собой, причем сравнение родственных профилей позволяет выявить дополнительные семантические взаимосвязи между белками.

4. В составе каждой семантической сети выявлено несколько изолированных подграфов. Показано, что в состав подграфов входят белки, относящиеся к одному метаболическому пути и имеющие одинаковые аннотации в системе онтологии GO, с вероятностью случайного объединения р< 1(Г3.

5. ЗАКЛЮЧЕНИЕ

Возможности постгеномных технологий позволяют в высокоэффективном режиме идентифицировать группы генов и белков, координировано реагирующих на изменение экспериментальных условий. В то же время, оказалось не очень просто объяснить с точки зрения функциональных особенностей биомакромолекул биологические эффекты, проявляющиеся в результате работы ансамбля генов. Интерпретация экспериментальных данных, содержащих идентификаторы сотен или тысяч генов, требует кропотливой работы по экспертному анализу информации в биологических базах данных и электронных библиотеках. В ряде случаев показано, что правильно построенная сетевая модель молекулярного процесса позволяет получить логичную картину, объясняющую механизм координированного действия генов и белков. Считается, что такого рода сети позволят идентифицировать мишени терапевтического воздействия, включая мишени для новых лекарств. В связи с этим, актуальной является задача разработки методов интеллектуального анализа научной биомедицинской литературы с целью извлечения информации о функциональных взаимосвязях между белками.

На первом этапе информационной экстракции необходимо провести анализ релевантной литературы и определить группы взаимосвязанных объектов. Поскольку при автоматической обработке научной литературы характер этой взаимосвязи a priori не известен, то говорят о семантической взаимосвязи, простейшим примером которой является случай, когда обозначения двух объектов встретились в тексте одного документа [Stapley В., Benoit G., 2000]. На этом простом принципе построено несколько систем анализа научной литературы, наиболее известными из которых являются PubGene [Jennsen Т. et al, 2001], PubMatrix [Becker К. et al, 2003] и STRING [Jensen L. et al., 2009].

Список литературы диссертационного исследования кандидат биологических наук Пономаренко, Елена Александровна, 2009 год

1. Aerts, S. et al. (2008). Text-mining assisted regulatory annotation //Genome Biol. 9: R31.

2. Al-Shahrour, F. et al. (2006). BABELOMICS: a systems biology perspective in the functional annotation of genome-scale experiments //Nucleic Acids Res. 34: W472-476.

3. Al-Shahrour, F., R. Diaz-Uriarte, J. Dopazo (2004). FatiGO: a web tool for finding significant associations of Gene Ontology terms with groups of genes //Bioinformatics. 20: 578-580.

4. Archakov, A. I. et al. (2003). Protein-protein interactions as a target for drugs in proteomics //Proteomics. 3: 380-391.

5. Ashburner, M. et al. (2000). Gene ontology: tool for the unification of biology. The Gene Ontology Consortium //Nat Genet. 25: 25-29.

6. Azuaje F., Dopazo J. (2005) Data Analysis and Visualization in Genomics and Proteomics. England: John Wiley & Sons Ltd.

7. Bader, G. D., C. W. Hogue (2002). Analyzing yeast protein-protein interaction data obtained from different sources //Nat Biotechnol. 20: 991-997.

8. Bader, G. D., D. Betel, C. W. Hogue (2003). BIND: the Biomolecular Interaction

9. Network Database //Nucleic Acids Res. 31: 248-250.

10. Barabasi, A. L., Z. N. Oltvai (2004). Network biology: understanding the cell's functional organization //Nat Rev Genet. 5: 101-113.

11. Becker, K.G. et al. (2003) PubMatrix: a tool for multiplex literature mining // BMC Bioinformatics.4:61.

12. Beissbarth, T. (2006). Interpreting experimental results using gene ontologies //Methods Enzymol. 411: 340-352.

13. Blaschke, C., A. Valencia (2002). Automatic ontology construction from the literature//Genome Inform. 13: 201-213.

14. Blaschke, С., M. A. Andrade, C. Ouzounis, A. Valencia (1999). Automatic extraction of biological information from scientific text: protein-protein interactions //Proc Int Conf Intell Syst Mol Biol: 60-67.

15. Bodenreider, O. (2004). The Unified Medical Language System (UMLS): integrating biomedical terminology //Nucleic Acids Res. 32: D267-270.

16. Boeckmann, B. et al. (2003) The SWISS-PROT protein knowledgebase and its supplement TrEMBL in 2003 //Nucleic Acids Res. 31(l):365-70.

17. Boutet, E. et al (2007). UniProtKB/Swiss-Prot //Methods Mol Biol. 406: 89-112.

18. Brill, E. (1995). Transformation-based error-driven learning and natural language processing: A case study in part-of-speech tagging //Comput. Linguistics. 21.

19. Bundschus, M. et al (2008). Extraction of semantic biomedical relations from text using conditional random fields //BMC Bioinformatics. 9: 207.

20. Chabalier, J., J. Mosser, A. Burgun (2007). A transversal approach to predict gene product networks from ontology-based similarity//BMC Bioinformatics. 8: 235.

21. Chang, J. Т., H. Schutze, R. B. Altman (2004). GAPSCORE: finding gene and protein names one word at a time //Bioinformatics. 20: 216-225.

22. Chen, H., В. M. Sharp (2004). Content-rich biological network constructed by mining PubMed abstracts //BMC Bioinformatics. 5: 147.

23. Chen, J. et al (2003). Biosynthesis of 3-O-sulfated heparan sulfate: unique substrate specificity of heparan sulfate 3-O-sulfotransferase isoform 5 //Glycobiology. 13: 785-794.

24. Clegg, А. В., A. J. Shepherd (2008). Text mining //Methods Mol Biol. 453: 471491.

25. Couto, F.M., Silva, M.J., Coutinho, P.M. (2005) Semantic Similarity over the Gene Ontology: Family Correlation and Selecting Disjunctive Ancestors //Proc of the ACM Conference in Information and Knowledge Management as a short paper.

26. Deerwester, S.C., Dumais, S.T., Landauer, Т.К., Furnas, G.W., Harshman, R.A. (1990). Indexing by latent semantic analysis //J. Inform. Sci. 41: 391-407.

27. Donaldson, I. et al. (2003). PreBIND and Textomy—mining the biomedical literature for protein-protein interactions using a support vector machine //BMC Bioinformatics. 4: 11.

28. Duan, Z. H. et al. (2006). The relationship between protein sequences and their gene ontology functions //BMC Bioinformatics. 7 Suppl 4: SI 1.

29. Eisen, M. В., P. T. Spellman, P. O. Brown, D. Botstein (1998). Cluster analysis and display of genome-wide expression patterns //Proc Natl Acad Sci U S A. 95: 14863-14868.i

30. Erhardt, R. A., R. Schneider, C. Blaschke (2006). Status of text-mining techniques applied to biomedical text //Drug Discov Today. 11: 315-325.

31. Flybase Consortium. (2003). The FlyBase database of the Drosophila genome projects and community literature //Nucleic Acids Res. 31: 172-175.

32. Formstecher, E. et al. (2005). Protein interaction mapping: a Drosophila case study //Genome Res. 15: 376-384.

33. Fukuda, K., A. Tamura, T. Tsunoda, T. Takagi (1998). Toward information extraction: identifying protein names from biological papers //Рас Symp Biocomput: 707-718.

34. Glenisson, P. et al. (2003). Evaluation of the vector space representation in text-based gene clustering //Рас Symp Biocomput: 391-402.

35. Govorun, V. M., A. I. Archakov (2002). Proteomic technologies in modem biomedical science //Biochemistry (Mosc). 67: 1109-1123.

36. Guo, X. et al. (2006). Assessing semantic similarity measures for the characterization of human regulatory pathways //Bioinformatics. 22: 967-973.

37. Guo, X., C. D. Shriver, H. Ни, M. N. Liebman (2005). Analysis of metabolic and regulatory pathways through Gene Ontology-derived semantic similarity measures НАША Annu Symp Proc: 972.

38. Harris, M. A. et al. (2004). The Gene Ontology (GO) database and informatics resource //Nucleic Acids Res. 32: D258-261.

39. Harris, T. W. et al. (2003). WormBase: a cross-species database for comparative genomics //Nucleic Acids Res. 31: 133-137.

40. He, M., Y. Wang, W. Li (2009). PPI finder: a mining tool for human protein-protein interactions //PLoS ONE. 4: 4554.

41. Hoffmann, R., A. Valencia (2004). A gene network for navigating the literature //Nat Genet. 36: 664.

42. Homayouni, R., K. Heinrich, L. Wei, M. W. Berry (2005). Gene clustering by latent semantic indexing of MEDLINE abstracts //Bioinformatics. 21: 104-115.

43. Hsing, M., J. L. Bellenson, C. Shankey, A. Cherkasov (2004). Modeling of cell signaling pathways in macrophages by semantic networks //BMC Bioinformatics. 5: 156.

44. Hunter, L., К. B. Cohen (2006). Biomedical language processing: what's beyond PubMed? //Mol Cell. 21: 589-594.

45. Jensen, L., J. Saric, P. Bork (2003). Utilizing literature for biological discovery //Proceedings of E-BioSci/ORIEL, Villa Monastero, Varenna, Italy

46. Jensen, L.J. et al. (2009) STRING 8~a global view on proteins and their functional interactions in 630 organisms //Nucleic Acids Res. 37:D412-6.

47. Jenssen, Т. K., A. Laegreid, J. Komorowski, E. Hovig (2001). A literature network of human genes for high-throughput analysis of gene expression //Nat Genet. 28: 21-28.

48. Kanehisa, M., S. Goto (2000). KEGG: kyoto encyclopedia of genes and genomes //Nucleic Acids Res. 28: 27-30.

49. Khatri, P. et al. (2005). A semantic analysis of the annotations of the human genome//Bioinformatics. 21: 3416-3421.

50. Kim, W., A. R. Aronson, W. J. Wilbur (2001). Automatic MeSH term assignment and quality assessment //Proc AMIA Symp: 319-323.

51. Klie, S. et al. (2008). Analyzing large-scale proteomics projects with latent semantic indexing //J Proteome Res. 7: 182-191.

52. Krallinger, M., A. Valencia (2005). Text-mining and information-retrieval services for molecular biology //Genome Biol. 6: 224.

53. Krallinger, M., A. Valencia, L. Hirschman (2008). Linking genes to literature: text mining, information extraction, and retrieval applications for biology //Genome Biol. 9 Suppl 2: S8.

54. Landauer, Т.К., Laham, D., Derr, M. (2004) From paragraph to graph: latent semantic analysis for information visualization //Proc. Natl. Acad. Sci. 101:52145219.

55. Lee, P. H., D. Lee (2005). Modularized learning of genetic interaction networks from biological annotations and mRNA expression data //Bioinformatics. 21: 2739-2747.

56. Lei, Z., Y. Dai (2006). Assessing protein similarity with Gene Ontology and its use in subnuclear localization prediction //BMC Bioinformatics. 7: 491.

57. Li, H., Y. Sun, M. Zhan (2007). Analysis of Gene Coexpression by B-Spline Based CoD Estimation //EURASIP J Bioinform Syst Biol. 49: 478.

58. Lin, J., W. J. Wilbur (2007). PubMed related articles: a probabilistic topic-based model for content similarity//BMC Bioinformatics. 8: 423.

59. Lord, P. W., R. D. Stevens, A. Brass, C. A. Goble (2003). Investigating semantic similarity measures across the Gene Ontology: the relationship between sequence and annotation//Bioinformatics. 19: 1275-1283.

60. Maglott, D., J. Ostell, K. D. Pruitt, T. Tatusova (2007). Entrez Gene: gene-centered information at NCBI //Nucleic Acids Res. 35: D26-31.

61. Manning, С., H. Schutze (1999). Foundations of Statistical Natural Language Processing //.

62. Мао, X., T. Cai, J. G. Olyarchuk, L. Wei (2005). Automated genome annotation and pathway identification using the KEGG Orthology (КО) as a controlled vocabulary//Bioinformatics. 21: 3787-3793.

63. Marcotte, E. M., I. Xenarios, D. Eisenberg (2001). Mining literature for protein-protein interactions//Bioinformatics. 17: 359-363.

64. Mika, S., B. Rost (2004). NLProt: extracting protein names and sequences from papers //Nucleic Acids Res. 32: W634-637.

65. Mungall, C. J. (2004). Obol: integrating language and meaning in bio-ontologies //Comp Funct Genomics. 5: 509-520.

66. Nadanaka, S., H. Kitagawa (2008). Heparan sulphate biosynthesis and disease //J1. Biochem. 144: 7-14.

67. Nelson, D. R. (2006). Cytochrome P450 nomenclature, 2004 //Methods Mol Biol. 320:1-10.

68. Newman, M. (2003). The structure and function of complex networks //SIAM Rev. 45: 167-256.

69. Onogi, Y. (2007). Assigning categorical information to Japanese medical terms using MeSH and MEDLINE //Stud Health Technol Inform. 129: 694-698.

70. Paul, M., A. Poyan Mehr, R. Kreutz (2006). Physiology of local renin-angiotensin systems //Physiol Rev. 86: 747-803.

71. Petrak, J. et al. (2008). Deja vu in proteomics. A hit parade of repeatedly identified differentially expressed proteins //Proteomics. 8: 1744-1749.

72. Pruitt, K. D., D. R. Maglott (2001). RefSeq and LocusLink: NCBI gene-centered resources //Nucleic Acids Res. 29: 137-140.

73. Quentin, Y., J. Chabalier, G. Fichant (2002). Strategies for the identification, the assembly and the classification of integrated biological systems in completely sequenced genomes //Comput Chem. 26: 447-457.

74. Raychaudhuri, S. (2006) Computational Text Analysis for Functional Genomics and Bioinformatics. Oxford University Press.

75. Raychaudhuri, S., R. B. Altman (2003). A literature-based method for assessing the functional coherence of a gene group //Bioinformatics. 19: 396-401.

76. Regev, Y., M. Finkelstein-Landau, R. Feldman (2003). Rule-based extraction of experimental evidence in the biomedical domain: The KDD Cup 2002 (task 1) //ACM SIGKDD Explorations Newsletter. 4: 90-92.

77. Rogers D.J., Tanimoto T.T. (1960). A Computer Program for Classifying Plants. Science. 132, 1115-1118.

78. Safran, M. et al. (2002). GeneCards 2002: towards a complete, object-oriented, human gene compendium//Bioinformatics. 18: 1542-1543.

79. Settles, B. (2005). ABNER: an open source tool for automatically tagging genes, proteins and other entity names in text //Bioinformatics. 21: 3191-3192.

80. Shi, M., D. Edwin, R. Menon (2002). A machine learning approach for the curation of biomedical literature-KDD Cup 2002 (task 1) //ACM SIGKDD Explorations Newsletter. 4: 93-94.

81. Song, Y., E. Kim, G. G. Lee, В. K. Yi (2005). POSBIOTM-NER: a trainable biomedical named-entity recognition system //Bioinformatics. 21: 2794-2796.

82. Spirin, V., M. S. Gelfand, A. A. Mironov, L. A. Mirny (2006). A metabolic network in the evolutionary context: multiscale structure and modularity //Proc Natl Acad Sci U S A. 103: 8774-8779.

83. Stapley, B. J., G. Benoit (2000). Biobibliometrics: information retrieval and visualization from co-occurrences of gene names in Medline abstracts //Рас Symp Biocomput: 529-540.

84. Sun, H. et al (2006). GOFFA: Gene Ontology For Functional Analysis A FDA Gene Ontology Tool for Analysis of Genomic and Proteomic Data //BMC Bioinformatics. 7 Suppl 2: S23.

85. Ulitsky, I., R. Shamir (2007). Identification of functional modules using network topology and high-throughput data //BMC Syst Biol. 1: 8.

86. UniProt Consortium. (2009). The Universal Protein Resource (UniProt) //Nucleic Acids Res. 37: D169-174.

87. Wang, Y., Marsden, P.A. (1995) Nitric oxide synthases: gene structure and regulation //Adv. Pharmacol. 34:71-90.

88. Wang, Y., P. A. Marsden (1995). Nitric oxide synthases: gene structure and regulation //Adv Pharmacol. 34: 71-90.

89. Wang, Z., J. Zhang (2007). In search of the biological significance of modular structures in protein networks //PLoS Comput Biol. 3: 107.

90. Wilbur, W., L. Coffee (1994). The Effectiveness of Document Neighboring in Search Enhancement //Inf. Process. Manage. 30: 253-266.

91. Wu, С. H. et al (2003). The Protein Information Resource //Nucleic Acids Res. 31:345-347.

92. Wu, X. et al (2006). Prediction of yeast protein-protein interaction network: insights from the Gene Ontology and annotations //Nucleic Acids Res. 34: 21372150.

93. Xenarios, I. et al (2002). DIP, the Database of Interacting Proteins: a research tool for studying cellular networks of protein interactions //Nucleic Acids Res. 30: 303305.

94. Xu, D., D. Song, L. C. Pedersen, J. Liu (2007). Mutational study of heparansulfate 2-O-sulfotransferase and chondroitin sulfate 2-O-sulfotransferase //J Biol Chem. 282: 8356-8367.

95. Zhao, J. et al. (2007). Modular co-evolution of metabolic networks //BMC Bioinformatics. 8: 311.

96. Zheng, В., X. Lu (2007). Novel metrics for evaluating the functional coherence of protein groups via protein semantic network //Genome Biol. 8: R153.1. БЛАГОДАРНОСТИ

Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.