Поиск участков специфического связывания белков-регуляторов транскрипции с ДНК методом Монте-Карло Марковскими цепями тема диссертации и автореферата по ВАК РФ 03.00.02, кандидат физико-математических наук Фаворов, Александр Владимирович

  • Фаворов, Александр Владимирович
  • кандидат физико-математических науккандидат физико-математических наук
  • 2005, Москва
  • Специальность ВАК РФ03.00.02
  • Количество страниц 91
Фаворов, Александр Владимирович. Поиск участков специфического связывания белков-регуляторов транскрипции с ДНК методом Монте-Карло Марковскими цепями: дис. кандидат физико-математических наук: 03.00.02 - Биофизика. Москва. 2005. 91 с.

Оглавление диссертации кандидат физико-математических наук Фаворов, Александр Владимирович

ОГЛАВЛЕНИЕ.

Актуальность темы.

Цель и задачи исследования.

Научная новизна и практическая ценность.

Публикации.

Апробация работы.

Объем и структура диссертации.

Рекомендованный список диссертаций по специальности «Биофизика», 03.00.02 шифр ВАК

Введение диссертации (часть автореферата) на тему «Поиск участков специфического связывания белков-регуляторов транскрипции с ДНК методом Монте-Карло Марковскими цепями»

Экспериментальные методы нахождения ССТФ.11

Поиск сайтов связывания транскрипционных факторов хп яШсо.12

Описания мотива и оценки его качества.12

Матрица позиционных весов.13

Различные типы алгоритмов для поиска мотивов.15

Описание нескольких наиболее известных алгоритмов поиска мотивов.18

Похожие диссертационные работы по специальности «Биофизика», 03.00.02 шифр ВАК

Заключение диссертации по теме «Биофизика», Фаворов, Александр Владимирович

выводы

1. Сформулирована в явном и строгом виде байесовская модель для вероятности присутствия в данной позиции последовательности мотива связывания белка-регулятора при условии известных последовательности регуляторной области и набора последовательностей участков связывания этого конкретного белка. Модель явно учитывает априорные предположения о симметрии мотива.

2. Получены формулы для выражения информационного содержания коллекции участков (сайтов) связывания конкретного белка в наборе последовательностей ДНК.

3. Разработана модификация распространённого алгоритма оптимизации Gibbs Sampler для алгоритмического поиска участков связывания белков-регуляторов транскрипции ДНК в наборе определённых последовательностей ДНК, имеющих сходную регуляторную функцию.

4. Созданы программное обеспечение SeSiMCMC с интерфейсом командной строки реализующее алгоритм, описанный в пункте (3), и открытый веб-интерфейс обращения к этому программному обеспечению.

5. Проведено сравнение SeSiMCMC с другими инструментами того же типа. Сравнение показало, что программа вполне отвечает современному мировому уровню развития этих инструментов и вполне применима к реальных биологическим данным, но, как и другие родственные программы, недостаточна для исчерпывающего решения задачи алгоритмического поиска регуляторных участков в ДНК.

6. С помощью программы SeSiMCMC были найдены дивергентные и поэтому трудные для алгоритмического обнаружения мотивы сайтов связывания двух регуляторов дыхания в Escherichia coli, а именно АгсА-Р и NarP. На основании этих мотивов было сделано первичное описание соответствующих регулонов.

Список литературы диссертационного исследования кандидат физико-математических наук Фаворов, Александр Владимирович, 2005 год

1. Bailey, T. L., C. Elkan (1995). "The value of prior knowledge in discovering motifs with MEME." Proc Int Conf Intell Syst Mol Biol 3: 21-9.

2. Bailey, T. L., C. P. Elkan (1995). "Unsupervised learning of multiple motifs in biopolymers using expectation maximization." Machine Learning J 21: 51-83.

3. Bearson, S. M., J. A. Albrecht, R. P. Gunsalus (2002). "Oxygen and nitrate-dependent regulation of dmsABC operon expression in Escherichia coli: sites for Fnr and NarL protein interactions." BMC Microbiol 2(1): 13.

4. Berg, O. G., P. H. von Hippel (1987). "Selection of DNA binding sites by regulatory proteins. Statistical-mechanical theory and application to operators and promoters." J Mol Biol 193(4): 723-50.

5. Berg, O. G., P. H. von Hippel (1988). "Selection of DNA binding sites by regulatory proteins." Trends Biochem Sci 13(6): 207-11.

6. Bongaerts, J., S. Zoske, U. Weidner, G. Unden (1995). "Transcriptional regulation of the proton translocating NADH dehydrogenase genes (nuoA-N) of Escherichia coli by electron acceptors, electron donors and gene regulators." Mol Microbiol 16(3): 521-34.

7. Brejova, В., С. DiMarco, Т. Vinar, S. Hidalgo, G. Holguin, C. Patten (2000). "Finding Patterns in Biological Sequences." Unpublished project report for CS798G, University of Waterloo.

8. Buhler, J., M. Tompa (2002). "Finding motifs using random projections." J Comput Biol 9(2): 225-42.

9. Bulyk, M. L. (2003). "Computational prediction of transcription-factor binding site locations." Genome Biol 5(1): 201.

10. Bulyk, M. L., E. Gentalen, D. J. Lockhart, G. M. Church (1999). "Quantifying DNA-protein interactions by double-stranded DNA arrays." Nat Biotechnol 17(6): 573-7.

11. Bulyk, M. L., X. Huang, Y. Choo, G. M. Church (2001). "Exploring the DNA-binding specificities of zinc fingers with DNA microarrays." Proc Natl Acad Sci U S A 98(13): 7158-63.

12. Campbell, J. W., R. M. Morgan-Kiss, J. E. Cronan, Jr. (2003). "A new Escherichia coli metabolic competency: growth on fatty acids by a novel anaerobic beta-oxidation pathway." Mol Microbiol 47(3): 793-805.

13. Cardon, L. R., G. D. Stormo (1992). "Expectation maximization algorithm for identifying protein-binding sites with variable lengths from unaligned DNA fragments." J Mol Biol 223(1): 15970.

14. Chao, G., J. Shen, C. P. Tseng, S. J. Park, R. P. Gunsalus (1997). "Aerobic regulation of isocitrate dehydrogenase gene (icd) expression in Escherichia coli by the arcA and fnr gene products." J Bacteriol 179(13): 4299-304.

15. Chen, P., D. I. Andersson, J. R. Roth (1994). "The control region of the pdu/cob regulon in Salmonella typhimurium." J Bacteriol 176(17): 5474-82.

16. Cliften, P. F., L. W. Hillier, L. Fulton, T. Graves, T. Miner, W. R. Gish, R. H. Waterston, M. Johnston (2001). "Surveying Saccharomyces genomes to identify functional elements by comparative DNA sequence analysis." Genome Res 11(7): 1175-86.

17. Collins, F. S., E. D. Green, A. E. Guttmacher, M. S. Guyer (2003). "A vision for the future of genomics research." Nature 422(6934): 835-47.

18. Colloms, S. D., C. Alen, D. J. Sherratt (1998). "The ArcA/ArcB two-component regulatory system of Escherichia coli is essential for Xer site-specific recombination at psi." Mol Microbiol 28(3): 521-30.

19. Compan, I., D. Touati (1994). "Anaerobic activation of arcA transcription in Escherichia coli: roles of Fnr and ArcA." Mol Microbiol 11(5): 955-64.

20. Crooks, G. E., G. Hon, J. M. Chandonia, S. E. Brenner (2004). "WebLogo: a sequence logo generator." Genome Res 14(6): 1188-90.

21. Darwin, A. J., J. Li, V. Stewart (1996). "Analysis of nitrate regulatory protein NarL-binding sites in the fdnG and narG operon control regions of Escherichia coli K-12." Mol Microbiol 20(3): 621-32.

22. Darwin, A. J., V. Stewart (1995). "Expression of the narX, narL, narP, and narQ genes of Escherichia coli K-12: regulation of the regulators." J Bacteriol 177(13): 3865-9.

23. Darwin, A. J., K. L. Tyson, S. J. Busby, V. Stewart (1997). "Differential regulation by the homologous response regulators NarL and NarP of Escherichia coli K-12 depends on DNA binding site arrangement." Mol Microbiol 25(3): 583-95.

24. Darwin, A. J., E. C. Ziegelhoffer, P. J. Kiley, V. Stewart (1998). "Fnr, NarP, and NarL regulation of Escherichia coli K-12 napF (periplasmic nitrate reductase) operon transcription in vitro." J Bacteriol 180(16): 4192-8.

25. Eskin, E., P. A. Pevzner (2002). "Finding composite regulatory patterns in DNA sequences." Bioinformatics 18 Suppl 1: S354-63.

26. Favorov, A. V., T. V. Andreewski, M. A. Sudomoina, O. O. Favorova, G. Parmigiani, M. F. Ochs (2005). "A Markov Chain Monte Carlo Technique for Identification of Combinations of Allelic Variants Underlying Complex Diseases." Genetics.

27. Fraenkel, Y. M., Y. Mandel, D. Friedberg, H. Margalit (1995). "Identification of common motifs in unaligned DNA sequences: application to Escherichia coli Lrp regulon." Comput Appl Biosci 11(4): 379-87.

28. Freeh, K., G. Herrmann, T. Werner (1993). "Computer-assisted prediction, classification, and delimitation of protein binding sites in nucleic acids." Nucleic Acids Res 21(7): 1655-64.

29. Frishman, D., A. Mironov, M. Gelfand (1999). "Starts of bacterial genes: estimating the reliability of computer predictions." Gene 234(2): 257-65.

30. Gelfand, M. (2003). Computational Identification of Regulatory Sites in DNA Sequences. Artificial intelligence and heuristic methods in bioinformatics. P. Frasconi and R. Shamir. Amsterdam; Washington, DC; Tokyo., IOS Press; Ohmsha. 183: 149-172.

31. Gelfand, M. S. (1999). "Recognition of regulatory sites by genomic comparison." Res Microbiol 150(9-10): 755-71.

32. Gelfand, M. S., E. V. Koonin, A. A. Mironov (2000). "Prediction of transcription regulatory sites in Archaea by a comparative genomic approach." Nucleic Acids Res 28(3): 695-705.

33. Geman, S., D. Geman (1984). "Stochastic relaxation, Gibbs distribution and the Bayesian restoration of images." IEEE Transactions on Pattern Analysis and Machine Intelligence 6: 621-641.

34. Gilks, W. R., S. Richardson, D. J. Spiegelhalter (1996). Markov chain Monte Carlo in practice. London, Chapman & Hall.

35. Golby, P., D. J. Kelly, J. R. Guest, S. C. Andrews (1998). "Transcriptional regulation and organization of the dcuA and dcuB genes, encoding homologous anaerobic C4-dicarboxylate transporters in Escherichia coli." J Bacterid 180(24): 6586-96.

36. Gold, L., D. Brown, Y. He, T. Shtatland, B. S. Singer, Y. Wu (1997). "From oligonucleotide shapes to genomic SELEX: novel biological regulatory loops." Proc Natl Acad Sci U S A 94(1): 5964.

37. Grundy, W. N., T. L. Bailey, C. P. Elkan (1996). "ParaMEME: a parallel implementation and a web interface for a DNA and protein motif discovery tool." Comput Appl Biosci 12(4): 303-10.

38. Hassan, H. M., H. C. Sun (1992). "Regulatory roles of Fnr, Fur, and Arc in expression of manganese-containing superoxide dismutase in Escherichia coli." Proc Natl Acad Sci U S A 89(8): 3217-21.

39. Hertz, G. Z., G. W. Hartzell, 3rd, G. D. Stormo (1990). "Identification of consensus patterns in unaligned DNA sequences known to be functionally related." Comput Appl Biosci 6(2): 81-92.

40. Hertz, G. Z., G. D. Stormo (1999). "Identifying DNA and protein patterns with statistically significant alignments of multiple sequences." Bioinformatics 15(7-8): 563-77.

41. Horak, C. E., M. C. Mahajan, N. M. Luscombe, M. Gerstein, S. M. Weissman, M. Snyder (2002). "GATA-1 binding sites mapped in the beta-globin locus by using mammalian chip-chip analysis." Proc Natl Acad Sci U S A 99(5): 2924-9.

42. Hu, Y. J., S. Sandmeyer, C. McLaughlin, D. Kibler (2000). "Combinatorial motif analysis and hypothesis generation on a genomic scale." Bioinformatics 16(3): 222-32.

43. Jensen, L. J., S. Knudsen (2000). "Automatic discovery of regulatory patterns in promoter regions based on whole cell expression data and functional annotation." Bioinformatics 16(4): 326-33.

44. Jonassen, I. (1997). "Efficient discovery of conserved patterns using a pattern graph." Comput Appl Biosci 13(5): 509-22.

45. Kaiser, M., G. Sawers (1997). "Overlapping promoters modulate Fnr- and ArcA-dependent anaerobic transcriptional activation of the focApfl operon in Escherichia coli." Microbiology 143 (Pt 3): 775-83.

46. Kaiman, L. V., R. P. Gunsalus (1990). "Nitrate- and molybdenum-independent signal transduction mutations in narX that alter regulation of anaerobic respiratory genes in Escherichia coli." J Bacteriol 172(12): 7049-56.

47. Kielbasa, S. M., J. O. Korbel, D. Beule, J. Schuchhardt, H. Herzel (2001). "Combining frequency and positional information to predict transcription factor binding sites." Bioinformatics 17(11): 1019-26.

48. Marsaglia, G., A. Zaman (1994). "Some portable very-long-period random number generators." Computers in Physics 8(1): 117.

49. Marsan, L., M. F. Sagot (2000). "Algorithms for extracting structured motifs using a suffix tree with an application to promoter and regulatory site consensus identification." J Comput Biol 7(3-4): 345-62.

50. McGuire, A. M., P. De Wulf, G. M. Church, E. C. Lin (1999). "A weight matrix for binding recognition by the redox-response regulator ArcA-P of Escherichia coli." Mol Microbiol 32(1): 21921.

51. McGuire, A. M., J. D. Hughes, G. M. Church (2000). "Conservation of DNA regulatory motifs and discovery of new motifs in microbial genomes." Genome Res 10(6): 744-57.

52. Membrillo-Hernández, J., E. C. Lin (1999). "Regulation of expression of the adhE gene, encoding ethanol oxidoreductase in Escherichia coli: transcription from a downstream promoter and regulation by fnr and RpoS." J Bacteriol 181(24): 7571-9.

53. Mironov, A. A., N. P. Vinokurova, M. S. Gel'fand (2000). "Software for analyzing bacterial genomes." Mol Biol (Mosk) 34(2): 253-62.

54. Oliphant, A. R., C. J. Brandl, K. Struhl (1989). "Defining the sequence specificity of DNA-binding proteins by selecting binding sites from random-sequence oligonucleotides: analysis of yeast GCN4 protein." Mol Cell Biol 9(7): 2944-9.

55. Pellicer, M. T., C. Fernandez, J. Badia, J. Aguilar, E. C. Lin, L. Baldom (1999). "Cross-induction of glc and ace operons of Escherichia coli attributable to pathway intersection. Characterization of the glc promoter." J Biol Chem 274(3): 1745-52.

56. Pellicer, M. T., A. S. Lynch, P. De Wulf, D. Boyd, J. Aguilar, E. C. Lin (1999). "A mutational study of the ArcA-P binding sequences in the aldA promoter of Escherichia coli." Mol Gen Genet 261(1): 170-6.

57. Pesole, G., N. Prunella, S. Liuni, M. Attimonelli, C. Saccone (1992). "WORDUP: an efficient algorithm for discovering statistically significant patterns in DNA sequences." Nucleic Acids Res 20(11): 2871-5.

58. Pevzner, P. A., S. H. Sze (2000). "Combinatorial approaches to finding subtle signals in DNA sequences." Proc Int Conf Intell Syst Mol Biol 8:269-78.

59. Quail, M. A., D. J. Haydon, J. R. Guest (1994). "The pdhR-aceEF-lpd operon of Escherichia coli expresses the pyruvate dehydrogenase complex." Mol Microbiol 12(1): 95-104.

60. Quandt, K., K. Frech, H. Karas, E. Wingender, T. Werner (1995). "Matlnd and Matlnspector: new fast and versatile tools for detection of consensus matches in nucleotide sequence data." Nucleic Acids Res 23(23): 4878-84.

61. Reid, J. L., V. R. Iyer, P. O. Brown, K. Struhl (2000). "Coordinate regulation of yeast ribosomal protein genes is associated with targeted recruitment of Esal histone acetylase." Mol Cell 6(6): 1297-307.

62. Ren, B., H. Cam, Y. Takahashi, T. Volkert, J. Terragni, R. A. Young, B. D. Dynlacht (2002). "E2F integrates cell cycle progression with DNA repair, replication, and G(2)/M checkpoints." Genes Dev 16(2): 245-56.

63. Richard, D. J., G. Sawers, F. Sargent, L. McWalter, D. H. Boxer (1999). "Transcriptional regulation in response to oxygen and nitrate of the operons encoding the NiFe. hydrogenases 1 and 2 of Escherichia coli." Microbiology 145 (Pt 10): 2903-12.

64. Rigoutsos, I., A. Floratos (1998). "Combinatorial pattern discovery in biological sequences: The TEIRESIAS algorithm." Bioinformatics 14(1): 55-67.

65. Ritz, D., H. Patel, B. Doan, M. Zheng, F. Aslund, G. Storz, J. Beckwith (2000). "Thioredoxin 2 is involved in the oxidative stress response in Escherichia coli." J Biol Chem 275(4): 2505-12.

66. Robert, C. P., G. Casella (1999). Monte Carlo statistical methods. New York, Springer.

67. Rocke, E., M. Tompa (1998). An algorithm for finding novel gapped motifs in DNA sequences. Proceedings of the second annual international conference on Computational molecular biology RECOMB '98, New York, New York, United States: 228-233, ACM Press.

68. Roth, F. P., J. D. Hughes, P. W. Estep, G. M. Church (1998). "Finding DNA regulatory motifs within unaligned noncoding sequences clustered by whole-genome mRNA quantitation." Nat Biotechnol 16(10): 939-45.

69. Rouchka, E. C. (1997). A Brief Overview of Gibbs Sampling, Washington University1.stitute for Biomedical Computing1. Statistics Study Group.

70. Shannon, C. E., W. Weaver (1949). The mathematical theory of communication. Urbana, University of Illinois Press.

71. Sivia, D. S. (1996). Data analysis: a Bayesian tutorial. Oxford; New York, Clarendon Press; Oxford University Press.

72. Stormo, G. D. (2000). "DNA binding sites: representation and discovery." Bioinformatics 16(1): 16-23.

73. Stormo, G. D., G. W. Hartzell, 3rd (1989). "Identifying protein-binding sites from unaligned DNA fragments." Proc Natl Acad Sei U S A 86(4): 1183-7.

74. Thijs, G., K. Marchai, M. Lescot, S. Rombauts, B. De Moor, P. Rouze, Y. Moreau (2002). "A Gibbs sampling method to detect overrepresented motifs in the upstream regions of coexpressed genes." J Comput Biol 9(2): 447-64.

75. Tompa, M. (1999). "An exact method for finding short motifs in sequences, with application to the ribosome binding site problem." Proc Int Conf Intell Syst Mol Biol: 262-71.

76. Tompa, R., C. M. McCallum, J. Delrow, J. G. Henikoff, B. van Steensel, S. Henikoff (2002). "Genome-wide profiling of DNA methylation reveals transposon targets of CHROMOMETHYLASE3." CurrBiol 12(1): 65-8.

77. Wang, H., R. P. Gunsalus (2000). "The nrfA and nirB nitrite reductase operons in Escherichia coli are expressed differently in response to nitrate than to nitrite." J Bacteriol 182(20): 5813-22.

78. Waterman, M. S. (1986). "Multiple sequence alignment by consensus." Nucleic Acids Res 14(22): 9095-102.

79. Weinmann, A. S., P. S. Yan, M. J. Oberley, Т. H. Huang, P. J. Farnham (2002). "Isolating human transcription factor targets by coupling chromatin immunoprecipitation and CpG island microarray analysis." Genes Dev 16(2): 235-44.

80. Wingender, E., P. Dietze, H. Karas, R. Knuppel (1996). "TRANSFAC: a database on transcription factors and their DNA binding sites." Nucleic Acids Res 24(1): 238-41.

81. Wolfertstetter, F., K. Freeh, G. Herrmann, T. Werner (1996). "Identification of functional elements in unaligned nucleic acid sequences by a novel tuple search algorithm." Comput Appl Biosci 12(1): 71-80.

82. Wolfsberg, T. G., A. E. Gabrielian, M. J. Campbell, R. J. Cho, J. L. Spouge, D. Landsman (1999). "Candidate regulatory sequence elements for cell cycle-dependent transcription in Saccharomyces cerevisiae." Genome Res 9(8): 775-92.

83. Wood, J. M. (1987). "Membrane association of proline dehydrogenase in Escherichia coli is redox dependent." Proc Natl Acad Sci U S A 84(2): 373-7.

84. Wyrick, J. J., R. A. Young (2002). "Deciphering gene expression regulatory networks." Curr Opin Genet Dev 12(2): 130-6.

85. Xu, X., L. Wang, D. Ding (2004). "Learning module networks from genome-wide location and expression data." FEBS Lett 578(3): 297-304.

86. Миронов, А. А., М. С. Гельфанд (1999). "Компьютерный анализ регуляторных сигналов в полных бактериальных геномах. Участки связывания РигЛ." Молекулярная биология 33(1): 127-132.

87. Фаворов, А. В. (2004). "Методологические различия физического и вычислительного модельных подходов." Биофизика 49(5): 958-960.

88. Фаворов, А. В., М. В. Волькенштейн (1991). "Механическая устойчивость цитоскелета и запуск перестроек клетки." Доклады Академии Наук СССР 319(5): 1239-1243.

Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.