Модели и алгоритмы обнаружения локальных закономерностей в задаче распознавания вторичной структуры белка тема диссертации и автореферата по ВАК РФ 05.13.17, кандидат физико-математических наук Торшин, Иван Юрьевич
- Специальность ВАК РФ05.13.17
- Количество страниц 101
Заключение диссертации по теме «Теоретические основы информатики», Торшин, Иван Юрьевич
6. Заключение
Проблема создания методов анализа данных, позволяющих проводить формально точный анализ данных на базе алгебраических критериев разрешимости и регулярности, является актуальной. Задачей настоящего исследования являлась разработка методов анализа данных на основе комбинаторного тестирования критериев разрешимости и регулярности и применение разрабатываемых методов для решения проблемы отбора информативных локальных закономерностей в задаче распознавания вторичной структуры белка.
В настоящей работе сформулированы основы проблемно-ориентированной теории для формального описания задачи распознавания вторичной структуры белка. Получены критерии разрешимости, регулярности и локальности исследуемой задачи. Введены ключевые понятия (мотив, оценка информативности мотива, порядок на мотивах), < ; позволяющие использовать разрабатываемый формализм для анализа > реально существующих множеств прецедентов. Показано, что разрешимость и регулярность локальной формы задачи позволяют находить тупиковые множества наиболее информативных мотивов.
Приведены результаты экспериментов по тестированию разрешимости и регулярности задачи, в ходе которых были установлены тупиковые множества мотивов, обеспечивающие регулярность локальной формы задачи при произвольном множестве прецедентов. Эксперименты указали на существование некоторого «ядра», мотивы которого обеспечивают разрешимость на большинстве пар объектов. Полная разрешимость достигается добавлением к «ядру» некоторых низкоинформативных мотивов, каждый из которых обеспечивает разрешимость всего лишь на нескольких парах объектов.
Предложен алгоритм построения оптимальных алфавитов для описания вторичной структуры белка на основе принципа максимального покрытия ведущих позиций. Исследованы различные алфавиты для описания вторичных структур и показано, что оптимальным является 4-элементный В-алфавит, состоящий из 5-буквенных слов. Сформулирована эмпирическая схема распознавания вторичной структуры белка на основе алгоритма голосования. Показано, что использование оптимального 4-элементного В-алфавита позволяет повысить аккуратность распознавания.
Установлены перспективные направления дальнейших исследований: создание теоретико-множественного обоснования оценок информативности, введение комбинаторных оценок значений, исследование ядерной эквивалентности функций-предикторов, построенных на мотивах.
Нахождение тупиковых множеств наиболее информативных мотивов по критерию локальной разрешимости необходимо для следующего этапа настоящего исследования - синтеза алгоритмов в рамках алгебраического подхода к распознаванию.
Список литературы диссертационного исследования кандидат физико-математических наук Торшин, Иван Юрьевич, 2011 год
1. Журавлев Ю.И. Теоретико-множественные методы в алгебре логики. Проблемы кибернетики, 1962, 8(1), 25-45.
2. Журавлев Ю.И. Корректные алгебры над множествами некорректных (эвристических) алгоритмов. I. Кибернетика. 1977. № 4. С. 5-17.
3. Журавлев Ю.И. Корректные алгебры над множествами некорректных (эвристических) алгоритмов. II. Кибернетика. 1977. № 6. С. 21-27.
4. Журавлев Ю.И. Корректные алгебры над множествами некорректных (эвристических) алгоритмов. III. Кибернетика. 1978. № 2. С. 35-43.
5. Журавлев Ю.И. Об алгебраическом подходе к решению задач распознавания или классиикации. Проблемы кибернетики. Вып. 33. М.: Наука, 1978. С. 5-68.
6. Журавлев Ю.И., Рудаков К.В. Об алгебраической коррекции процедур обработки (преобразования) информации. Проблемы прикладной математики и информатики. М.: Наука, 1987. С. 187-198.
7. Рудаков К.В. Универсальные и локальные ограничения в проблеме, коррекции эвристических алгоритмов. Кибернетика. 1987. № 2. С. 30-35. ' I/'
8. Рудаков К.В. Полнота и универсальные ограничения в проблеме коррекции эвристических алгоритмов классификации. Кибернетика. 1987. №3.С. 106-109.
9. Рудаков К.В. Симметрические и функциональные ограничения в проблеме коррекции эвристических алгоритмов классификации. Кибернетика. 1987. №4. С. 73-77.
10. Рудаков К.В. О применении универсальных ограничений при исследовании алгоритмов классификации. Кибернетика. 1988. № 1. С. 1-5.
11. Torshin I.Yu. Bioinformatics in the post-genomic era: sensing the change from molecular genetics to personalized medicine. Nova Biomedical Books, NY, 2009, ISBN: 978-1-60692-217
12. Kelley LA, MacCallum RM & Sternberg MJE (2000). Enhanced Genome Annotation using Structural Profiles in the Program 3D-PSSM. J. Mol. Biol. 299(2), 501-522
13. McGuffin, L.J. & Jones, D.T. (2003) Benchmarking protein secondary structure prediction for protein fold recognition. Proteins: Structure, Function and Genetics, 52, 166-175.
14. Jones, D.T. (1999) Protein secondary structure prediction based on position-specific scoring matrices. J. Mol. Biol. 292, 195-202.
15. Ward, J.J., McGuffin, L.J., Buxton, B.F. & Jones, D.T. (2003) Secondary structure prediction using support vector machines. Bioinformatics, 19, 16501655.
16. Torshin I.Y. Bioinformatics in the Post-Genomic Era: The Role of Biophysics, 2006. Nova Biomedical Books, NY, ISBN: 1-60021-048
17. Garnier J, Osguthorpe DJ, Robson В (1978). "Analysis of the accuracy and implications of simple methods for predicting the secondary structure of globular proteins". J Mol Biol 120 (1): 97-120.
18. Шульц Г., Ширмер P. Принципы структурной организации белков. М., Мир, 1982, 250 с.
19. Orengo СА, Bray JE, Hubbard Т, LoConte L, Sillitoe I. Analysis and assessment of ab initio three-dimensional prediction, secondary structure, and contacts prediction. Proteins. 1999;Suppl 3:149-70.
20. Venclovas C, Zemla A, Fidelis K, Moult J. Comparison of performance in successive CASP experiments. Proteins. 2001;Suppl 5:163-70.f g
21. Aloy P, Stark A, Hadley C, Russell RB. Predictions without templates: new folds, secondary structure, and contacts in CASP5. Proteins. 2003;53 Suppl 6:436-56.
22. Vincent J J, Tai CH, Sathyanarayana BK, Lee B. Assessment of CASP6 predictions for new and nearly new fold targets. Proteins. 2005;61 Suppl 7:6783.
23. Jauch R, Yeo HC, Kolatkar PR, Clarke ND. Assessment of CASP7 structure predictions for template free targets. Proteins. 2007;69 Suppl 8:5767.
24. Altschul SF, Gish W, Miller W, Myers EW, Lipman DJ (October 1990). "Basic local alignment search tool". J Mol Biol 215 (3): 403-410.
25. Рудаков K.B., Торшин И.Ю. Вопросы разрешимости задачи распознавания вторичной структуры белка. Информатика и её применения, Т.4., № 2,2010, с. 25-35.
26. Simossis V.F., Herringa J. Integrating protein secondary structure prediction and multiple sequence alignment.//Curr Protein Pept Sci. 2004,5(2):249-266.
27. Рудаков K.B., Торшин И.Ю. Анализ информативности мотивов на основе критерия разрешимости в задаче распознавания вторичной структуры белка. Информатика и её применения, Т. 5, № 4, 2011, с. 40-50.
28. Журавлёв Ю.И., Рудаков К.В., Торшин И.Ю. Алгебраические критерии локальной разрешимости и регулярности как инструмент исследования морфологии аминокислотных последовательностей. Труды МФТИ. 2011 -Т.З. № 4, с.67-76.
29. Рудаков К.В., Торшин И.Ю. Об отборе информативных значений признаков на базе критериев разрешимости в задаче распознавания вторичной структуры белка. ДАН, 2011, Т. 441, № 1, с. 1 -5.
30. Torshin I. Yu. On solvability, regularity, and locality of the problem of genome annotation. Pattern Recognition and Image Analysis, 2010, V. 20(3): 386-395.
31. Рудаков K.B., Торшин И.Ю. О разрешимости формальной задачи распознавания вторичной структуры белка. ММРО-14, Суздаль, 21-25 сентября, 2009, С. 596-597.
32. Торшин И.Ю. Анализ мотивов в задаче распознавания вторичной структуры белка на основе критерия разрешимости.^ Международная; конференция «Интеллектуализация обработки информации» (ИОИ-8), Кипр, г. Пафос, 17-23 октября 2010 г, с.487-490.
33. Торшин И.Ю. Критерии локальной разрешимости и регулярности в анализе данных аминокислотных последовательностей. ММРО-15, Петрозаводск, 11-17 сентября, 2011, С. 590-594.
34. Berman Н. М., Henrick К., Nakamura Н. Announcing the worldwide Protein Data Bank // Nature Structural Biology, 2003. Vol. 10 No. 12. P. 980982.
35. Frishman D, Argos P. Knowledge-based protein secondary structure assignment. Proteins. 1995, 23(4):566-79.
36. Рудаков K.B. О проблемах классификации значений признаков в задачах распознавания. Международная конференция «Интеллектуализация обработки информации» (ИОИ-8), Кипр, г. Пафос, 17-23 октября 2010 г.
37. Воронцов К. В. Комбинаторная теория надёжности обучения по прецедентам: Дис. док. физ.-мат. наук: 05-13-17. — Вычислительный центр РАН, 2010. —271 с.
38. Furnkranz J., Flach P. A. Roc 'n' rule learning-towards a better understanding of covering algorithms // Machine Learning.— 2005.— Vol. 58, no. 1.—Pp. 39-77.
39. The UniProt Consortium.Ongoing and future developments at the Universal Protein Resource. Nucleic Acids Res. 39: D214-D219 (2011).