Сравнительный геномный анализ систем метаболизма длинноцепочечных жирных кислот и мембранных белков γ-протеобактерий тема диссертации и автореферата по ВАК РФ 03.01.09, кандидат биологических наук Садовская, Наталия Сергеевна

Садовская, Наталия Сергеевна. Сравнительный геномный анализ систем метаболизма длинноцепочечных жирных кислот и мембранных белков γ-протеобактерий: дис. кандидат биологических наук: 03.01.09 - Математическая биология, биоинформатика. Москва. 2012. 154 с.

1.1. Мембраны как основной компартмент про- и эукариотических клеток

1.2. Липиды как структурная основа мембран

1.3. Биосинтез жирных кислот

1.4. Катаболизм длинноцепочечных жирных кислот

1.5. Бас®. как регулятор биосинтеза и катаболизма жирных кислот в Е. соИ

1.6. Участие РаЫ1 в контроле биосинтеза ненасыщенных жирных кислот в Е. соН

1.7. Трансмембранные белки

1.7.1. Свойства а-спиральных трансмембранных белков

1.7.2. Свойства трансмембранных белков типа Р-бочонок

1.8. Предпочтение пар остатков в трансмембранных белках

1.9. Классификация трансмембранных белков по Сайеру

1.10. Рентгеноструктурный анализ белков

1.11. Экспериментальные методы определения топологии трансмембранных белков

1.11.1. Использование гибридов с репортерными белками

1.11.2. Использование специфических последовательностей в качестве репортерных

1.11.3. Метод сайт-специфического мечения остатков цистеина

1.12. Базы данных трансмембранных белков с известной трехмерной структурой

1.13. Предсказание структуры трансмембранных белков т $Шсо

1.14. Обучающая и тестовая выборки


2.1. Банки данных последовательностей бактериальных геномов

2.2. Компьютерные программы и методы, используемые для анализа геномов, а также

отдельных нуклеотидных и белковых последовательностей

2.2.1. Поиск ортологов

2.2.2. Распознавание операторных участков ДНК

2.2.3. Изучение транскрипционной регуляции методами сравнительной геномики

2.2.4. Подход, основанный на сравнении геномов

2.3. Базы данных, используемые при составлении тестовой выборки трансмембранных белков

2.4. Алгоритмы, используемые для сравнительного анализа

2.5. Компьютерные программы, используемые для сравнительного анализа

2.6. Оценка предсказания алгоритмов: коэффициент Жаккарда и коэффициент перекрытия сегментов С


3.1. Построение матрицы позиционных весов для регулона Ра<Ж

3.2. Построение матрицы позиционных весов для регулона РаЫ1

3.3. Анализ регулонов метаболизма жирных кислот

3.3.1. Анализ регулона Бает

3.3.2. Анализ регулона РаЬИ

3.4. Обсуждение результатов анализа регулонов метаболизма жирных кислот

3.4.1. Обсуждение результатов анализа регулона Бает

3.4.2. Обсуждение результатов анализа регулона РаЬЯ

3.5. Анализ алгоритмов

3.6. Построение тестовой выборки

3.6.1. Тестовая выборки а-спиральных трансмембранных белков

3.6.2. Построение кластеров

3.6.3. Тестовая выборка белков типа Р-бочонки

3.7. Сравнительный анализ алгоритмов

3.7.1. Сравнительный анализ алгоритмов, предсказывающих положение трансмембранных сегментов в а-спиральных белках

3.7.2. Сравнительный анализ алгоритмов, предсказывающих положение трансмембранных сегментов в белках типа Р-бочонки

3.7.3. Детальный анализ группы алгоритмов РКЕЮ-ТМВВ

3.8. Обсуждение результатов сравнительного анализа алгоритмов, предсказывающих положение трансмембранных сегментов в а-спиральных белках и в белках типа







а.о. - аминокислотный остаток

АПБ - ацил переносящий белок

ЖК - жирные кислоты

ДЖК - длинноцепочечные жирные кислоты

ДНК - дезоксирибонуклеиновая кислота

ЛП - липопротеины

ЛПС - липополисахариды

МОВ - метод опорных векторов

МПВ - матрица позиционных весов

НС - нейронная сеть

СММ - скрытая Марковская модель

ТМ - трансмембранный

ФЛ - фосфолипиды

ФЭ - фосфатидилэтаноламин

Введение диссертации (часть автореферата) на тему «Сравнительный геномный анализ систем метаболизма длинноцепочечных жирных кислот и мембранных белков γ-протеобактерий»


Актуальность темы

Длинноцепочечные жирные кислоты являются ключевым компонентом всех липидов и таким образом представляют собой важнейшие компоненты мембран. Мембрана в свою очередь ограничивает содержимое клетки и выполняет роль барьера между цитоплазмой и окружающей средой. Согласно жидкостно-мозаичной модели, мембраны рассматривают как динамическую систему, основными составляющими которой являются липидный бислой и различные белки, обладающие широким спектром функциональной активности. Мембранные белки участвуют во всех основных функциях клетки и играют значительную роль в ее жизнедеятельности. Соответственно, полная характеристика как длинноцепочечных жирных кислот, так и мембранных белков является актуальной проблемой современной биологии, в том числе, биоинформатики.

В последнее время у исследователей появились новые возможности компьютерного анализа, обусловленные стремительным ростом количества полностью отсеквенированных геномов. Объем опубликованных нуклеотидных и аминокислотных последовательностей многократно превышает экспериментальные возможности их изучения. Таким образом, аннотация новых последовательностей зачастую осуществляется исключительно биоинформатическими методами и нередко определяет дальнейшие экспериментальные исследования. При этом необходимо отметить, что методы т яШсо требуют меньших временных и материальных затрат и, следовательно, имеют преимущества перед другими подходами.

Одним из таких методов является сравнительный анализ геномных последовательностей. Он позволяет выявить новые члены метаболического пути и предсказать их функции, что особенно существенно при проведении поиска недостающих членов исследуемого пути. Кроме того, этот подход дает возможность переносить уже

имеющуюся информацию о регуляции от одного хорошо изученного генома на другие, менее изученные экспериментально.

Алгоритмы, позволяющие идентифицировать трансмембранные белки на основании аминокислотной последовательности, а также дающие возможность предсказать положение трансмембранных сегментов в трансмембранных белках, представляют собой другой подход, широко применяемый в современной биоинформатике. При этом качество предсказаний алгоритмов составляет около 80%, а результаты сопоставления алгоритмов, полученные различными группами исследователей, заметно различаются. Следует отметить, что работ по сравнительному анализу, выполненных исследователями, которые не разрабатывали тот или иной алгоритм, крайне мало.

Цели и задачи исследования

Цель работы - описание регуляции транскрипции, кодирующей ферменты метаболизма генов длинноцепочечных жирных кислот в у-протеобактериях, и разработка метода тестирования алгоритмов предсказания трансмембранных сегментов в условиях отсутствия экспериментальной тестовой выборки.

В соответствии с этим были поставлены следующие задачи:

1. провести поиск выборки известных сайтов связывания факторов транскрипции БасШ и РаЫ1, регулирующих гены метаболизма длинноцепочечных жирных кислот;

2. построить распознающее правило для поиска потенциальных сайтов связывания Бает и БаЬЯ;

3. построить ортологические ряды генов, вовлеченных в метаболизм длинноцепочечных жирных кислот и определить их регуляцию в родственных организмах;

4. провести поиск новых членов регулонов Ра<Ж и РаЬЯ;

5. определить разметку потенциальных трансмембранных сегментов для а-спиральных белков и белков типа р-бочонок с использованием доступных алгоритмов, реализованных в виде интеренет-серверов;

6. разработать и апробировать метод оценки качества предсказания алгоритмов на основе критерия самосогласованности в условиях дефицита данных трансмембранных белков с известной мембранной разметкой.

Научная новизна и практическая значимость

Впервые исследована регуляция белком Ра<Ж в четырех геномах у-протеобактерий. Благодаря проведенному анализу выявлены три новых гена, кодирующие ферменты катаболизма генов длинноцепочечных жирных кислот в у-протеобактериях, и показана регуляция одного нового гена:

- ген уа/Н, кодирующий ацил-СоА-дегидрогеназу, идентифицирован как ген, описанный ранее в литературе как/ас1Е без привязки к геному;

- гены, входящие в состав оперона Ь2342-Ь2341, кодирующие Р-кетоацил-СоА тиолазу и 3-гидроксиацил-СоА дегидрогеназу, соответственно, которые впоследствии получили название /ас11.1.

- показана регуляция гена/ас1Н.

Исследована регуляция белком БаЬК в шести группах у-протеобактерий. Благодаря проведенному анализу выявлен один новый регулируемый ген 1с/Н, кодирующий СоА-лигазу длинноцепочечных жирных кислот.

Разработан метод оценки качества предсказания алгоритмов на основе критерия самосогласованности в условиях дефицита трансмембранных белков с известной мембранной разметкой.

Выявлены наиболее надежные алгоритмы, реализованные в виде интернет-серверов, предсказывающие положение трансмембранных сегментов в а-спиральных белках и в белках типа Р-бочонок.

Апробация работы

Основные результаты диссертации были представлены на следующих конференциях: The Third International Conference on Bioinformatics of Genome Regulation and Structure (Novosibirsk, July 2002); The First International Moscow Conference on Computational Molecular Biology (Moscow, July 2003); The Fourth International Conference on Bioinformatics of Genome Regulation and Structure (Новосибирск, июль 2004); Школа молодых ученых "Сравнительная геномика", (Севастополь, Украина, июнь 2005); The Second International Moscow Conference on Computational Molecular Biology (Moscow, July 2005); The Third International Moscow Conference on Computational Molecular Biology (Moscow, July 2007); 30-я конференци и мол одых ученых и спец иалистов ИППИ РАН "Информационные технологии и системы" Россия, сентябрь 2007; The Fourth International Moscow Conference on Computational Molecular Biology (Moscow, July 2009).

Заключение диссертации по теме «Математическая биология, биоинформатика», Садовская, Наталия Сергеевна


1. Впервые выявлены три новых гена, регулируемые белком FadR:

- ген yafH, кодирующий ацил-СоА-дегидрогеназу, идентифицирован как ген, описанный ранее в литературе как fadE без привязки к геному;

- гены, входящие в состав оперона Ъ2342-Ъ2341, кодирующие (3-кетоацил-СоА тиолазу и 3-гидроксиацил-СоА дегидрогеназу, соответственно, которые впоследствии получили название fadlJ.

2. Впервые было показано наличие потенциального сайта связывания FadR в 5'-некодирующей области генаfadH, кодирующего 2,4-диеноил-СоА-редуктазу.

3. Показано, что белок FabR является регулятором генов fab A, fabB и yqfA, и выявлен новый член регулона ген IcfH, кодирующий СоА-лигазу длинноцепочечных жирных кислот.

4. Разработана методика тестирования алгоритмов, предсказывающих положение трансмембранных сегментов в трансмембранных белках, с использованием соображения консервативности вторичной структуры белков, и на ее основе проведен сравнительный анализ алгоритмов, предсказывающих положение трансмембранных сегментов в трансмембранных белках.

5. Показано, что среди алгоритмов, предсказывающих положение трансмембранных сегментов в а-спиральных белках, наиболее самосогласованными являются алгоритмы PHDhtm, НММТОР и ТМНММ.

6. Показано, что среди алгоритмов, предсказывающих положение трансмембранных сегментов в белках типа [3-бочонок, наиболее самосогласованными являются алгоритмы B2TMR, B2TMPRED и HMM-B2TMR.


1. Садовская Н.С., Лайкова О.Н., Миронов А.А., Гельфанд М.С. Изучение регуляции метаболизма длинноцепочечных жирных кислот с использованием компьютерного анализа полных бактериальных геномов // Молекулярная биология. - 2001 - Т. 35 - № 6 -С. 1010-1014.

2. Садовская Н.С., Сутормин Р.А., Рахманинова А.Б., Гельфанд М.С. Сравнительный анализ программ, предсказывающих трансмембранные сегменты в трансмембранных белках // Информационные процессы. - 2002 - Т. 2 - № 1 - С. 96-99.

3. Sadovskaya N.S., Sutormin R.A., Gelfand M.S. Recognition of transmembrane segments in proteins: review and consistency-based benchmarking of internet servers // J. Bioinform. Comput. Biol. - 2006 - V. 4 - N. 5 - P. 1033-1056.

4. Sadovskaya N.S., Gelfand M.S. Benchmarking of programs that predict the position of transmembrane segments in beta-barrel proteins // Biophysics. - 2008 - V. 53 - N. 2 - P. 134 -139.

1. Sadovskaya N.S., Sutormin R.A., Rakhmaninova A.B., Gelfand M.S. Benchmarking of programs for recognition of transmembrane segments in transporter proteins // Proc. of The Third International Conference on Bioinformatics of Genome Regulation and Structure. - 2002 -V.3-P. 116-117.

2. Sadovskaya N.S. Comparative analysis of servers for prediction transmembrane domains // Proc. of the International Moscow Conference on Computational Molecular Biology. - 2003 -P. 206-207.

3. Sadovskaya N.S. Benchmarking of transmembrane helix prediction servers // Proc. of The Fourth International Conference on Bioinformatics of Genome Regulation and Structure. - 2004 -V. 1-P. 358-360.

4. Садовская H.C. Анализ программы HMM-B2TMR на примере белка FadL и его ортологов // Школа молодых ученых "Сравнительная геномика". - 2005 - Т. 1 - С. 16-17.

5. Sadovskaya N.S. Analysis of a method HMM-B2TMR using a protein FadL and its orthologs. Comparative genomics of the fatty acids biosynthesis in gamma-proteobacteria // Proc. of the International Moscow Conference on Computational Molecular Biology. - 2005 -P. 324-327.

6. Садовская H.C. Сравнительный анализ программ, предсказывающих положение трансмембранных сегментов в белках типа бета-бочонок // Сборник трудов 30-й конференции молодых ученых и специалистов ИППИ РАН "Информационные технологии и системы ИТИС'07". - 2007 - С. 316-320.

7. Sadovskaya N.S. Benchmarking of internet servers for recognition of transmembrane segments in beta-barrel proteins from gram-negative bacteria // Proc. of the International Moscow Conference on Computational Molecular Biology. - 2007 - P. 268-270.

8. Sadovskaya N.S. Comparative genomics of the fatty acids biosynthesis in gamma-proteobacteria // Proc. of the International Moscow Conference on Computational Molecular Biology. - 2009 - P. 319.


Автор выражает глубокую благодарность своему научному руководителю профессору, доктору биологических наук Михаилу Сергеевичу Гельфанду за чуткое научное руководство, помощь и поддержку в ходе выполнения научной работы; Всеволоду Юрьевичу Макееву за предоставленную возможность выполнить работу в лаборатории "Биоинформатика" Государственного научного центра "ГосНИИгенетика"; Андрею Александровичу Миронову, Александре Борисовне Рахманиновой, Роману Александровичу Сутормину, Алексею Евгеньевичу Казакову, Сергею Владимировичу Ковниру, Александру Владимировичу Фаворову, Дмитрию Александровичу Родионову, Илье Алексеевичу Жарову, Алексею Сергеевичу Шарыкину и Ольге Александровне Шарыкиной за участие, неоценимую помощь в работе, ценные советы и продуктивное обсуждение; всем сотрудникам, аспирантам, стажерам и студентам УНЦ "Биоинформатика" ИППИ РАН за поддержку и дружеское понимание. Автор выражает огромную благодарность своей семье и друзьям за любовь, поддержку, терпение, понимание и доброту при выполнении диссертации.

