Точный расчет p-значения для данных тандемной масс-спектрометрии с высоким разрешением тема диссертации и автореферата по ВАК РФ 00.00.00, кандидат наук Бхимани Кишанкумар Рамешбхаи
- Специальность ВАК РФ00.00.00
- Количество страниц 190
Оглавление диссертации кандидат наук Бхимани Кишанкумар Рамешбхаи
Contents
Introduction
0.1 The relevance of research
0.2 Aims and objectives of research
0.3 Theoretical and Practical Significance: Importance of the Work
0.4 Approbation of the Research Publications
0.5 Other Publications
0.6 Key Aspects to be Defended
0.7 Structure and Organization of the Dissertation
1 Background
1.1 Database-searching
1.1.1 Peptide database
1.1.2 Candidate peptides
1.2 Spectrum discretization
1.3 Score functions
1.4 Score calibration
1.5 Exact p-value calculation
1.6 The Crux Toolkit
2 Faster exact p-value calculation method
2.1 Faster XPV method
2.2 Benchmark
2.3 XPV speedups
2.4 Conclusion
3 HR-XPV METHOD
3.0.1 Limitations of exact p-value (XPV) method
3.1 HR-XPV METHOD
3.1.1 Improvements for the HR-XPV method
3.1.2 Notes on implementation and availability
3.2 Data sets
3.3 Methods
3.3.1 Database search engines
3.3.2 False discovery rate calculation
3.3.3 Computational Environment
3.4 Results and discussion
3.4.1 Main results
3.4.2 Calibration
3.4.3 Timing tests
3.4.4 Availability
3.5 Summary
4 Accurate single amino acid variation identification
4.1 Single amino acid variations
4.2 SeVa method
4.2.1 Notes on implementation and availability
4.3 Datasets and methods
4.3.1 Datasets
4.4 Methods
4.5 Results and discussion
4.5.1 Peptide spectrum annotation
4.5.2 Comparison to de novo methods
4.5.3 Availability
Conclusion
Acknowledgments
List of abbreviations and conventions
Bibliography
List of figures
List of tables
List of algorithms
Appendices
A Appendix A - Declarations of author contribution
В Appendix В - Russian translation of the dissertation / Перевод
диссертации на русский язык
Рекомендованный список диссертаций по специальности «Другие cпециальности», 00.00.00 шифр ВАК
Вычислительные методы для аннотирования данных тандемной масс-спектрометрии2022 год, доктор наук Кертес-Фаркаш Аттила
Вычислительно-эффективные методы анализа данных тандемной масс-спектрометрии2025 год, кандидат наук Аквей Фрэнк Лоренс Ний Адокквей
Обучение генеративных вероятностных моделей для распознавания данных масс-спектрометрии2020 год, кандидат наук Сулимов Павел Андреевич
Разработка алгоритмов построения пайплайнов машинного обучения методами обработки естественного языка, основанными на данных2025 год, кандидат наук Трофимова Екатерина Алексеевна
Система управления человеческой походкой методами машинного обучения, подходящая для роботизированных протезов в случае двойной трансфеморальной ампутации2019 год, кандидат наук Черешнев Роман Игоревич
Введение диссертации (часть автореферата) на тему «Точный расчет p-значения для данных тандемной масс-спектрометрии с высоким разрешением»
Introduction
Mass spectrometry (MS) is one of the predominant technologies for the high-throughput analysis of small molecules. The core of any high-throughput shotgun proteomics analysis pipeline is a procedure for assigning peptide sequences to observed fragmentation spectra. In database search algorithms like SEQUEST, Mascot, or Andromeda, peptide identification is performed by comparing each experimental spectrum with theoretical spectra to determine the best match. The highest-scoring candidate peptide is then assigned to the spectrum, forming a peptide-spectrum match (PSM). A PSM represents the best-matching peptide for a given spectrum, and the raw score from the experimental spectrum allows comparison across different candidate peptides.
Score calibration in mass spectrometry-based proteomics ensures that confidence scores assigned to peptide and protein identifications are accurate. Without calibration, raw scores may be biased or inconsistent, leading to incorrect identifications or unreliable statistical significance. Different spectra have varying raw scores, making them not directly comparable without proper calibration. Traditional methods derive scores from empirical or parametric distributions; however, they often overlook spectrum-specific variability, leading to potential biases [28].
In bottom-up tandem mass spectrometry, the Exact p-value (XPV) method [26] computes the precise statistical significance of a peptide-spectrum match (PSM) score. This method estimates p-values by explicitly enumerating all possible pep-tide sequences and their corresponding scores, often using dynamic programming to construct a spectrum-specific empirical null distribution. An empirical null distribution is constructed for each spectrum and used to assign a p-value to the best match against the target database; this p-value is our calibrated score. Meanwhile, the binomial approximation provides a computationally efficient estimate based on a binomial model of match probabilities.
0.1 The relevance of research
The standard exact p-value (XPV) algorithm was developed by J. J. Howbert et al. [26] for low-resolution MS/MS data. Enumerating all peptide sequences is infeasi-ble, and scoring them requires redundant recalculations and memory storage issue. If two fragment sequences share a common prefix part, we can save time by calculating the score for that shared part once and reusing it, instead of recalculating it for each sequence separately, this was the idea behind XPV. The exact p-value (XPV) method was originally designed for low-resolution mass spectrometry (MS) data. However, as mass spectrometers started generating high-resolution data over the past 15 years, an improved method was needed. In this dissertation, an extension of XPV, named HR-XPV, is introduced. It works effectively with the XCorr function to score high-resolution fragmentation data. HR-XPV ensures accurate and well-calibrated XPV scores across various datasets by tracking and incorporating remainder masses during discretization. This allows HR-XPV to properly assign the calculated fragment ions to the correct bins for scoring high-resolution data. One of the key findings of this study is that the HR-XPV method produces uniformly distributed p-values for incorrect spectrum annotations.
The relevance of this research lies in advancing exact p-value calculations for mass spectrometry data analysis. While the standard XPV algorithm was effective for low-resolution data, it needed optimization for speed and efficiency. HR-XPV was then developed to address the growing need for high-resolution mass spectrom-etry, offering a faster and more accurate approach. Further, the SeVa algorithm, built on HR-XPV, enables precise single amino acid variation identification without database searching, improving mutation detection and false discovery rate control in proteomics research.
0.2 Aims and objectives of research
In general, the main goal of this research was to improve the accuracy, reliability, and scalability of spectrum identification and peptide sequence analysis in high-
resolution tandem mass spectrometry (MS/MS) data. It was achieved by developing novel computational methods that address key limitations in existing approaches, enabling deeper insights into proteomics datasets and expanding the scope of biological application using statistical and algorithmic methods. More specifically, the research involved the following objectives:
1. Faster XPV algorithm was implemented into the Crux toolkit for Tide speedups, a comprehensive software suite for bottom-up proteomics analysis. This integration aims to provide the proteomics community with efficient, faster,and state-of-the-art tools for handling high-resolution MS/MS data. Additionally, enhancements to the Crux Tide search engine were introduced, enabling faster and more accurate spectrum identification.
2. There was a need for the exact p-value (XPV) calculation method for highresolution fragmentation settings (HRFS), as the original XPV method for scoring tandem mass spectrometry data with dot-product-like functions was introduced nearly 15 years ago for low-resolution fragmentation settings (LRFS). This adaptation significantly enhances the calibration of peptide-spectrum-match (PSM) scores, resulting in more accurate and reliable spectrum annotations at various false discovery rate (FDR) levels.
3. Sequence Variation (SeVa) algorithm to identify single amino acid variations (SAAVs) in proteomics data. SeVa constructs an empirical null distribution to score spectra against all potential amino acid sequences in high-resolution settings, enhancing the detection of peptides with mutations or modifications. Experimental validation on immunopeptidomics and cancer datasets demonstrated SeVa's ability to identify thousands of mutated peptide sequences with high confidence.
By achieving these objectives, my research advances the field of computational proteomics, mass spectrometry, and bioinformatics by providing novel methodologies for accurate spectrum annotation and facilitating the discovery of biologically significant variations in peptide sequences.
0.3 Theoretical and Practical Significance: Importance of the Work
Score functions are the backbone of tandem mass spectrometry-based proteomics [28], as they evaluate the quality of peptide-spectrum matches. Incorrect spectrum annotations can mislead biologists, bioinformaticians, and practitioners, resulting in erroneous experimental interpretations and poor decision-making, such as in drug therapy selection. While deep learning-based tools outperform traditional database searches in sensitivity, they are slower, and their robustness across diverse technical variables remains uncertain. Database searching, on the other hand, provides fast and reliable analysis of large-scale tandem mass spectrometry data with robust false discovery rate (FDR) control across various experimental protocols, instruments, and species. Therefore, it is important to develop reliable and accurate methods to annotate and identify spectrum, in fact, applicable to any type of data.
0.4 Approbation of the Research Publications
My Ph.D. research has resulted in three main articles, all of which have been published in Q1-Q2 journals or A-category journals as per the HSE University Sciento-metrics Centre. Indexing is based on Scopus and the Web of Science database.
List of publications
1. Bhimani, K., Peresadina, A., Vozniuk, D., Kertesz-Farkas A. Exact p-value calculation for XCorr scoring of high-resolution MS/MS data. Proteomics, 24(5), Q1 journal, 2024, doi: https://doi.org/10.1002/pmic.202300145
2. Kertesz-Farkas A., Nii Adoquaye Acquaye, F. L., Bhimani K., Eng, J. K., Fon-drie, W. E., Grant, C., Hoopmann, M. R., Lin, A., Lu, Y. Y., Moritz, R. L., MacCoss, M. J., & Noble, W. S. The Crux toolkit for analysis of bottom-up tandem mass spectrometry proteomics data. Journal of Proteome Research, 22(2), 561-569, Q1 journal, 2023, doi: https://doi.org/10. 1021/acs.jproteome.8b00991
3. Bhimani, K., Peresadina, A., Burmak, K., Joshi, K., Kertesz-Farkas A. Accurate single amino acid variation identification in high resolution tandem mass spectrometry data in bottom up proteomics. International Journal of Mass Spectrometry, Q2 journal, 2025, doi: Under Review
Conference & Poster
4. Bhimani, K., Kertesz-Farkas A., Sequence variation identification in high resolution MS/MS data with accurate FDR control. "Scientific conference FCS 2024 " (27-30 October 2024), Voronovo, Moscow Region, Russian Federation. https://cs.hse.ru/sci_conf2024.
0.5 Other Publications
Although all the following papers were published during my Ph.D. and are referenced here, they are not the basis of this dissertation.
Other Publications
5. Alahmid, M., Bhimani, K., Saradva, K., Ghildiyal, S., Saeedi, S. A., Ali, S., Yan, H.,& Filippov, E. Evolving Safety Protocols: Deep Learning-Enabled Detection of Personal Protective Equipment. In International Conference on Computer Vision, High-Performance Computing, Smart Devices, and Networks (pp. 87-100). Springer Nature Singapore, 2023, doi: https://doi.org/10.1007/978-981-97-7794-5_7
6. Bhimani, K., & Saradva, K. On an approach to data analysis and visualization in the domain of Employee-organization relationships. Systems and Means of Informatics, 34(4), 2024, doi: https://doi.org/10.14357/ 08696527240410
Conferences
7. Bhimani, K., and Ghildiyal, S., Evolving Safety Protocols: Deep Learning-enabled Detection of Personal Protective Equipment. "4th International
Conference on Computer Vision, High Performance Computing, Smart Devices and Networks 2023" (28-29 December 2023), Kakinada, India. https://chsn2023.chsnresearch.in/.
8. Bhimani, K., and Saradva, S., Decoding the Workplace & EOR: An Employee Survey Analysis by Data Science Techniques and Visualization. "XXV International Conference Data Analytics and Management in Data Intensive Domains 2023" (24-27 October 2023), Moscow, Russian Federation. https://damdid2023.hse.ru/
0.6 Key Aspects to be Defended
This dissertation defends the following core claims, each of which contributes to the theoretical and practical advancement of creating inherently explainable models: In Open Source Crux Toolkit for MS/MS analysis, added a faster version of XPV which improved run-time and optimization.
Developed HR-XPV Algorithm which works faster, more efficiently, and on all data types compared to existing scoring functions.
Created a single amino acid sequence variation database searching pipeline that finds accurate sequences with optimized PSM scores.
0.7 Structure and Organization of the Dissertation
The dissertation is organized into four chapters excluding Introduction and Conclusion. Dissertation started with Introduction, which enables relevance of research, aim and scope, and importance of work with the publications list. Chapter 1 provides an overview of the computational aspects of tandem mass spectrometry, focusing on various scoring functions and algorithms used for peptide spectrum annotation. Chapter 2 explores Faster XPV method and speed optimization in XPV. Chapter 3 is the core of this dissertation, presents the Exact p-value (HR-XPV) algorithm, showcasing its implementation and evaluation on four datasets. Chapter 4 extends the HR-XPV algorithm to single amino acid mutation identification through the SeVa method, demonstrated using two cancer datasets. Finally, this dissertation concludes with a summary, closing remarks, and discussions in Conclusion.
Похожие диссертационные работы по специальности «Другие cпециальности», 00.00.00 шифр ВАК
Интерпретация моделей машинного обучения с помощью методов, основанных на соответствиях Галуа2025 год, кандидат наук Паракал Эрик Джордж
Методы повышения обобщающей способности моделей в задачах 3D компьютерного зрения2024 год, кандидат наук Рахимов Руслан Ильдарович
Векторизация изображений с помощью глубокого обучения2024 год, кандидат наук Егиазарян Ваге Грайрович
Анализ особенностей поведения в процессе взаимного редактирования в онлайн формате и их взаимосвязи с краткосрочным и долгосрочным улучшением качества письменных работ студентов2024 год, кандидат наук Чжан Хань
Использование взаимной обратной связи обучающихся как типа совместного обучения в цифровой среде на примере написания академических текстов2025 год, кандидат наук Шульгина Галина Игоревна
Заключение диссертации по теме «Другие cпециальности», Бхимани Кишанкумар Рамешбхаи
Заключение
Стандартный алгоритм XPV, изначально разработанный для данных маее-сиектрометрии (MC) низкого разрешения, столкнулся с трудностями в эффективном вычислении точных значений р из-за избыточных пересчетов и ограничений памяти. Чтобы решить эту проблему, я оптимизировал XPV, чтобы повысить его скорость при сохранении точности. Однако, поскольку маее-спектрометрия высокого разрешения (HRMS) стала более распространенной, возникла необходимость в точном методе расчета значений р, подходящем для данных высокого разрешения. Это привело к разработке HR-XPV, улучшенной и оптимизированной версии XPV, разработанной специально для HRMS, HR-XPV эффективно интегрирует остаточные массы во время дискретизации, обеспечивая точную оценку значений р и хорошо откалиброванную оценку для данных фрагментации высокого разрешения. Основываясь на этой структуре, я далее разработал алгоритм изменения последовательности (SeVa), который позволяет точно идентифицировать вариации отдельных аминокислот в последовательностях пептидов без необходимости поиска в базе данных. Используя HR-XPV, SeVa обеспечивает точный контроль частоты ложных срабатываний (FDR) и улучшает обнаружение вариаций последовательностей в данных МС/МС высокого разрешения.
Во-первых, мы представили HR-XPV, усовершенствованный метод расчета точного значения р, специально разработанный для данных тандемной маее-сиектрометрии с высоким разрешением. Традиционные методы расчета точного значения р изначально были разработаны для настроек низкого разрешения, что делает их непригодными для современного анализа масс-спектрометрии с высоким разрешением, HR-XPV расширяет эти методы за счет точного расчета значений р и эффективного управления массами остатков, которые возникают в процессе фрагментации. Это уточнение гарантирует, что ионы фрагментов назначаются правильно, что приводит к более точной оценке. Наше исследование показало, что HR-XPV выдает хорошо откалиброванные значения р для неправильных аннотаций спектра, что подтверждается графиками QQ, Этот
метод представляет собой значительный шаг вперед в калибровке точных р-значенпй для данных MC MC высокого разрешения, потенциально влияющих на будущие разработки в области статистического анализа для протеомики.
Основываясь на HR-XPV, я разработал SeVa, метод обнаружения вариаций отдельных аминокислот в пептидах, SeVa использует динамическое программирование для уточнения оценки последовательностей и интегрируется с подходом «цель-приманка» на основе гомологии для точной оценки частоты ложных открытий. Этот метод интерпретируется и зависит от полной серии ионов фрагментации, что делает его более прозрачным, чем модели глубокого обучения черного ящика,
В целом, эта диссертация вносит вклад в новые методы и оптимизации для анализа данных MS высокого разрешения. Эти разработки улучшают статистическую точность, вычислительную эффективность и практическую применимость в исследованиях протеомики и масс-спектрометрии с использованием компьютерной науки. Будущая работа может быть сосредоточена на дальнейшей оптимизации скорости вычислений и интеграции этих методов в более широкие аналитические конвейеры для крупномасштабных исследований.
Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.