我们已经更新了隐私政策to make it clearer how we use your personal data.

我们使用cookie为您提供更好的体验。你可以阅读我们的饼干政策这里。

Advertisement

使用基于图书馆的方法来提高蛋白质组分析的深度和准确性

DNA和蛋白质分子的表示。
Credit: PublicDomainPictures, Pixabay

想要这个行业洞察力的免费PDF版本吗?

填写下面的表格,我们将向您发送PDF版本的电子邮件“使用基于图书馆的方法来提高蛋白质组分析的深度和准确性”

捷克葡萄牙直播技术网络有限公司需要您提供给我们的联系信息,以与您联系有关我们的产品和服务。您可以随时退订这些通信。有关如何取消订阅以及我们的隐私惯例和保护隐私的承诺的信息,请查看我们隐私政策


蛋白质组学领域旨在推进用于识别和量化蛋白质中蛋白质的技术和策略,并在推进经济和科学领域的过程中起着至关重要的作用,因为它们具有三个主要功能。在制药行业中,大多数生物制药产品都是由蛋白质制成的。在医学中,蛋白质异常的分子诊断可能会通过对这些异常的深入表征进行新的治疗干预。最终,蛋白质是细胞机械的副产品,使它们成为许多其他行业的关注分子。1


但是,分析蛋白质或蛋白质组是一个挑战,因为广泛可用的技术没有提供足够的数据来识别蛋白质组的整体。即使诸如质谱(MS) and液相色谱(LC)对该领域做出了最重要的贡献,数据仍然有限。部分原因是存在分析挑战,例如样品丢失和样品之间生物学活性(蛋白质表达)的差异,因此很难检测和量化蛋白质和肽。为了解决这个问题,研究人员使用其他方法,例如生物信息学分析,化学计量分析和数学建模,以识别和量化这些蛋白质。


本文讨论了基于图书馆的定量蛋白质组学方法如何提高此类检测系统的敏感性和准确性。


Challenges in proteome analysis


通常,使用已经使用酶消化(自下而上,shot弹枪和中下蛋白质组学)分解的蛋白质进行蛋白质组学分析。1在这种情况下,很难将从这些技术生成的数据集转换为有形的肽光谱匹配(PSM),这些匹配(PSMS)用于识别蛋白质组中存在的不同肽,然后是蛋白质。


Even the available datasets tend to be incomplete as peptides are lost during the enzymatic digestion and purification process or cannot be recognized by the detection system, leading to several gaps in the dataset. In turn, it leads to inadequate sequence coverage, which impacts reporting on these peptides' structural and functional analysis.2重要的是要注意,蛋白质组的复杂性还会影响由于随机肽检测而引起的数据生成过程,从而降低了采样深度。3多步分馏和shot弹枪蛋白质组学等方法可以帮助克服这些问题,但是它们可能会增加样品之间的变异性,并难以区分各种蛋白基类型。4


还有其他几个挑战,包括由于缺乏高度敏感的仪器,长度数据传输,处理时间表以及需要强大的数据库搜索算法而无法测量低丰度蛋白。由于肽损失是一个普遍的问题,因此即使在最容易忽略的浓度以防止大量浪费时间和资源的浓度下,也有迫切需要能够自信地识别肽的工具。所有这些因素还可以提高这些技术的错误发现率(FDR),从而巩固了对更强大和准确的过程的需求。


Moreover, the need for high throughput and commercialization also requires the standardization of analytical workflows for peptide analysis. For example, it is now possible to analyze thousands of genomes simultaneously in a shorter time span using this approach – mandating the need for one within the field of proteomics as well.2,,,,5


Solving the data analysis bottleneck


One way to solve the data analysis bottleneck would be to connect the detection system with real-time analysis software that handles the entire workflow, including quantification. Parallel search engine in real-time (PaSER) is a GPU-powered database search platform that can be integrated with detection systems like MS to allow the simultaneous detection of peptides as the samples are processed (Figure 1).


The main intention is to identify peptides in the samples using established algorithms6与机器学习模型相辅相成,可以将检测到的肽的碰撞横截面(CCS)值与其数据库中的数据相结合。CCS值是指气相中离子的形状,大小和电荷,并且由于每个肽在给定电荷状态下具有特定的CCS值,该模型将值与实验数据进行比较以确定肽的身份。当被困的离子迁移率光谱法(TIMS)技术分析样品并为每个分析物生成CCS值时,可以一致测量该值,因为它是分析物的内在属性。此功能使该技术高度可重现 - 在蛋白质组学中添加了一层标准化。



图1:启用CCS的数据库搜索,包括TIMSCORE作为附加维度。学分:布鲁克·达尔顿学。


通常,传统的搜索算法依靠前体和片段离子光谱来确定最佳拟合度,并基于此分配了概率分数。该输出仅表明一个结果,尽管有可能略有拟合,但表明即使只有一个PSM - 许多其他PSM也可用于该结果。缺乏强大的搜索功能会随着时间的推移增加FDR,并同时降低了诸如此类的数据库搜索结果的可靠性。


另外,对于使用PASER,可以避免使用该模型,因为使用胰蛋白酶和磷酸化的肽对这些肽的双重,三重,三倍和四倍的状态进行了大量训练,因为它们是最普遍的后传播修饰(PTMS)和PTMS(PTMS)和PTMS),以及最普遍的形式。具有强大的生物学意义。它可以通过测量预测和实验CSS值之间的偏差来准确地鉴定其主要氨基酸序列的肽。这种方法的胰蛋白酶肽具有95%的精度水平,磷酸化的胰蛋白酶肽的置信水平为92%(图2)。



图2:来自机器学习模型的预测离子迁移率(CCS)值的散点图以及胰蛋白酶(A)和磷酸化肽(B)的实验得出值。学分:布鲁克·达尔顿学。


随着分析人员完成肽运行,可以将评分算法与机器学习一起部署以生成预测的CCS值。根据预测和测量的CCS值之间的比较,为每个光谱的五个最佳预测生成了相关得分。由于肽维度可以在3个维度上进行矢量,而不是在非CCS算法中的2个维度,因此达到了1%的FDR率。由于可以实现更深层次的深度,因此该能力提高了对结果的信心,从而确定了更多的肽(图3)。



图3:Sequence coverage of tryptic and phosphorylated peptides is doubled when TIMScore is deployed, indicating a higher profiling depth than standard techniques available.7学分:布鲁克·达尔顿学。


提高序列覆盖范围和蛋白质灵敏度


为了改善整个肽分析工作流程,需要一种集成解决方案将数据生成与数据处理能力相结合,从而减少了分析的时间并提高了结果的准确性。Paser可以与数据分析技术(如数据无关的获取(DIA))结合使用,以增加碎片离子空间或复杂前体的附加分离的深度和定量准确性。8


A 2019 study introduced a new software, DIA-NN, that leverages deep neural networks to differentiate between real peptide signals and noise using interference-correction strategies. In typical DIA-MS analysis, each precursor gives rise to multiple chromatograms due to the number of fragment ions generated. As co-fragmenting precursors tend to interfere with the peptide signal, the resulting chromatogram can be inaccurate or too noisy to analyze. The DIA-NN software uses a peptide-centric approach that matches annotated precursors and their fragmented ions to those in the chromatogram. In this case, the software first generates negative controls based on the input provided (through a spectral library or在硅中分析蛋白质序列),并确定这些对照的推定洗脱峰。它计算73个峰分数并确定每个前体的最佳候选峰,从而为该峰产生一个分数,从而可以准确鉴定这些前体和肽。3


The DIA approach method was further adapted to include parallel accumulation-serial fragmentation (PASEF), resulting in the dia-PASEF method, which utilizes data from the TIMS device where the ion mobility dimension allows the differentiation of peptide signals that are usually co-fragmented.9它通过将前体离子隔离窗口堆叠在离子迁移率维度中的敏感性两到五倍,从而提高了占空比。研究发现,它可以将蛋白质组学深度提高69%,其中一项研究可以从10 ng的HELA肽中量化5,200蛋白,该蛋白质用95分钟的纳米流量梯度分离,在另一种分离的情况下分离使用标准化蛋白质组学平台的4.8分钟分离,从200 ng发出5,000个蛋白质。该方法可以在用100分钟的纳米流量梯度获得复杂混合物的单一运行中检测11,700种蛋白质。7


结论


由于最近的技术进步,蛋白质组学领域的知识正在扩大。但是,十年前认为金标准的方法不一定提供整个图片。例如,在大多数蛋白质组学分析中,可以检测蛋白质,深入了解它们所组成的肽种类,并了解这些蛋白质的结构和功能方面。即便如此,绘制蛋白质的真实生物学也是一项挑战,因为分析深度相对较低。


通过使用MS和基于库的方法结合检测和分析过程的新技术,可以实现更大的分析深度。它还规避了对手动数据分析的需求,因为这些仪器使用跑步方法同时分析生成的数据。反过来,它允许科学家在较短的时间内和更高的准确性中对其样品的构成获得更全面的了解。该方法的未来部署用于蛋白质分析可能会对医学,生物技术或蛋白质组学领域具有重要意义。


参考

  1. Batiston WP, Carrilho, E. The importance and challenges for analytical chemistry in proteomics analysis.Braz J肛门化学。2021; 8(31):51-73。doi:10.30744/brjac.2179-3425.RV-64-2020
  2. Snapkov I,Chernigovskaya M,Sinitcyn P,LêquýK,Nyman TA,Greiff V.基于质谱的抗体曲目分析中的进展和挑战。Trends Biotechnol.2022; 40(4):463-481。doi:10.1016/j.tibtech.2021.08.006
  3. Demichev V,Messner CB,Vernardis SI,Lilley KS,Ralser M. Dia-NN:神经网络和干扰校正可在高吞吐量中进行深层蛋白质组覆盖。NAT方法。2020; 17(1):41-44 .. doi:10.1038/S41592-019-0638-X
  4. Pauwels J,Gevaert K.基于质谱的临床蛋白质组学 - 复兴。专家Rev蛋白质组学。2021; 18(6):411-414。doi:10.1080/14789450.2021.1950536
  5. Campbell M.正如专家所说,蛋白质组学的5个主要挑战。捷克葡萄牙直播技术网络。//www.qianliexian123.com/proteomics/lists/5-key-challenges-in-proteomics-as-as-told-by-the-experts-321774Published July 16, 2019. Accessed November 3, 2022.
  6. Xu T, Park SK, Venable JD, et al. ProLuCID: An improved SEQUEST-like algorithm with enhanced sensitivity and specificity.蛋白质组学杂志。2015; 129(3);16-24.doi:10.1016/j.jprot.2015.07.001
  7. Ogata K,Chang CH,Ishihama Y.磷酸化对离子迁移率光谱中肽离子碰撞截面的影响。质谱(东京)。2021; 10(1):A0093-A0093。doi:10.5702/massspectrometry.A0093
  8. Demichev V,Szyrwiel L,Yu F等。DIA-PASEF数据分析使用Fragpipe和Dia-NN用于低样本量的深蛋白质组学。纳特社区。2022;13(1):3944. doi:10.1038/S41467-022-31492-0
  9. Meier F, Brunner AD, Frank M, et al. diaPASEF: Parallel accumulation–serial fragmentation combined with data-independent acquisition.NAT方法。2020;17(12)1229-1236。doi:10.1038/s41592-020-00998-0
Advertisement