厦门大学团队发表基于深度学习算法的DIA数据处理方法，有效提升DIA蛋白质组学分析性能

图片来源网络

数据独立采集（Data-independent acquisition，DIA）是当前蛋白质组学中应用范围较广的采集方式。与数据依赖采集（Data-dependent acquisition, DDA）的策略相比，DIA避免了仅对高丰度蛋白质信号采集的偏好性，转而采取“兼容并包”的策略，将一级质谱的荷质比范围分为数个窗口，在二级质谱中采集各个窗口内所包含的所有母离子碎裂所产生的子离子信号。正是如此，DIA具有相比DDA更好的重现性与定量准确性，在样本数量较大时能够获得更加准确而稳定的蛋白表达矩阵，因而更加适用于大规模的定量蛋白质组学研究。

同时，DIA的无偏好采集策略也对其数据处理环节带来了前所未有的挑战。目前，在DIA数据处理中最为常用的方法，是使用预先构建的谱图库对采集的DIA数据进行检索，提取谱图特征并进行打分。但当前的开源DIA数据分析软件所使用的算法都采用了基于专家经验的特征工程方法对DIA色谱质谱信号进行打分，这些人工设计的特征计算方法虽然经过了反复迭代与测试，但始终不能完整而精确地描述复杂的DIA数据中的色谱洗脱模式，从而使肽段的定性、定量准确程度大打折扣。

近日，厦门大学信息学院俞容山教授课题组和厦门大学健康医疗大数据国家研究院韩家淮院士课题组合作，在Nature旗下期刊《Communications Biology》上发表了最新研究成果，文章题为“Deep representation features from DreamDIAXMBD improve the analysis of data-independent acquisition proteomics”。研究团队开发了基于深度学习算法的DIA数据处理方法DreamDIAXMBD，通过对DIA谱图库以及数据的分析，设计了包含上百种色谱峰类型的新型谱图数据结构代表性谱图矩阵（representative spectral matrix，RSM），使用深度学习算法提取DIA肽段谱图中的洗脱特征，有效提升了DIA数据处理算法的准确度，并在定性、定量等多个方面超越了目前广泛使用的开源DIA数据处理软件OpenSWATH、Skyline和DIA-NN。

文章发表在Communications Biology

DreamDIAXMBD首先使用谱图库信息对肽段的色谱峰信号进行提取，并将所提取的谱图整合成为固定大小的RSM数据结构。与传统算法不同的是，DreamDIAXMBD提取的谱图内容囊括了六种不同类型的色谱峰，包含谱图库离子色谱峰，肽段理论子离子色谱峰及其同位素峰等。随后，经过LSTM网络的特征提取，将复杂的谱图信号转为低维的深度表示特征，并结合其他简单特征如肽段电荷、长度等，构建非线性判别模型，实现肽段的定性判别。（图1）

图1. DreamDIAXMBD原理概述。来源：Communications Biology

DIA数据处理算法的肽段定性性能直接决定了在实际的实验中能够检出的有效肽段和蛋白种类的数量，在严格的假阳性率控制之下能够检出更多种类的蛋白，对临床与基础研究，尤其是在生物标志物鉴定等应用场景下具有至关重要的作用。为评估DreamDIAXMBD的性能，研究团队首先使用小鼠小脑DIA蛋白组数据集结合双物种谱图库对软件的肽段定性性能进行了测试，并与OpenSWATH、Skyline和DIA-NN进行了比较。结果显示（图2），与现有其他软件相比，DreamDIAXMBD在相同的FDR下能大幅提高有效肽段的检出数量，表明DreamDIAXMBD的肽段定性性能优于其他算法。

图2. DreamDIAXMBD和其他算法肽段定性性能评估与比较。来源：Communications Biology

随后，研究团队将DreamDIAXMBD鉴定出的母离子、肽段与蛋白种类与其他三个软件的结果进行了比较。结果表明，DreamDIAXMBD均可获得与其他软件较高的一致性，并且其鉴定出的待测物种类数量稳定高于其他软件（图3 a-f）。同时，研究团队还将DreamDIAXMBD鉴定出的母离子丰度与其他软件做了比较，并展示了DreamDIAXMBD单独鉴定出的母离子丰度，证明了其肽段定性算法在丰度上无偏好性（图3g, h），能够稳定提升不同丰度蛋白的鉴定率。

图3. DreamDIAXMBD鉴定出的母离子、肽段与蛋白种类与其他软件的比较，以及DreamDIAXMBD鉴定出的母离子丰度分布。来源：Communications Biology

研究团队还对DreamDIAXMBD的肽段、蛋白的定量结果进行了评估。如图4所示，研究团队使用DIA数据处理算法定量性能评估中最为常用的标准方法LFQbench，对DreamDIAXMBD的定量性能与OpenSWATH和DIA-NN进行了比较。结果表明，相比其他算法，DreamDIAXMBD能够更为准确地还原LFQbench数据集中肽段与蛋白的真实比例，证明DreamDIAXMBD的肽段、蛋白定量性能优于其他算法。该结果也表明，使用DreamDIAXMBD能够在相同的DIA实验中获得更为准确的蛋白定量结果，从而能够在各种应用场景中获得更加准确的生物学结论。

图4. DreamDIAXMBD的肽段、蛋白定量性能的评估与比较。来源：Communications Biology

综上所述，该研究展示了一种基于深度学习算法的新型DIA数据处理算法DreamDIAXMBD。该方法使用深度学习算法替代了传统的人工设计的谱图特征提取算法，有效提升了DIA数据处理算法的定性、定量准确度，并具有较高的稳定性，有望在大规模的DIA定量蛋白质组学研究应用中发挥重要的作用。尤其是在个性化医疗、生物标志物鉴定、药物筛选、基因关联分析以及系统生物学研究等领域，DreamDIAXMBD的出现或将为研究学者以及临床医生带来更加精准的分析结果，为定量蛋白质组学在精准医疗中的应用带来更多可能。

参考资料：

Gao, M., Yang, W., Li, C. et al. Deep representation features from DreamDIAXMBD improve the analysis of data-independent acquisition proteomics. Commun Biol 4, 1190 (2021). https://www.nature.com/articles/s42003-021-02726-6

· END ·

热文推荐

石乐明团队联合发表基于WGS/WES进行癌症突变检测最佳方案研究成果

PLOS Genetics发文：DNA甲基化水平可用于评估吸烟对肥胖相关特征变异的影响

基于尿液肿瘤DNA（utDNA）检测MRD的临床队列研究，指导膀胱癌的临床治疗

为什么不吸烟也会得肺癌？NIH团队揭示不吸烟肺癌患者基因突变演化史

喜欢就点个“在看”吧！