嘿嘿,又到了每日的生信好文分享时刻!最近很多朋友在后台和馆长抱怨道,自己天天上临床,忙的不行,想晋升还得搞科研,这可如何是好?不慌不慌!咱们一起来看看今日份分享!
馆长今日的文章,来自大名鼎鼎的美国MD安德森癌症中心的老外团队。该团队选择外泌体作为生信的研究主题,再利用“多组学分析+多种机器学习模型”等方法,0湿实验成功拿下6.4分期刊《elife》!大牛团队的文章馆长看下来是如沐春风啊!,那么咱们赶紧先来简单分析下亮点!
首先,作者团队的选题十分独特!外泌体是指包含了复杂RNA和蛋白质的小膜泡结构,近几年研究热度持续攀升!例如,KRAS突变表达诱导的致癌信号通过大胞饮作用促进人胰腺癌细胞外泌体摄取!PS:选题卡壳想半天?馆长来帮您!馆长在课题设计、数据分析方面有着自己的独特见解!欢迎各位扫码DD!
其次,作者团队的研究思路也是强强联合!多组学分析(蛋白质组学+代谢组学+人类细胞组学)+机器学习算法(随机森林、K近邻模型、朴素贝叶斯模型)等算法的可复性MAX!对机器学习生信感兴趣的同学切记不要错过本文的解析!(海量数据的分析离不开强大的服务器,有需要服务器的宝子可以扫码call馆长哦~)
定制生信分析
云服务器租赁
加好友备注“66”领取试用
l题目:一种新的机器学习算法选择蛋白质组签名来特异性识别癌症外泌体
l杂志:elife
l影响因子:6.4
l发表时间:2024年2月
公众号回复“原文”二字可以领取本文献,文献编号240709研究背景
早期准确诊断癌症仍然具有很大挑战。细胞外囊泡含有DNA、RNA和蛋白质等生物分子,可以反映其来源细胞的特征。因此细胞外囊泡是用作癌症生物标志物的有希望的候选对象。但是快速、灵活的基于细胞外囊泡的诊断方法仍然有待定义。该文章提出了一种新的基于机器学习的计算方法,利用一组与细胞外囊泡相关的蛋白质来区分不同类型的癌症。
数据来源
数据源 |
癌症类型 | 癌症样本数 | 正常样本数 | 总样本数 |
细胞株 | 多种癌症类型 | 228 | 57 | 285 |
组织 | 多种癌症类型 | 101 | 56 | 157 |
血浆/血清 | 乳腺癌、结直肠癌、胶质瘤、肺癌、肝癌、神经母细胞瘤、胰腺癌 |
205 | 51 | 256 |
尿液 | 膀胱癌、前列腺癌、肾癌、肺癌、宫颈癌、结直肠癌、食管胃癌 | 261 | 124 | 385 |
总计 | | 795 | 288 | 1083 |
主要结果
1、外泌体的无偏蛋白质组学分析为各种人类细胞系鉴定了 18 种丰富的质膜蛋白标记物
为了确定用于区分癌症和非癌症外泌体的通用外泌体蛋白质生物标志物,作者分析了来自 228 种癌症和 57 种对照细胞系衍生的外泌体的蛋白质丰度数据。为了克服技术因素引起的偏倚,作者团队检查了所有研究共有的蛋白质,并确定了1124种重叠的蛋白质(图1A)。为了确定癌症和对照细胞系衍生的外泌体之间的异质性,作者在 285 种癌症和对照细胞系衍生的外泌体中使用这 1124 种蛋白质进行了主成分分析(PCA)(图 1B)。PCA分析表明,来源于癌症和对照细胞系的外泌体是异质的,并且在细胞系中显示出蛋白质表达的显着差异。接下来,作者研究了在所有细胞系的外泌体中检测到的蛋白质的频率。结果显示,
癌细胞系来源的外泌体中 FLOT1、FLOT2 和 TSG101 蛋白的频率更高(图1C)。
图1 来自四项研究的 285 个细胞系的外泌体的蛋白质组学表征
2、对来自细胞系和组织的外泌体蛋白进行比较,确定了五种通用的质膜蛋白标志物
作者团队计算了 157 个样本(101 个癌症;56 个对照)中常用外泌体标志物的检测频率。两种已建立的外泌体标记物CD63和TSG101分别仅在所有样品的33.1%和45.9%中检测到(图2A-B)。为了鉴定来自细胞系和组织的外泌体的高频生物标志物,作者检查了来自细胞系和组织的外泌体的所有样品中达到 ≥90% 阈值的重叠蛋白质,并发现了 31 种常见蛋白质(图2C)。在 31 种蛋白质中,有 5 种蛋白质在所有细胞系和组织来源的外泌体中检测到超过 90%(图2D)。
图2 来自细胞系和组织的外泌体的蛋白质组学表征
3、18 种蛋白质的外泌体蛋白质组特征可以区分多种癌症类型的癌症外泌体和非癌症外泌体
随后,作者试图确定血浆和血清中的外泌体蛋白是否可以区分多种癌症类型的癌症外泌体和非癌症外泌体。作者汇总了来自五项不同研究的 205 种癌症和 51 份对照样本的血浆或血清的外泌体蛋白质组学数据,并确定了在所有研究中检测到的46种蛋白质(图3A)。然后,作者团队检查了它们在205个癌症样本和51个对照样本中的丰度(图3B)。作者试图采用先进的机器学习算法来区分癌症外泌体和非癌症外泌体。作者团队首先计算了每种蛋白质的互信息(MI)分数,并根据它们的MI分数使用不同数量的顶级蛋白质来训练随机森林分类模型,以确定作者团队应该包含在分类模型中的最佳蛋白质集。作者团队发现该模型使用 18 种蛋白质表现最佳,其性能通过受试者工作特征曲线下面积方法的验证(图3C)。
图3 鉴定血浆或血清来源的外泌体的特征蛋白以及随机森林分类
4、五种血浆/血清外泌体蛋白可以区分五种常见癌症类型
接下来,作者试图进一步提高外泌体在区分癌症类型方面的临床效用。作者分析了来自五种常见癌症类型患者的血浆或血清来源外泌体的蛋白质组学数据,最初的PCA揭示了癌症患者的外泌体水平差异,但未能区分五种癌症类型(图4A)。作者团队通过计算 46 种常见蛋白质的互信息评分来确定癌症类型分类的关键特征,并构建一个随机森林模型。最终,作者根据AUROC评分选择了一个五种蛋白质构成的模型(图4B)。
图4 鉴定由血浆或血清来源的外泌体表达的特征蛋白
5、由 17 种蛋白质组成的尿外泌体蛋白质组特征可检测多种癌症类型的癌症外泌体
尿液正在成为泌尿系统癌症卓越的非侵入性标志物,因为它的成分直接反映了泌尿生殖系统的生理变化。在检查所有四项研究中常见的蛋白质后,鉴定出229种蛋白质(图6A)。PCA揭示了样本之间的差异,但未能区分癌症样本和对照样本(图6B)。作者接下来使用随机森林分类模型来区分癌症,并根据其外泌体蛋白质组学谱对照样本(图 6C)。根据包含不同数量特征的 AUROC 分数,作者团队选择了17个导致 AUROC 得分最高的特征。
图5 鉴定尿源性外泌体表达的特征蛋白和随机森林分类模型的评估
文章小结
作者从 1083 个癌症和对照样本中生成了来自细胞系、组织、血浆、血清和尿液的外泌体的综合蛋白质组学图谱。此外,作者描述了一种新的计算方法,使用随机森林分类器方法来定义外泌体蛋白组合,这些蛋白组合可作为特定于各种癌症类型的血浆、血清或尿液的有效生物标志物。作者团队的结果表明,外泌体蛋白特征可以用作可靠的生物标志物,用于早期检测癌症、癌症类型分类,并可能用于诊断来源不明的肿瘤。馆长认为,想在机器学习方向上发高分生信的同学可以借鉴作者团队的“大样本数据集+多组学分析+机器学习构建预后标志”的干实验思路!特别是其中的“互信息评分”方法!创新性满满!PS:如果你也想复刻作者的独具一别的机器学习发文思路,欢迎您扫码联系馆长!!无论是研究方向的确定、实验设计的优化,还是生物信息学的深入分析,咱们都准备好助你一臂之力~
馆长会持续为大家带来最新生信思路,也可以提供特色数据库构建、免费思路评估、付费生信分析和方案设计以及实验项目实施等服务,对数据库构建和生信分析感兴趣的朋友可以咨询馆长哦!