Py学习  »  机器学习算法

TCGA/GEO挖够了?快来新赛道!HPA和CPTAC数据库,深度学习+蛋白组学+共定位分析,0实验的一区SCI轻松发!

生信塔 • 8 月前 • 369 次点击  

来来来,开篇小塔就要掐指算上一算,点开文章的小伙伴们定是对TCGA/GEO数据库熟悉的不要不要的,对HPA数据库略为熟悉,对CPTAC数据库则是觉得似曾相识又模模糊糊(ps:就说小塔算的准不准,不准的话...不准小塔重算哈哈哈~)
既然大家和TCGA/GEO都是老相识了,小塔就按下不表了,咱说说另外两个,首先HPA数据库是人类蛋白图谱数据库,该数据库包含了大量的免疫组化图像,涵盖了人类44个正常组织和17个肿瘤组织中26000多种蛋白质的分布和表达,为蛋白质组学研究提供了重要的资源。CPTAC则是临床蛋白质组学癌症分析联盟,该数据库整合了基因组和蛋白组的数据,以识别和描述肿瘤组织和正常组织中的蛋白,发掘可作为肿瘤生物标记的候选蛋白。
那如果说TCGA/GEO的数据已经被大家挖的差不多了,HPA和CPTAC数据库的挖掘可以说是一片新大陆,所以要是在这个新赛道上跑,就等于有了创新的加持刚起步就赢了一半了!而本就是新赛道,要是再结合上时下火爆的深度学习会有怎样的效果?没错,绝对可以碰撞出“0实验一区文章轻松发”的“火花”!下面小塔就带大家看看哈尔滨医科大学研究团队是怎么把和这个“火花”碰撞出来的。这篇新鲜出炉的0实验一区文章发表于2024年8月,作者利用HPA和CPTAC数据库的数据,基于深度学习模型分析乳腺免疫组化(IHC)图像的特征并构建模型识别乳腺癌的差异定位蛋白,并证明了这些差异定位蛋白共表达或共定位的蛋白和RNA可能会影响它们的定位,同时发现这些蛋白能很好的区分癌样和正常样,表明它们与乳腺癌密切相关。而能轻松发上一区,这其中的奥妙之处咱们可得好好分析分析~    
1.利用四大数据库进行挖掘,研究的切入角度极具创新性。以往有关数据挖掘的文章多是基于TCGA/GEO/SEER/NHAHES等数据库进行分析,但作者独辟蹊径,联合HPA、CPTAC、RNA相互作用组数据库(RNAInter)和RNALocate数据库(预测 RNA定位的数据库)进行蛋白组学和共定位分析,并且切入角度不是研究差异表达蛋白,而是差异定位蛋白,不仅从数据来源上进行了创新,“定位”二字更是在选题上打破常规。
2.利用深度学习构建蛋白质定位预测模型,新颖度爆表。目前,使用深度学习的研究很少,而该研究将卷积神经网络与注意机制相结合,建立基于深度学习框架的模型。不仅在方法上进行了创新,并使结果更加科学可靠。
3.进行共定位研究。作者通过提取共表达或共定位蛋白以及与差异定位蛋白相互作用的ncRNA来研究乳腺癌的潜在机制。不仅丰富了结果,增强了结果的可靠性,其结果更是具有重要的临床意义。看到这小伙伴们有没有恍然大悟,这套思路简直就是神来之笔啊,创新的密度堪称一绝,而且上述三点发文优势,无论哪一点拿出来都够让审稿人惊喜了,别说三点叠加!所以有想利用蛋白组学发文的小伙伴赶紧码住思路行动起来,毕竟想吃创新思路的红利一定要先下手为强!而咱只要换个癌种去下载数据再码着思路去分析,那不是回手就一篇一区paper呀!(PS:这篇利用HPA以及CPTAC等数据库进行分析的文章思路新颖至极,在创新这一块可以说是可遇不可求的发文模板!所以有这方面发文需求的友友们可以尝试复现起来,但若不知道如何入手,或者有其他利用生信分析发高分的想法都可以联系小塔寻求帮助哦!


定制生信分析

云服务器租赁

加微信备注99领取使用   

题目:基于免疫组织化学图像深度学习的乳腺癌差异定位蛋白鉴定
杂志:Commun Biol
影响因子:IF=5.2
发表时间:2024年8
公众号回复“666”领取原文PDF,文献编号:240820
研究背景
乳腺癌是世界上最常见的癌症之一,随着诊断和治疗水平的提高,乳腺癌治疗可达到90%以上的生存率,特别是在早期发现疾病的情况下。目前的临床检测和治疗决策通常是基于蛋白质水平的信息,因此分析乳腺癌的蛋白质组数据具有重要意义。同时蛋白质只能在细胞区室的正确位置发挥作用,蛋白质的错误定位可能导致包括癌症在内的疾病。所以作者在深度学习框架的基础上,利用乳腺免疫组化图像的特征构建了位置预测模型以获得差异定位蛋白,并研究其与乳腺癌发生的关系,同时通过共定位分析对其机制进行研究。
研究思路
作者首先从HPA数据库进行IHC图像下载,而后基于深度学习框架,采用ResNet_18模型对IHC图像进行特征提取并构建乳腺癌蛋白亚细胞定位预测模型。并根据构建的亚细胞定位预测模型对差异定位蛋白进行鉴定。同时作者利用文献查找、功能富集分析以及生存分析对差异定位蛋白与乳腺癌的关系进行验证。而后为了评估获得的蛋白在区分乳腺癌和正常样本中的有效性,作者利用CPTAC数据库数据比较了肿瘤和正常样本中差异定位蛋白的表达,并构建了分类器进行分类分析。最后作者通过提取共表达或共定位蛋白以及与差异定位蛋白相互作用的ncRNA来研究乳腺癌的潜在机制。    
研究结果
1.蛋白质定位预测模型
作者首先基于下载的IHC图像和深度学习框架构建位置预测模型。为了确定最优特征维数,作者分别从ResNet_18的四个卷积层中提取IHC图像在64、128、256和512维的特征来构建模型,结果发现以128维特征向量构建的模型效果最好(图1A, B)。同时对预测概率阈值进行了训练,发现当阈值设置为0.5时AUC值和F1得分(深度学习模型评估指标之一)都较高(图1C, D)。因此选择最优参数128维、0.5阈值作为最终模型参数进行后续分析。而为了得到更稳定的结果,作者采用70%和90%的抽样方法得到两组模型,结果发现两种抽样方法均获得了较好的AUC值和F1分数,以上结果说明构建的模型结果稳健性较好且具有较好的预测效果。    
图1:模型的预测性能
2.差异定位蛋白
而后根据构建的亚细胞定位预测模型,作者鉴定了差异定位蛋白。具体鉴定分为三步:第一鉴定稳定的差异预测定位蛋白,第二鉴定定位差异最大的蛋白即疾病与正常状态定位差异最大的前5%,第三鉴定对预测结果不受去除单个图像影响的蛋白,而作者将三步结果的交集提取为稳定的差异定位蛋白(图2A-C)。最后得到6种乳腺癌差异定位蛋白:CCNT1、NSUN5、PRPF4、RECQL4、UTP6、ZNF500(图2D)。    
图2:差异定位蛋白
3.差异定位蛋白验证
接下来为了分析差异定位蛋白与乳腺癌之间的关系,作者浏览了PubMed数据库中的文献。结果发现,6个蛋白中有4个与乳腺癌密切相关(图3A)。同时通过功能分析具体的分析了6个差异定位蛋白的功能,获得了97条显著富集的通路和生物学功能(图3B)。为了进一步验证,作者进行了生存分析,发现UTP6、NSUN5和RECQL4蛋白的表达结果与乳腺癌预后的相关性更大,而CCNT1和PRPF4蛋白的表达结果与乳腺癌预后的相关性更大(图3c)。这3种蛋白可作为乳腺癌的预后指标,有助于乳腺癌的治疗。以上验证表明该研究发现的蛋白质与乳腺癌密切相关,这意味着它们的位置变化在癌症的发生中起着重要作用    
图3:差异定位蛋白验证
4.分类效果
而为了评估获得的蛋白在区分乳腺癌和正常样本中的有效性,作者根据从CPTAC数据库下载的两种乳腺组织蛋白表达谱(PDC000120与PDC000173)分别鉴定出差异表达蛋白。其中PDC000120表达谱获得了4060个差异表达蛋白,UTP6和CCNT1为差异下调蛋白(图4A, B)。同时PDC000173表达谱获得了276个差异表达蛋白,差异定位蛋白不在其中,但文献和富集结果却证明了其与乳腺癌的相关性,这表明亚细胞定位分析可以获得差异表达分析无法获得的结果。接下来作者构建了基于随机森林的分类器对样本进行分类,随机选择所有蛋白和非差异表达蛋白进行分析,发现差异定位蛋白的预测结果优于其他蛋白。这表明研究获得的差异定位蛋白可以有效地区分癌症和正常样本(图4C)。    
图4:分类效果
5.乳腺癌的潜在机制
最后作者通过提取共表达或共定位蛋白以及与差异定位蛋白相互作用的ncRNA来研究乳腺癌的潜在机制。作者先分别研究了正常和癌症样品中的相互作用蛋白(图5A, B),而为了分析获得的蛋白质的功能,作者通过GO和KEGG方法进行富集分析(图5C)。功能富集分析发现,研究获得的蛋白质的定位和调控的变化可能影响乳腺癌的发生。而蛋白质相互作用的改变可能会影响所鉴定的蛋白质的定位,从而改变其功能,参与乳腺癌的发生。而通过与差异定位蛋白相互作用的ncRNA的研究发现,7个miRNA在癌症和正常情况下与差异定位蛋白具有相同的定位,可能与蛋白一起发生定位变化(图5D)。同时通过miRNA的富集分析发现7种RNA在124条KEGG通路中富集,包括乳腺癌通路、PI3K-Akt信号通路、FoxO信号通路等(图5E)。这些结果表明,该研究获得的miRNA与乳腺癌密切相关,可能会影响差异定位蛋白的定位,从而导致蛋白功能的改变,从而影响乳腺癌的发生。而以上所有结果表明我们获得的差异定位蛋白质与乳腺癌密切相关。       
图5:差异定位蛋白的潜在机制分析
文章小结
该研究基于深度学习和IHC图像构建模型识别乳腺癌的差异定位蛋白,并从不同角度证明了这些蛋白与乳腺癌密切相关。而其打破常规的选题——从差异定位蛋白而不是差异表达蛋白入手,将文章的创新值直接提高了一个level。而深度学习和HPA以及CPTAC等数据库的使用更是让研究方法不落俗套,用上这种“新选题+新方法”的打发,想不赢都难!同时HPA以及CPTAC等数据库的挖掘和GEO/TCGA数据库比还相对空白,有着巨大的挖掘潜力,所以说感兴趣的小伙伴早早上车吧!只要车上的早,小塔再掐指一算下个一区就是你~(ps:如果小伙伴们在 GEO/TCGA挖掘中卷不动了想换个新赛道走创新的路子,或者该文章的思路让你灵光乍现有了好的发文idea但不知如何着手,亦或是有其他生信分析的难题都可以扫码联系小塔寻求帮助哦,什么是思路复现啦,思路设计啦......小塔这应有尽有~)  

小塔有话说


生信塔公众号持续为大家带来最新生信思路,更多创新性分析思路请点击往期推荐,快来查看吧!想复现这种思路或者定制更多创新性思路欢迎直接call小塔,我们团队竭诚为您的科研助力!

文献思路复现

定制生信分析

服务器租赁


 往期 · 推荐 

【倒计时提醒】抓住618大促尾巴:首月5折享16T空间,千元礼包等你领!

超赞!39分+!孟德尔随机化再次令人瞩目,UKB数据库+双疾病联合GWAS!配置超豪华,赶紧来学习吧!

这个思路藏不住了,再不学习就晚啦!天津中医药大学王耀刚团队1区13+:环境因素+孟德尔随机化研究,快学起来!

 

Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/173392
 
369 次点击