社区所有版块导航
Python
python开源   Django   Python   DjangoApp   pycharm  
DATA
docker   Elasticsearch  
aigc
aigc   chatgpt  
WEB开发
linux   MongoDB   Redis   DATABASE   NGINX   其他Web框架   web工具   zookeeper   tornado   NoSql   Bootstrap   js   peewee   Git   bottle   IE   MQ   Jquery  
机器学习
机器学习算法  
Python88.com
反馈   公告   社区推广  
产品
短视频  
印度
印度  
Py学习  »  机器学习算法

重磅!0实验轻松拿捏一区14+期刊!机器学习如何“神级开挂”?以色列哈达萨大学医疗中心团队教会你!

生信图书馆 • 5 月前 • 128 次点击  

哈喽小伙伴们,江江包发现最近生信界又多了一个“网红”,小伙伴们猜猜是谁呢?相信不少小伙伴们都能猜到,这个“网红”就是——机器学习!江江包和小伙伴们也不能落后,要紧跟前沿。最近,江江包挖掘到一篇机器学习的生信好文,想要了解这篇到底有什么独特优势,一定要接着往下看,不然你真的会吃大亏。
1.文章介绍了MESiCA模型利用自然语言处理技术,为突变和突变签名创建数值表示,使得模型能够在具有少量突变的肿瘤样本中预测显著的突变签名。
2.研究进一步改进了MESiCA模型,使其能够预测两种主导签名的组合,而不是单一的主导签名,这提高了预测性能和临床相关性。
3.研究表明MESiCA模型在超过60,000个肿瘤样本上预测了主导签名,并描述了这些签名在不同癌症中的分布情况。(ps:小伙伴们赶紧行动起来!对机器学习感兴趣,但是缺乏技术和思路的宝子,可以来找江江包,江江包等你来撩哦~)

l题目:利用基于神经嵌入的表征识别临床检测中的癌症突变特征

l杂志:Cell Rep Med.

l影响因子:IF=14.3

l发表时间:2024年6月
研究背景
体细胞突变是通过多种突变过程累积而成的,形成的模式被称为突变特征。在癌症中,这些特征反映了潜在的过程。有些特征主要是内源性的、无处不在的、与年龄相关的;有些特征则反映了独特的外源性或内源性过程,如紫外线相关特征、载脂蛋白B mRNA编辑酶催化多肽等。尽管这一研究领域的成果主要是机理和生物学方面的见解,但在过去几年中,识别患者突变特征的临床意义也开始显现出来。于是,研究者开发了一种使用NLP技术的机器学习模型,它能为突变特征和突变创建数字表示,同时学习突变和特征之间的关系。
数据来源

数据集/队列

数据库

数据类型

详细信息

TCGA WES、PCAWG WGS队列        

/

WES测序数据

从数百个来源收集的9691份WES样本,其中从GENIE中剔除了所有MSK-IMPACT、MSK-ICI和MSK-MET样本,从MSK-MET中剔除了所有MSK-IMPACT和MSK-ICI 样本。

研究思路

研究者首先指出在临床环境中,使用靶向基因面板来识别癌症突变特征存在限制,难以捕捉到全面的突变景观。接着,为了克服这一限制,研究者开发了MESiCA模型。该模型使用自然语言处理技术,通过学习将特定的突变和突变特征嵌入到数值向量中,同时理解它们之间的关系。此外,研究者进一步探索了MESiCA预测的突变特征与临床结果之间的关联,例如在黑色素瘤、非小细胞肺癌和头颈癌中,特定突变特征与免疫治疗反应和预后的关系。
主要结果

1.MESiCA概览

MESiCA所应对的预测挑战类似于一个NLP问题:癌症样本是一个文档。该样本中活跃的主要突变特征和癌症类型是标签,而突变分类则是创建文档的单词。该模型的目的是根据突变、特征和癌症类型为每个样本创建数字表示,同时最大化相关特征之间的相似性,即紫外线损伤引起的突变和紫外线特征嵌入,并同时最小化不相关特征之间的相似性,即紫外线特征和烟草特征嵌入(图1)。
图1 MESiCA的工作流程和概述

2.利用MESiCA预测靶向基因组特征

构建了四个目标基因面板队列:MSK-IMPACT、MSK-MET、GENIE和MSK-ICI,以提供跨独立队列的综合图谱。冗余样本已被剔除。值得注意的是,以下数据集是从公共资料库中检索到的,遗憾的是并不包含所有突变。因此,MESiCA可以分析的患者比例可能要高得多,因为在临床报告中通常可以获得所有的突变信息。

3.从MSK-IMPACT面板预测特征标签

在使用MSK-IMPACT面板测序的10,000多个样本中,994个样本的突变率高到足以进行经典特征分析。研究使用这些注释来测试MESiCA的预测结果。在所有标签中(图2A),研究者排除了"其他"、"BRCA1/2"和"TMZ"标签。MESiCA以0.9-1.0的灵敏度、0.996-1.0的特异性、0.99-1的阳性预测值和0.99-1.0的阴性预测值正确预测了除MMR/衰老之外的所有标签,与之前描述的TCGA样本分析类似,这可能是由于它们之间的不匹配造成的(图2B)。在每种癌症类型中,预期特征所占比例最大:皮肤癌中的紫外线、肺癌中的烟草、多种癌症中的Clock_SBS5等(图2C)。膀胱、乳腺、头颈部、肺部和子宫的APOBEC阳性率相似;肺癌的烟草阳性率在MSK-IMPACT中为40%,而在WGS队列中为60%(图2D)。
   
图2 MESiCA在MSK-IMPACT基因面板中的预测结果

4.标注靶向基因组特征的临床意义和关联性

通过建立的特征图谱,可以分析检测特定特征与癌症基因或热点突变之间的关联,研究者发现了许多这样的关联(图3)。根据Clock_SBS5的分类进行的泛癌症OS分析表明,在不同的独立队列中,Clock_SBS5与较差的预后有关,而且与年龄无关。这种关联也与TP53和KRAS的突变无关,因为这些基因被认为是阴性预后标志物。因此,这表明基因特征与生存的关系更为普遍,而不仅仅是年龄或特定突变基因的指标。
图3 MESiCA预测揭示的特征与基因之间的关联

5.MESiCA组合:双签名标签

组合策略提高了MMR和烟草的分类能力,同时不影响POLE和UV的完美或近乎完美的预测,也仅轻微降低了APOBEC的PPV(图4A)。此外,在MSK-ICI和MSK-MET队列中,组合策略增加了黑色素瘤患者紫外线阳性组和阴性组之间以及NSCLC患者烟草阳性组和阴性组之间的生存率差异(图4C和4D)。总体而言,预测的变化明显改善了几个特征(图4B-4D)。
图4 预测一对活跃特征的MESiCA组合

6.突变和特征数字表示的可解释性

紫外线损伤的特征主要是C>T突变,三核苷酸上下文为TCA、TCT、TCC、CCC、CCG等。这些突变类别的嵌入值与紫外线特征具有很高的余弦相似性(图5A和5B)。在较小程度上,一些T>A、T>C和T>G突变也可能是由紫外线损伤DNA引起的。这些突变的嵌入也与紫外线特征嵌入有相似之处。
图5 突变和紫外特征表示的可解释性
文章小结
本研究使用了多种研究和检测方法,包括150,000多个癌症样本,用于学习、验证和预测。此外,研究者利用MESiCA,成功地对黑色素瘤、NSCLC和HNSCC患者在ICI治疗下的预后进行了分层,研究发现了APOBEC是表皮生长因子受体-TKIs的预测标志物。这进一步显示了MESiCA发现临床相关关联的潜力。(PS:江江包把珍藏的宝贝都毫无保留得分享给大家了,再不关注江江包,你将错过更多好思路好文章哦!想要复现思路成为下一个高分大佬吗?扫码吧,江江包24小时在线等你来!)
免责声明:「原创」仅代表原创编译,水平有限,仅供学术交流,本平台不主张原文的版权,如有侵权,请联系删除。文献解读或作者简历如有疏漏之处,我们深表歉意,请作者团队及时联系小编,我们会在第一时间进行修改或撤稿重发,感谢您的谅解!

往期推荐

1. 重磅来袭!“三巨头”联合出击!孟德尔随机化+单细胞RNA测序+网络药理学模型一举拿下7+文章!

2. 真嘟假嘟?2024年的孟德尔随机化居然还是这么强势,搭配代谢组的双剑合璧斩获1区12+!

3. 2024年“发文秘籍”来袭!上海交通大学医学院蒋书恒团队“孟德尔随机化+多组学分析+共定位分析”思路秀翻全场!轻松拿捏1区7+!


Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/171511
 
128 次点击