哈喽小伙伴们,江江包发现最近生信界又多了一个“网红”,小伙伴们猜猜是谁呢?相信不少小伙伴们都能猜到,这个“网红”就是——机器学习!江江包和小伙伴们也不能落后,要紧跟前沿。最近,江江包挖掘到一篇机器学习的生信好文,想要了解这篇到底有什么独特优势,一定要接着往下看,不然你真的会吃大亏。1.文章介绍了MESiCA模型利用自然语言处理技术,为突变和突变签名创建数值表示,使得模型能够在具有少量突变的肿瘤样本中预测显著的突变签名。2.研究进一步改进了MESiCA模型,使其能够预测两种主导签名的组合,而不是单一的主导签名,这提高了预测性能和临床相关性。3.研究表明MESiCA模型在超过60,000个肿瘤样本上预测了主导签名,并描述了这些签名在不同癌症中的分布情况。(ps:小伙伴们赶紧行动起来!对机器学习感兴趣,但是缺乏技术和思路的宝子,可以来找江江包,江江包等你来撩哦~)l题目:利用基于神经嵌入的表征识别临床检测中的癌症突变特征
l杂志:Cell Rep Med.
l影响因子:IF=14.3
体细胞突变是通过多种突变过程累积而成的,形成的模式被称为突变特征。在癌症中,这些特征反映了潜在的过程。有些特征主要是内源性的、无处不在的、与年龄相关的;有些特征则反映了独特的外源性或内源性过程,如紫外线相关特征、载脂蛋白B mRNA编辑酶催化多肽等。尽管这一研究领域的成果主要是机理和生物学方面的见解,但在过去几年中,识别患者突变特征的临床意义也开始显现出来。于是,研究者开发了一种使用NLP技术的机器学习模型,它能为突变特征和突变创建数字表示,同时学习突变和特征之间的关系。数据集/队列 | 数据库 | 数据类型 | 详细信息 |
TCGA WES、PCAWG WGS队列 | / | WES测序数据 | 从数百个来源收集的9691份WES样本,其中从GENIE中剔除了所有MSK-IMPACT、MSK-ICI和MSK-MET样本,从MSK-MET中剔除了所有MSK-IMPACT和MSK-ICI 样本。 |
研究思路
研究者首先指出在临床环境中,使用靶向基因面板来识别癌症突变特征存在限制,难以捕捉到全面的突变景观。接着,为了克服这一限制,研究者开发了MESiCA模型。该模型使用自然语言处理技术,通过学习将特定的突变和突变特征嵌入到数值向量中,同时理解它们之间的关系。此外,研究者进一步探索了MESiCA预测的突变特征与临床结果之间的关联,例如在黑色素瘤、非小细胞肺癌和头颈癌中,特定突变特征与免疫治疗反应和预后的关系。1.MESiCA概览
MESiCA所应对的预测挑战类似于一个NLP问题:癌症样本是一个文档。该样本中活跃的主要突变特征和癌症类型是标签,而突变分类则是创建文档的单词。该模型的目的是根据突变、特征和癌症类型为每个样本创建数字表示,同时最大化相关特征之间的相似性,即紫外线损伤引起的突变和紫外线特征嵌入,并同时最小化不相关特征之间的相似性,即紫外线特征和烟草特征嵌入(图1)。2.利用MESiCA预测靶向基因组特征
构建了四个目标基因面板队列:MSK-IMPACT、MSK-MET、GENIE和MSK-ICI,以提供跨独立队列的综合图谱。冗余样本已被剔除。值得注意的是,以下数据集是从公共资料库中检索到的,遗憾的是并不包含所有突变。因此,MESiCA可以分析的患者比例可能要高得多,因为在临床报告中通常可以获得所有的突变信息。3.从MSK-IMPACT面板预测特征标签
在使用MSK-IMPACT面板测序的10,000多个样本中,994个样本的突变率高到足以进行经典特征分析。研究使用这些注释来测试MESiCA的预测结果。在所有标签中(图2A),研究者排除了"其他"、"BRCA1/2"和"TMZ"标签。MESiCA以0.9-1.0的灵敏度、0.996-1.0的特异性、0.99-1的阳性预测值和0.99-1.0的阴性预测值正确预测了除MMR/衰老之外的所有标签,与之前描述的TCGA样本分析类似,这可能是由于它们之间的不匹配造成的(图2B)。在每种癌症类型中,预期特征所占比例最大:皮肤癌中的紫外线、肺癌中的烟草、多种癌症中的Clock_SBS5等(图2C)。膀胱、乳腺、头颈部、肺部和子宫的APOBEC阳性率相似;肺癌的烟草阳性率在MSK-IMPACT中为40%,而在WGS队列中为60%(图2D)。
图2 MESiCA在MSK-IMPACT基因面板中的预测结果4.标注靶向基因组特征的临床意义和关联性
通过建立的特征图谱,可以分析检测特定特征与癌症基因或热点突变之间的关联,研究者发现了许多这样的关联(图3)。根据Clock_SBS5的分类进行的泛癌症OS分析表明,在不同的独立队列中,Clock_SBS5与较差的预后有关,而且与年龄无关。这种关联也与TP53和KRAS的突变无关,因为这些基因被认为是阴性预后标志物。因此,这表明基因特征与生存的关系更为普遍,而不仅仅是年龄或特定突变基因的指标。5.MESiCA组合:双签名标签
组合策略提高了MMR和烟草的分类能力,同时不影响POLE和UV的完美或近乎完美的预测,也仅轻微降低了APOBEC的PPV(图4A)。此外,在MSK-ICI和MSK-MET队列中,组合策略增加了黑色素瘤患者紫外线阳性组和阴性组之间以及NSCLC患者烟草阳性组和阴性组之间的生存率差异(图4C和4D)。总体而言,预测的变化明显改善了几个特征(图4B-4D)。6.突变和特征数字表示的可解释性
紫外线损伤的特征主要是C>T突变,三核苷酸上下文为TCA、TCT、TCC、CCC、CCG等。这些突变类别的嵌入值与紫外线特征具有很高的余弦相似性(图5A和5B)。在较小程度上,一些T>A、T>C和T>G突变也可能是由紫外线损伤DNA引起的。这些突变的嵌入也与紫外线特征嵌入有相似之处。本研究使用了多种研究和检测方法,包括150,000多个癌症样本,用于学习、验证和预测。此外,研究者利用MESiCA,成功地对黑色素瘤、NSCLC和HNSCC患者在ICI治疗下的预后进行了分层,研究发现了APOBEC是表皮生长因子受体-TKIs的预测标志物。这进一步显示了MESiCA发现临床相关关联的潜力。(PS:江江包把珍藏的宝贝都毫无保留得分享给大家了,再不关注江江包,你将错过更多好思路好文章哦!想要复现思路成为下一个高分大佬吗?扫码吧,江江包24小时在线等你来!)免责声明:「原创」仅代表原创编译,水平有限,仅供学术交流,本平台不主张原文的版权,如有侵权,请联系删除。文献解读或作者简历如有疏漏之处,我们深表歉意,请作者团队及时联系小编,我们会在第一时间进行修改或撤稿重发,感谢您的谅解!