社区所有版块导航
Python
python开源   Django   Python   DjangoApp   pycharm  
DATA
docker   Elasticsearch  
aigc
aigc   chatgpt  
WEB开发
linux   MongoDB   Redis   DATABASE   NGINX   其他Web框架   web工具   zookeeper   tornado   NoSql   Bootstrap   js   peewee   Git   bottle   IE   MQ   Jquery  
机器学习
机器学习算法  
Python88.com
反馈   公告   社区推广  
产品
短视频  
印度
印度  
Py学习  »  机器学习算法

NBT丨杨晓旭等开发基于深度学习的嵌合突变检测工具DeepMosaic

BioArt • 1 年前 • 387 次点击  

责编 | 兮


嵌合突变是只发生在个体部分细胞中的突变,这些突变可以反映胚胎发育【1】、环境和衰老等因素对个体基因组的影响【2】。嵌合突变是包括癌症在内的数百种人类疾病的遗传学病因【3】。与人类癌症基因组中的高频嵌合突变不同,非癌症疾病和正常人群中的嵌合突变因其较低的突变比例和较高的假阳性率而难以检测。开发特异性针对非癌症样本及正常组织样本的嵌合突变检测工具对理解正常发育过程和疾病遗传机制有重要意义【4,5】,是疾病诊断治疗的基础。深度学习是基于人工神经网络的机器学习分支,卷积神经网络模型因其模拟人类视觉信息处理网络结构而在图像识别和视觉特征提取等方面表现优秀。基于深度学习的突变检测工具DeepVariant具有优秀的遗传性突变检测性能并得到广泛的应用,但无法准确检嵌合突变。

2023年1月2日, 发表了来自加州大学圣地亚哥分校、Rady儿童遗传学研究所杨晓旭博士和Joseph Gleeson教授合作(徐歆为共同第一作者)Nature Biotechnology上发表了研究长文 Control-independent mosaic single nucleotide variant detection with DeepMosaic 介绍了基于深度学习的嵌合突变检测工具DeepMosaic(https://github.com/Virginiaxu/DeepMosaic)【6】

图1:测序数据进行图形冲编码后由深度神经网络进行特征提取,结合其他原始测序数据以外的基因组信息进行分类。


研究者们重编码原始二代测序数据为图像并分别处理野生型碱基和突变碱基,利用迁移学习和180,000个训练突变图像重新训练了10种深度神经网络模型并在独立测试集合上进行模型选择,最后在表现最好的网络模型上利用619,740个独立模拟数据和181个非癌症疾病外显子组和16个正常人类样本全基因组的530个实验验证突变进行性能评估。

DeepMosaic在非癌症疾病如局灶性癫痫和大脑皮层局部发育不良的突变检测上表现出了优秀的检测效果,在外显子测序数据上取得了两倍的实验验证阳性率,在来源于正常人类样本的全基因组深度测序数据上也表现出了优秀的灵敏度和特异性。

图2:DeepMosaic利用3组独立模拟数据和6组独立实验数据进行模型训练、评估和性能测试。数据模拟策略包含基于不同测序错误模型的生成数据和基于真实数据的碱基替换数据。实验测序数据包含不同测序深度的基因组和外显子组数据。

研究者们利用癌症样本测试DeepMosaic并比较了基于癌症样本开发的深度学习模型NeuSomatic。在测试中研究者发现NeuSomatic更适用于癌症相关嵌合突变的检测,同时DeepMosaic主要适合非癌症及正常样本的突变检测。

研究者们同时提供了DeepMosaic的训练代码,研究人员可以利用自己产生的训练数据针对性训练新的突变检测模型。

本文其他作者包括科罗拉多大学的 Martin W. Breuss教授、加州大学圣地亚哥分校和Rady儿童遗传医学研究所的Danny Antaki博士、Laurel L. Ball博士、Changuk Chung博士、沈家伟、李晨、 Renee D. George博士、程雨禾、Ludmil B. Alexandrov教授、Jonathan L. Sebat教授以及梅奥医学中心的汪一凡博士, Taejeong Bae博士和Alexei Abyzov教授、北京大学魏丽萍教授以及 NIMH Brain Somatic Mosaicism Network。

图3:人工智能在基因组中检测突变,此图由人工智能(https://openai.com/dall-e-2/)产生。

Joseph Gleeson,加州大学圣地亚哥分校、Rady儿童遗传医学研究所讲席教授。Gleeson教授实验室招聘遗传学、神经科学、生物信息学博士后和实习生,主要方向是神经发育的遗传学和机制研究,有意者请联系。

杨晓旭,加州大学圣地亚哥分校Joseph Gleeson实验室博士后,长期致力于嵌合突变研究,主要研究方向为嵌合突变对疾病的影响、利用嵌合突变研究人类早期胚胎发育、嵌合突变检测和验证方法开发、以及相关遗传学和生物信息学模型。合作请联系yangxiaoxu-shishen@hotmail.com

作者介绍视频: https://www.bilibili.com/video/BV1LG4y1E78Z  

原文链接:

https://www.nature.com/articles/s41587-022-01559-w

制版人:十一



参考文献


1. Breuss, M.W. et al. Somatic mosaicism reveals clonal distributions of neocortical development. Nature 604, 689-696 (2022).
2. Paquola, A.C.M., Erwin, J.A. & Gage, F.H. Insights into the role of somatic mosaicism in the brain. Curr Opin Syst Biol 1, 90-94 (2017).
3. Yang, X. et al. MosaicBase: A Knowledgebase of Postzygotic Mosaic Variants in Noncancer Disease-related and Healthy Human Individuals. Genomics Proteomics Bioinformatics 18, 140-149 (2020).
4. Yang, X. et al. Developmental and temporal characteristics of clonal sperm mosaicism. Cell 184, 4772-4783 e4715 (2021).
5. Dou, Y., Gold, H.D., Luquette, L.J. & Park, P.J. Detecting Somatic Mutations in Normal Cells. Trends in genetics : TIG 34, 545-557 (2018).
6. Yang, X. et al. Control-independent mosaic single nucleotide variant detection with DeepMosaic. Nature biotechnology (2022).

转载须知

【非原创文章】本文著作权归文章作者所有,欢迎个人转发分享,未经作者的允许禁止转载,作者拥有所有法定权利,违者必究。


Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/151157
 
387 次点击