2024年的诺贝尔“物理”+“化学”双奖!
近期掀起轩然大波的“DeepSeek”!
“人工智能(AI)”无疑是红到发紫的大IP。
在生物医学领域,除了“AlphaFold”这种强大的蛋白结构预测工具外,各种“机器学习”、“深度学习”算法也是当前“顶流”!不只是用来跟风“水”文章,而是切实解决生物医学中的问题。
生信塔今天带来的是一篇2月3号发表在“Nature Communications”(中科院大类综合性期刊1区Top期刊,高水平文章也不少,但因开源和巨大的发文量,也常被戏称为“水刊中的顶刊”)的研究,由清华大学张学工团队完成,利用深度学习工具,识别驱动细胞状态转移的关键转录因子(TF)和候选顺式调控元件(cCRE)。
文章构建了深度学习模型——regX,用scRNA-seq和scATAC-seq数据进行训练;并对二型糖尿病(T2D)和毛囊发育的公共单细胞多组学数据进行测试,成功识别出了调节细胞状态的关键TF和cCRE。
在我们苦于求新的过程中,AI就是最大的风口!既满足了方法创新的需求,也能切实解决生物学问题。比如,试过DeepSeek的人就能感受到AI的强大。如果你是因为不了解而错过了,那就太可惜了。机器学习/深度学习,都是当前发文的热门方向,如果您也想提高自己研究的档次,欢迎滴滴生信塔进行技术协助!

杂志:Nature communications
影响因子:14.7
研究背景
细胞的行为和状态是由多种分子机制共同调控的,从单个基因的调控到多个基因之间的相互作用。然而,现有的许多模型在连接分子变化和细胞表型时,往往忽略了调控机制的建模,这限制了我们对细胞状态变化背后调控机制的深入理解。作者开发了 regX 模型,目的是更好地识别和解释那些驱动细胞状态变化的关键调控因子(如转录因子和顺式调控元件),并提供这些调控因子如何影响细胞状态变化的机制解释。
研究思路
1,模型设计:
基因调控网络的建模:作者设计了一个深度神经网络模型,该模型不仅考虑了单个基因的调控(如转录因子与基因的结合),还考虑了基因之间的相互作用(如蛋白质-蛋白质相互作用)。这种设计使得模型能够从基因层面的调控到细胞层面的表型进行整合。
转录活性矩阵(TAM):为了更好地模拟基因表达过程,作者设计了一个特殊的输入特征矩阵——转录活性矩阵(TAM)。这个矩阵综合了转录因子的表达水平、染色质可及性以及转录因子与染色质区域的相互作用强度。这种设计比简单地将转录因子表达和染色质可及性拼接在一起更能反映真实的基因调控过程。

2,模型训练
两步训练策略:首先,作者通过单独训练每个基因的子网络来学习转录因子与染色质区域之间的相互作用强度,构建出每个基因的TAM。然后,将这些TAM作为输入,训练整个网络来预测细胞状态。
数据来源:作者使用了单细胞多组学数据(包括基因表达和染色质可及性数据)来训练模型。这些数据来自2型糖尿病(T2D)和毛囊发育的研究,涵盖了不同细胞状态下的基因表达和染色质可及性信息。
3,调控因子的识别和解释
虚拟扰动实验:通过在训练好的模型上进行虚拟的基因表达或染色质可及性扰动(如上调或下调),作者能够评估这些扰动对细胞状态概率的影响。通过比较扰动前后的细胞状态概率变化,可以识别出那些对细胞状态变化影响最大的调控因子。
机制解释:基于模型的设计,作者不仅能够识别关键调控因子,还能通过分析扰动对目标基因表达的影响,解释这些调控因子是如何影响细胞状态的。
4,regX 在糖尿病中的应用案例
在2型糖尿病(T2D)数据中,regX 成功识别了多个关键转录因子(如GLIS3、RORA等),这些转录因子与胰岛β细胞的功能和T2D的发病机制密切相关。此外,模型还发现了可能的新治疗靶点(如TRPS1)和药物再利用的可能性(如BROMOCRIPTINE)。
在毛囊发育数据中,regX 识别了多个关键转录因子(如Lef1、Gata3等),这些因子在毛囊发育的不同阶段对细胞命运决定起着重要作用。例如,Lef1的不同上调水平会导致细胞向不同的毛囊细胞类型分化。
文章小结
regX模型为分析单细胞多组学数据提供了一种新的工具,能够更深入地揭示细胞状态变化背后的调控机制。这种方法不仅有助于发现新的治疗靶点和药物再利用的可能性,还能为理解复杂的生物过程(如疾病进展和细胞发育)提供新的视角。利用机器学习和深度学习等AI工具进行生物医学研究,是当前的“风口”,能高性价比的“水”高质量的文章,实现纯分析0实验发文。对思路感兴趣但是技术受限的小伙伴,欢迎滴滴生信塔进行复现哦!
生信塔公众号持续为大家带来最新生信思路,更多创新性分析思路请点击往期推荐,快来查看吧!想复现这种思路或者定制更多创新性思路欢迎直接call生信塔,我们团队竭诚为您的科研助力!