社区所有版块导航
Python
python开源   Django   Python   DjangoApp   pycharm  
DATA
docker   Elasticsearch  
aigc
aigc   chatgpt  
WEB开发
linux   MongoDB   Redis   DATABASE   NGINX   其他Web框架   web工具   zookeeper   tornado   NoSql   Bootstrap   js   peewee   Git   bottle   IE   MQ   Jquery  
机器学习
机器学习算法  
Python88.com
反馈   公告   社区推广  
产品
短视频  
印度
印度  
Py学习  »  机器学习算法

Patterns | 基于图的深度学习发现功能性microRNA靶向药物

DrugAI • 1 年前 • 318 次点击  

今天为大家介绍的是来自Hani Goodarz团队的一篇论文。这项研究介绍了一个名为RiboStrike的深度学习平台。这个平台的主要功能是识别能够针对microRNA的小分子药物。

miRNA是一类短的非编码RNA,是维持细胞稳态的重要调节因子之一。它们监控基因表达,并在许多目标调控序列中调节蛋白质合成。这些微RNA的调控程序失调已被证实会促进肿瘤的形成和发展。因为miRNA可以调节多种基因调控程序,它们在多种肿瘤特征的出现中发挥着重要作用。最近的证据还表明,它们可能会在肿瘤微环境中抑制免疫应答。此外,研究也证实了miRNA在多种癌症的药物抗性中起作用。在众多miRNA中,miR-21是最常被研究的肿瘤发生驱动因子之一。miR-21的失调与卵巢癌、胆囊癌、结直肠癌、胰腺癌等多种癌症有关。

图 1


在这项研究中,作者使用人工智能开发了一个名为RiboStrike的小分子药物发现平台,旨在抑制miRNA的活性而非破坏其结构。模型基于先进的深度学习架构的能力,从分子数据中学习表征,并以抽象和非线性的方式发现隐藏的模式。如图1所示,作者使用图卷积神经网络(GCNN)来辅助虚拟筛选针对致癌miR-21的小分子药物,仅依赖于小分子的SMILES编码作为输入。作者使用多任务学习来学习化学组和分子活性之间的关系,包括来自PubChem的大型公共可用实验室数据。


模型部分

RiboStrike使用图卷积神经网络(GCNN)作为其主要的建模方法。基于图的模型非常适合处理小分子,因为在这些模型中,节点代表分子内的原子,边代表它们之间的键。在这种图形表示中,每个节点包含描述原子及其属性的特征。通过在训练过程中使用这些特征,模型可以通过应用图卷积形成节点的抽象表示,然后通过图集合层将其汇集成给定分子的表示。在这项研究中,作者还利用深度学习来提供输入分子预测的不确定性估计,这显示了模型的置信度,并指导分子选择过程以减少不确定性。如图1所示,作者训练了GCNN模型来预测miR-21活性抑制、DICER抑制和每个输入分子的毒性特征,基于小分子的规范SMILES。作者在图1B中展示了研究中数据流的流程。


多任务选择

图 2


将大量任务结合起来的高任务设置通常会降低模型的性能。在多任务学习和随机梯度下降(SGD)过程中,常常会出现一个特定问题:在多个任务上训练可能会降低一个或多个任务的性能(例如,一些任务与其他任务在梯度方向上有所不同),导致训练过程效率较低。为了应对这个挑战,作者实施了一种基于预测的推荐算法,从整个数据集中选择一部分任务,并创建一个更小的、为特定任务优化以提高性能的数据集。使用这个算法,可以识别出与目标任务(例如miR-21)预测相似的子模型,并选择与这些子模型相关的排名最高的任务作为推荐。图2提供了所有子模型在目标miR-21任务上的得分概览,以及作者选择的阈值线。使用推荐技术,作者识别出七个得分高于平均值加两个标准差的阈值的任务。正如预期的那样,miR-21活性的反向筛选检测被定位为推荐任务之一。这是直观的,因为这种反向筛选与主任务直接相关,且这个数据集中包含的分子模式和活性标签非常重要。


虚拟筛选结果:任务推荐提供最佳性能


图 3


表 1


在确定了优化任务并实施了所有训练方案之后,作者比较了各种建模技术,以确定哪个数据集和训练方案产生了性能最好的模型。测试集的结果被计算并总结在表1中。三种不同训练方案的混淆矩阵显示在图3中。正如预期的那样,基于预测的任务推荐算法产生了性能最高的模型,与随机任务、所有任务或单一miR-21任务相比,使用推荐任务训练的模型取得了最高的平均精确度得分。由于作者的模型是保守的,它预测分子为活性的倾向较低,因此在召回率方面表现较低。然而,从表1中的精确度得分和图3C中的混淆矩阵可以看出,被预测为活性的分子更有可能是真阳性。


RiboStrike模型在保留数据集上的评估

为了独立验证最佳性能模型的表现,作者利用了来自一个独立研究的数据,即结构活性关系(SAR)样本数据集,该数据集包含了37种从两种miR-21抑制剂衍生出的之前未见过的分子。作者的虚拟筛选模型成功地将这37种分子中的33种分类为“活性”,与相关研究的结果非常接近,展示了这个模型在结构活性关系情景中的潜力。


通过聚类小分子特征来选择多样性候选物

图 4


一旦虚拟筛选模型和辅助模型训练完毕,它们就可以用来筛选未知分子,以评估它们作为药物候选物的潜力。鉴于ZINC15库拥有庞大且多样化的类药物和可合成化合物,作者使用了ZINC15库进行虚拟筛选;此外还包括了来自Asinex库的化合物,这代表了一个分布之外的数据,使作者能够评估模型的泛化能力。作者使用训练好的模型来筛选这些数据集中最有可能特异性抑制miR-21活性、潜在副作用最少、最不可能引起明显毒性的合适分子。首先,作者使用在七个推荐任务上训练的多任务虚拟筛选模型,在九百万分子上预测miR-21活性抑制。为了更全面地了解推理分子的多样性,作者对模型学习的分子特征进行了无监督分析和聚类。这种分析还使研究人员能够从分子空间的不同区域选择分子。为了实现这一点,作者提取了训练模型的嵌入特征,将其投影到二维均匀流形近似和投影(UMAP)空间进行可视化,并使用k均值算法进行聚类。通过将分子分成不同的簇,可以访问分子空间的不同区域,从而选择更多样化的分子进行后续跟进和测试(见图4)。在图4A中,使用来自ZINC数据库的预测为正的候选分子描绘了这个分子空间,这些分子占据了嵌入空间的广泛范围。图4B描绘了相同的嵌入空间,但用于模型训练的分子,显示了训练集中正负化合物之间的重叠。在图4C中,作者展示了特征空间内的簇,以及使用RiboStrike算法从这些簇中选择的前八种化合物。


测序筛选部分

为了实验验证作者所选化合物的抗miR-21活性,作者采用了一种适用于可扩展基因表达谱分析的RNA测序(RNA-seq)策略,即QuantSeq-Pool。在实验测试中,作者使用了MDA-MB-231细胞,这是一种三阴性乳腺癌转移模型并且是由miR-21驱动的。在这些细胞中抑制miR-21应该显著降低它们的转移潜力。作者首先使用CellTiter-Glo计算每种化合物的IC20(20%的抑制浓度),以确保每种处理不影响关键的细胞过程。然后,作者对以IC20处理了72小时的MDA-MB-231细胞进行了QuantSeq-Pool。作为阳性对照,使用了一种已验证的抗miR-21 ASO,并包括了一种非靶向ASO作为对照。正如预期的那样,在miR-21 ASO样本中,作者观察到在治疗后上调的基因中miR-21目标的显著富集。在八种选定的化合物中,有两种显示出与ASO相似的miR-21目标上调,共有五种显示出一定的活性(置信度超过85%)。基于这些结果,作者的模型命中率为62.5%。

编译|曾全晨

审稿|王建民

参考资料

Arshadi, A. K., Salem, M., Karner, H., Garcia, K., Arab, A., Yuan, J. S., & Goodarzi, H. (2024). Functional microRNA-targeting drug discovery by graph-based deep learning. Patterns, 100909.

Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/166831
 
318 次点击