今天为大家介绍的是来自Hani Goodarz团队的一篇论文。这项研究介绍了一个名为RiboStrike的深度学习平台。这个平台的主要功能是识别能够针对microRNA的小分子药物。
miRNA是一类短的非编码RNA,是维持细胞稳态的重要调节因子之一。它们监控基因表达,并在许多目标调控序列中调节蛋白质合成。这些微RNA的调控程序失调已被证实会促进肿瘤的形成和发展。因为miRNA可以调节多种基因调控程序,它们在多种肿瘤特征的出现中发挥着重要作用。最近的证据还表明,它们可能会在肿瘤微环境中抑制免疫应答。此外,研究也证实了miRNA在多种癌症的药物抗性中起作用。在众多miRNA中,miR-21是最常被研究的肿瘤发生驱动因子之一。miR-21的失调与卵巢癌、胆囊癌、结直肠癌、胰腺癌等多种癌症有关。
在这项研究中,作者使用人工智能开发了一个名为RiboStrike的小分子药物发现平台,旨在抑制miRNA的活性而非破坏其结构。模型基于先进的深度学习架构的能力,从分子数据中学习表征,并以抽象和非线性的方式发现隐藏的模式。如图1所示,作者使用图卷积神经网络(GCNN)来辅助虚拟筛选针对致癌miR-21的小分子药物,仅依赖于小分子的SMILES编码作为输入。作者使用多任务学习来学习化学组和分子活性之间的关系,包括来自PubChem的大型公共可用实验室数据。
RiboStrike使用图卷积神经网络(GCNN)作为其主要的建模方法。基于图的模型非常适合处理小分子,因为在这些模型中,节点代表分子内的原子,边代表它们之间的键。在这种图形表示中,每个节点包含描述原子及其属性的特征。通过在训练过程中使用这些特征,模型可以通过应用图卷积形成节点的抽象表示,然后通过图集合层将其汇集成给定分子的表示。在这项研究中,作者还利用深度学习来提供输入分子预测的不确定性估计,这显示了模型的置信度,并指导分子选择过程以减少不确定性。如图1所示,作者训练了GCNN模型来预测miR-21活性抑制、DICER抑制和每个输入分子的毒性特征,基于小分子的规范SMILES。作者在图1B中展示了研究中数据流的流程。
将大量任务结合起来的高任务设置通常会降低模型的性能。在多任务学习和随机梯度下降(SGD)过程中,常常会出现一个特定问题:在多个任务上训练可能会降低一个或多个任务的性能(例如,一些任务与其他任务在梯度方向上有所不同),导致训练过程效率较低。为了应对这个挑战,作者实施了一种基于预测的推荐算法,从整个数据集中选择一部分任务,并创建一个更小的、为特定任务优化以提高性能的数据集。使用这个算法,可以识别出与目标任务(例如miR-21)预测相似的子模型,并选择与这些子模型相关的排名最高的任务作为推荐。图2提供了所有子模型在目标miR-21任务上的得分概览,以及作者选择的阈值线。使用推荐技术,作者识别出七个得分高于平均值加两个标准差的阈值的任务。正如预期的那样,miR-21活性的反向筛选检测被定位为推荐任务之一。这是直观的,因为这种反向筛选与主任务直接相关,且这个数据集中包含的分子模式和活性标签非常重要。
在确定了优化任务并实施了所有训练方案之后,作者比较了各种建模技术,以确定哪个数据集和训练方案产生了性能最好的模型。测试集的结果被计算并总结在表1中。三种不同训练方案的混淆矩阵显示在图3中。正如预期的那样,基于预测的任务推荐算法产生了性能最高的模型,与随机任务、所有任务或单一miR-21任务相比,使用推荐任务训练的模型取得了最高的平均精确度得分。由于作者的模型是保守的,它预测分子为活性的倾向较低,因此在召回率方面表现较低。然而,从表1中的精确度得分和图3C中的混淆矩阵可以看出,被预测为活性的分子更有可能是真阳性。
为了独立验证最佳性能模型的表现,作者利用了来自一个独立研究的数据,即结构活性关系(SAR)样本数据集,该数据集包含了37种从两种miR-21抑制剂衍生出的之前未见过的分子。作者的虚拟筛选模型成功地将这37种分子中的33种分类为“活性”,与相关研究的结果非常接近,展示了这个模型在结构活性关系情景中的潜力。
一旦虚拟筛选模型和辅助模型训练完毕,它们就可以用来筛选未知分子,以评估它们作为药物候选物的潜力。鉴于ZINC15库拥有庞大且多样化的类药物和可合成化合物,作者使用了ZINC15库进行虚拟筛选;此外还包括了来自Asinex库的化合物,这代表了一个分布之外的数据,使作者能够评估模型的泛化能力。作者使用训练好的模型来筛选这些数据集中最有可能特异性抑制miR-21活性、潜在副作用最少、最不可能引起明显毒性的合适分子。首先,作者使用在七个推荐任务上训练的多任务虚拟筛选模型,在九百万分子上预测miR-21活性抑制。为了更全面地了解推理分子的多样性,作者对模型学习的分子特征进行了无监督分析和聚类。这种分析还使研究人员能够从分子空间的不同区域选择分子。为了实现这一点,作者提取了训练模型的嵌入特征,将其投影到二维均匀流形近似和投影(UMAP)空间进行可视化,并使用k均值算法进行聚类。通过将分子分成不同的簇,可以访问分子空间的不同区域,从而选择更多样化的分子进行后续跟进和测试(见图4)。在图4A中,使用来自ZINC数据库的预测为正的候选分子描绘了这个分子空间,这些分子占据了嵌入空间的广泛范围。图4B描绘了相同的嵌入空间,但用于模型训练的分子,显示了训练集中正负化合物之间的重叠。在图4C中,作者展示了特征空间内的簇,以及使用RiboStrike算法从这些簇中选择的前八种化合物。
为了实验验证作者所选化合物的抗miR-21活性,作者采用了一种适用于可扩展基因表达谱分析的RNA测序(RNA-seq)策略,即QuantSeq-Pool。在实验测试中,作者使用了MDA-MB-231细胞,这是一种三阴性乳腺癌转移模型并且是由miR-21驱动的。在这些细胞中抑制miR-21应该显著降低它们的转移潜力。作者首先使用CellTiter-Glo计算每种化合物的IC20(20%的抑制浓度),以确保每种处理不影响关键的细胞过程。然后,作者对以IC20处理了72小时的MDA-MB-231细胞进行了QuantSeq-Pool。作为阳性对照,使用了一种已验证的抗miR-21 ASO,并包括了一种非靶向ASO作为对照。正如预期的那样,在miR-21 ASO样本中,作者观察到在治疗后上调的基因中miR-21目标的显著富集。在八种选定的化合物中,有两种显示出与ASO相似的miR-21目标上调,共有五种显示出一定的活性(置信度超过85%)。基于这些结果,作者的模型命中率为62.5%。
Arshadi, A. K., Salem, M., Karner, H., Garcia, K., Arab, A., Yuan, J. S., & Goodarzi, H. (2024). Functional microRNA-targeting drug discovery by graph-based deep learning. Patterns, 100909.