Py学习  »  机器学习算法

JCIM|华中师范大学赵蕴杰教授团队:新型机器学习方法预测RNA与小分子相互作用

智药邦 • 5 天前 • 38 次点击  
2024年10月24日,华中师范大学生物物理研究所赵蕴杰教授团队在RNA与小分子相互作用的预测领域取得了重大进展。他们开发出了一种名为ZHMol-RLinter的机器学习模型,该模型能够高效、精准地预测RNA与小分子之间的结合偏好。这一成果为RNA靶向药物的设计提供了强大的技术支持,有望推动癌症、病毒感染等重大疾病的药物开发。 

相关研究成果以A Machine Learning Method for RNA−Small Molecule Binding Preference Prediction为题,发表在Journal of Chemical Information and Modeling上。

RNA与小分子的相互作用——靶向药物设计的关键

近年来,随着基因组学和分子生物学的飞速发展,科学家们发现RNA不仅是遗传信息的载体,在细胞功能调控、基因表达以及疾病的发生和发展中扮演着重要角色。尤其是非编码RNA(ncRNA)——占人类基因组转录产物的绝大部分,虽然它们不编码蛋白质,但却在调控基因表达、信号传导等过程中具有核心作用。

RNA的独特性使其成为一种新兴的药物靶点。与传统的蛋白质靶点不同,RNA具有高度动态和复杂的结构特性,能够形成多种二级和三级结构,例如发夹环、内部环和假结结构等,这些结构往往与其生物功能密切相关。通过靶向这些RNA结构,科学家们能够调控基因表达,进而开发出具有治疗潜力的小分子药物。 
例如,核开关(riboswitch)是一类能够通过小分子结合调节基因表达的RNA结构。特定的小分子可以通过结合核开关RNA,改变其构象,从而开启或关闭相关基因的表达。这一发现使RNA成为治疗感染、癌症以及遗传性疾病的重要靶点。
然而,RNA作为药物靶点也面临着诸多挑战。RNA的结构复杂且灵活,尤其是它在细胞内的三级结构动态性较高,预测RNA如何与小分子相互作用一直是科研领域中的一大难题。此外,实验方法如X射线晶体学、核磁共振(NMR)和冷冻电子显微镜等尽管可以提供RNA与小分子相互作用的结构信息,但这些技术往往耗时费力,成本高昂,难以大规模应用于药物筛选。

ZHMol-RLinter模型——双层堆叠的创新性突破

为了克服这一挑战,研究团队开发了ZHMol-RLinter模型:

模型的核心架构——双层堆叠随机森林


ZHMol-RLinter模型的核心创新在于它使用了双层堆叠(stacking)的随机森林模型。双层堆叠是一种增强机器学习模型性能的常用技术,能够通过组合多个子模型的结果,进一步优化预测准确性。在ZHMol-RLinter中,模型通过两层随机森林模型分别进行局部和全局的RNA-小分子结合偏好预测。
第一层(RF_1):预测核苷酸与小分子的相互作用
第一层模型的输入为RNA的二级结构元件及其对应的小分子特征。RNA的特征包含序列、二级结构、几何特征、理化环境等,而小分子的特征则使用了MACCS指纹(166位二进制向量表示小分子的化学特性)。第一层模型预测每个RNA核苷酸是否与小分子结合,输出一个二进制结果(结合=1,不结合=0)。

第二层(RF_2):预测结构元件与小分子的结合偏好

第一层的输出结果作为第二层模型的输入。第二层模型通过总结每个RNA结构元件(如发夹环、内部环等)中核苷酸的结合情况,预测该结构元件是否整体上与小分子发生结合。如果结构元件中的任何一个核苷酸被预测为与小分子结合,那么该结构元件整体将被预测为与小分子结合。

最终,如果RNA链中的任何结构元件被预测为与小分子结合,那么整个RNA链就被预测为能够结合该小分子。

图1 ZHMol RLinter的插图
数据处理和特征表示


为了让模型能够充分捕捉RNA与小分子的相互作用信息,研究团队对RNA和小分子分别构建了多种特征表示:
RNA的特征包括:
序列特征:使用4位的one-hot编码来表示每个核苷酸(A、G、C、U)。
二级结构特征:通过MXfold2算法预测RNA的二级结构,标记出哪些核苷酸配对(1表示配对,0表示未配对)。

表1 代表环基序的核苷酸特征

几何特征:使用拉普拉斯范数(Laplacian     norm,LN)来捕捉RNA的三维表面形状。LN通过分析核苷酸之间的空间距离,反映其在拓扑结构中的凸起或凹陷程度。此外,还通过网络拓扑特征来分析RNA三级结构中的节点与边的关系,捕捉RNA结构在全局和局部的交互信息。
理化环境特征:包括核苷酸所包含的原子类型、原子的键合特征以及其电荷等信息。
小分子的特征使用MACCS指纹表示,这是一个常用的166位二进制向量,指示小分子化学性质的存在与否(例如氢键供体、受体等)。
数据集与模型训练


研究团队创建了一个专门的RNA-小分子数据库,包含125条RNA链和75个小分子。RNA链通过它们的功能被分为不同的类别(如核开关、适体、核酶等),并提取了4种主要的RNA二级结构元件。在训练时,模型使用了253个具有结合小分子的RNA元件作为正样本,以及267个未结合小分子的RNA元件作为负样本。

模型性能与评估


ZHMol-RLinter的性能在两个测试集上得到了评估:
RL98测试集:包含98个已知小分子与RNA的结合实例,模型在该测试集上取得了90.8%的成功率,大幅超越了其他已有的RNA-小分子结合预测方法(如R-BIND、RNAmigos等)。
UNK96测试集:这个测试集包含96个从未见过的小分子与RNA的结合实例。ZHMol-RLinter在这个未知小分子测试集上的成功率为77.1%,表明该模型具有极强的泛化能力,能够有效应对从未见过的小分子数据。
此外,研究还展示了ZHMol-RLinter在处理预测的RNA三级结构时的鲁棒性,模型能够在存在一定三级结构误差时(如RMSD达到8Å)仍然保持较高的F1分数(RL98测试集为68.2%,UNK96测试集为70.4%),表明该方法在RNA结构预测不精确的情况下依然具有很强的适应性。
图2(A,B)使用(A)RL98和(B)UNK96测试集对ZHMol RLinter和现有方法RNAmigos、R-BIND和RLigands进行比较。(C,D)在(C)RL98和(D)UNK96测试集上评估的ZHMol RLinter对结合偏好的性能。
图3 (A) 使用trRosettaRNA预测的结构对ZHMol RLinter和RNAmigos进行比较。(B)使用trRosetta RNA计算的预测结构的均方根偏差(RMSD)分布。(C,D)使用(C)RL98和(D)UNK96测试集评估ZHMol RLinter在结合偏好方面的性能,测试集的结构由trRosettaRNARNA预测。对于小分子-RNA链结合偏好预测,RL98测试集的MCC为-4.6%。
模型的创新性与优势


双层堆叠的随机森林模型:该模型通过两层随机森林的堆叠方法,进一步优化了RNA与小分子的结合预测,能够在局部和全局两个层面上进行预测,捕捉更细致的相互作用信息。
多维度的RNA和小分子特征表示:模型不仅利用了RNA的序列和二级结构,还结合了几何特征、理化环境等高维度信息,确保了预测的全面性。
未知小分子上的优越表现:模型在未知小分子测试集上的成功率达到了77.1%,相比传统方法有显著提升,这使得该模型在新药开发中的应用潜力巨大。
处理预测结构的能力:即使在没有实验RNA三级结构的情况下,ZHMol-RLinter依然能够通过预测的RNA结构进行准确的结合预测,显示了极强的灵活性和实用性。

未来展望

ZHMol-RLinter的开发为RNA靶向药物设计提供了一种新的计算工具,它能够有效预测RNA与小分子之间的结合偏好,尤其在处理未知小分子数据时展现出极强的性能。未来,该模型有望被广泛应用于RNA靶向药物筛选、RNA功能研究以及RNA相关疾病的治疗策略开发中,为精准医疗和药物设计领域带来新的突破。

参考文献:

Chen Zhuo, Jiaming Gao, Anbang Li, et al. A Machine Learning Method for RNA–Small Molecule Binding Preference Prediction[J]. Journal of Chemical Information and Modeling.

本文转载自【 星宸药研 】公众号

--------- End ---------

感兴趣的读者,可以添加小邦微信加入读者实名讨论微信群。添加时请主动注明姓名-企业-职位/岗位 或  姓名-学校-职务/研究方向

Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/175357
 
38 次点击