Nat. Commun. | AGILE平台：一种基于深度学习的加速LNP开发用于mRNA递送的方法

DRUGAI

今天为大家介绍的是来自Bowen Li团队的一篇论文。可离子化脂质纳米颗粒（LNPs）在mRNA递送中得到广泛应用，尤其是在SARS-CoV-2 mRNA疫苗中。然而，mRNA疗法在COVID-19之外的扩展受到缺乏适用于多种细胞类型的LNPs的阻碍。在这项研究中，作者提出了AI引导的可离子化脂质工程（AGILE）平台，这是一种深度学习与组合化学相结合的协同方法。AGILE通过高效的库设计、基于深度神经网络的计算筛选，以及对多种细胞系的适应性，简化了可离子化脂质的开发。利用AGILE平台，作者能够快速设计、合成和评估用于mRNA递送的可离子化脂质，从庞大的库中进行选择。有趣的是，AGILE揭示了细胞特异性的可离子化脂质偏好，表明可以为不同细胞类型量身定制，以实现最佳递送效果。这些结果突显了AGILE在加速定制LNPs开发方面的潜力，能够满足临床实践中mRNA递送的复杂需求，从而拓宽mRNA疗法的应用范围和效果。

信使RNA（mRNA）已成为一种用途广泛的工具，具有广泛的生物医学应用，从疫苗和蛋白质替代疗法到细胞工程和基因编辑。这种多功能性激发了人们对利用mRNA应对各种疾病的广泛兴趣。然而，mRNA本质上不稳定，容易受到核酸酶降解，因此需要一种有效的递送系统，而可离子化脂质纳米颗粒（LNPs）通常承担了这一角色。Comirnaty和Spikevax这两种在COVID-19大流行期间获得批准的SARS-CoV-2疫苗，都是基于LNPs的mRNA递送技术。此外，LNP技术还帮助首款siRNA药物（Onpattro）在2018年获得美国FDA的批准。经典的LNP配方包括四种成分：可离子化脂质、胆固醇、辅助脂质和PEG化脂质。值得注意的是，三种FDA批准的RNA LNPs各自具有独特的可离子化脂质设计，这突显了可离子化脂质在LNP技术中的关键作用。它们的主要功能包括将mRNA封装进LNPs，并促进其进入靶细胞的细胞质，与核糖体结合并随后表达蛋白质。可离子化脂质通常由一个可离子化胺基头基和两条脂质尾巴组成。这种结构使其在酸性pH下能够质子化，从而在LNP形成过程中呈现阳离子特性，有助于包裹阴离子RNA分子。在生理pH下，可离子化脂质保持中性电荷，从而避免了与非离子化阳离子脂质相关的潜在毒性。一旦包裹mRNA的LNP被内吞，可离子化脂质在酸性内体环境中再次质子化，破坏内体的磷脂膜，促进mRNA释放到靶细胞的细胞质中。随着COVID-19大流行的消退，mRNA应用的范围继续超越疫苗接种，这进一步突显了开发多种能够有效递送mRNA到各种靶细胞和组织的可离子化脂质的必要性。

尽管先前的研究在可离子化脂质的合理设计以提高LNPs的mRNA递送性能方面提供了一些见解，但这种方法通常涵盖的结构空间有限，可能会忽略一些有前景的脂质设计。组合化学利用多组分反应，近年来被用于实现广泛且化学多样性的脂质库的高通量合成（HTS）。例如，基于Ugi的三组分反应（3-CR）被用来快速合成一个组合脂质库进行高通量筛选，最终发现了一种能够激活STING的可离子化脂质，有利于mRNA疫苗的递送。最近，另一种基于Michael加成的3-CR系统被用来生成一个包含700多种可离子化脂质的库，发现了一种特别适合将mRNA高效递送至肺上皮的有效脂质。虽然3-CR组合化学已被证明可以促进可离子化脂质的合成，但构建和测试一个更大规模的脂质库，包括多达数十万种化合物，以用于不同细胞靶点的mRNA转染，仍然是一项艰巨、耗时且昂贵的任务。这一挑战因此限制了设计和测试更多样化和创新结构的努力。为了加速发现和优化可离子化脂质，以实现特定靶细胞中的理想mRNA转染，策略的制定至关重要。深度学习作为人工智能（AI）的一个分支，为探索分子搜索空间提供了一个有前景的解决方案。通过大量高质量的训练数据，这项技术能够有效地从观察到的分子中提取见解，利用其底层化学结构和性质，并推测到更广泛的未观察到的分子中。事实上，深度学习的兴起正在重塑化合物的发现过程，将这一过程从试错法转变为智能化、数据驱动的策略。

模型部分

图 1

AGILE平台通过将深度学习方法与高通量组合脂质合成化学相结合，增强了发现对基于LNP的mRNA递送至关重要的可离子化脂质的能力。AGILE模型的核心包括深度学习算法，如图编码器和分子描述符编码器，能够巧妙地识别出可离子化脂质分子结构的独特特性和化学性质。AGILE的实施分为三个关键阶段：（1）开发虚拟库并启动自监督模型训练；（2）通过实验库的实证数据进行监督微调，提升模型的准确性；（3）利用优化后的深度学习算法对候选库中的可离子化脂质进行计算分析（见图1a）。在对虚拟脂质库进行初步自监督预训练并结合高通量湿实验数据进一步优化后，AGILE的深度学习神经网络能够巧妙解析可离子化脂质分子结构与其mRNA转染能力之间的复杂关系。这个过程旨在使AGILE能够准确预测可离子化脂质在LNP配方中用于mRNA递送的效果，从而简化从庞大脂质库中识别出可行候选者的过程。

具体而言，第一阶段的目标是通过对大量未标记的脂质分子进行预训练，开发出一个能够有效区分和描述不同脂质的图编码器。这一过程首先构建了一个基于图神经网络（GNN）的图编码器，并使用从MolCLR模型中获得的参数进行初始化。MolCLR模型已经在超过一千万个小分子上进行了预训练。这种“热启动”策略将小分子结构的一般知识嵌入到算法中，增强了AGILE在后续阶段的准确性。随后，图编码器通过对包含60,000种化学多样性脂质的虚拟库进行对比学习，持续进行预训练，从而能够区分每个分子中的原子和键，进而捕捉到不同脂质结构之间的差异。虚拟库中的脂质具有多样的胺基头基和两条不同的烷基链（见图1b），并基于3-CR化学原理构建，适合于高通量组合合成。第一阶段的初始预训练使图编码器具备了广泛的脂质结构理解能力，从而强化了后续阶段的过程。

在第二阶段，AGILE模型进一步通过来自不同可离子化脂质的湿实验室mRNA转染数据进行训练。作者使用3-CR化学方法合成了1200种脂质，并评估了它们的mRNA转染效力（mTP），这里将其定义为mRNA细胞转染效率的衡量标准。收集的数据随后通过监督学习用于优化AGILE模型。为了提高模型的泛化能力和准确性，集成了一个分子描述符编码器，该编码器处理通过Mordred工具箱计算的分子描述符。编码器的输出会更新预训练图编码器中的脂质结构表示。因此，在微调阶段，AGILE模型被训练以最小化其预测结果与实际湿实验室结果之间的差异。

在第三阶段的计算筛选中，作者创建了一个包含12,000种脂质结构的候选库，这些结构是从第一阶段的虚拟库中根据三个标准精心挑选出来的（见图1c）：（1）排除非离子化阳离子脂质，以降低毒性风险；（2）去除烷基链过短（C18）的脂质，这些选择是基于实验结果得出的；（3）去除没有可用试剂的脂质。随后，AGILE模型使用头尾排序法预测候选库中脂质的mTP，以增强顶级候选者的结构多样性（见图1d）。AGILE模型的结果指导选择性合成和配制最高排名的可离子化脂质进入LNPs，并在湿实验室中进一步测试这些脂质在特定靶细胞中mRNA递送的有效性。

组合合成与脂质库的筛选及微调

图 2

为了高效创建多样化的可离子化脂质库，作者利用HTS平台，采用了一锅法的Ugi 3-CR方法（见图2a）。通过自动化的机器人液体处理系统，仅用一天时间就合成了1200种可离子化脂质。实验脂质库包含了20种独特的头基、12条具有可生物降解酯键的烷基链和5条带有异腈功能基的烷基链（见图2b）。这种自动化也使得这些可离子化脂质能够快速按照标准的四组分配方比例被配制成LNPs，从而减少了操作员的变异性（见图2c）。LNPs中加载了萤火虫荧光素酶mRNA（mFluc），以便快速评估其在靶细胞中的mTP。这里通过处理后24小时内转染细胞与未处理细胞之间荧光强度比值的2为底对数来衡量mTP，这一时间框架是基于细胞中mFluc表达动力学选择的，用于捕捉峰值生物发光信号。脂质合成、LNP配方和荧光素酶测定的整个过程都通过液体处理机器人进行简化和自动化（见图2d）。为了验证自动化液体处理器在LNP配制中的适用性，作者将其与传统的手动移液方法进行了比较。分析结果表明，在LNP特性方面，自动化液体处理器与手动移液法之间没有显著差异。

在初步筛选中，作者将由1200种可离子化脂质制备的mFluc负载LNPs在HeLa细胞中进行了测试，所得的mTP数据被用于进一步优化AGILE模型（见图2e）。这一微调阶段帮助模型理解了分子性质与mTP之间的关联性。作者将其中80%的数据用于训练，10%用于超参数优化，10%用于内部验证。随着训练的进行，观察到训练数据和验证数据的损失值均持续下降（见图2f），这验证了模型优化的收敛性。因此，作者在训练完成后选择了验证损失最小的模型检查点进行进一步应用。为了评估预测精度，作者将预测和实际的体外mTP值分为六个等比例区间，并观察了模型在识别最高和最低表现脂质方面的能力（见图2g）。例如，预测为前16%的脂质实际上处于该等级的概率为0.41。AGILE模型的有效性还与传统的机器学习算法进行了对比，包括岭回归、套索回归、梯度提升和支持向量机（SVM），并且在各项指标上均表现优于这些算法。此外，作者使用UMAP将脂质嵌入映射到二维空间（见图2h），具有相似mTP值的可离子化脂质在生成的UMAP图中聚集在一起，展示了模型表示与湿实验室mTP之间的准确一致性。

通过AGILE识别用于肌肉选择性mRNA递送的可电离脂质

图 3

使用AGILE模型，并结合HeLa细胞的mTP数据进行微调后，作者从虚拟候选库中预测了用于肌内注射mRNA递送的潜在脂质。这些预测结果通过UMAP可视化（图3a），清晰地显示了高预测值和低预测值之间的区别，强调了该模型在广泛筛选库中区分更有效和较低效的可电离脂质的能力。对分层分布图的详细分析（图3b）表明，预测的效力根据头基团和尾基团的组合被明确排序。值得注意的是，在前五大头基团中，A8和A21的预测效力较高。尽管尾基团组合在预测转染效力方面的分层不如头基团明显（图3c），但顶级尾基团在候选物选择中仍然至关重要。采用作者的排序系统，该系统通过考虑头基团和尾基团的组合来强调脂质的结构多样性（图1d），作者选择了前15名脂质候选物进行进一步的实验验证。作者合成并评估了AGILE识别的前15名脂质候选物，确认它们在HeLa细胞中介导mRNA转染的有效性（图3d）。值得注意的是，突出候选物H9的转染效力显著优于初始1200种脂质中的其他顶级脂质，显示出AGILE在识别高效可电离脂质方面的有效性。为了全面评估H9的有效性，作者将其与Pfizer/BioNTech新冠mRNA疫苗中使用的行业标准可电离脂质ALC-0315进行了比较，使用含有DOPE或DSPC作为辅助脂质的配方。在这两种情况下，H9的表现均显著优于ALC-0315，突显了其卓越的效力。

在先前的研究中，HeLa细胞被用作初始模型，用于高通量筛选可离子化脂质库，以实现mRNA向肌肉组织的传递。在此，作者试图验证在HeLa细胞中的转染效力是否能够可靠地预测脂质在肌肉内注射后的表现，并与使用肌肉细胞相比。为此，作者评估了AGILE鉴定出的15种最佳脂质在HeLa细胞中的转染效力与它们在肌肉内mRNA递送后的表现之间的相关性。结果显示，HeLa细胞中mFluc表达的Pearson相关系数（PCC）为0.78，而C2C12小鼠成肌细胞的相关系数为0.756，两者与它们在小鼠肌肉内递送后的表现之间的相关性相似。这一相似性支持了在初始高通量筛选LNPs用于肌肉内mRNA递送时，使用HeLa细胞作为肌肉细胞的有效替代。因此，在进一步进行H9含有的LNPs在肌肉内mRNA递送中的体内评估之前，作者使用实验设计（DoE）方法在HeLa细胞中进一步优化了其配方。这导致了一个均匀且稳定的配方，其mTP显著高于基准LNPs MC3 (D-Lin-MC3-DMA)。

接下来，作者将经过DoE优化后的H9 LNP与行业标准的基准LNP进行比较，评估其通过肌肉注射（IM）在小鼠中递送mRNA的效果（图3e）。结果显示，H9 LNP将mRNA递送至肌肉组织的效率是MC3的7.8倍，与ALC-0315相当（图3f, g）。有趣的是，H9 LNP表现出了显著的组织特异性，与MC3和ALC-0315 LNP相比，在肝脏和脾脏等主要器官中的mRNA表达显著降低（图3f, h）。为了进一步验证这一发现，作者将载有Cre重组酶mRNA的H9和ALC-0315 LNPs注射到mTmG报告小鼠模型中。这些小鼠在Gt(ROSA)26Sor位点上携带基因突变，当Cre mRNA表达时，mT盒在Cre表达的组织中被切除，从而启动下游靶向膜的绿色荧光蛋白（GFP, mG）盒的表达（图3i）。与生物发光研究一致，作者观察到在H9和ALC-0315 LNPs注射的小鼠肌肉部位，GFP表达水平相似，但在肝脏中，H9 LNP的GFP表达明显较低（图3j）。为了阐明H9 LNP的肌肉特异性转染效果，作者使用标记有Cyanine5（Cy5）的mFLuc来研究其在肌肉注射后的生物分布。在给C57BL/6小鼠进行肌肉注射后，H9 LNPs在肌肉组织中的分布与ALC-0315 LNPs相当。然而，H9 LNP在肝脏中的积累明显较少，这与生物发光研究的结果一致。这表明H9 LNP的肌肉特异性转染可能是由于其在非靶向组织中的分布减少所致。

编译 | 黄海涛

审稿 | 曾全晨

参考资料

Xu, Y., Ma, S., Cui, H., Chen, J., Xu, S., Gong, F., ... & Li, B. (2024). AGILE platform: a deep learning powered approach to accelerate LNP development for mRNA delivery. Nature Communications, 15(1), 6305.