在这项工作中,作者介绍了一个用于生物活性肽预测和虚拟定向进化的可解释深度学习框架。与生成模型相比,该框架能够从不同自然来源进化出具有高度多样性的AMPs,避免了生成模型可能产生的过拟合和AI幻觉问题。此外,该框架的可解释性有助于验证可疑输出并引入人工监督。
EvoGradient与传统的基于规则分析的AMP优化方法不同,它在进化过程中进行了多种氨基酸替换,不仅依赖于氨基酸组成,还可能学习到人类专家难以察觉的特性。通过EvoGradient,作者发现了一个具有体内活性的AMP候选物,推测其通过靶向细胞膜并裂解细菌细胞发挥作用,但不排除其他作用机制(如与DNA/RNA结合、抑制蛋白合成或细胞分裂)。作者认为模型可能学习了训练AMPs的抗菌特性,这些特性可能与细胞膜以外的靶点相关。
该框架为自动筛选数据集和优化AMPs提供了一种新策略,成功从少量口腔细菌基因组中识别出具有体内活性的AMP。将其扩展到其他生物来源或更大的数据集有望发现更多AMPs。由于AMP的MIC数据稀缺,模型目前输出的是广谱活性肽。随着更多针对特定病原体的AMP的MIC数据的积累,模型可以被调整以产生窄谱AMPs。