第一作者:Lihui Zhao & Zixuan Zhang

中文标题:基于分子对接-QSAR-Kronecker-正则化最小二乘的多机器学习评估和预测PFAS-蛋白质结合相互作用.英文标题:Molecular docking–QSAR–Kronecker-regularized least squares-based multiple machine learning for assessment and prediction of PFAS–protein binding interactions.本研究主要围绕PFAS(一类广泛存在且具有潜在毒性的全氟及多氟烷基物质)与关键蛋白质之间的结合相互作用展开。作者通过分子对接技术,对430种PFAS与人血清白蛋白(HSA)、过氧化物酶体增殖物激活受体γ(PPARγ)以及甲状腺激素转运蛋白(TTR)之间的结合亲和力进行了系统计算,并提取了反映分子电荷、能量及空间结构的关键特征(如PEOE_RPC-、E_vdw、MNDO_LUMO和vsurf描述符)。在此基础上,研究利用层次分析法(AHP)与模糊综合评价(FCE)构建了一个多层次综合评价模型,计算出PFAS与各蛋白质结合的综合指数(CI),从而全面评估了不同PFAS的结合能力。进一步地,作者采用LASSO回归结合多元线性回归(MLR)对大量分子描述符进行筛选和建模,成功构建了描述PFAS与蛋白相互作用的QSAR模型,并利用Shapley值(SHAP)分析定量评估了各关键描述符的重要性。最后,为拓展模型的应用范围,研究引入了Kronecker正则化最小二乘法(Kron-RLS)模型,通过构建分子及蛋白相似性矩阵,预测了PFAS与新靶点——G蛋白偶联受体40(GPR40)之间的结合亲和力。实验结果表明,QSAR模型和Kron-RLS模型均具有较高的预测精度,其中Kron-RLS模型在GPR40上的R2值高达0.94,证明了该方法在跨靶点预测方面的优势。整体而言,本文建立了一套多方法融合的计算模型,既大幅降低了实验成本,也为理解PFAS介导的毒性机制提供了理论支持,对环境风险评估和相关毒理研究具有重要意义。


图1.(a)HSA、(B)PPARγ、(c)TTR和(d)GPR 40-PFAS分子对接数据的统计分析。

图2. PFAS与HSA、PPARγ和TTR综合结合亲和力的QSAR模型。(a)QSAR模型的散点图。绿色点对应于训练集,红色点对应于验证集;(B)QSAR模型的SHAP分析。
图3.(a)通过Kron-RLS模型计算的不同PFAS类别的预测结合亲和力比较。散点图报告了95%置信区间的平均值;(b)GPR 40上的结合口袋(活性位点);(c)GPR 40-PFOS的结合模式分析。
本研究的创新点在于首次将分子对接、QSAR建模以及Kron-RLS多模型机器学习方法有机结合,构建出一套全新的PFAS–蛋白结合预测体系,实现了对传统实验方法成本高、效率低的有效突破。作者不仅利用分子对接技术精确计算了PFAS与HSA、PPARγ、TTR之间的结合能,进一步采用层次分析法和模糊综合评价对多蛋白数据进行整合,系统地量化了各类PFAS的结合能力,而且通过LASSO回归和多元线性回归筛选出反映分子电荷分布、范德华能量及轨道能级等特征的关键描述符,为理解PFAS与蛋白相互作用提供了微观结构依据。尤其值得一提的是,本文创新性地引入了Kron-RLS模型,通过构建分子及蛋白质的相似性矩阵,成功预测了新靶点GPR40与PFAS之间的相互作用,其预测精度达到R2为0.94,显著提升了跨靶点预测的可靠性。该模型不仅揭示了不同官能团(如磺酸基、羧酸基及磷酸基)对蛋白结合能力的影响,还指出了碳链长度对分子疏水性及结合能力的关键作用。这些发现为深入理解PFAS介导的毒性机制提供了重要理论依据,并为未来在环境污染物快速筛查及风险评估方面开辟了新途径,展现出广阔的应用前景与深远的科学意义。
文章DOI:10.1016/j.jhazmat.2025.138069声明:
本公众号仅分享PFAS相关研究进展成果,无商业用途。如有涉及侵权,请立即联系公众号后台或发送邮箱,我们会及时修订或删除!欢迎投稿或合作!
邮箱:pfas2022@163.com