第一作者:侯宁教授
通讯作者:李大鹏 副教授
通讯单位:东北农业大学 资源与环境学院
图文摘要:
成果简介:
近日,东北农业大学侯宁教授课题组在国际知名学术期刊《BIORESOURCE TECHNOLOGY》(中科院一区TOP期刊,影响因子9.7)发表了题为“New Strategies for constructing and analyzing semiconductor photosynthetic biohybrid systems based on ensemble Machine learning Models: Visualizing complex mechanisms and yield prediction”的研究论文,开发了一种基于集成学习的机器学习(ML)模型,用于光合生物杂交系统(PBSs)的表观量子产率(AQY)预测,并通过模型解释手段,深入分析了影响光合生物杂交系统表观量子产率的关键因素以及高产率机制。
引言:
基于半导体的光生物系统在生产高价值产物如甲烷、氢气和乙酸方面取得了显著进展。研究的关键在于生物-非生物界面的电子转移过程,这受到多种因素的影响,包括光催化材料的带隙、材料尺寸、微生物类型及环境条件等。尽管构建高效PBSs面临挑战,如材料的细胞毒性和复杂的电子转移机制,但通过精确调控这些因素,有望提高系统效率并开发出新型PBSs。这一领域亟需创新的研究方法,以实现更高的产率和效率。
近年来,基于人工智能的机器学习技术因其可以处理高维数据、预测生物系统中输入与输出变量复杂的非线性关系、发现并识别重要特征等能力,成为了研究生物与材料相互作用过程的一种有效的方法。为了填补PBSs研究的空白,开发了一种基于集成学习的融合模型,用于PBSs 表观量子产率的预测。
为了填补PBSs研究的空白,团队开发了一种基于集成学习的融合模型,首次用于PBSs 表观量子产率(AQY)的预测。本研究的的目的主要有:(1)开发基于集成学习的机器学习模型对PBSs的表观量子产率进行预测。(2)模型建立后,采用基于SHapley Additive exPlanations (SHAP)与Partial dependence plots(PDP)的方法,定量分析与解释影响PBSs的因素。(3)在对各种影响因素进行解释分析的基础上,给出了PBSs中最佳半导体光催化材料特性的范围并明确高产PBSs的机理。此外我们还将该机器学习模型开发成软件,研究人员可以直接访问该模型,节省用于研究的成本和时间。上述工作可以通过机器学习对潜在的半导体光催化材料进行筛选,以构建高产的PBSs,对推进人工工光合作用领域的发展和应对气候变化、能源短缺等全球挑战的更广泛目标具有重要意义。
Fig. 1. Flow diagram illustrating the process of ensemble learning to predict AQY.
在本研究中,团队通过对近年来全部PBSs相关研究文章的数据进行了收集。通过OrdinalEncoder 对数据进行编码,并使用基于随机森林的链式方程(MICE)对缺失的数据进行多重插补,得到基于PBSs表观量子产率的完整数据集,包含380个数据样本。采用了集成学习的方式,以随机森林(RF),梯度增强决策树(GBDT),极端梯度增强(XGBoost)三种树模型作为基础学习器,并通过Multiobjective tree-structured parzen estimator approach(TPE)对三个基础学习器进行超参数优化以及加权融合,成功建立预测PBSs表观量子产率的集成模型。
集成模型取得了比传统机器学习模型更加精确的预测结果
Fig. 2. Model prediction performance: (a) RF, (b) GBDT, (c) XGB, (d) Fusion model. The shadow represents the 95% confidence interval of the regression line on the training set and the test set, and the dashed gray line represents the y=x contour. (e) Visualization results of Fusion model hyperparameter optimization. (f) Taylor plot comparison of performance of three base learners and Fusion model.
集成模型在训练集与测试集的R2为0.971和0.927,RMSE为0.994和1.729,优于传统机器学习模型。在测试集性能上,比三个传统学习器的平均R2提升1.23%,平均RMSE降低6.79%。集成模型取得了最佳的预测性能,能够作为接下来全面了解PBSs的机器学习模型。
Fig. 3. (a) Feature importance for the three base learners and the Fusion model. (b) Beeswarm plot of SHAP values for the Fusion model. The color gradient from blue to red in the scatter points represents the variation in each feature’s value from low to high. The sign (positive or negative) of the SHAP values indicates the direction of a feature’s impact on the model’s prediction.
在评估各个输入特征对AQY的重要性时,发现不同基础学习器对特征的重要性识别存在差异。随机森林认为Time是最重要的特征,而XGB则
图3a显示,在评估各个输入特征对AQY的重要性时,发现不同基础学习器对特征的重要性识别存在差异。随机森林认为Time是最重要的特征,而XGB则认为其重要性较低。通过集成学习方式获得的融合模型在准确度更高的基础上,全面考虑了每个特征对输出的贡献。
图3b通过SHAP值分析,研究揭示了不同特征对光催化材料在生物光敏化系统(PBSs)中量子产率(AQY)的影响。时间(Time)被识别为最重要的特征。光致发光寿命(PLT)和光催化材料带隙(BG)也显著影响AQY。目标微生物种类(MO)对模型输出有重要贡献,但其具体影响需进一步分析。对于时间特征来说,微生物在长时间光照下也会受到光敏材料产生的活性氧物种的氧化应激,影响其代谢活性和生长速率。光致发光寿命越长,说明载流子复合速率越低,材料的光催化活性越高。高光致发光的特征值主要集中在0 SHAP值线的右侧,这意味着激发态电子在重组之前可以存在很长时间,有利于电子向细胞质中的能量传递系统(ETS)转移。BG,VB,CB三个反应材料能带结构的特征从整体上来看也具有较高重要性,其中BG对模型输出具有更多的贡献,红点主要分布于0值线左侧,说明宽带隙的材料对AQY有负面影响。研究表明,材料的带隙与光催化活性有关,窄带隙不仅能提供更广泛的可见光吸收范围,同时窄带隙的光催化材料的光激发载流子的分离能力更强,因此拥有更高的光催化活性。低MS特征值对模型输出有更多的正向贡献,但目前并没有太多研究明确不同大小的材料如何影响PBSs。小尺寸的纳米颗粒有助于微生物的吸附,两者之间形成紧密接触的界面,有助于直接电子转移(DIET)过程。
Fig. 4. (a), (b), (c), (d), (e): One-dimensional PDPs with Individual Conditional Expectation (ICE) subgraphs for Time, PLT, PCD, BG and MS, where the green dashed line is the predicted value and the blue solid line is the fitting curve of the predicted value. The shadow indicates a 95% Individual Conditional Expectation confidence interval (ICE CI). (f) Classification variable PDP for MO. The microorganisms in Fig. 4f are: Moorella thermoacetica. Methanosarcina barkeri. Escherichia coli. Clostridium butyricum. Desulfovibrio desulfuricans. Shewanella oneidensis MR-1. Sporomusa ovata. (g), (h): Two-dimensional interaction PDP plots for λ, Time and CB, VB.
为了进一步探究特征对目标变量(AQY)预测的边际效应,使用部分依赖图对特征变量进行分析,可以定量解释特征取值范围如何影响输出变量。结果显示,光照时间(Time)在0-50小时内与AQY呈负相关,50小时后影响较小;长光致发光寿命(PLT)和光电子分离效率(PCD)对AQY有显著影响;带隙能(BG)为2.35~2.55eV的半导体材料获得最高AQY,小尺寸光催化材料(2~5nm)也表现出较高的AQY。微生物方面,S.ovata和Shewanella oneidensis MR-1对模型输出贡献较大,微生物的代谢途径和电子转移能力对PBSs系统的高AQY有重要影响。研究还表明,材料特性与实验环境因素在长时间光照后对AQY的影响显著,调整材料性能和选择高效微生物有助于提高PBSs的产率。
Fig. 5. Visualization of PBSs mechanism based on model prediction. The chart encompasses the mechanisms of interaction between semiconductors and microbes as involved in the dataset. The numerical labels represent various features and the processes they undergo in PBSs, with the color of the number indicating the percentage of the average absolute SHAP value. (i), (ii), (iii), (iv) are the main metabolic pathways involved in the dataset for microbial production of corresponding products. Number: 1. Time. 2. PLT. 3. MO. 4. MA. 5. BG. 6. PCD. 7. MS. 8. LI. 9. VB. 10. Cys. 11. λ. 12. CB. 13. E0. 14. ML. 15. MT. EC: Extracellular. IC: Intracellular. OM: Outer membrane. IM: Inner membrane. ETP: Electron transfer protein. H2ase: Hydrogenase. QDs: Quantum dots. Fdox: oxidized ferredoxin. Fdred: reduced ferredoxin.
综上所述,为了构建长时间稳定具有高AQY的PBSs, 通过部分依赖图分析明确了高AQY的PBSs的各项特征的最佳范围。结合SHAP值特征重要性排序的结果,据此提出了高AQY的PBSs可能的机制。在稳定光照的PBSs中,长PLT与PCD的材料,光生电子参与后续催化反应的概率更大,有利于光生电子分离和向细胞内能量传递系统(ETS)转移。但是,PLT过长会导致催化剂表面的活性位点饱和,使得新产生的光电子无法有效地转移和利用,从而降低AQY。因此,长寿命载流子在生物-非生物界面处的及时分离与转移PBSs是获得高AQY的首要机制。微生物作为被动接受材料影响的因素,PBSs的产率上限与微生物自身的生理特性、内在的代谢活动等因素紧密相关,在最适环境下,选择高性能的微生物进行杂化,是PBSs获得最大的产率的机制。此外,在PLT处于适合范围(2~100ns)的基础上,窄带隙材料(2.35eV~2.55eV)具有更广泛的可见光响应范围与更好的载流子分离能力,是进一步提升AQY的次要机制。材料的尺寸决定了电荷转移发生的位置,小尺寸材料(2~10nm)在细胞内部定位缩短了电荷向ETS的传输距离,同样对AQY的提升做出一定的贡献。整个过程的机制示意图如图5所示。
作者简介
第一作者:侯宁,现任东北农业大学资源与环境学院系主任、教授、博士生导师,黑龙江省自然生态保护领域专家,黑龙江省高层次人才,黑龙江省优秀青年基金获得者,哈尔滨市创新人才杰出青年基金获得者,“东农学者计划-学术骨干”高层次人才基金获得者。黑龙江省分析测试学会常务理事、世界水协(IWA)会员、黑龙江省环境能源学会会员、二级心理咨询师、农业污染环境近自然生态修复与数字管理研究院院长、农业农村部“生猪养殖设施国家重点实验室”骨干成员,《Life》期刊客座编辑,国家自然科学基金函评专家、中国博士后基金评审专家, Journal of Hazardous Materials, BioresourceTechnology, Chemical Engineering Journal, Soil Biology and Biochemistry等多个高水平SCI Top期刊审稿人。
主要研究方向为环境生物技术理论与应用、微生物生理生态学与分子生态学、废物资源化理论与技术,获黑龙江省科技进步奖(自然科学类)二等奖1项,黑龙江省高等学校科学技术奖二等奖1项;主持国家自然科学基金面上项目等国家及省部级项目10余项;以第一作者或通讯作者发表学术论文 50 余篇,其中 SCI 收录论文30余篇,并获得已授权国际与国家专利20余项并已实现成果转化,出版专著3部,为企业带来巨大经济效益。
邮箱:houning@neau.edu.cn
原文链接:https://doi.org/10.1016/j.biortech.2024.131404
(本文仅用于学术分享,如有侵权,请联系删除或修改!)
欢迎各位读者投稿,内容包括但不限于研究成果分享、团队介绍、成员招收等内容均可。
邮箱:yqmgdaes@163.com
点“阅读原文”可链接出版商获取文章;
请大家将环化地生加为星标,或每次看完后点击页面下端的“在看”,可以第一时间收到推文!