南开大学胡献刚团队Science Advances: 深度剖析随机森林模型提高了机器学习-纳米毒理研究的可解释性

点击上方蓝字关注我们

第一作者：于福波

通讯作者：胡献刚

通讯单位：南开大学环境科学与工程学院

论文DOI：10.1126/sciadv.abf4130

图片摘要

图 1 机器学习流程与TBRFA框架总览

成果简介

近日，南开大学环境科学与工程学院胡献刚教授团队在拓展机器学习算法预测纳米材料的生物效应，以及通过增强机器学习的可解释性探索纳米材料生物效应的机理方面取得了突破，介绍该科研成果的论文“Deep exploration of random forest model boosts the interpretability of machine learning studies of complicated immune responses and lung burden of nanoparticles”发表在国际知名期刊《Science Advances》上。文中构建了纳米材料—生物效应回归模型，并提出了一个基于树的随机森林（Random Forest, RF）特征重要性和特征交互网络分析框架（TBRFA）。该框架通过多指标重要性分析方法，克服了小型数据集导致的特征重要性分析偏差，并利用随机森林的工作机制建立了特征交互网络，揭示了潜在的影响纳米材料生物效应的交互因素。

引言

当前，纳米材料在电子机械、医疗化工、能源环境等诸多领域的研究、应用迅速发展，但纳米材料的环境效应预测存在高内涵数据库缺乏、环境转化情景遗漏、模型普适性弱等问题，严重制约了国家对危害性纳米材料的风险防控。目前，在对纳米材料的环境生物效应预测中，机器学习模型已广泛应用，但是受限于机器学习的可解释性，利用机器学习模型揭示复杂纳米毒理的机制仍具有很大的难度。本研究以提高机器学习的可解释性助力揭示纳米毒理机制为出发点，提出了一个特征交互网络概念以及一个基于树的随机森林特征重要性和特征交互网络分析框架 (TBRFA) 。TBRFA 通过对构建随机森林的树进行充分解析以提高随机森林模型的可解释性，包括重要性分析和特征交互网络分析两部分。TBRFA采用多指标重要性分析方法全面筛选影响纳米材料诱导的免疫反应及其器官积累的重要因素，以避免数据结构不平衡以及小数据集导致的特征重要性分析偏差。此外，TBRFA提出了一个相互作用系数，利用随机森林模型的工作机制探索了多个特征之间的相互作用关系，构建特征交互网络，为理想的纳米材料的设计和应用提供指导。

图文导读

数据集构建

图 2 原始数据集的数据分布进行可视化。(A) 免疫反应数据集。(B) 纳米材料负荷数据集。

首先，借鉴Meta分析思想，遵循严格的数据提取标准从公开发表文献中提取数据并构建纳米材料-小鼠肺部免疫数据集以及纳米材料-小鼠肺部暴露及器官负荷数据集。数据集包含16个特征（涵盖纳米材料性质、动物性质和实验条件三部分）以及12个免疫毒性标签（纳米材料-小鼠肺部免疫数据集）和3个器官负荷标签（纳米材料-小鼠肺部暴露及器官负荷数据集）。纳米材料种类繁多（57种）、表征标准差异、暴露方案差异等缺陷导致数据具有不可避免的高度异质性，这给精准预测纳米材料的生物效应带来了挑战。

模型性能与特征选择

对数据集进行预处理后，使用随机森林、人工神经网络（Artificial Neural Network, ANN）和支持向量机（Support Vector Machine, SVM）三种经典机器学习算法构建回归模型并进行对比与选择，通过十折交叉验证，使用预测值与观测值之间的相关系数（R²）衡量模型性能。图3 A-C表明在测试集中，RF（平均R²= 0.75±0.12）的性能优于ANN（平均R²= 0.67 ± 0.11) 和 SVM（平均R²= 0.64 ± 0.10）。此外，RF 训练耗时比 ANN更短，且相比 ANN 和 SVM 来说，RF调参过程更加简练，因此RF更适用于本研究所用的数据集。随后，作者使用一种特征选择方法尝试消除冗余特征，但并未明显提高RF模型性能，且该方法消除了一些重要特征，因此采用基于所有特征的RF模型进行后续分析。

为确保模型的可靠性，作者使用多种方法对模型性能进行验证。首先，在建立模型之前从数据集中随机抽取出5个样本作为验证集验证模型性能，图4 A显示了模型在验证集上的预测误差，其中 76% 的验证误差小于 0.2。其次，作者选用三乙氧基辛基硅烷修饰的多壁碳纳米管（Multi-walled carbon nanotube, MWCNT）和三种不同尺寸的原始MWCNT进行动物实验验证。图 4 B - F显示了MWCNT诱导的IL-1β免疫荧光，结果表明IL-1β浓度分布在 RF 预测的误差范围内（图4 G）。图4 G同时包含了验证集结果，验证集的观测值与预测值之间的定量比较表明该模型是可靠的。

图 3 机器学习模型性能。(A) RF , (B) ANN, (C) SVM和 (D)特征选择的RF的R²分布。（E-G）IL-6, IL-4和肺负荷的RF预测性能。

图 4 模型验证和肺组织免疫荧光成像。(A) 验证集的预测误差。(B) 对照组， (C) F-MWCNTs， (D) S-MWCNTs， (E) M-MWCNTs， (F) L-MWCNTs的免疫荧光成像。(G) 使用 IL-1β 荧光强度验证模型。红色通道，核因子κB (NF-κB) p65；绿色通道，IL-1β；蓝色通道，4',6-二脒基-2-苯基吲哚（DAPI）。

无偏见的重要特征挖掘

通常情况下，RF 模型通过重排特征并计算均方根误差（Mean Squared Error, MSE）的增加来衡量特征的重要性。图5 A显示了由 MSE 增加衡量的特征重要性，其中暴露剂量（图 5B）和恢复持续时间（图 5C）对免疫反应和器官负荷均有很大影响。然而，这一指标通常受数据集质量影响较大，例如，图5A表明性别对 IL-4 模型有显着贡献，然而性别不应是影响免疫反应的主要素，我们在后续分析中证实了这种偏差。因此，在使用单一的重要性评价指标时，可能会识别出错误的优势特征。

图 5 常规特征重要性分析。(A) 通过 MSE 的增加衡量的特征重要性。点的大小代表特征的重要性，连接线表示层次关系。黑色标注代表每个模型的两个最重要的特征。在大多数模型中，剂量 (B) 和恢复时间 (C) 被确定为重要特征。

TBRFA框架使用多个指标（节点纯度增加、平均最小深度和 P 值）进行特征重要性分析，以从不同角度评估特征的重要性，以弥补单一指标的缺陷（图 6 A和B）。在IL-4模型中，尽管性别导致 MSE 和节点纯度的增加比其他特征更高，但P值表明其重要性没有统计学意义（图 6A），且特征平均最小深度的分布也表明Zeta电位、剂量、长度、体重和比表面积出现在根部附近的频率更高（图 6B），成功避免了MSE增加所带来的重要性分析偏差。图 6C 总结了 TBRFA 重要性分析的结论。众所周知，剂量是影响纳米毒理最重要的特征之一，而纳米材料暴露后的恢复持续时间作为另一个重要因素通常会被忽略。偏依赖分析表明免疫反应随着恢复持续时间的延长而减弱，纳米材料倾向于诱导急性的免疫反应，且纳米材料会被机体逐渐清除。需要注意的是，即使经过长时间的恢复，实验组的免疫反应也没有降低到对照组水平，因此在后续的研究中，纳米材料的慢性毒性值得关注。此外，TBRFA重要性分析还发现材料的比表面积和长度分别对免疫反应和器官负荷产生了重要影响。比表面积通常会影响纳米颗粒对蛋白质的吸附，从而影响免疫反应；而长度较小的颗粒更容易实现跨器官转运，已有研究表明较小的纳米材料相比较大的更难被细胞吸收，从而更不容易在器官中积累。

图 6 TBRFA 重要性分析。(A)结合MSE增加、节点纯度增加和P值的IL-4 模型特征重要性分析，性别的重要性并不显着。(B)特征的平均最小深度，恢复持续时间、zeta 电位、剂量和长度/重量更接近树的根部。(C) TBRFA 重要性分析汇总。随着恢复持续时间的增加，免疫反应减弱。高比表面积纳米材料会导致细胞因子释放水平偏低，总蛋白和细胞数量偏高。直径较小（<100 nm）的纳米颗粒可以很容易地穿透生物膜并实现跨器官转运。

构建特征交互网络

图 7 基于条件深度的特征相互作用分析。(A) RF 模型中条件最小深度示意图。(B) 相互作用频率最高的25个特征对的平均最小（有条件和无条件）深度。(C-F) 4组强度最高的特征对的双变量偏倚赖分析，对应(B)中的四个箭头。

纳米材料诱导免疫毒性的机制十分复杂，了解材料的不同特性如何相互作用并影响它们诱导的免疫反应和器官负荷对于纳米材料的设计和应用至关重要。但鉴于大多数机器学习方法都是黑箱模型，识别特征之间的相互作用是一项艰巨的挑战。RF中的条件最小深度（图 7A）表示两个特征之间的相互作用强度。作者通过计算条件最小深度并将特征间相互作用强度进行排序（图 7B），并选择4组强度最高的特征对进行双变量偏倚赖分析（图7 C-F）发现大部分具有“强相互作用”的特征对往往呈现出简单的累加效应。与特征的非条件最小深度的比较表明该指标受特征重要性影响较大，因此不能直接用来指示特征间交互作用。

图 8 TBRFA特征交互网络分析。(A) TBRFA相互作用系数计算方法。(B-G) 总蛋白 (B)、总细胞 (C)、IL-6 (D)、IL-4 (E)、BALF (F) 和肺(G)的特征相互作用网络。颜色差异用于表示不同类型的特征以及指标。边的粗细代表相互作用的强度。点的大小代表特征与其他特征交互的次数。网络中五个具有最强相互作用的纳米材料属性以红色重点标识。

为了削弱特征重要性对条件最小深度所代表的相互作用的影响，作者深入探索了RF的工作机制，遍历构成RF的每棵决策树并根据条件最小深度重新设计了相互作用系数（图 8A），并构建了特征交互网络（图8 B-G及补充材料）以分析纳米材料属性之间的相互作用。免疫反应数据集的特征交互网络分析表明比表面积与Zeta电位及长度/宽度有很强的相互作用，例如，带负电荷且具有低比表面积 (0-200 m²/g) 的纳米材料导致总蛋白和总细胞小幅增加，而IL-4和IL-6在这种材料的刺激下大幅增加（图9 A-D)。不同细胞因子与材料的Zeta电位之间的复杂趋势可能与颗粒表面与细胞因子之间的静电作用有关。已有研究表明Zeta电位和比表面积对蛋白冠的形成以及细胞对纳米材料的吸收都有重要影响。TBRFA 所构建的相互作用网络则表明这两个因素相互制约从而影响材料的生物相容性和毒性。

图 9 强相互作用特征对的双变量偏依赖分析。(A)总蛋白: SSA-Zeta。(B) IL-6: SSA-Zeta。(C) IL-4: SSA-Zeta。(D) 总细胞: Zeta-SSA。(E) 总细胞: L-SSA。(F) IL-6: L-SSA。(G) 肺部负荷: L-D。(H) 肝脏负荷: L-D。(I) BALF负荷: L-D。(J) TBRFA 特征交互网络分析结论汇总。对不同属性的纳米材料根据其诱导的免疫反应程度进行排序

此外，相比较短的纳米材料，较长的材料会引起更严重的免疫反应，而合适的比表面积会在一定程度上降低这些免疫反应（图9 E-F）。器官负荷数据集的网络分析表明直径与长度具有强相互作用，这反应了不同长宽比在不同器官中的分布差异，其中一维纳米材料在肺部的积累最低，而在肝脏中的积累最高（图9 G-H），说明长度显著影响了纳米材料在机体内的运输能力（图9 I）。已有研究表明，差异性的流体动力学行为（例如，滚动和旋转）和横向漂移速度会导致非球状纳米颗粒具有靶向积累的特性，这与我们的结论相符。此外，长度和宽度在100-500 nm 范围内的纳米材料显示出更快的跨器官运输速度。图9 J对上述分析的结论进行了可视化。TBRFA特征交互网络分析结果对TBRFA 重要性分析所得出的关于纳米材料大小对器官负荷影响的结论进行了进一步补充，表明特征交互网络分析是提高机器学习可解释性的有力方法。

小结

鉴于与动物实验具有成本高、耗时长等缺点，对多种纳米材料所诱导的生物反应通过实验进行全面评估是不切实际的。尽管已有大量研究应用机器学习方法来解决相关问题，但较差的可解释性阻碍了机器学习在设计和发现理想纳米材料领域的应用。本研究提出了一个TBRFA框架，包含了重要性分析与特征交互网络分析。TBRFA重要性分析采用多个重要性指标，以平衡传统的单一指标带来的偏见，并识别出暴露恢复时间、材料比表面积以及材料尺寸是影响纳米材料诱导生物效应的重要因素。TBRFA特征交互网络分析通过解析随机森林的树结构，计算出两两特征之间的交互作用系数，并识别出材料的比表面积与表面电荷、比表面积与长度、长度与直径之间在诱导生物效应过程中起着相互制约与影响的作用。这项研究对研发环境友好型纳米材料具有一定的指导作用，将为纳米材料的生态环境安全性评估提供新的策略；该机器学习算法除了适用于纳米材料环境效应分析，也可用于重金属、有机物污染等环境生物效应的预测、评估。

该研究得到了国家自然科学基金委优秀青年基金、国家重点研发计划、天津市科技局杰出青年基金等项目资助。

作者简介

胡献刚：教授，博士生导师，入选国家重大人才工程、国家优青、天津市杰青。主要从事纳米颗粒环境化学过程与生物效应、交叉学科与数据建模(机器学习)相关研究，担任环境污染过程与基准教育部重点实验室副主任，中国生态学会污染生态专业委员会秘书长、中国环境科学学会环境化学分委会委员、Ecotoxicology and Environmental Safety编委、Chinese Chemical Letters青年编委、农业环境科学学报编委等；主持国家重点研发计划课题、国家自然科学基金等。以通讯作者或第一作者在PNAS、Science Advances、Nature Communications、ES&T、Nano Energy、Biomaterials、Water Research、Chemical Reviews、科学通报等期刊上发表论文80余篇。

第一作者：于福波，男，博士研究生，现就读于南开大学环境科学与工程学院。

投稿：南开大学胡献刚团队。投稿、合作、转载、进群，请添加小编微信Environmentor2020！环境人Environmentor是环境领域最大的学术公号，拥有近10W活跃读者 。由于微信修改了推送规则，请大家将环境人Environmentor加为星标，或每次看完后点击页面下端的“在看”，这样可以第一时间收到我们每日的推文！环境人Environmentor现有综合群、期刊投稿群、基金申请群、留学申请群、各研究领域群等共20余个，欢迎大家加小编微信Environmentor2020，我们会尽快拉您进入对应的群。