数据集构建
![](http://mmbiz.qpic.cn/mmbiz_jpg/pjcOVAUV0pFgMNKnZ3EQGIZsKfraqAwHsicAicLmq1YGkQdlBFQd3zHiahfxhMc4dgUXfu1GqQMwmylhxlz9ibxZ6w/640?wx_fmt=jpeg)
图 2 原始数据集的数据分布进行可视化。(A) 免疫反应数据集。(B) 纳米材料负荷数据集。
首先,借鉴Meta分析思想,遵循严格的数据提取标准从公开发表文献中提取数据并构建纳米材料-小鼠肺部免疫数据集以及纳米材料-小鼠肺部暴露及器官负荷数据集。数据集包含16个特征(涵盖纳米材料性质、动物性质和实验条件三部分)以及12个免疫毒性标签(纳米材料-小鼠肺部免疫数据集)和3个器官负荷标签(纳米材料-小鼠肺部暴露及器官负荷数据集)。纳米材料种类繁多(57种)、表征标准差异、暴露方案差异等缺陷导致数据具有不可避免的高度异质性,这给精准预测纳米材料的生物效应带来了挑战。
模型性能与特征选择
对数据集进行预处理后,使用随机森林、人工神经网络(Artificial Neural Network, ANN)和支持向量机(Support Vector Machine, SVM)三种经典机器学习算法构建回归模型并进行对比与选择,通过十折交叉验证,使用预测值与观测值之间的相关系数(R2)衡量模型性能。图3 A-C表明在测试集中,RF(平均R2 = 0.75±0.12)的性能优于ANN(平均R2 = 0.67 ± 0.11) 和 SVM(平均R2 = 0.64 ± 0.10)。此外,RF 训练耗时比 ANN更短,且相比 ANN 和 SVM 来说,RF调参过程更加简练,因此RF更适用于本研究所用的数据集。随后,作者使用一种特征选择方法尝试消除冗余特征,但并未明显提高RF模型性能,且该方法消除了一些重要特征,因此采用基于所有特征的RF模型进行后续分析。
为确保模型的可靠性,作者使用多种方法对模型性能进行验证。首先,在建立模型之前从数据集中随机抽取出5个样本作为验证集验证模型性能,图4 A显示了模型在验证集上的预测误差,其中 76% 的验证误差小于 0.2。其次,作者选用三乙氧基辛基硅烷修饰的多壁碳纳米管(Multi-walled carbon nanotube, MWCNT)和三种不同尺寸的原始MWCNT进行动物实验验证。图 4 B - F显示了MWCNT诱导的IL-1β免疫荧光,结果表明IL-1β浓度分布在 RF 预测的误差范围内(图4 G)。图4 G同时包含了验证集结果,验证集的观测值与预测值之间的定量比较表明该模型是可靠的。
![](http://mmbiz.qpic.cn/mmbiz_jpg/pjcOVAUV0pFgMNKnZ3EQGIZsKfraqAwHlgYvttodXcicSsq2QB0CGiaMTua3s9yY3Z7iaRbZHnPjNntTvGlH2LVUQ/640?wx_fmt=jpeg)
图 3 机器学习模型性能。(A) RF , (B) ANN, (C) SVM和 (D)特征选择的RF的R2分布。(E-G)IL-6, IL-4和肺负荷的RF预测性能。
![](http://mmbiz.qpic.cn/mmbiz_jpg/pjcOVAUV0pFgMNKnZ3EQGIZsKfraqAwHib9zXBqjpJpM5VVzXek6SKTXzBicIJ5I8U4u5IEz5yPrlTFtDqA79gKQ/640?wx_fmt=jpeg)
图 4 模型验证和肺组织免疫荧光成像。(A) 验证集的预测误差。(B) 对照组, (C) F-MWCNTs, (D) S-MWCNTs, (E) M-MWCNTs, (F) L-MWCNTs的免疫荧光成像。(G) 使用 IL-1β 荧光强度验证模型。红色通道,核因子κB (NF-κB) p65;绿色通道,IL-1β;蓝色通道,4',6-二脒基-2-苯基吲哚(DAPI)。
无偏见的重要特征挖掘
通常情况下,RF 模型通过重排特征并计算均方根误差(Mean Squared Error, MSE)的增加来衡量特征的重要性。图5 A显示了由 MSE 增加衡量的特征重要性,其中暴露剂量(图 5B)和恢复持续时间(图 5C)对免疫反应和器官负荷均有很大影响。然而,这一指标通常受数据集质量影响较大,例如,图5A表明性别对 IL-4 模型有显着贡献,然而性别不应是影响免疫反应的主要素,我们在后续分析中证实了这种偏差。因此,在使用单一的重要性评价指标时,可能会识别出错误的优势特征。
![](http://mmbiz.qpic.cn/mmbiz_jpg/pjcOVAUV0pFgMNKnZ3EQGIZsKfraqAwHhh2DL3JS6C90hENGE1SMicbT6L697CsWbX4EriaBlvCEq9j98PlCIrlg/640?wx_fmt=jpeg)
图 5 常规特征重要性分析。(A) 通过 MSE 的增加衡量的特征重要性。点的大小代表特征的重要性,连接线表示层次关系。黑色标注代表每个模型的两个最重要的特征。在大多数模型中,剂量 (B) 和恢复时间 (C) 被确定为重要特征。
TBRFA框架使用多个指标(节点纯度增加、平均最小深度和 P 值)进行特征重要性分析,以从不同角度评估特征的重要性,以弥补单一指标的缺陷(图 6 A和B)。在IL-4模型中,尽管性别导致 MSE 和节点纯度的增加比其他特征更高,但P值表明其重要性没有统计学意义(图 6A),且特征平均最小深度的分布也表明Zeta电位、剂量、长度、体重和比表面积出现在根部附近的频率更高(图 6B),成功避免了MSE增加所带来的重要性分析偏差。图 6C 总结了 TBRFA 重要性分析的结论。众所周知,剂量是影响纳米毒理最重要的特征之一,而纳米材料暴露后的恢复持续时间作为另一个重要因素通常会被忽略。偏依赖分析表明免疫反应随着恢复持续时间的延长而减弱,纳米材料倾向于诱导急性的免疫反应,且纳米材料会被机体逐渐清除。需要注意的是,即使经过长时间的恢复,实验组的免疫反应也没有降低到对照组水平,因此在后续的研究中,纳米材料的慢性毒性值得关注。此外,TBRFA重要性分析还发现材料的比表面积和长度分别对免疫反应和器官负荷产生了重要影响。比表面积通常会影响纳米颗粒对蛋白质的吸附,从而影响免疫反应;而长度较小的颗粒更容易实现跨器官转运,已有研究表明较小的纳米材料相比较大的更难被细胞吸收,从而更不容易在器官中积累。
![](http://mmbiz.qpic.cn/mmbiz_jpg/pjcOVAUV0pFgMNKnZ3EQGIZsKfraqAwHspIbpllxVQNic9icFgDKJDWEV20htO2rxLhYhicEOUTXjFR5cLCe6ouwg/640?wx_fmt=jpeg)
图 6 TBRFA 重要性分析。(A)结合MSE增加、节点纯度增加和P值的IL-4 模型特征重要性分析,性别的重要性并不显着。(B)特征的平均最小深度,恢复持续时间、zeta 电位、剂量和长度/重量更接近树的根部。(C) TBRFA 重要性分析汇总。随着恢复持续时间的增加,免疫反应减弱。高比表面积纳米材料会导致细胞因子释放水平偏低,总蛋白和细胞数量偏高。直径较小(<100 nm)的纳米颗粒可以很容易地穿透生物膜并实现跨器官转运。
构建特征交互网络
![](http://mmbiz.qpic.cn/mmbiz_jpg/pjcOVAUV0pFgMNKnZ3EQGIZsKfraqAwHgsSOIwicLty1KicISHBnLxERF2T07s86Aia370GP9f1iaCvAAt7CBSqEZQ/640?wx_fmt=jpeg)
图 7 基于条件深度的特征相互作用分析。(A) RF 模型中条件最小深度示意图。(B) 相互作用频率最高的25个特征对的平均最小(有条件和无条件)深度。(C-F) 4组强度最高的特征对的双变量偏倚赖分析,对应(B)中的四个箭头。
纳米材料诱导免疫毒性的机制十分复杂,了解材料的不同特性如何相互作用并影响它们诱导的免疫反应和器官负荷对于纳米材料的设计和应用至关重要。但鉴于大多数机器学习方法都是黑箱模型,识别特征之间的相互作用是一项艰巨的挑战。RF中的条件最小深度(图 7A)表示两个特征之间的相互作用强度。作者通过计算条件最小深度并将特征间相互作用强度进行排序(图 7B),并选择4组强度最高的特征对进行双变量偏倚赖分析(图7 C-F)发现大部分具有“强相互作用”的特征对往往呈现出简单的累加效应。与特征的非条件最小深度的比较表明该指标受特征重要性影响较大,因此不能直接用来指示特征间交互作用。
![](http://mmbiz.qpic.cn/mmbiz_jpg/pjcOVAUV0pFgMNKnZ3EQGIZsKfraqAwHmkkB7CmUSh9EekOmY6tHIUvuzaWicWESDmxYfibJuUY0EOhjxTViaeZlA/640?wx_fmt=jpeg)
图 8 TBRFA特征交互网络分析。(A) TBRFA相互作用系数计算方法。(B-G) 总蛋白 (B)、总细胞 (C)、IL-6 (D)、IL-4 (E)、BALF (F) 和肺(G)的特征相互作用网络。颜色差异用于表示不同类型的特征以及指标。边的粗细代表相互作用的强度。点的大小代表特征与其他特征交互的次数。网络中五个具有最强相互作用的纳米材料属性以红色重点标识。
为了削弱特征重要性对条件最小深度所代表的相互作用的影响,作者深入探索了RF的工作机制,遍历构成RF的每棵决策树并根据条件最小深度重新设计了相互作用系数(图 8A),并构建了特征交互网络(图8 B-G及补充材料)以分析纳米材料属性之间的相互作用。免疫反应数据集的特征交互网络分析表明比表面积与Zeta电位及长度/宽度有很强的相互作用,例如,带负电荷且具有低比表面积 (0-200 m2/g) 的纳米材料导致总蛋白和总细胞小幅增加,而IL-4和IL-6在这种材料的刺激下大幅增加(图9 A-D)。不同细胞因子与材料的Zeta电位之间的复杂趋势可能与颗粒表面与细胞因子之间的静电作用有关。已有研究表明Zeta电位和比表面积对蛋白冠的形成以及细胞对纳米材料的吸收都有重要影响。TBRFA 所构建的相互作用网络则表明这两个因素相互制约从而影响材料的生物相容性和毒性。
![](http://mmbiz.qpic.cn/mmbiz_jpg/pjcOVAUV0pFgMNKnZ3EQGIZsKfraqAwHkXd8GKCUjU4Be8VwCWhNN6aorH40LLic1C0Kx8doBu2T6iceAloHtic2g/640?wx_fmt=jpeg)
图 9 强相互作用特征对的双变量偏依赖分析。(A)总蛋白: SSA-Zeta。(B) IL-6: SSA-Zeta。(C) IL-4: SSA-Zeta。(D) 总细胞: Zeta-SSA。(E) 总细胞: L-SSA。(F) IL-6: L-SSA。(G) 肺部负荷: L-D。(H) 肝脏负荷: L-D。(I) BALF负荷: L-D。(J) TBRFA 特征交互网络分析结论汇总。对不同属性的纳米材料根据其诱导的免疫反应程度进行排序
此外,相比较短的纳米材料,较长的材料会引起更严重的免疫反应,而合适的比表面积会在一定程度上降低这些免疫反应(图9 E-F)。器官负荷数据集的网络分析表明直径与长度具有强相互作用,这反应了不同长宽比在不同器官中的分布差异,其中一维纳米材料在肺部的积累最低,而在肝脏中的积累最高(图9 G-H),说明长度显著影响了纳米材料在机体内的运输能力(图9 I)。已有研究表明,差异性的流体动力学行为(例如,滚动和旋转)和横向漂移速度会导致非球状纳米颗粒具有靶向积累的特性,这与我们的结论相符。此外,长度和宽度在100-500 nm 范围内的纳米材料显示出更快的跨器官运输速度。图9 J对上述分析的结论进行了可视化。TBRFA特征交互网络分析结果对TBRFA 重要性分析所得出的关于纳米材料大小对器官负荷影响的结论进行了进一步补充,表明特征交互网络分析是提高机器学习可解释性的有力方法。