原名:Rapid analysis and authentication of Chinese propolis
using nanoelectrospray ionization mass spectrometry combined with machine
learning译名:利用纳米电喷雾质谱结合机器学习对中国蜂胶进行快速分析和鉴定
1. 实验条件优化
图1为本实验蜂胶检测和分类方法的实验流程图。实验电压对特定分子的检测和电离效率有较大影响。因此,我们在实验前对离子喷雾电压进行了优化。离子喷雾电压的优化范围为1 kV至3.5 kV。当离子喷雾电压为1
kV时,响应强度几乎为0。然而,从3.0 kV开始,由于电压过高,出现了一些干扰峰。因此,我们最终选择了 2.5 kV 作为最佳电压。
为了证实该方法的可重复性,我们进行了六次重复实验。结果显示,六次实验的质谱差异可以忽略不计,这证明了该方法具有良好的可重复性。我们优化了电喷雾持续时间,在最初的30秒和1分钟内获得的谱图是一致的,延长曝光时间会导致复杂的电化学反应和出现假峰。为了快速准确地检测,我们选择最初30秒的质谱。
图1 蜂胶检测和分类方法的实验流程图(90 μl EEP + 10μl IS)。
苯甲酸-d5 在水和乙醇中均具有很好的溶解性,而且在质谱中信号稳定,我们选择苯甲酸-d5作为内标物。苯甲酸-d5在乙醇溶液中负离子模式下的结构和质谱见图S9b。苯甲酸-d5在m/z 126处出现一个脱氢峰 [M-H]。它不存在于天然蜂胶中,也不会与蜂胶中其他物质的峰值重叠。如图2b所示,我们比较了蜂胶乙醇提取物与添加了内标物的蜂胶乙醇提取物的质谱,内标物的存在不会干扰待测物的分析。苯甲酸是蜂胶中常见的一种化合物,我们选择苯甲酸来评估内标物的相对定量能力。通过20次平行测试,我们评估了苯甲酸信号强度与内标信号强度之比(IBA/IIS)的重复性。IBA/IIS的RSD(相对标准偏差)为4.43%,重复性良好。随后,我们制备了一系列不同浓度的苯甲酸和苯甲酸-d5溶液,构建了内标校准曲线,该曲线表现出良好的线性关系(图 2a)。最后,我们优化了内标物的浓度,选择了0.02 mol/l的苯甲酸-d5 用于蜂胶提取物中物质的相对定量分析。
所有蜂胶提取物均在上述优化条件下进行分析,每个样品的质谱信息采集时间为30秒。
图 2c-f显示了不同来源的四种代表性蜂胶乙醇提取物(EEP)的指纹图谱,这些图谱直观揭示了这些EEP的差异。结果显示,不同产地的蜂胶乙醇提取物指纹图谱存在明显差异。在负离子模式下,几乎所有样品都能在 m/z 126、m/z 133、m/z
163、m/z 179、m/z 215、m/z 247、m/z 253、m/z 255、m/z 269、m/z 271、m/z
283、m/z 285 和 m/z 313 处清晰地观察到峰值,其响应强度和相对丰度存在显著差异。我们比较了高分辨质谱的MS1和MS/MS数据,以鉴定蜂胶中的化合物。在对37个蜂胶样品的分析中,我们共准确鉴定出66种化合物,其中主要峰代表了蜂胶的关键活性成分——酚酸、黄酮和异黄酮。图2f显示,3-甲基-2-丁烯基咖啡酸酯(m/z 247)和CAPE(m/z 283)都是咖啡酸的衍生物,在山西的样品中显示出较高的相对丰度,这两种成分具有抗炎、抗氧化、抗菌和抗肿瘤作用。如图2d所示,安徽的样品中3-O-乙酰短叶松素的含量最高(m/z 313)。蜂胶初级指纹图谱分析结果直观地显示了所鉴定物质含量的差异。这些物质在区分不同地区和不同颜色的蜂胶方面表现出巨大的潜力。这凸显了nanoESI-MS在准确表征这些物质和阐明蜂胶样品中这些物质含量差异方面的有效性。
图2 a) 以苯甲酸-d5 为内标物的苯甲酸定量曲线。b) 利用nanoESI-MS 分析含内标物和不含内标物的EEP的MS1谱图。(c-f)从四个不同省份采集的代表性nanoESI-MS谱图。
3. 通过 NanoESI-MS 鉴定WEP和EEP不同类型的食物中包含种类多样的化合物,由于其独特的成分和浓度,这些化合物对人体有不同的影响。通常,这些化合物的集体影响决定了食物的整体生物活性,而不是任何单一化合物的独立作用。因此,了解食品中物质的类型和数量至关重要。蜂胶原料不能直接使用,必须经过提取和纯化,去除惰性物质,保留多酚,包括类黄酮、酚酸和酯。蜂胶提取物的化学成分和生物活性与蜂胶提取过程中使用的溶剂或采收方法密切相关。目前常用的提取方法有水提取和乙醇提取。在本研究中,我们利用nanoESI-MS来研究水提取蜂胶(WEP)和乙醇提取蜂胶(EEP)在成分和含量上的差异。图3a对比了EEP 和 WEP 的质谱图,显示了它们质谱图的的明显差异。值得注意的是,参考内标峰的强度,可以明显看出EEP中活性化合物的总体浓度超过WEP。但与EEP相比,WEP中的特定成分(如咖啡酸(m/z 179))浓度更高。随后,我们对所获得的质谱数据进行了多元分析,并利用偏最小二乘判别分析(PLS-DA)进行有监督的统计分析。这种建模方法有助于更全面地评估样本的组间变异性和相关变量的变异性。如图3b所示,WEP和EEP样本清晰地聚集成两个独立的组。十倍交叉验证得出的 R2Y 和 Q2 值分别为0.9673和0.9645。由于R2Y和Q2值均超过了 0.5,且R2和Q2之间的差距小于0.3,表明 PLS-DA 模型是可靠的,具有强大的解释能力和高效的数据处理能力。此外,在进行了200次置换检验,Q2点的蓝色回归线在垂直轴下方交叉,表明这些模型没有过拟合。
PLS-DA分析显示,两组之间的质谱数据存在显著差异。该模型生成了VIP(变量重要性投影)值,展示了nanoESI-MS在检测不同溶剂提取物差异方面的有效性。随后,根据VIP值、t检验校正p值和组间倍数变化(FC)值的统计显著性阈值,我们鉴定了差异代谢物。满足VIP >1、p < 0.05以及FC >2或< 0.5的特征被认为是区分两组的重要因素(图3c)。最终筛选出WEP和EEP中总共15种具有统计显著性的代谢物。火山图(图3d)、豆荚图(图3e)和相对平均强度热图(图3f)可视化了WEP和EEP中活性成分含量的上调和下调。在 WEP 样品中,我们观察到更多的酚酸和有机酸,如咖啡酸和对肉桂酸,它们都属于羟基肉桂酸,具有抗病毒、抗糖尿病、抗癌和抗血小板活性。在EEP样品中,有较多的类黄酮和异黄酮化合物,如咖啡酸苯乙酯(CAPE)、松属素和染料木黄酮。这两种提取物可根据所需的成分和特性用于不同的用途。WEP通常更适用于食品、饮料和口腔护理产品,而EEP通常更适用于护肤品和医药产品。通过这一验证,我们建立的nanoESI-MS方法显示了探索不同溶剂提取的蜂胶成分差异的潜力。
图3 WEP 和 EEP 的多变量分析结果。a) nanoESI-MS 测得的EEP和WEP的MS1谱图。b) WEP 和 EEP 的偏最小二乘判别分析 (PLS-DA)。c) 蜂胶提取物中代谢特征的维恩图。选取了15个关键特征,其标准为 p < 0.05, VIP > 1, 倍数变化 (FC) > 2 或 < 0.5。d) 蜂胶提取物中代谢特征的火山图。e) 15种差异代谢物的豆荚图。f) 15种差异代谢物的平均相对强度热图。
4. 利用Nano-ESI-MS鉴定三个气候区的EEP中国具有几种主要的气候区,包括温带大陆性气候(TCC)、温带季风气候(TMC)、亚热带季风气候(SMC)、热带季风气候和高原山地气候。在这些气候区中,高原山地气候以较低的温度和较低的空气密度为特征,这些因素会显著影响蜜蜂的生存和繁殖模式。然而,中国的热带季风气候分布相对有限。因此,我们收集的样本主要来自其他三个气候区。这些气候区对植被分布起着关键作用,因此来自不同气候区的蜂胶中的活性物质种类和浓度也相应地有所不同。
我们利用已建立的方法来识别来自中国各个气候区的蜂胶,并鉴定出区分这三个温带气候区的特定代谢物。PLS-DA模型应用于EEP的质谱数据,可以观察到来自不同温带气候区的样本聚集成三个不同的组(图4a)。R2Y和Q2分别为0.971和0.956,表明该模型稳定且可靠。经过验证,该模型没有过拟合现象。我们通过PLS-DA获得VIP值。随后进行了方差分析(ANOVA),这是一种用于比较两组或多组(或样本)之间的均值差异是否具有统计显著性的方法。它通常用于确定是否有因素可以显著解释不同组之间的差异,满足VIP >1和p < 0.05的特征被认为与组间区分相关。因此,我们筛选出了10种差异代谢物。为了可视化来自不同气候区样本的相对含量,我们对这10种物质进行了基于质谱信号响应强度的热图(图4b)和箱线图(图4c)分析。图S10中的热图显示了这10种物质的平均强度。通过热图可以部分区分三个气候区之间的代谢物相对含量差异。我们注意到在亚热带季风气候蜂胶中,几乎10种物质的含量都显示出较高水平。先前的研究也表明,中国亚热带地区的蜂胶产品表现出较高的生物活性。许多物质在TCC和TMC之间没有显著差异,可能是因为两者都是温带气候,植被差异较小。然而,某些物质,如柠檬酸和5, 6, 3', 5'-四甲氧基黄酮,在TCC中的含量显著高于TMC。相反,Arctopicrin在TMC中的含量较高。这些结果表明了nanoESI-MS在区分不同气候区蜂胶方面的潜力。
图4 来自三个不同气候区的蜂胶的多变量分析结果。a) 来自三个气候区的蜂胶的偏最小二乘判别分析 (PLS-DA)。b) 10种差异代谢物的热图。c) 10种差异代谢物的箱线图。
5. 利用 NanoESI-MS 鉴定不同颜色蜂胶中的 EEP根据以往的报告,蜂胶的颜色被认为是决定其可接受性的主要因素之一。我们探索了蜂胶的颜色与所含化合物及其浓度之间的关系。利用我们开发的方法,我们区分了不同颜色蜂胶的乙醇提取物。收集到的中国蜂胶样品大致分为四组:黄色、黑色、棕色和红色。我们仍采用 PLS-DA 建立多变量分析模型,结果清晰地显示出明显的聚类(图 5a),每种颜色的蜂胶样品都紧密地组合在一起。模型的R2Y 值和Q2值分别为 0.966 和 0.95,表明该模型具有良好的可靠性。经验证,该模型没有过拟合。
我们根据VIP值和p值筛选出11种独特的代谢物。为了可视化这些化合物在不同颜色的EEP中的相对浓度,我们使用质谱信号强度进行了热图分析(图5b),并在图S10中显示了平均强度热图。此外,我们为这11种化合物绘制了箱线图(图5c)。显然,去甲黄酮、5, 6, 3′, 5′-四甲氧基黄酮、3-O-乙酰短叶松素和 2, 5-二羟基苯甲醛在黑色蜂胶中含量较高,而苯甲酸和 2-甲氧基苯酚在棕色样品中含量较高。黄色样本中的芥子酸、3, 4-二甲氧基氢肉桂酸和异丹叶大黄素的浓度较高。此外,红色样本中葡萄糖酸和奎宁酸的含量明显升高。这些不同的代谢物有可能成为区分不同颜色蜂胶的标记。总之,这些结果证明了这种根据颜色对蜂胶进行分类的方法的潜力。
图5 不同颜色蜂胶的多变量分析结果。a) 四种颜色蜂胶的偏最小二乘判别分析 (PLS-DA)。b) 11种差异代谢物的热图。c) 11种差异代谢物的箱线图。
如上所述,我们使用PLS-DA模型对蜂胶样品进行了初步分类。为了在实际应用中更好地分类和预测原蜂胶样品的颜色和气候区,我们建立了一个机器学习模型进行进一步分析。相应地,在PLS-DA分析中使用的两个数据集被随机分成独立的训练集和测试集(70%的数据用于训练,30%的样本用于测试)。我们探索了七种监督学习分类器,即RF(随机森林)、SVM(支持向量机)、NN(神经网络)、LR(逻辑回归)、GB(梯度提升)、SGD(随机梯度下降)和Tree。为了增强模型的稳定性和可靠性,我们采用了逐一交叉验证,并使用受试者工作特征曲线下面积来衡量分类性能。
为了评估模型的性能并进行盲测,我们利用受试者工作特征(ROC)曲线和混淆矩阵。图6a和图6b比较了各种分类模型在训练集和测试集中区分不同颜色蜂胶的ROC曲线。可以注意到,除了Tree模型外,所有其他模型在测试集中均表现出AUC > 0.923,这表明了机器学习在确定蜂胶颜色方面显示出卓越的预测能力。模型性能分析是从AUC、召回率、MCC(马修斯相关系数)、CA(坐标注意力)、灵敏度(Sen)、精度(Pre)和F1得分(F1)等方面进行的。表S7列出了七种机器学习模型的详细参数。雷达图用于比较这些模型在测试集上的性能参数,结果发现逻辑回归模型在诊断和分类中总体表现更好(图6f)。图6c比较了逻辑回归模型在训练集和测试集上的ROC曲线。该模型在测试集上达到了0.942的AUC得分,分类准确率为95.6%。图6d和图6e分别表示训练集和测试集的混淆矩阵。为了区分和预测不同气候区的蜂胶,我们采用了相同的七种监督学习分类器。所有模型在训练集和测试集上的ROC曲线分别如图6g和图6h所示。在基于气候区分类样品时,GB模型显示出最佳的总体分类性能(图6l),AUC得分为0.96,准确率为85.3%。图6i比较了GB模型在训练集和测试集上的ROC曲线。图6j和图6k分别表示按气候区分组的训练集和测试集的混淆矩阵。结果表明,基于气温的分类预测性能不如基于颜色的分类预测性能。这也证实了先前的建议,即可能由于收集地区位于两个气候区的边界,难以有效区分。总之,通过使用机器学习分类器,我们实现了更准确的分类和预测。
总而言之,nanoESI-MS是一种快速质谱技术,操作时无需色谱分离和预处理。减少分离步骤使其克服了LC-MS分析中的速度限制,是用于分析复杂且大量样品的的更快的方法。在本研究中,我们使用了苯甲酸-d5作为蜂胶提取物相对定量的合适内标。利用nanoESI-MS结合PLS-DA模型,我们成功区分了水提蜂胶(WEP)和乙醇提蜂胶(EEP)之间的差异特征。此外,该方法帮助我们区分了来自中国不同气候区和不同颜色的蜂胶样品。我们在不同气候区的蜂胶中筛选出10种差异代谢物,发现温带地区的蜂胶含有更高水平的生物活性化合物。此外,我们在不同颜色的蜂胶中筛选出11种独特的代谢物;例如,芥子酸可能是黄色蜂胶的标志物,而5, 6, 3′, 5′-四甲氧基黄酮和3-O-乙酰短叶松素则是黑色蜂胶的标志物。最后,结合机器学习,我们成功对不同温度区和颜色的蜂胶进行了分类和预测,测试集的验证准确率分别为95.6%和85.3%。这些发现表明nanoESI-MS结合机器学习在蜂胶鉴定中的适用性,表明其在确定蜂胶样品的地理来源和原始颜色方面具有潜力。此类快速鉴定方法可以扩展到其他食品鉴定过程中,使其成为未来应用中极具前景的分析技术。
图6 使用机器学习模型进行分类的结果。a) 和 b) 七种模型在训练集和测试集中按颜色分类的ROC曲线。c) 逻辑回归模型在训练集和测试集上的ROC曲线对比。d) 逻辑回归模型在训练集中按颜色分类的混淆矩阵。e) 逻辑回归模型在测试集中按颜色分类的混淆矩阵。f) 七种模型按颜色分类性能的雷达图对比。g) 和 h) 七种模型在训练集和测试集中按气候区分类的ROC曲线。i) 梯度提升模型在训练集和测试集上的ROC曲线对比。j) 梯度提升模型在训练集中按气候区分类的混淆矩阵。k) 梯度提升模型在测试集中按气候区分类的混淆矩阵。l) 七种模型按气候区分类性能的雷达图对比。