KPCA-DT分类学习器对独立测试集的每个元素进行预测,并将识别准确率集中在一个混淆矩阵中,以显示单细胞水平的菌株类别识别结果。如图3A所示,对角线区域显示了正确识别各应变的准确度,而非对角线区域显示了错误预测的结果。23株菌株分类任务的平均预测准确率为86.23±0.92%。但某些菌株的误判率较高,特别是沙门氏菌。
为此,引入了四级分类模型。根据生物分类学的范围,每个KPCA-DT模型在层次结构中的识别性能通过10倍交叉验证进行估计(图4)。首先,在顶层,数据集被划分为革兰氏阳性(G+)和革兰氏阴性(G-),KPCA-DT和PCA-SVM的识别结果令人满意,平均准确率分别为92.2±0.5%和97.6±0.2%。在第二级(属水平),KPCA-DT分类模型对G+和G-的识别准确率为88.6±1.0%和95.8±0.4%,同时,根据PCA-SVM分类模型,G+和G-菌的分类准确率分别可达92.6±0.6%和99.2±0.1%。两种算法在属水平上都表现出优异的识别性能,这可能是由于不同属细菌的拉曼光谱特征差异很容易被捕获。随后,在三级分类(种级),KPCA-DT对5种沙门氏菌和4种李斯特菌的鉴别准确率分别为88.3±1.6%和87.1±1.3%。相反,PCA-SVM在该层次分类中的预测错误率较高。最后,在血清水平上,KPCA-DT对4种不同血清型菌株的预测准确率为88.4±1.9%,而PCA-SVM的分类结果较差(70.2±2.3%)。
综上所述,基于KPCA-DT的分类方法不仅可以快速诊断食源性病原体,而且可能是复杂环境中细菌分析的有效策略。而且,这些不需要大型服务器的传统机器学习分类模型可以很容易地集成到自动化、小型化甚至手持式拉曼光谱仪中,从而可以对食品样品中的食源性病原体进行现场实时检测,成为保障食品安全的有效武器。