社区所有版块导航
Python
python开源   Django   Python   DjangoApp   pycharm  
DATA
docker   Elasticsearch  
aigc
aigc   chatgpt  
WEB开发
linux   MongoDB   Redis   DATABASE   NGINX   其他Web框架   web工具   zookeeper   tornado   NoSql   Bootstrap   js   peewee   Git   bottle   IE   MQ   Jquery  
机器学习
机器学习算法  
Python88.com
反馈   公告   社区推广  
产品
短视频  
印度
印度  
Py学习  »  机器学习算法

StatQuest生物统计学 - 机器学习之ConfusionMatrix

生信菜鸟团 • 4 年前 • 523 次点击  

Confusion Matrix,混淆矩阵也称误差矩阵,是表示机器学习预测精度的一种标准格式,用n行n列的矩阵形式来表示。

对于一份机器学习数据,一般会先分成Trainning Data和Testing Data,分别用于构建模型和模型评价。由于对于同一份数据而言,往往有多种机器学习算法可供选择,比如决策树、K近邻算法及logistic回归,那么可以同时做上述模型,然后选出最佳模型(Cross Validation),此时模型间的比较可以选择使用Confusion Matrix来对比。

以一个例子来看一下,有如下数据,使用Chest Pain、Good Blood Circ.、Blocked Arteries及Weight来预测病人是否患有Heart Disease。

比如使用决策树构建好模型后,会对TestingData进行预测,此时可以将预测值和实际值作如下表格,此表格就是Confusion Matrix。具体而言,Actual代表样本的真实情况,Predicted代表模型预测的样本情况,绿色代表模型正确预测了结果,而红色代表模型错误预测了结果。

假如决策树、K近邻算法及logistic回归的ConfusionMatrix结果如下,那么可以很明显的得出决策树的预测结果最好。

这是比较简单的情况,如果对于结果是比较复杂的情况,比如预测结果是三个分类的,询问一个人喜欢Jurassic Park III、Run for your Wife、Out Kold、Howard the Duck与否,从而预测其喜欢Troll2、Gore Plice、Cool As Ice三部电影中的哪一部。

那么其Confusion Matrix就是如下样式,绿色为正确预测结果,红色为错误预测结果。

进一步的,如果结果有40个分类,那么Confusion Matrix也会是40*40的一个矩阵,而对角线就是正确预测的结果。

参考资料

  1. StatQuest课程:https://statquest.org/video-index/

文末友情宣传

强烈建议你推荐给身边的博士后以及年轻生物学PI,多一点数据认知,让他们的科研上一个台阶:

生信技能树知识库

每周文献分享

https://www.yuque.com/biotrainee/weeklypaper

肿瘤外显子分析指南

https://www.yuque.com/biotrainee/wes

生物统计从理论到实践

https://www.yuque.com/biotrainee/biostat



Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/61878
 
523 次点击