社区所有版块导航
Python
python开源   Django   Python   DjangoApp   pycharm  
DATA
docker   Elasticsearch  
aigc
aigc   chatgpt  
WEB开发
linux   MongoDB   Redis   DATABASE   NGINX   其他Web框架   web工具   zookeeper   tornado   NoSql   Bootstrap   js   peewee   Git   bottle   IE   MQ   Jquery  
机器学习
机器学习算法  
Python88.com
反馈   公告   社区推广  
产品
短视频  
印度
印度  
Py学习  »  Python

一文带您了解missingno:缺失数据可视化Python包

新语数据故事汇 • 9 月前 • 358 次点击  

混乱的数据集和缺失的数值常常是数据分析过程中的挑战之一。为了帮助解决这些问题,missingno 提供了一套小型但功能强大的工具集,可以快速而直观地可视化数据集中的缺失值情况。通过使用 missingno,您可以轻松地发现数据中的缺失模式,并采取相应的处理措施。这个工具不仅易于使用,而且具有灵活性,能够适应不同类型和规模的数据集。无论您是数据科学家、数据分析师还是普通用户,都可以通过 pip install missingno 轻松地开始使用它。

示例数据集(Dataset)

接下来的示例数据使用了NYPD Motor Vehicle Collisions Dataset(https://data.cityofnewyork.us/Public-Safety/NYPD-Motor-Vehicle-Collisions/h9gi-nx95) 的样本数据集:

空值矩阵(matrix)

msno.matrix 空值矩阵是一个数据密集的显示,可以让您快速地视觉上观察数据完成情况中的模式。

import missingno as msno%matplotlib inlinemsno.matrix(collisions.sample(250))

一目了然,日期、时间、受伤分布以及第一辆车的贡献因素似乎完全填充,而地理信息似乎大部分填充,但存在一些间断。右侧的微线图概括了数据完整性的一般形状,并指出了数据集中具有最大和最小空值的行。

柱状图(bar)

msno.bar 是按列显示空值的简单可视化图表:

msno.bar(collisions.sample(1000))

您可以通过指定 log=True 来切换到对数刻度。柱状图提供了与矩阵相同的信息,但以更简单的格式呈现。

热图(heatmap)

missingnoheatmap 相关热图衡量了空值相关性:一个变量的存在或缺失对另一个变量的存在产生了多大影响:

msno.heatmap(collisions)

树状图(dendrogram)

树状图允许您更全面地相关变量完成情况,揭示比在相关性热图中可见的成对趋势更深层次的趋势:

msno.dendrogram(collisions)


missingno是一个实用的小工具,能够快速可视化数据集中的缺失值情况,帮助用户发现数据中的缺失模式并采取相应处理措施。通过matrix、bar、heatmap和dendrogram等可视化方法,用户可以直观地了解数据完整性、变量之间的关系,适用于各种规模和类型的数据集。

Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/168682
 
358 次点击