混乱的数据集和缺失的数值常常是数据分析过程中的挑战之一。为了帮助解决这些问题,missingno 提供了一套小型但功能强大的工具集,可以快速而直观地可视化数据集中的缺失值情况。通过使用 missingno,您可以轻松地发现数据中的缺失模式,并采取相应的处理措施。这个工具不仅易于使用,而且具有灵活性,能够适应不同类型和规模的数据集。无论您是数据科学家、数据分析师还是普通用户,都可以通过 pip install missingno
轻松地开始使用它。
示例数据集(Dataset)
接下来的示例数据使用了NYPD Motor Vehicle Collisions Dataset(https://data.cityofnewyork.us/Public-Safety/NYPD-Motor-Vehicle-Collisions/h9gi-nx95) 的样本数据集:
空值矩阵(matrix)
msno.matrix
空值矩阵是一个数据密集的显示,可以让您快速地视觉上观察数据完成情况中的模式。
import missingno as msno
%matplotlib inline
msno.matrix(collisions.sample(250))
一目了然,日期、时间、受伤分布以及第一辆车的贡献因素似乎完全填充,而地理信息似乎大部分填充,但存在一些间断。右侧的微线图概括了数据完整性的一般形状,并指出了数据集中具有最大和最小空值的行。
柱状图(bar)
msno.bar
是按列显示空值的简单可视化图表:
msno.bar(collisions.sample(1000))
您可以通过指定 log=True 来切换到对数刻度。柱状图提供了与矩阵相同的信息,但以更简单的格式呈现。
热图(heatmap)
missingnoheatmap
相关热图衡量了空值相关性:一个变量的存在或缺失对另一个变量的存在产生了多大影响:
树状图(dendrogram)
树状图允许您更全面地相关变量完成情况,揭示比在相关性热图中可见的成对趋势更深层次的趋势:
msno.dendrogram(collisions)
missingno是一个实用的小工具,能够快速可视化数据集中的缺失值情况,帮助用户发现数据中的缺失模式并采取相应处理措施。通过matrix、bar、heatmap和dendrogram等可视化方法,用户可以直观地了解数据完整性、变量之间的关系,适用于各种规模和类型的数据集。