趋近智
只计算缺失值能告知有多少空缺,但不能说明它们在哪里,或为何存在。缺失值是随机分散的,还是集中在特定行或列中?某些列是否倾向于同时出现缺失值?将缺失数据的分布情况可视化,有助于回答这些问题,并为如何处理它们提供有用的信息。查看这些模式通常可以提示数据是完全随机缺失、基于其他观察到的数据随机缺失,还是基于未观察到的因素或缺失值本身系统性缺失。
与仅查看统计摘要相比,直观地观察模式有以下几个好处:
email_address缺失,phone_number是否也经常缺失?这可能意味着联系信息收集存在问题。我们来看看几种简单直接的方法来显示数据缺失的位置。
最简单有效的一种可视化方式是条形图,显示数据集中每列的缺失值数量或百分比。这能立刻标出需要最多关注的列。
此条形图清晰显示,与“Age”和“LastPurchaseDate”相比,“Income”列有大量缺失条目,而“CustomerID”和“EmailOptIn”则没有缺失。
热力图可以提供更细致的视图,显示行和列中缺失值的确切位置。在一个典型的表示中,你可能会将整个数据集(或样本)看作一个网格,其中单元格根据数据是否存在而着色不同。
设想一个网格,其中每行代表一条记录(例如客户),每列代表一个特征(例如年龄、收入)。如果数据存在,我们可以将单元格涂成浅灰色;如果数据缺失,则涂成深灰色或红色等显眼颜色。
此热力图显示了8条记录在5个特征上的数据存在情况。深色单元格表示缺失值。我们可以观察到一些模式,例如特征3有多个缺失值,记录8的特征1开始处有缺失值。记录4在特征3和特征4中都有缺失数据。
虽然专业库提供了更高级的图表,如矩阵图或树状图来显示缺失数据的相关性,但这些基本的条形图和热力图为理解数据集中的缺失数据提供了一个好的开始。
查看这些可视化图时,请自问:
A和B经常同时出现缺失值,它们可能存在关联,从而影响填充方法的选择。了解这些模式不仅仅是学术活动。它直接影响你接下来会学到的技术,比如决定是否可以删除数据,或哪种填充方法(如使用均值、中位数或众数)最适合某一列。目视检查可以提供仅靠统计摘要无法提供的信息。
这部分内容有帮助吗?
© 2026 ApX Machine Learning用心打造