趋近智
在数据分析中,并非所有数据都以可以直接衡量或计数的数字形式呈现。您经常会遇到表示性质、类型或组别的数据。这类数据被称为分类数据。可以将其视为分配标签或将观察结果放入不同的类别中。
并非所有在数据分析中遇到的数据都以可直接测量或计数的数字形式出现。通常,你会遇到表示性质、类型或分组的数据。这类数据被称为分类数据。你可以将其理解为为观测值分配标签或将其放入不同的类别中。例如,分析客户数据时,像“性别”(男、女、其他)、“城市”(纽约、伦敦、东京)或“订阅类型”(基本、高级、企业)这样的特征都属于分类数据。科学实验中的“处理组”(对照组、处理A、处理B)也是分类数据。即使调查中简单的“是”/“否”回答也属于这一范畴。
将分类数据与数值数据区分开来是有益的。数值数据表示数量,可以在刻度上进行测量。例子包括“年龄”(例如,35岁)、“温度”(例如,25.5 °C)或“收入”(例如,$15,750)。您可以对数值数据执行有意义的算术运算,例如计算平均值或总和。然而,尝试对“城市”名称求平均值就没有意义了。
数值数据(可测量的数量)与分类数据(标签或组别)之间的基本区别。
在分类数据中,有时类别具有自然的顺序,有时则没有。
识别这种差异有时可以指导您的分析或可视化选择,但这里主要关注适用于任何分类分组的方法。
为什么要为分类数据专门设置可视化方法?因为了解不同组别的特征是许多数据分析任务的基础:
由于分类数据表示的是组别而非连续值,因此像基本折线图这样的标准图表通常不适用。相反,我们需要专门设计的可视化图表来显示计数、比较组间的统计摘要,或展示每个类别中数据点的分布。
本章将介绍专门为此目的构建的 Seaborn 函数。您将了解 countplot、barplot、boxplot 等函数如何提供清晰且信息丰富的方式来可视化您的分类数据,从而更容易地从数据集中获取关于不同组别的见解。
这部分内容有帮助吗?
© 2026 ApX Machine Learning用心打造