在了解了数据可以是有组织(结构化)或自由形式(非结构化)之后,下一个重要的区分是数值本身的性质。数据通常分为两大类:定量数据和定性数据。认识到这种差异非常基础,因为它决定了你能提出什么类型的问题以及能执行哪种分析。
定量数据:处理数字
定量数据表示数量或计数。它是数值型的,这意味着你可以衡量它并执行加法、减法或计算平均值等数学运算。设想任何你可以客观计数或衡量的东西。
特点:
- 数值型: 以数字形式表示。
- 可衡量: 表示一个具体数量。
- 数学运算: 可用于计算(平均值、总和等)。
示例:
- 班级学生的升高(例如,165 厘米,172 厘米)。
- 室外温度(例如,25°C,77°F)。
- 用户点击按钮的次数(例如,5 次点击,12 次点击)。
- 产品的价格(例如,$19.99,€50)。
子类型(简要介绍):
虽然我们在此不详细说明,但了解定量数据可以进一步细分是有益的:
- 离散数据: 表示可计数项目。数值通常是整数,不能再有意义地细分。例如,你不能有 2.5 次网站访问。
- 连续数据: 表示测量值。数值可以在给定范围内的任意位置,并且理论上可以细分为越来越小的单位(仅受测量工具限制)。
定性数据:处理描述
定性数据,也称为分类数据,描述的是性质或特征。它是非数值型的,通常代表标签、类别或属性。你通常不能对这类数据进行标准的数学计算,例如求平均值。
特点:
- 描述性: 表示性质、特征或类别。
- 非数值型(通常): 通常使用词语、标签、符号表示,或有时使用作为标签的数字(如邮政编码,对其求平均值没有意义)。
- 分类: 用于根据属性对项目进行分组。
示例:
- 个体的眼睛颜色(例如,蓝色、棕色、绿色)。
- 客户反馈评论(例如,“满意”、“服务优异”、“难以使用”)。
- 水果类型(例如,苹果、香蕉、橙子)。
- 调查中的“是/否”回答。
子类型(简要介绍):
定性数据也有重要的子类型:
- 名义数据: 没有内在顺序或排名的类别。
- 示例: 颜色(红色、蓝色、绿色)、性别(男性、女性、其他)、原籍国。你可以计数每个类别中有多少项,但在“蓝色”和“绿色”之间没有自然的排名。
- 序数数据: 具有有意义的顺序或排名的类别,但类别之间的间隔可能不相等或不可量化。
- 示例: 客户满意度评分(例如,“非常不满意”、“不满意”、“中立”、“满意”、“非常满意”)、教育水平(例如,高中、学士、硕士、博士)、服装尺寸(S、M、L、XL)。你知道“满意”比“中立”要好,但你不能在数学上说它恰好好两倍。
数据类型的一种可视化分解,分为定量(数值型)和定性(分类型),以及它们的常见子类型。
为什么这种区别很重要?
了解你的数据是定量还是定性非常重要,因为它直接影响:
- 分析方法: 你可以计算温度等定量数据的平均值(均值),但对于最喜欢的颜色等定性数据,你需要找出最常出现的类别(众数)。应用错误的方法会产生无意义的结果(例如,“平均”邮政编码)。
- 可视化技术: 柱状图非常适合比较定性类别(名义或序数)的计数。直方图和散点图常用于查看定量数据(离散或连续)的分布和关系。选择正确的图表很大程度上取决于数据类型(更多内容在第 6 章中讨论)。
- 建模方法: 许多数据科学模型专门为数值输入设计。定性数据在使用这些模型之前,通常需要转换为数值表示(例如,为类别分配数字),这是一个需要根据数据是名义型还是序数型进行仔细权衡的过程。
随着学习的深入,你会明白,识别你正在处理的数据类型是任何数据分析任务的初步步骤之一。它指导你清理、汇总、可视化数据以及最终从现有信息中获取认识的策略。