在了解了数据可以是有组织(结构化)或自由形式(非结构化)之后,下一个重要的区分是数值本身的性质。数据通常分为两大类:定量数据和定性数据。认识到这种差异非常基础,因为它决定了你能提出什么类型的问题以及能执行哪种分析。定量数据:处理数字定量数据表示数量或计数。它是数值型的,这意味着你可以衡量它并执行加法、减法或计算平均值等数学运算。设想任何你可以客观计数或衡量的东西。特点:数值型: 以数字形式表示。可衡量: 表示一个具体数量。数学运算: 可用于计算(平均值、总和等)。示例:班级学生的升高(例如,165 厘米,172 厘米)。室外温度(例如,25°C,77°F)。用户点击按钮的次数(例如,5 次点击,12 次点击)。产品的价格(例如,$19.99,€50)。子类型(简要介绍):虽然我们在此不详细说明,但了解定量数据可以进一步细分是有益的:离散数据: 表示可计数项目。数值通常是整数,不能再有意义地细分。例如,你不能有 2.5 次网站访问。示例: 公司员工数量,汽车销售数量。连续数据: 表示测量值。数值可以在给定范围内的任意位置,并且理论上可以细分为越来越小的单位(仅受测量工具限制)。示例: 升高、体重、温度、完成任务所需的时间。定性数据:处理描述定性数据,也称为分类数据,描述的是性质或特征。它是非数值型的,通常代表标签、类别或属性。你通常不能对这类数据进行标准的数学计算,例如求平均值。特点:描述性: 表示性质、特征或类别。非数值型(通常): 通常使用词语、标签、符号表示,或有时使用作为标签的数字(如邮政编码,对其求平均值没有意义)。分类: 用于根据属性对项目进行分组。示例:个体的眼睛颜色(例如,蓝色、棕色、绿色)。客户反馈评论(例如,“满意”、“服务优异”、“难以使用”)。水果类型(例如,苹果、香蕉、橙子)。调查中的“是/否”回答。子类型(简要介绍):定性数据也有重要的子类型:名义数据: 没有内在顺序或排名的类别。示例: 颜色(红色、蓝色、绿色)、性别(男性、女性、其他)、原籍国。你可以计数每个类别中有多少项,但在“蓝色”和“绿色”之间没有自然的排名。序数数据: 具有有意义的顺序或排名的类别,但类别之间的间隔可能不相等或不可量化。示例: 客户满意度评分(例如,“非常不满意”、“不满意”、“中立”、“满意”、“非常满意”)、教育水平(例如,高中、学士、硕士、博士)、服装尺寸(S、M、L、XL)。你知道“满意”比“中立”要好,但你不能在数学上说它恰好好两倍。digraph G { rankdir=LR; node [shape=box, style=rounded, fontname="sans-serif", color="#495057", fillcolor="#e9ecef", style="filled,rounded"]; edge [color="#868e96"]; 数据 [fillcolor="#ced4da"]; 定量 [fillcolor="#a5d8ff"]; 定性 [fillcolor="#ffec99"]; 离散 [fillcolor="#74c0fc"]; 连续 [fillcolor="#74c0fc"]; 名义 [fillcolor="#ffe066"]; 序数 [fillcolor="#ffe066"]; 数据 -> 定量 [label=" 代表数量\n (数值型)"]; 数据 -> 定性 [label=" 代表描述\n (分类型)"]; 定量 -> 离散 [label=" 可计数\n (例如,点击次数)"]; 定量 -> 连续 [label=" 可衡量\n (例如,身高)"]; 定性 -> 名义 [label=" 无序\n (例如,眼睛颜色)"]; 定性 -> 序数 [label=" 有序\n (例如,满意度评分)"]; }数据类型的一种可视化分解,分为定量(数值型)和定性(分类型),以及它们的常见子类型。为什么这种区别很重要?了解你的数据是定量还是定性非常重要,因为它直接影响:分析方法: 你可以计算温度等定量数据的平均值($ \text{均值} $),但对于最喜欢的颜色等定性数据,你需要找出最常出现的类别($ \text{众数} $)。应用错误的方法会产生无意义的结果(例如,“平均”邮政编码)。可视化技术: 柱状图非常适合比较定性类别(名义或序数)的计数。直方图和散点图常用于查看定量数据(离散或连续)的分布和关系。选择正确的图表很大程度上取决于数据类型(更多内容在第 6 章中讨论)。建模方法: 许多数据科学模型专门为数值输入设计。定性数据在使用这些模型之前,通常需要转换为数值表示(例如,为类别分配数字),这是一个需要根据数据是名义型还是序数型进行仔细权衡的过程。随着学习的深入,你会明白,识别你正在处理的数据类型是任何数据分析任务的初步步骤之一。它指导你清理、汇总、可视化数据以及最终从现有信息中获取认识的策略。