趋近智
我们已经学习了如何使用均值、中位数和标准差等单一数值来汇总数据。这些统计数据能让我们对数据的中心和离散程度有一个大致的印象。但通常,我们需要一个更全面的情况。我们希望理解数据值是如何分布的。不同的数值出现的频率如何?某些数值是否非常常见,而另一些则很少见?这时就需要用到频率分布。
频率分布本质上是一个汇总,显示数据集中每个不同数值出现的次数(即频率)。可以将其看作通过计数出现次数来整理数据。这有助于您发现单一汇总统计数据可能无法展现的规律。
表示频率分布最简单的方法是使用频率表。让我们设想一个小数据集,表示20位不同顾客一周内购买咖啡的数量:
2, 3, 1, 0, 2, 4, 3, 2, 1, 0, 5, 2, 3, 1, 2, 0, 4, 2, 3, 2
要创建频率表,我们首先列出数据中唯一的数值,然后计算每个数值出现的次数。
| 购买咖啡数量(数值) | 划记 | 频率(计数) |
|---|---|---|
| 0 | III | 3 |
| 1 | III | 3 |
| 2 | IIIII II | 7 |
| 3 | IIII | 4 |
| 4 | II | 2 |
| 5 | I | 1 |
| 总计 | 20 |
这个表格立即告诉我们比仅仅平均值更多的信息。我们可以看到,每周购买2杯咖啡是最常见的行为(众数),而购买5杯则相当罕见。
有时,仅仅知道计数可能还不够。我们可能想知道每个数值占总数的比例或百分比。这称为相对频率。您可以通过用一个数值的频率除以总观察数来计算它。
我们还可以添加累计频率,这是您沿着数值列表向下查看时频率的累计总和。它告诉您有多少观测值落在特定值或低于该值。
让我们将这些添加到我们的咖啡示例中:
| 购买咖啡数量 | 频率 | 相对频率(频率 / 20) | 累计频率 |
|---|---|---|---|
| 0 | 3 | 3 / 20 = 0.15 (或 15%) | 3 |
| 1 | 3 | 3 / 20 = 0.15 (或 15%) | 3 + 3 = 6 |
| 2 | 7 | 7 / 20 = 0.35 (或 35%) | 6 + 7 = 13 |
| 3 | 4 | 4 / 20 = 0.20 (或 20%) | 13 + 4 = 17 |
| 4 | 2 | 2 / 20 = 0.10 (或 10%) | 17 + 2 = 19 |
| 5 | 1 | 1 / 20 = 0.05 (或 5%) | 19 + 1 = 20 |
| 总计 | 20 | 1.00 (或 100%) |
现在我们可以很容易看出,35%的顾客正好购买了2杯咖啡,而20位顾客中有13位(或65%,根据累计相对频率计算)购买了2杯或更少咖啡。
如果您有许多独特数值的数据,或者连续数据(如身高或温度),会怎么样?列出每个单一数值可能会使表格过长且不太实用。在这种情况下,我们创建分组频率分布。
我们将数据分组到范围或区间中,通常称为组距或类别。然后,我们计算每个组距中有多少个数据点。
例如,如果我们有30名学生的分数,范围从55到98,我们可能这样分组:
| 分数范围(组距) | 频率 |
|---|---|
| 50-59 | 2 |
| 60-69 | 5 |
| 70-79 | 11 |
| 80-89 | 8 |
| 90-99 | 4 |
| 总计 | 30 |
选择合适的组距大小很重要。组距太少可能会隐藏重要信息,而组距太多可能会使规律难以看清。没有单一的完美规则,通常需要根据数据进行一些判断。
频率表很有用,但对分布进行可视化通常能让规律更清晰。
对于数值数据(尤其是连续数据或分组的离散数据),标准的图示方法是直方图。
直方图看起来像条形图,但有一些重要的区别:
让我们将分组后的考试分数数据可视化:
直方图显示了学生分数在定义范围内的频率。最高的条形表示最常见的考试分数范围(70-79)。
查看直方图能让我们快速评估分布的形态。它是否大致对称(像钟形曲线)?是否偏斜,尾部向右延伸(正偏)或向左延伸(负偏)?它是一个峰(单峰)还是多个峰(多峰)?
对于分类数据(如宠物种类、喜欢的颜色或产品类别),我们使用条形图。它看起来与直方图相似,但:
让我们设想一下一组学习者中最喜欢的编程项目类型的数据:
条形图显示了学习者中最喜欢的不同编程项目类型的受欢迎程度。数据分析是最受欢迎的类别。
理解频率分布是探索性数据分析(EDA)的重要组成部分。它超越了单一汇总数字,展现您数据的内在结构。通过检查频率表和图示,如直方图或条形图,您可以:
这种理解在应用更复杂的统计方法或构建机器学习模型之前非常必要。它有助于您检查假设、选择合适的技巧,并最终从数据中得出更准确的结论。
这部分内容有帮助吗?
© 2026 ApX Machine Learning用心打造