理解频率分布

我们已经学习了如何使用均值、中位数和标准差等单一数值来汇总数据。这些统计数据能让我们对数据的中心和离散程度有一个大致的印象。但通常，我们需要一个更全面的情况。我们希望理解数据值是如何分布的。不同的数值出现的频率如何？某些数值是否非常常见，而另一些则很少见？这时就需要用到频率分布。

频率分布本质上是一个汇总，显示数据集中每个不同数值出现的次数（即频率）。可以将其看作通过计数出现次数来整理数据。这有助于您发现单一汇总统计数据可能无法展现的规律。

表示频率分布最简单的方法是使用频率表。让我们设想一个小数据集，表示20位不同顾客一周内购买咖啡的数量：

2, 3, 1, 0, 2, 4, 3, 2, 1, 0, 5, 2, 3, 1, 2, 0, 4, 2, 3, 2

要创建频率表，我们首先列出数据中唯一的数值，然后计算每个数值出现的次数。

这个表格立即告诉我们比仅仅平均值更多的信息。我们可以看到，每周购买2杯咖啡是最常见的行为（众数），而购买5杯则相当罕见。

有时，仅仅知道计数可能还不够。我们可能想知道每个数值占总数的比例或百分比。这称为相对频率。您可以通过用一个数值的频率除以总观察数来计算它。

我们还可以添加累计频率，这是您沿着数值列表向下查看时频率的累计总和。它告诉您有多少观测值落在特定值或低于该值。

让我们将这些添加到我们的咖啡示例中：

购买咖啡数量	频率	相对频率（频率 / 20）	累计频率
0	3	3 / 20 = 0.15 (或 15%)	3
1	3	3 / 20 = 0.15 (或 15%)	3 + 3 = 6
2	7	7 / 20 = 0.35 (或 35%)	6 + 7 = 13
3	4	4 / 20 = 0.20 (或 20%)	13 + 4 = 17
4	2	2 / 20 = 0.10 (或 10%)	17 + 2 = 19
5	1	1 / 20 = 0.05 (或 5%)	19 + 1 = 20
总计	20	1.00 (或 100%)

现在我们可以很容易看出，35%的顾客正好购买了2杯咖啡，而20位顾客中有13位（或65%，根据累计相对频率计算）购买了2杯或更少咖啡。

如果您有许多独特数值的数据，或者连续数据（如身高或温度），会怎么样？列出每个单一数值可能会使表格过长且不太实用。在这种情况下，我们创建分组频率分布。

我们将数据分组到范围或区间中，通常称为组距或类别。然后，我们计算每个组距中有多少个数据点。

例如，如果我们有30名学生的分数，范围从55到98，我们可能这样分组：

选择合适的组距大小很重要。组距太少可能会隐藏重要信息，而组距太多可能会使规律难以看清。没有单一的完美规则，通常需要根据数据进行一些判断。

频率表很有用，但对分布进行可视化通常能让规律更清晰。

对于数值数据（尤其是连续数据或分组的离散数据），标准的图示方法是直方图。

直方图看起来像条形图，但有一些重要的区别：

让我们将分组后的考试分数数据可视化：

直方图显示了学生分数在定义范围内的频率。最高的条形表示最常见的考试分数范围（70-79）。

查看直方图能让我们快速评估分布的形态。它是否大致对称（像钟形曲线）？是否偏斜，尾部向右延伸（正偏）或向左延伸（负偏）？它是一个峰（单峰）还是多个峰（多峰）？

对于分类数据（如宠物种类、喜欢的颜色或产品类别），我们使用条形图。它看起来与直方图相似，但：

让我们设想一下一组学习者中最喜欢的编程项目类型的数据：

条形图显示了学习者中最喜欢的不同编程项目类型的受欢迎程度。数据分析是最受欢迎的类别。

理解频率分布是探索性数据分析（EDA）的重要组成部分。它超越了单一汇总数字，展现您数据的内在结构。通过检查频率表和图示，如直方图或条形图，您可以：

这种理解在应用更复杂的统计方法或构建机器学习 (machine learning)模型之前非常必要。它有助于您检查假设、选择合适的技巧，并最终从数据中得出更准确的结论。

这部分内容有帮助吗？

参考文献

Practical Statistics for Data Scientists: 50 Essential Concepts, Peter Bruce, Andrew Bruce, Peter Gedeck, 2020 (O'Reilly Media) - 本书提供了统计概念的实用、非理论性介绍，直接适用于数据科学，包括频率分布、直方图及其在探索性数据分析（EDA）中的解释。