我们已经学习了如何使用均值、中位数和标准差等单一数值来汇总数据。这些统计数据能让我们对数据的中心和离散程度有一个大致的印象。但通常,我们需要一个更全面的情况。我们希望理解数据值是如何分布的。不同的数值出现的频率如何?某些数值是否非常常见,而另一些则很少见?这时就需要用到频率分布。频率分布本质上是一个汇总,显示数据集中每个不同数值出现的次数(即频率)。可以将其看作通过计数出现次数来整理数据。这有助于您发现单一汇总统计数据可能无法展现的规律。统计数据:创建频率表表示频率分布最简单的方法是使用频率表。让我们设想一个小数据集,表示20位不同顾客一周内购买咖啡的数量:2, 3, 1, 0, 2, 4, 3, 2, 1, 0, 5, 2, 3, 1, 2, 0, 4, 2, 3, 2要创建频率表,我们首先列出数据中唯一的数值,然后计算每个数值出现的次数。购买咖啡数量(数值)划记频率(计数)0III31III32IIIII II73IIII44II25I1总计20这个表格立即告诉我们比仅仅平均值更多的信息。我们可以看到,每周购买2杯咖啡是最常见的行为(众数),而购买5杯则相当罕见。相对频率和累计频率有时,仅仅知道计数可能还不够。我们可能想知道每个数值占总数的比例或百分比。这称为相对频率。您可以通过用一个数值的频率除以总观察数来计算它。我们还可以添加累计频率,这是您沿着数值列表向下查看时频率的累计总和。它告诉您有多少观测值落在特定值或低于该值。让我们将这些添加到我们的咖啡示例中:购买咖啡数量频率相对频率(频率 / 20)累计频率033 / 20 = 0.15 (或 15%)3133 / 20 = 0.15 (或 15%)3 + 3 = 6277 / 20 = 0.35 (或 35%)6 + 7 = 13344 / 20 = 0.20 (或 20%)13 + 4 = 17422 / 20 = 0.10 (或 10%)17 + 2 = 19511 / 20 = 0.05 (或 5%)19 + 1 = 20总计201.00 (或 100%)现在我们可以很容易看出,35%的顾客正好购买了2杯咖啡,而20位顾客中有13位(或65%,根据累计相对频率计算)购买了2杯或更少咖啡。分组频率分布如果您有许多独特数值的数据,或者连续数据(如身高或温度),会怎么样?列出每个单一数值可能会使表格过长且不太实用。在这种情况下,我们创建分组频率分布。我们将数据分组到范围或区间中,通常称为组距或类别。然后,我们计算每个组距中有多少个数据点。例如,如果我们有30名学生的分数,范围从55到98,我们可能这样分组:分数范围(组距)频率50-59260-69570-791180-89890-994总计30选择合适的组距大小很重要。组距太少可能会隐藏重要信息,而组距太多可能会使规律难以看清。没有单一的完美规则,通常需要根据数据进行一些判断。频率的可视化:直方图和条形图频率表很有用,但对分布进行可视化通常能让规律更清晰。数值数据的直方图对于数值数据(尤其是连续数据或分组的离散数据),标准的图示方法是直方图。直方图看起来像条形图,但有一些重要的区别:X轴: 表示连续的数值范围,已分组到组距中。Y轴: 表示每个组距内数据点的频率(或相对频率)。条形相连: 条形通常相互接触,表明X轴上的变量是连续的,或者通过分组被视为连续的。让我们将分组后的考试分数数据可视化:{"layout": {"title": "考试分数分布", "xaxis": {"title": "分数范围"}, "yaxis": {"title": "学生人数"}, "bargap": 0.05, "plot_bgcolor": "#e9ecef"}, "data": [{"type": "bar", "x": ["50-59", "60-69", "70-79", "80-89", "90-99"], "y": [2, 5, 11, 8, 4], "marker": {"color": "#339af0"}}]}直方图显示了学生分数在定义范围内的频率。最高的条形表示最常见的考试分数范围(70-79)。查看直方图能让我们快速评估分布的形态。它是否大致对称(像钟形曲线)?是否偏斜,尾部向右延伸(正偏)或向左延伸(负偏)?它是一个峰(单峰)还是多个峰(多峰)?分类数据的条形图对于分类数据(如宠物种类、喜欢的颜色或产品类别),我们使用条形图。它看起来与直方图相似,但:X轴: 表示不同的类别。条形分离: 条形之间通常有间隙,以强调类别是独立的和不同的。Y轴: 表示每个类别的频率或计数。让我们设想一下一组学习者中最喜欢的编程项目类型的数据:{"layout": {"title": "最喜欢的编程项目类型", "xaxis": {"title": "项目类型"}, "yaxis": {"title": "学习者人数"}, "plot_bgcolor": "#e9ecef"}, "data": [{"type": "bar", "x": ["Web开发", "数据分析", "游戏开发", "移动应用", "自动化"], "y": [15, 25, 8, 12, 10], "marker": {"color": ["#4263eb", "#12b886", "#be4bdb", "#fd7e14", "#22b8cf"]}}]}条形图显示了学习者中最喜欢的不同编程项目类型的受欢迎程度。数据分析是最受欢迎的类别。为何理解频率分布?理解频率分布是探索性数据分析(EDA)的重要组成部分。它超越了单一汇总数字,展现您数据的内在结构。通过检查频率表和图示,如直方图或条形图,您可以:识别最常见和最不常见的数值。了解数据的范围和变异性。观察分布的形态(对称性、偏斜度、峰值)。发现潜在的异常值或不寻常的规律。比较不同组之间的分布。这种理解在应用更复杂的统计方法或构建机器学习模型之前非常必要。它有助于您检查假设、选择合适的技巧,并最终从数据中得出更准确的结论。