设想您进行相同的简单试验多次,比如抛硬币。伯努利分布处理单次抛掷(一次试验)。但如果您抛硬币10次,想知道恰好出现7次正面的概率是多少呢?这就是二项分布发挥作用的地方。
二项分布模拟在固定次数的独立伯努利试验中“成功”的次数。“成功”是指我们感兴趣并希望计数的事件(如出现正面),而“失败”则是另一个事件(如出现反面)。
某个情境要能被二项分布模拟,它必须满足以下条件:
- 试验次数是固定的,表示为 n。
- 每次试验只有两种可能的结果:“成功”或“失败”。
- 每次试验的成功概率,表示为 p,都是相同的。失败的概率则为 1−p。
- 试验是独立的,意味着一次试验的结果不影响另一次试验的结果。
如果这些条件成立,我们就可以计算在 n 次试验中恰好获得 k 次成功的概率。
二项概率质量函数 (PMF)
二项分布的概率质量函数 (PMF) 给出在 n 次试验中恰好观察到 k 次成功的概率。其公式为:
P(X=k)=(kn)pk(1−p)n−k
让我们分解这个公式:
- X 是代表成功次数的随机变量。
- k 是我们感兴趣的特定成功次数(其中 k 可以是0到 n 之间的任意整数)。
- n 是试验总次数。
- p 是单次试验成功的概率。
- (1−p) 是单次试验失败的概率。
- (kn) 是二项式系数,读作“n选k”。它代表在 n 次试验中安排 k 次成功有多少种不同的方式。它的计算方法是:
(kn)=k!(n−k)!n!
其中 n!(n 的阶乘)是从1到 n 的所有正整数的乘积(例如,5!=5×4×3×2×1=120),根据定义,0!=1。
PMF 公式结合了这些部分:(kn) 计算方式数量,pk 给出 k 次成功发生的概率,而 (1−p)n−k 给出剩余 n−k 次失败发生的概率。
示例:抛硬币
让我们回到抛掷一枚公平硬币(p=0.5)10次(n=10)的例子。恰好出现3次正面(k=3)的概率是多少?
- 确定参数 (parameter): n=10, p=0.5, k=3。
- 计算二项式系数:
(310)=3!(10−3)!10!=3!7!10!=3×2×110×9×8=120
在10次抛掷中,恰好出现3次正面有120种不同的方式。
- 计算概率部分:
- pk=(0.5)3=0.125
- (1−p)n−k=(1−0.5)10−3=(0.5)7≈0.0078125
- 组合:
P(X=3)=(310)p3(1−p)10−3=120×(0.5)3×(0.5)7=120×(0.5)10
P(X=3)=120×0.0009765625≈0.1172
因此,当抛掷一枚公平硬币10次时,恰好出现3次正面的概率大约是11.72%。
示例:质量控制
假设一家工厂生产灯泡,其中5%有缺陷(p=0.05)。如果您随机选择20个灯泡(n=20),那么恰好有1个灯泡有缺陷(k=1)的概率是多少?
- 确定参数 (parameter): n=20, p=0.05, k=1。
- 计算二项式系数:
(120)=1!(20−1)!20!=1!19!20!=120=20
有20种方式选择20个灯泡中哪一个是唯一的缺陷品。
- 计算概率部分:
- pk=(0.05)1=0.05
- (1−p)n−k=(1−0.05)20−1=(0.95)19≈0.3774
- 组合:
P(X=1)=(120)p1(1−p)20−1=20×(0.05)1×(0.95)19
P(X=1)≈20×0.05×0.3774≈0.3774
在20个样本中,恰好有一个灯泡有缺陷的概率大约是37.74%。
二项分布的可视化
我们可以使用表示PMF的条形图来可视化每个可能结果(k=0,1,...,n)的概率。以下是我们抛硬币示例(n=10,p=0.5)的PMF:
10次试验、成功概率为0.5的二项概率分布(例如,抛掷公平硬币10次)。最可能的结果是5次成功。
注意当 p=0.5 时,形状是对称的。如果 p 不同(例如,p=0.2),分布会偏斜。
均值与方差
与其他分布一样,二项分布具有集中趋势和离散程度的指标:
- 均值(期望值): 您在 n 次试验的多次重复中期望的平均成功次数。它的计算方法很简单:
E[X]=μ=np
对于 n=10,p=0.5,均值为 10×0.5=5。这与上面显示的分布峰值一致。
对于 n=20,p=0.05,均值为 20×0.05=1。我们平均期望每20个样本中有一个缺陷灯泡。
- 方差: 衡量成功次数在均值附近可能分散程度的指标。
Var(X)=σ2=np(1−p)
对于 n=10,p=0.5,方差为 10×0.5×(1−0.5)=2.5。
对于 n=20,p=0.05,方差为 20×0.05×(1−0.05)=0.95。
- 标准差: 方差的平方根,提供原始单位下的离散程度指标。
σ=np(1−p)
在机器学习 (machine learning)中的作用
二项分布在多种机器学习情境中都有其作用:
- 分类准确性: 如果您在 n 个独立数据点上测试模型,并且模型正确分类一个点的概率为 p,那么正确分类的数量可以用二项分布来模拟。
- 点击率(CTR): 在线广告中,如果一个广告展示 n 次(曝光),并且每次点击的概率为 p(假设独立性),那么总点击次数服从二项分布。
- A/B 测试: 比较两个不同版本(A和B)的成功率(例如,转化率)通常涉及分析二项分布的结果。
了解二项分布有助于模拟二元结果的计数数据,设定预期,以及在存在重复独立试验的情境下评估性能。