在考察常见分布时,我们转向另一个重要的离散分布:泊松分布。二项分布对固定次数试验中的成功次数进行建模,而泊松分布则对事件在指定时间或空间间隔内发生的次数进行建模。可以考虑以下计数情况:每小时收件箱中收到的电子邮件数量、一分钟内通过高速公路上某点的汽车数量,或者印刷页面上的错别字数量。泊松分布由单一参数 $\lambda$ (lambda) 定义,该参数表示事件在间隔内发生的平均速率或预期次数。此 $\lambda$ 必须为正值 ($\lambda > 0$)。当其概率质量函数 (PMF) 如下所示时,离散随机变量 $X$ 服从参数为 $\lambda$ 的泊松分布,记作 $X \sim \text{Poisson}(\lambda)$:$$ P(X=k) = \frac{\lambda^k e^{-\lambda}}{k!} $$其中:$k$ 是发生次数(非负整数:$k = 0, 1, 2, ...$)$\lambda$ 是平均发生率(事件的预期次数)$e$ 是自然对数的底(约等于 2.71828)$k!$ 是 $k$ 的阶乘此公式计算在给定平均速率为 $\lambda$ 的情况下,在间隔中观察到恰好 $k$ 个事件的概率。泊松分布的性质泊松分布具有一些独特的性质:均值: 期望值(均值)等于速率参数:$E[X] = \lambda$。这在直观上说得通;我们期望看到的平均事件数 就是 速率 $\lambda$。方差: 方差也等于速率参数:$\text{Var}(X) = \lambda$。这是一个独特的特性。这意味着随着平均事件数的增加,事件数的分散或变异性也随之增加。形状: 分布的形状取决于 $\lambda$。当 $\lambda$ 较小时,分布高度右偏。随着 $\lambda$ 增加,分布变得更加对称,并近似于正态分布(这是与中心极限定理有关的结果,我们将在后面讨论)。泊松分布何时适用?当以下条件在所计数的事件中得到合理满足时,泊松分布是一个好的模型:独立性: 事件彼此独立发生。一个事件的发生不影响另一个事件发生的概率。恒定速率: 事件发生的平均速率 ($\lambda$) 在整个间隔内是恒定的。非同时性: 事件不能在同一时刻发生。比例性: 在一个非常小的间隔内事件发生的概率与该间隔的长度成比例。泊松分布的可视化让我们可视化不同 $\lambda$ 值的 PMF。请看随着 $\lambda$ 增加,形状如何变化。{"layout": {"title": "泊松概率质量函数 (PMF)", "xaxis": {"title": "事件数 (k)"}, "yaxis": {"title": "概率 P(X=k)"}, "width": 600, "height": 400, "legend": {"title": {"text": "λ"}}, "colorway": ["#228be6", "#f76707", "#12b886"]}, "data": [{"type": "bar", "name": "3", "x": [0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10], "y": [0.049787068367863944, 0.14936120510359182, 0.22404180765538775, 0.22404180765538775, 0.1680313557415408, 0.10081881344492448, 0.05040940672246224, 0.021604031452483817, 0.008101511794681431, 0.002700503931560477, 0.0008101511794681431]}, {"type": "bar", "name": "7", "x": [0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15], "y": [0.0009118819655545161, 0.006383173758881613, 0.022341108156085644, 0.05212925236420017, 0.09122619163735028, 0.1277166682922904, 0.1490027796743388, 0.1490027796743388, 0.13037743221504646, 0.10140474039615668, 0.07098331827730967, 0.04517121034630537, 0.0263498726968448, 0.014188598226775848, 0.007094299113387924, 0.003310672919747698]}, {"type": "bar", "name": "15", "x": [5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25], "y": [0.0019102363168549707, 0.004775590792137427, 0.010233408839580199, 0.019187641574212873, 0.03197940262368812, 0.047969103935532184, 0.06541241445754388, 0.08176551807192985, 0.09434482854453444, 0.10108374486914404, 0.10108374486914404, 0.09476601081482253, 0.08361706836572576, 0.06968089030477146, 0.05501122918797747, 0.0412584218909831, 0.0294703013506665, 0.01991156887545236, 0.0129858057883385, 0.00811612861771156, 0.004869677170626936]}]}泊松分布的概率质量函数,参数为 $\lambda = 3$、$\lambda = 7$ 和 $\lambda = 15$。随着 $\lambda$ 增加,分布向右移动并变得更分散、更对称。机器学习和数据分析中的应用泊松分布常用于:计数数据建模: 直接对表示计数的变量进行建模,例如广告点击次数、网站流量或设备故障。排队论: 分析等待队列,例如客户到达服务台或任务进入计算队列。风险建模: 估计罕见事件的发生频率,例如保险索赔或事故。特征工程: 有时,泊松分布的计数可作为机器学习模型中的特征使用。泊松回归: 一种广义线性模型,当响应变量为计数时使用。“了解泊松分布为对基于计数的现象进行建模奠定了基础,这些现象经常出现在数据集中。它的简单性,仅由一个参数 $\lambda$ 定义,使其成为许多计数数据问题的有用起点。我们将在本章后面看到如何在 Python 中通过计算使用此分布。”