继伯努利、二项和泊松等离散分布,以及连续均匀和正态分布之后,我们现在考察另一种基本的连续概率分布:指数分布。这种分布常用于模拟在一个过程中,事件以恒定平均速率独立发生,直到某个特定事件出现所需的时间。指数分布设想您正在追踪那些随机但以稳定的平均速率随时间发生的事件,例如顾客抵达服务台或放射性衰变事件。泊松分布有助于模拟在固定时间间隔内事件发生的数量,而指数分布则模拟连续事件之间的时间,或等待下一个事件发生的时间。指数分布由一个正参数 $\lambda$(lambda)表示,称为速率参数。这个参数表示每单位时间(或空间,或其他连续介质)的平均事件数。概率密度函数 (PDF)指数分布随机变量 $T$(表示时间)的概率密度函数(PDF)如下:$$ f(t; \lambda) = \begin{cases} \lambda e^{-\lambda t} & \text{当 } t \ge 0 \ 0 & \text{当 } t < 0 \end{cases} $$其中:$t$ 是时间变量(必须非负)。$\lambda$ 是速率参数($\lambda > 0$)。$e$ 是自然对数的底数(约 2.71828)。PDF $f(t; \lambda)$ 描述了事件在特定时间 $t$ 发生的相对可能性。请注意,概率密度在 $t=0$ 时最高,并随着 $t$ 的增加呈指数下降。更高的速率 $\lambda$ 会导致更快的下降,表示预期的等待时间更短。相反,较低的 $\lambda$ 会导致较慢的下降和更长的预期等待时间。{"layout": {"title": "指数分布PDF", "xaxis": {"title": "时间 (t)"}, "yaxis": {"title": "概率密度 f(t)"}, "legend": {"title": "速率参数 (λ)"}}, "data": [{"x": [0, 0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9, 1, 1.5, 2, 2.5, 3, 3.5, 4, 4.5, 5], "y": [0.5, 0.4756, 0.4524, 0.4303, 0.4094, 0.3894, 0.3704, 0.3523, 0.3352, 0.3189, 0.3033, 0.2352, 0.1832, 0.1426, 0.111 , 0.0864, 0.0672, 0.0523, 0.0407], "mode": "lines", "name": "λ = 0.5", "line": {"color": "#228be6"}}, {"x": [0, 0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9, 1, 1.5, 2, 2.5, 3, 3.5, 4, 4.5, 5], "y": [1.5, 1.2924, 1.1069, 0.9479, 0.8116, 0.6948, 0.5948, 0.5092, 0.4359, 0.3732, 0.3195, 0.158 , 0.0783, 0.0388, 0.0192, 0.0095, 0.0047, 0.0023, 0.0011], "mode": "lines", "name": "λ = 1.5", "line": {"color": "#12b886"}}]}速率参数 $\lambda = 0.5$(蓝色)和 $\lambda = 1.5$(青色)的指数分布概率密度函数。速率越高,衰减越快。累积分布函数 (CDF)累积分布函数(CDF),$F(t; \lambda)$,表示事件在时间 $t$ 或之前发生的概率,即 $P(T \le t)$。它通过对PDF从0到 $t$ 进行积分计算得出:$$ F(t; \lambda) = \int_{0}^{t} \lambda e^{-\lambda x} dx = 1 - e^{-\lambda t} \quad \text{当 } t \ge 0 $$ 当 $t < 0$ 时,$F(t; \lambda) = 0$。CDF从0开始,随着 $t$ 趋近无穷大,趋近于1。它表示事件随时间推进而累积的概率。特性无记忆性指数分布具有一种独特而重要的特性,称为无记忆性。数学上表示为:$$ P(T > s + t \mid T > s) = P(T > t) \quad \text{对于所有 } s, t \ge 0 $$简单来说,如果一个事件在时间 $s$ 之前没有发生,它在至少额外时间 $t$ 内不会发生的概率,与它最初在时间 $t$ 内不会发生的概率相同。该过程基本上“忘记”了它已经等待了多久。考虑模拟不会磨损的组件(故障是纯随机的)的寿命。如果该组件已运行100小时,它再运行50小时的概率,与一个新组件能够运行50小时的概率相同。这个特性使得指数分布适合模拟那些其过去状态不影响事件在下一时刻发生概率的现象。均值和方差指数分布随机变量 $T$ 的期望值(均值)和方差与速率参数 $\lambda$ 直接相关:均值(期望值): $E[T] = \frac{1}{\lambda}$方差: $Var(T) = \frac{1}{\lambda^2}$均值 $1/\lambda$ 表示事件发生的平均等待时间。这与直觉相符:如果事件的速率($\lambda$)高,则事件之间的平均时间($1/\lambda$)应低,反之亦然。标准差也是 $1/\lambda$,这意味着分布的离散程度等于其均值。应用及与泊松分布的关联指数分布广泛应用于各个方面,包括:排队论: 模拟顾客的到达间隔时间或服务时间。可靠性工程: 模拟电子组件或系统在恒定故障率假设下的寿命。物理学: 模拟放射性衰变时间。金融: 模拟大市场波动之间的时间。指数分布与泊松分布之间存在直接关系。如果事件根据泊松过程发生,平均速率为每单位时间 $\lambda$ 个事件,那么连续事件之间的等待时间是独立同分布的指数随机变量,具有相同的速率参数 $\lambda$。这种二元性很有用:如果您知道事件发生的平均速率(泊松分布),您就知道了等待时间(指数分布)的分布,反之亦然。总之,指数分布为那些以恒定平均速率和无记忆性为特点的过程,提供了模拟事件发生时间的简单而有效的模型。理解其PDF、CDF和特性对于模拟数据分析和机器学习中常见的时间-事件数据很有用。