既然我们理解了随机变量是如何将样本空间中的结果映射到数值的,我们通常希望对这些变量的特征进行概括。只知道可能的值是不够的;我们需要方法来描述这些值分布的“中心”和“离散程度”。期望值和方差是提供这种概括的基本度量。
期望值:分布的中心
期望值,记为 E[X] 或有时为 μX(或简写为 μ),表示随机变量 X 可能取值的加权平均,权重即为这些值的概率。直观地说,如果您多次重复涉及 X 的实验并计算结果的平均值,该平均值将趋近于期望值 E[X]。它就像概率分布的“质量中心”。
期望值的计算
离散型和连续型随机变量的计算方式略有不同:
-
对于离散型随机变量 X: 如果 X 可以取值 x1,x2,...,xn,对应概率分别为 P(X=x1),P(X=x2),...,P(X=xn),则期望值为:
E[X]=∑ixiP(X=xi)
求和范围涵盖所有可能的 xi 值。
-
对于连续型随机变量 X: 如果 X 具有概率密度函数 (PDF) f(x),则期望值通过对 x 与 f(x) 的乘积在 X 的整个定义域上积分来计算:
E[X]=∫−∞∞xf(x)dx
示例:公平的六面骰子
令 X 为表示投掷公平六面骰子结果的随机变量。可能的值为 {1,2,3,4,5,6},每个值的概率为 1/6。
期望值为:
E[X]=1⋅61+2⋅61+3⋅61+4⋅61+5⋅61+6⋅61
E[X]=61+2+3+4+5+6=621=3.5
请注意,期望值 (3.5) 并非骰子实际可能掷出的值。它是多次投掷后得到的长期平均结果。
期望值的性质
期望值具有一些有用的线性性质:
- 常数: 如果 c 是常数,则 E[c]=c。
- 缩放与平移: 对于常数 a 和 b,有 E[aX+b]=aE[X]+b。
- 随机变量的和: 对于任意两个随机变量 X 和 Y,有 E[X+Y]=E[X]+E[Y]。无论 X 和 Y 是否独立,此性质都成立。
这些性质在简化涉及随机变量组合的计算时非常有用。
方差与标准差:度量离散程度
期望值告诉我们分布的中心位置,但它并没有说明数值的离散程度。这些值是紧密地聚集在均值附近,还是广泛地分散开来?方差度量这种离散程度。
随机变量 X 的方差,记为 Var(X) 或 σX2(或简写为 σ2),是随机变量与其期望值 μ=E[X] 之间平方差的期望值。
Var(X)=E[(X−μ)2]
较高的方差意味着 X 的值平均而言更远离均值。较低的方差意味着它们更接近均值。
方差的计算
与期望值类似,计算取决于变量是离散型还是连续型:
-
对于离散型随机变量 X: 使用定义 μ=E[X]:
Var(X)=∑i(xi−μ)2P(X=xi)
-
对于连续型随机变量 X: 使用定义 μ=E[X] 和 PDF f(x):
Var(X)=∫−∞∞(x−μ)2f(x)dx
通常有一个更方便的计算公式源自定义:
Var(X)=E[X2]−(E[X])2
要使用此公式,您首先计算 E[X](均值)和 E[X2](X 平方的期望值),然后将它们代入公式。请记住,对于离散变量,E[X2]=∑ixi2P(X=xi);对于连续变量,E[X2]=∫−∞∞x2f(x)dx。
标准差
方差的单位是原始随机变量单位的平方(例如,如果 X 以米为单位,则 Var(X) 以平方米为单位)。这可能难以直接理解。标准差,记为 σX 或 SD(X)(或简写为 σ),是方差的正平方根:
σ=Var(X)
标准差的单位与原始随机变量 X 相同,使其能更直观地理解与均值的典型偏差。
示例:公平的六面骰子(续)
我们发现 E[X]=3.5。让我们使用定义来计算方差:
Var(X)====(1−3.5)261+(2−3.5)261+(3−3.5)261+(4−3.5)261+(5−3.5)261+(6−3.5)26161[(−2.5)2+(−1.5)2+(−0.5)2+(0.5)2+(1.5)2+(2.5)2]61[6.25+2.25+0.25+0.25+2.25+6.25]61[17.5]≈2.917
或者,使用计算公式 Var(X)=E[X2]−(E[X])2:
首先,计算 E[X2]:
E[X2]=1261+2261+3261+4261+5261+6261=61+4+9+16+25+36=691≈15.167
现在,计算方差:
Var(X)=E[X2]−(E[X])2=691−(3.5)2=691−12.25=691−673.5=617.5≈2.917
两种方法得到相同的结果。
标准差为:
σ=Var(X)=617.5≈2.917≈1.708
因此,对于公平的骰子投掷,期望结果是 3.5,并且结果通常与此均值偏差约 1.708。
方差的性质
方差也具有重要的性质:
- 非负性: Var(X)≥0。仅当 X 是常数时,方差才为零。
- 常数: 如果 c 是常数,则 Var(c)=0。
- 缩放与平移: 对于常数 a 和 b,有 Var(aX+b)=a2Var(X)。请注意,添加常数 b 会平移分布,但不会改变其离散程度,因此 b 不会影响方差。通过 a 缩放会使方差按 a2 缩放。
- 独立随机变量的和: 如果 X 和 Y 是独立随机变量,则 Var(X+Y)=Var(X)+Var(Y)。如果它们不独立,公式将涉及协方差,这是一个我们可能稍后会涉及的主题。
理解期望值和方差非常重要。它们提供了概率分布中心趋势和离散程度的简明概括,构成了统计学和机器学习中许多思想的根本,从评估估计量到理解预测中的不确定性。在后续章节中,我们将看到 NumPy 和 SciPy 等 Python 库如何使这些值的计算对于各种分布变得直接。