零假设($H_0$)在统计推断中通常代表“无影响”或“现状”的情况。备择假设($H_1$)则代表研究者旨在寻找证据的内容。当需要使用观测到的样本数据来在这两种假设之间做出决策时,P值提供了一种主要的决策方法。可以将P值看作衡量“意外程度”的指标。它回答了这样一个具体问题:如果零假设($H_0$)确实为真,观察到与我们实际观察到的样本数据至少一样极端的数据的概率是多少?让我们把它分解来看:“如果零假设($H_0$)确实为真……”:我们首先暂时假设零假设是正确的。例如,如果$H_0$是“这种新药对恢复时间没有影响”,我们会在假设该药物确实没有效果的情况下计算概率。“……观察到与我们实际观察到的样本数据至少一样极端的数据?”:我们查看我们收集到的样本数据(例如,服用该药物患者的平均恢复时间)。纯粹由于随机因素,得到一个与$H_0$预测相距如此远(或更远)的结果,可能性有多大?“极端”指的是提供反对 $H_0$并支持 $H_1$证据的结果。P值的解释P值是一个概率,所以它的范围在0到1之间。P值较小(通常 ≤ 0.05): 这表明,如果零假设为真,我们观察到的样本数据是相当出乎意料或不太可能出现的。这就像在说:“哇,如果一切正常(H0为真),得到这样的结果将非常罕见。”这种低概率表明我们最初的假设(即$H_0$为真)可能不正确。因此,P值较小提供了反对零假设的证据,并支持备择假设($H_1$)。P值较大(通常 > 0.05): 这表明,如果零假设为真,我们观察到的样本数据并非特别出乎意料。这就像在说:“嗯,即使一切正常(H0为真),这样的结果也可能仅仅由于随机变动而合理发生。”P值较大意味着我们没有强有力的证据反对零假设。显著性水平:阿尔法($\alpha$)那么,P值需要“小”到什么程度,我们才能决定它足够小以拒绝$H_0$呢?我们需要一个预设的临界点。这个临界点被称为显著性水平,用希腊字母阿尔法,$\alpha$表示。许多领域中最常用的显著性水平是$\alpha = 0.05$(或5%)。有时也会根据具体情况以及你需要多谨慎,使用0.01(1%)或0.10(10%)等其他值。你需要在进行检验之前选择$\alpha$。决策规则很简单:如果$p \le \alpha$:拒绝零假设($H_0$)。我们得出结论,有统计上显著的证据支持备择假设($H_1$)。如果$p > \alpha$:未能拒绝零假设($H_0$)。我们得出结论,没有足够的统计上显著证据支持备择假设($H_1$)。digraph G { rankdir=TB; node [shape=box, style=rounded, fontname="Arial", fontsize=10]; edge [fontname="Arial", fontsize=10]; start [label="执行假设检验\n计算P值", shape=ellipse, style=filled, fillcolor="#a5d8ff"]; compare [label="P值是否 ≤ 阿尔法 (α)?\n(例如, α = 0.05)", shape=diamond, style=filled, fillcolor="#ffec99"]; reject [label="是:\n拒绝零假设 (H0)\n证据支持备择假设 (H1)", style=filled, fillcolor="#ffc9c9"]; fail_reject [label="否:\n未能拒绝零假设 (H0)\n支持备择假设 (H1) 的证据不足", style=filled, fillcolor="#b2f2bb"]; start -> compare; compare -> reject [label=" 是"]; compare -> fail_reject [label=" 否"]; }一个流程图,说明了使用P值和显著性水平($\alpha$)的决策过程。一个例子让我们回顾一下网站设计A/B测试的例子:$H_0$: 新设计不增加转化率(转化率 $\le$ 旧转化率)。$H_1$: 新设计确实增加转化率(转化率 > 旧转化率)。我们设定显著性水平$\alpha = 0.05$。我们进行实验,收集两种设计的转化数据,并执行统计检验,从而得到一个P值。情境1: 检验得到P值 = 0.02。解释: 如果新设计确实没有积极效果($H_0$为真),那么仅仅由于随机运气,看到转化率增加,其幅度与我们样本中观察到的相同(或更大)的概率只有2%。决策: 由于$p = 0.02$小于或等于$\alpha = 0.05$,我们拒绝$H_0$。结论: 我们有统计上显著的证据表明新设计提高了转化率。情境2: 检验得到P值 = 0.31。解释: 如果新设计确实没有积极效果($H_0$为真),那么仅仅由于随机运气,看到转化率增加,其幅度与我们样本中观察到的相同(或更大)的概率有31%。这并不是很令人意外。决策: 由于$p = 0.31$大于$\alpha = 0.05$,我们未能拒绝$H_0$。结论: 我们没有统计上显著的证据表明新设计提高了转化率。它可能确实有效,但我们的实验没有提供足够强的证据。重要说明非常重要的一点是理解P值是什么,不是什么:P值不是零假设为真的概率。 它是在假设 $H_0$为真的情况下计算得出。P值不是备择假设为真的概率。“未能拒绝$H_0$”不意味着$H_0$是真的。 它仅仅意味着我们的样本没有提供足够的证据,不足以使我们在所选的显著性水平下放弃$H_0$。可以把它想象成法庭上的“无罪”判决——这不一定意味着被告是清白的,只是没有足够的证据判“有罪”。统计显著性(P值较小)并不自动意味着实际意义。 对于非常大的数据集,即使微小、不重要的效应也可能在统计上变得显著。务必将背景和效应大小与P值一并考虑。理解P值是解释数据分析和机器学习评估中许多统计检验结果的根本。它们提供了一种标准化的方式来评估基于样本数据反对零假设的证据强度。