统计检验中的假设包括虚无假设($H_0$),它代表默认状态或无效应,以及备择假设($H_1$),它代表您试图寻找证据的状况。当使用样本数据在这两者之间做出判断时,实际上是基于不完整信息(样本而非整个总体)进行判断。自然地,这意味着有时可能会做出错误的决定。统计检验中存在两种具体的错误方式,被称为第一类错误和第二类错误。掌握这些是正确解读检验结果的基础。第一类错误:误报当您在虚无假设($H_0$)实际为真时却拒绝它,就会发生第一类错误。您可以将其视为“假阳性”或误报。概率: 犯第一类错误的概率用希腊字母阿尔法 ($\alpha$) 表示。显著性水平: 这个值,$\alpha$,也被称为检验的显著性水平。您作为研究人员或分析师,在进行检验之前选择这个值。$\alpha$ 的常见选择是 0.05 (5%) 或 0.01 (1%)。含义: $\alpha$ 为 0.05 意味着您愿意接受 5% 的机会错误地拒绝真实的虚无假设。如果 $H_0$ 确实为真,并且您多次重复实验,您会期望大约 5% 的时间会仅仅由于随机抽样变异而错误地拒绝它。例子: 假设 $H_0$ 是“新网站设计不会提高转化率”,而 $H_1$ 是“新设计会提高转化率”。第一类错误意味着在新设计实际上没有改进甚至更糟的情况下,却得出新设计更好的结论(拒绝 $H_0$),样本中观察到的差异仅仅是由于偶然性。结果可能是浪费资源去实施一个无效的设计。第二类错误:漏报当您在虚无假设($H_0$)实际为假时却未能拒绝它(这意味着备择假设 $H_1$ 为真),就会发生第二类错误。这就像“假阴性”或未能发现真实存在的效应。概率: 犯第二类错误的概率用希腊字母贝塔 ($\beta$) 表示。功效: 正确拒绝虚假 $H_0$ 的概率称为检验的功效,它等于 $1 - \beta$。功效体现了检验发现真实效应的能力。影响 $\beta$ 的因素: 与 $\alpha$ 不同,$\beta$ 通常不直接设定。它取决于几个因素,包括所选的 $\alpha$、样本大小 ($n$)、假设值与实际总体值之间的真实差异(效应大小)以及数据的变异性。例子: 沿用相同的网站设计场景($H_0$:无增长,$H_1$:有增长)。第二类错误意味着在新设计实际上确实提高了转化率的情况下,却得出新设计没有更好(未能拒绝 $H_0$)的结论。这里的后果是错失了实施有益改进的机会。不可避免的权衡在进行固定样本大小的假设检验时,$\alpha$ 和 $\beta$ 之间存在固有的权衡。如果您将拒绝 $H_0$ 的标准设置得非常严格(例如,选择一个非常小的 $\alpha$,如 0.001),您会降低犯第一类错误的机会。然而,这使得总体上更难拒绝 $H_0$,从而增加了未能发现真实效应的机会(增加了 $\beta$,降低了功效)。相反,如果您让拒绝 $H_0$ 变得更容易(例如,选择一个更大的 $\alpha$,如 0.10),您会增加检验发现真实效应的功效(降低 $\beta$),但同时也会增加犯第一类错误的风险。这种关系在下方图表中呈现:graph G { layout=neato; node [shape=box, style=rounded, margin=0.2, fontname="sans-serif", fontsize=10]; edge [fontname="sans-serif", fontsize=9]; tbl [shape=plaintext, label=< <TABLE BORDER="1" CELLBORDER="1" CELLSPACING="0"> <TR><TD BORDER="0"></TD><TD BORDER="0" COLSPAN="2"><B>实际情况</B></TD></TR> <TR><TD BORDER="0"><B>基于样本的决定</B></TD><TD><B>$H_0$ 为真</B></TD><TD><B>$H_1$ 为真($H_0$ 为假)</B></TD></TR> <TR><TD><B>未能拒绝 $H_0$</B></TD><TD BGCOLOR="#b2f2bb">正确决定<BR/>(概率 = $1 - \alpha$)</TD><TD BGCOLOR="#ffc9c9">第二类错误(假阴性)<BR/>(概率 = $\beta$)</TD></TR> <TR><TD><B>拒绝 $H_0$</B></TD><TD BGCOLOR="#ffc9c9">第一类错误(假阳性)<BR/>(概率 = $\alpha$)</TD><TD BGCOLOR="#b2f2bb">正确决定(功效)<BR/>(概率 = $1 - \beta$)</TD></TR> </TABLE> >]; }假设检验中的决策结果,说明了第一类($\alpha$)和第二类($\beta$)错误。显著性水平 $\alpha$ 的选择通常取决于在特定情境下犯每种错误的相对后果。如果第一类错误的代价很高(例如,批准一个有缺陷的医疗设备),您可能会选择一个非常小的 $\alpha$。如果第二类错误更令人担忧(例如,错失一种可能有效果的治疗),您可能会接受略高的 $\alpha$ 来增加检验的功效($1 - \beta$)。在机器学习中,这直接体现在模型评估和特征选择上:模型比较: 模型 B 是否明显优于模型 A?第一类错误意味着在 B 并不更好时声称它更好。第二类错误意味着在 B 确实存在优越性时未能识别。特征重要性: 特征 X 对目标变量是否有重要影响?第一类错误意味着将一个无用的特征视为重要。第二类错误意味着忽视一个真正有用的特征。在接下来的章节中,我们使用 Python 库计算 P 值并进行 t 检验和卡方检验等特定检验之前,理解这个框架十分必要。这些错误量化了基于统计证据做出决策所关联的风险。