假设检验始于将我们想回答的问题转化为两个相互对立的陈述:零假设和备择假设。可以将其视为设定一场统计学的“法庭审理”。零假设代表最初的假定或现状(比如“在被证明有罪之前是无辜的”),而备择假设代表我们试图寻找证据来支持的主张或影响。
零假设 (H0)
零假设,记作 H0,是指没有影响、没有差异或没有关系的陈述。它通常代表默认的信念状态或一个我们用来检验证据的基准线。这是我们暂时假定为真,并试图寻找反对证据的假设。
从数学上看,零假设通常涉及等式(=)或在其陈述中包含等式(≤ 或 ≥)。
机器学习中的常见例子:
- 模型比较: 假设我们开发了一种新的分类算法,并想比较其平均准确率(μnew)与现有算法(μold)的平均准确率。零假设可能是准确率没有差异:
H0:μnew=μold
或者,如果我们只关注新模型是否不差于旧模型,它可以是:
H0:μnew≥μold
- 特征重要性: 我们想检验某个特定特征是否与目标变量有线性关系。零假设会陈述相关系数(ρ)为零:
H0:ρ=0
- A/B测试: 一家公司测试一个新的网站设计,看它是否能提升用户转化率(p)。零假设可能陈述新设计(pnew)不优于旧设计(pold):
H0:pnew≤pold
假设检验的目的不是证明 H0 为真,而是确定我们的样本数据中是否有足够的统计证据来拒绝它,从而支持另一种解释。
备择假设 (H1 或 Ha)
备择假设,记作 H1(有时也记作 Ha),是与零假设相矛盾的陈述。它代表我们实际上有兴趣检测或证明的结果。这是需要证据才能被接受的主张。
备择假设通常涉及不等式(=,<,或 >)。它必须与零假设互斥,这意味着 H0 和 H1 不能同时为真。理想情况下,它们应涵盖所检验参数的所有可能结果。
与上述 H0 对应的例子:
- 模型比较:
- 如果我们想知道准确率是否只是不同:
H1:μnew=μold (这是一个双尾检验,因为我们寻找任何方向上的差异)。
- 如果我们专门假设新模型更好:
H1:μnew>μold (这是一个单尾或方向性检验)。
- 特征重要性:
- 如果我们想知道是否存在任何线性关系(正向或负向):
H1:ρ=0 (双尾检验)。
- A/B测试:
- 如果公司希望新设计能提升转化率:
H1:pnew>pold (单尾检验)。
单尾和双尾备择假设的选择完全取决于研究问题。你是对检测任何差异感兴趣,还是只对特定方向的差异感兴趣?
假设制定:好的做法
- 在数据收集前确定: 在收集或分析数据之前制定 H0 和 H1 是十分必要的。这可以防止数据影响假设,保持客观性。
- 关注总体参数: 假设是对总体参数(例如总体均值 μ、总体比例 p 或相关系数 ρ)的陈述,而不是对样本统计量(例如样本均值 xˉ 或样本比例 p^)的陈述。我们使用样本统计量来对这些总体参数进行推断。
- 确保互斥和(通常)穷尽: H0 和 H1 不应重叠,理想情况下,它们应涵盖参数值的所有可能性。例如,如果 H0:μ=10,则双尾 H1 是 μ=10。如果 H0:μ≤10,则对应的 H1 必须是 μ>10。
明确定义零假设和备择假设是假设检验过程中的第一个根本步骤。它为收集证据和对所调查的主张做出统计决策奠定了基础。一旦假设确定,接下来的步骤包括选择显著性水平、收集数据、计算检验统计量,并将其与临界值进行比较或使用p值,这些内容我们将在下文介绍。