为了评估假设并进行数据驱动的推断,可以使用各种统计检验方法。最常用于比较平均值的检验方法之一是t检验。"当你使用样本数据且不知道整个总体的标准差时,t检验特别有用。这在数据分析和机器学习中是一个非常普遍的情况。t检验不使用总体标准差,而是依赖于样本标准差。它们基于学生t分布,该分布的形状与正态分布相似,但尾部更厚重。这意味着它考虑了从样本估计总体标准差所带来的额外不确定性,尤其是在样本量较小的时候。随着样本量的增加,t分布趋近于正态分布。"{"data": [{"x": [-4, -3, -2, -1, 0, 1, 2, 3, 4], "y": [0.0044, 0.054, 0.242, 0.3521, 0.3989, 0.3521, 0.242, 0.054, 0.0044], "type": "scatter", "mode": "lines", "name": "正态 (Z)", "line": {"color": "#1c7ed6"}}, {"x": [-4, -3, -2, -1, 0, 1, 2, 3, 4], "y": [0.0177, 0.067, 0.1826, 0.2761, 0.3183, 0.2761, 0.1826, 0.067, 0.0177], "type": "scatter", "mode": "lines", "name": "t (df=2)", "line": {"color": "#f06595", "dash": "dash"}}, {"x": [-4, -3, -2, -1, 0, 1, 2, 3, 4], "y": [0.0062, 0.0588, 0.2276, 0.3416, 0.3867, 0.3416, 0.2276, 0.0588, 0.0062], "type": "scatter", "mode": "lines", "name": "t (df=10)", "line": {"color": "#74b816", "dash": "dot"}}], "layout": {"title": {"text": "正态分布与学生t分布的比较"}, "xaxis": {"title": {"text": "数值"}}, "yaxis": {"title": {"text": "概率密度"}, "range": [0, 0.45]}, "legend": {"x": 0.01, "y": 0.99}, "margin": {"l": 50, "r": 20, "t": 40, "b": 40}, "height": 350}}标准正态分布 (Z) 与自由度 (df) 为2和10的学生t分布的比较。请注意,t分布的尾部更厚重,尤其是在自由度较低时,这解释了小样本中更大的不确定性。t检验主要有三种类型,每种都适用于不同的比较情况:单样本T检验该检验将单个样本的平均值 ($\bar{x}$) 与已知的或假设的总体平均值 ($\mu_0$) 进行比较。它有助于回答例如以下问题:“我的模型平均表现分数与要求的基准0.85有显著差异吗?”假设:零假设 ($H_0$): 样本平均值等于假设的总体平均值 ($H_0: \mu = \mu_0$)。备择假设 ($H_1$): 样本平均值与假设的总体平均值不同 ($H_1: \mu \neq \mu_0$),或大于 ($H_1: \mu > \mu_0$),或小于 ($H_1: \mu < \mu_0$)。检验统计量: t统计量衡量样本平均值与假设平均值相距多少个标准误差。 $$ t = \frac{\bar{x} - \mu_0}{s / \sqrt{n}} $$ 其中 $\bar{x}$ 是样本平均值,$\mu_0$ 是假设的总体平均值,$s$ 是样本标准差,$n$ 是样本大小。自由度 (df): $df = n - 1$。假设: 数据应近似服从正态分布(对小$n$尤其重要),且观测值应相互独立。双样本T检验(独立样本)该检验比较两个独立组(组1和组2)的平均值,以查看它们之间是否存在统计上的显著差异。这在A/B测试中很常见,例如,比较两个网站版本(A组与B组)的转化率。假设:零假设 ($H_0$): 两个总体的平均值相等 ($H_0: \mu_1 = \mu_2$)。备择假设 ($H_1$): 平均值不同 ($H_1: \mu_1 \neq \mu_2$),或一个大于/小于另一个 ($H_1: \mu_1 > \mu_2$ 或 $H_1: \mu_1 < \mu_2$)。检验统计量: 计算方法取决于您是否假设两组的方差相等。方差相等(学生t检验): 使用合并标准差。自由度为 $df = n_1 + n_2 - 2$。方差不等(Welch's t检验): 不假设方差相等,并使用Welch-Satterthwaite公式调整自由度。在实践中通常更倾向于此检验,因为方差相等的假设难以验证,且Welch检验即使在方差相似时也表现良好。大多数软件包默认使用或提供Welch检验选项。假设: 两个样本都应近似服从正态分布,样本必须相互独立,数据应为连续型。对于学生t检验,还假定方差相等。配对样本T检验(相关样本)当测量值成对出现时使用此检验,这意味着一个样本中的每个观测值都与另一个样本中的一个观测值直接相关。常见情况包括在干预前后测量相同受试者(例如,模型在特征更新前后的表现)或比较对同一受试者施加的两种不同处理。它检验配对观测值之间的平均差异是否与零有显著不同。假设:零假设 ($H_0$): 配对观测值之间的平均差异为零 ($H_0: \mu_d = 0$)。备择假设 ($H_1$): 平均差异不为零 ($H_1: \mu_d \neq 0$),或为正值 ($H_1: \mu_d > 0$),或为负值 ($H_1: \mu_d < 0$)。检验统计量: 根据配对观测值之间的差异 ($d_i$) 计算。 $$ t = \frac{\bar{d} - 0}{s_d / \sqrt{n}} $$ 其中 $\bar{d}$ 是差异的平均值,$s_d$ 是差异的标准差,$n$ 是配对的数量。自由度 (df): $df = n - 1$。假设: 配对之间的差异应近似服从正态分布,且配对必须是相关的。使用t检验进行决策无论哪种类型,流程都相似:根据您的样本数据计算t统计量。确定自由度。使用t统计量和自由度,找到对应的p值。此p值表示在零假设为真的情况下,观测到与计算出的t统计量一样极端或更极端的t统计量的概率。将p值与您选择的显著性水平 ($\alpha$) 进行比较。如果 $p \le \alpha$,您将拒绝零假设 ($H_0$),转而支持备择假设 ($H_1$)。如果 $p > \alpha$,您将未能拒绝零假设。当总体标准差未知时,t检验提供了一种比较平均值的方法。根据数据结构(单样本、两个独立样本或配对样本)了解应应用哪种类型的t检验,对于从实验和数据分析中得出有效结论非常重要。我们将在后续部分中了解如何使用Python库高效地执行这些检验。