趋近智
尽管t检验是比较连续数据均值的优秀工具,但我们遇到的许多数据,尤其是在机器学习的分类任务中,是分类数据。我们如何检验关于频率的假设或检查不同类别之间的关系呢?卡方(χ2)检验提供了一种统计方法来处理这些情况。它们通过比较样本数据中不同类别的观察计数与在特定零假设为真时我们预期会看到的计数来运作。
任何卡方检验的核心是其χ2统计量本身。它衡量并总结了每个类别中观察频率(Oi)与零假设下的预期频率(Ei)之间的差异。计算遵循以下一般形式:
χ2=∑所有类别 iEi(Oi−Ei)2
直观上,如果观察计数与预期计数非常接近,那么差异(Oi−Ei)将很小,从而得到一个小的χ2值。这表明数据与零假设吻合良好。反之,观察计数与预期计数之间的大差异会导致大的χ2值,这提供了反对零假设的证据。
两种主要类型的卡方检验与数据分析和机器学习应用尤为相关:
卡方拟合优度检验: 当您有一个分类变量,并想确定其观察频率分布是否与特定的理论或假设分布存在显著差异时,会使用此检验。
卡方独立性检验: 当您有两个分类变量并想确定它们之间是否存在统计上显著的关联或关系时,会使用此检验。它有助于回答问题:“这两个变量是独立的,还是一个变量的类别取决于另一个变量的类别?”此检验的数据通常以列联表的形式呈现。
进行卡方检验的流程是比较观察计数与预期计数(从零假设推导而来),以计算χ2统计量,进而得出P值和统计决策。
卡方统计量遵循一种特定的概率分布,即卡方分布。与t分布类似,其形态取决于自由度(df)。不同检验的df计算方式略有不同:
知道χ2统计量和df后,我们可以找到与检验结果相关的P值。结果的解读与其他假设检验保持一致:P值表示在零假设实际为真的情况下,从我们的数据中获得一个与计算出的χ2值一样极端或更极端的χ2值的概率。一个小的P值(通常小于预定的显著性水平α,例如0.05)会使我们拒绝零假设。
为使卡方检验得出可靠结果,通常应满足以下条件:
在机器学习中,卡方检验常用于:
卡方检验将我们的假设检验能力扩展到分类数据,为评估分布和关联提供了有价值的方法。Python库如SciPy包含相关函数(例如,用于拟合优度检验的scipy.stats.chisquare,用于独立性检验的scipy.stats.chi2_contingency),使得执行这些检验在计算上变得简单,我们将在后续章节中看到。
这部分内容有帮助吗?
scipy.stats.chi2_contingency and scipy.stats.chisquare Documentation, SciPy Developers, 2023 - SciPy 函数的官方文档,提供了在 Python 中执行独立性卡方检验和拟合优度卡方检验的实际实现方法,详细说明了其参数和在数据分析中的用法。© 2026 ApX Machine Learning用心打造