趋近智
假设检验涉及通过建立原假设()和备择假设(),并根据样本数据做出关于总体的决策。在做出这些决策时,可能出现两类错误:第一类错误(拒绝了真实的原假设)和第二类错误(未能拒绝错误的原假设)。一个主要目标是确定数据中的证据是否足够有力来拒绝。正是P值提供了进行这项决策的标准化度量。
P值是一个概率,衡量反对原假设证据的强度。正式定义为:
P值是指在假定原假设()正确的情况下,获得至少与实际观察结果一样极端(或更极端)的检验结果的概率。
可以这样理解:你进行实验或收集数据,计算出一个检验统计量(例如t分数或卡方值,我们稍后会提到),然后问自己:“如果原假设确实是真的(例如,新模型不比旧模型好),仅仅由于随机性,看到如此极端或更极端的结果的可能性有多大?”这个可能性就是P值。
其解释取决于P值的大小:
为了做出正式判断,我们将P值与一个预设的临界值进行比较,这个临界值称为显著性水平,表示为(alpha)。这个是我们愿意容忍的第一类错误的概率。的常见选择有0.05(5%)、0.01(1%)或0.10(10%)。
判断规则很简单:
重要提示: 请注意,我们说的是“未能拒绝”,而不是“接受”。假设检验旨在查看是否有足够的证据来反驳原假设,而不是证明它是真的。大的P值仅意味着我们的检验不够灵敏,或者在当前数据下确实没有可探测到的效应。
计算P值需要将你计算出的检验统计量(根据你的样本数据得出)与该统计量在假设原假设为真时的已知概率分布进行比较。
例如,在t检验中,你计算出一个t分数。P值就是t分布曲线中比你计算的t分数更极端区域的面积。
阴影区域代表P值(在双尾检验中分为两部分)。它是在假设为真时,观测到与计算出的统计量(垂直虚线,统计量观测值)一样极端或更极端的检验统计量的概率。
好消息是,你很少需要手动计算这些面积。统计软件和像Python的scipy.stats这样的库会为你处理这些计算。你的任务是理解输入(你的数据、你的假设),并正确解读输出(P值)。
P值很有用,但它也常被误解。请记住以下几点:
在机器学习中,P值会在以下情况出现:
了解P值能让你从仅仅观察差异,转向做出有统计依据的判断,判断这些差异是真实存在的,还是仅仅由随机性引起的。在接下来的章节中,我们将介绍产生这些P值的具体检验(例如t检验和卡方检验)。
这部分内容有帮助吗?
© 2026 ApX Machine LearningAI伦理与透明度•