趋近智
当语音识别系统通过结合声学模型和语言模型输出生成最终转录文本后,一个基本问题浮现:结果有多准确?仅仅查看文本可能只会给您一个大概印象,但为了提升我们的系统或将其与其他系统比较,我们需要一个统一且量化 (quantization)的方法来衡量其准确性。此时,词错率(WER)就派上用场了。
词错率是衡量语音识别系统性能的通用指标。它将自动语音识别 (ASR) 系统输出的文本(即“假设文本”)与正确的人工转录文本(即“参考文本”或“真实文本”)进行比较。最终的词错率是一个百分比,它表示系统相对于参考文本长度所犯的错误数量。词错率越低,系统性能越好。
其计算基于将假设文本转换为参考文本所需的最少修改次数。这些修改分为三类:
为了计算词错率,您需要将这三类错误的数量相加,然后除以参考文本中的总词数 ()。
其中:
这个公式实质上计算了被错误替换、删除或插入的词语所占的百分比。
这是一个词错率计算图示,显示了替换、删除和插入如何组合形成总错误数,然后该总错误数再通过参考文本的长度进行归一化 (normalization)处理。
让我们通过一个示例来了解它的运作方式。在计算词错率之前,我们需要对齐 (alignment)参考文本和假设文本,以找出最少的错误数量。
the cat sat on the matthe cat on a mat为了对齐这些文本,我们可以这样来表示:
Reference: THE CAT SAT ON THE MAT
Hypothesis: THE CAT --- ON A MAT
Error: C C D C S C
这里,C 代表正确(Correct),D 代表删除(Deletion),S 代表替换(Substitution)。让我们统计一下:
THE 被 A 替换了)SAT 完全遗漏了)现在,我们将这些数字代入公式:
因此,词错率为 33.3%。
是的,完全可以。当错误数量 () 大于参考文本中的词数 () 时,就会发生这种情况。这最常发生在自动语音识别 (ASR) 系统生成大量额外词语(插入)时。
例如,考虑这个情况:
recognize speechwreck a nice beach在这里,最佳对齐 (alignment)结果是两次替换(recognize -> wreck,speech -> nice)和两次插入(a,beach)。
这使得词错率达到 200%。超过 100% 的分数明确表明,系统的输出比原始音频明显更长且更容易出错。
尽管词错率是行业通用指标,但它并非衡量质量的完美方法。它有一些您应该了解的局限性:
a 替换为 the 的惩罚程度与将 start 替换为 stop 的惩罚程度相同。在语音命令系统中,第二种错误要严重得多,但词错率却将它们同等对待。4 转换为 four)。尽管存在这些局限性,词错率仍然是一个重要的工具。它提供了一个简单、标准化的分数,以便以统一的方式跟踪改进和比较不同自动语音识别 (ASR) 系统的性能。
这部分内容有帮助吗?
© 2026 ApX Machine LearningAI伦理与透明度•