趋近智
在前面的章节中,我们构建了将音频特征映射到字符概率序列的声学模型。虽然这些模型在识别语音内容方面很有效,但它们的输出可能在声学上听起来合理,但在语言上不正确。例如,模型可能会将“recognize speech”转录为发音相似的“wreck a nice beach”。
这就是引入语言模型 (LM) 的地方。语言模型根据其语法结构和出现可能性来评估一个词语序列,帮助系统区分合理与不合理的转录。使用语言模型指导从声学模型预测中选择最终文本的过程称为解码。解码器的目标是找到使组合得分最大化的词语序列 ,这通常是声学和语言模型概率的加权和:
这里, 是声学模型在给定词语序列 时分配给音频特征 的概率。 项是词语序列本身的概率,而 是一个平衡两种模型影响的权重 (weight)。
本章讲述了将语言模型整合到 ASR 系统中的理论与实践。您将学习:
5.1 语言模型在自动语音识别中的作用
5.2 N-gram 语言模型
5.3 使用 KenLM 构建 N-gram 模型
5.4 模型整合的解码图
5.5 解码算法:贪心搜索与集束搜索对比
5.6 结合语言模型实现束搜索
5.7 动手实践:将语言模型集成到 CTC 解码器中