之前的一章着重介绍了声学建模,即将音频信号映射到语音单元或字符序列的过程。然而,要实现高准确度的语音识别,通常不仅仅需要声学信息。所得词序列的概率$P(W)$,以及系统处理语音变化的能力,同等重要。自动语音识别系统旨在根据声学输入$X$找到最可能的词序列$W$,通常表示为最大化$P(W|X)$。语言模型有助于估算$P(W)$,而适应技术则帮助模型更好地适用于不同的声学输入$X$。本章介绍将语言学约束纳入模型并处理语音变化的方法。我们将涵盖以下内容:使用基于神经网络的语言模型(RNN-LM、Transformer-LM)来预测可能的词序列,并在解码过程中进行整合。浅层融合和深层融合等技术,以结合声学模型和语言模型的信息。说话人适应方法(包括i-vector和神经网络方法),以调整模型以适应个体语音特点。环境和信道适应的策略,以提升在嘈杂环境或使用不同麦克风时的表现。使用无监督和半监督学习,处理无标签音频数据。构建多语言或跨语言环境下的系统。通过实际微调练习来应用这些知识。