趋近智
之前的一章着重介绍了声学建模,即将音频信号映射到语音单元或字符序列的过程。然而,要实现高准确度的语音识别,通常不仅仅需要声学信息。所得词序列的概率P(W),以及系统处理语音变化的能力,同等重要。自动语音识别系统旨在根据声学输入X找到最可能的词序列W,通常表示为最大化P(W∣X)。语言模型有助于估算P(W),而适应技术则帮助模型更好地适用于不同的声学输入X。
本章介绍将语言学约束纳入模型并处理语音变化的方法。我们将涵盖以下内容:
3.1 ASR中的神经网络语言模型
3.2 浅层集成与深度集成
3.3 语境ASR
3.4 说话人适应技术
3.5 环境与信道适应
3.6 自动语音识别中的无监督和半监督学习
3.7 多语言和跨语言自动语音识别
3.8 实践:使用适应数据微调ASR
© 2026 ApX Machine Learning用心打造