趋近智
在前面的章节中,你学习了如何构建声学模型(将音频特征映射到音素)和语言模型(用于确定词语序列的可能性)。本章将介绍最后一步:将这两种信息来源结合起来,以生成最有可能的文本转录结果。
语音识别的主要任务是找到在给定观测音频特征(O)下,最有可能的词语序列(W)。这通常表示为找到使两个概率乘积最大化的序列:
W^=WargmaxP(O∣W)×P(W)这里,P(O∣W) 是声学模型给出的概率,而 P(W) 是语言模型提供的概率。负责此计算和搜索的组件是解码器。
你将学习解码器如何作为一个搜索算法发挥作用,在庞大的可能句子空间中寻找最优解。我们将介绍维特比算法等搜索策略背后的原理。之后,我们将回顾 ASR 的完整流程。本章最后,你将学习如何使用词错率(WER)评估系统性能,并找出影响转录准确性的常见难题。
5.1 解码器的作用
5.2 确定最可能的词语序列
5.3 搜索算法概览
5.4 理解维特比算法
5.5 完整的ASR流程:回顾
5.6 评估表现:词错率 (WER)
5.7 语音识别中的常见挑战
© 2026 ApX Machine Learning用心打造