趋近智
声学模型给出给定词序列W时音频特征X的概率P(X∣W),而语言模型(LM)给出词序列W本身的先验概率P(W)。将两者结合有助于ASR系统识别出不仅声学上合理,而且语言上也合乎情理的序列。传统语言模型,如n-gram模型,通过查看前置词的短固定长度历史来估算P(W)(例如,三元模型考虑前两个词)。尽管计算效率高,并且在一定程度上有效,但n-gram模型存在两个主要局限:
神经网络语言模型(NLMs)通过使用词的连续表示(词向量)以及神经网络结构来建模在给定可能长得多的历史条件下下一个词的概率分布,从而解决了这些局限。
循环神经网络天然适合语言建模等序列建模任务。RNN-LM逐词处理输入序列,并维持一个隐藏状态向量,该向量概括了目前所见的信息。
在每个时间步t,RNN将当前词wt的词向量和前一个隐藏状态ht−1作为输入,并计算新的隐藏状态ht。这个隐藏状态随后通常会通过一个线性层,再通过softmax函数,以生成词表中下一个词wt+1的概率分布。
ht=f(Whhht−1+Wxhxt+bh) P(wt+1∣w1,...,wt)=softmax(Whyht+by)
xt是词wt的词向量,f是非线性激活函数(如tanh或ReLU),且Whh,Wxh,Why,bh,by是可学习的权重矩阵和偏置。
变体,如长短期记忆(LSTM)和门控循环单元(GRU),常被用于替代简单的RNNs,因为它们包含了门控机制,有助于减轻梯度消失问题,使它们能更有效地学习长程依赖关系。
一个用于语言建模的基本循环神经网络(RNN)结构。隐藏状态
h(t)(蓝色)根据当前输入词w(t)(青色)和前一个隐藏状态h(t-1)计算得出。该状态随后被用于预测后续词P(w(t+1)|...)(橙色)的概率分布。
RNN-LM相比n-gram模型具有显著优势:
近年来,完全基于自注意力机制的Transformer架构在许多自然语言处理任务(包括语言建模)中占据主导地位。与RNNs顺序处理序列不同,Transformer可以在训练期间并行处理语境中的所有词。
自注意力机制使模型在预测下一个词时,能够衡量语境中不同词的重要性,而无需考虑它们之间的距离。这使得Transformer特别善于捕获非常长程的依赖关系。典型的Transformer语言模型使用堆叠的解码器层,每个层应用多头自注意力,然后是前馈网络。
Transformer语言模型在困惑度(语言模型性能的常用衡量指标)方面常取得顶尖成果,并在文本生成方面展现出显著能力。
无论使用RNN还是Transformer架构,NLM在ASR中的主要作用是在解码过程(通常是束搜索)中提供P(W)得分。ASR系统寻找词序列W∗,使其最大化声学模型得分和语言模型得分的组合:
W∗=argmaxWP(X∣W)P(W)λ 或,更常见的是在对数空间中: W∗=argmaxWlogP(X∣W)+λlogP(W)
λ是语言模型权重(有时称为LM比例因子),它是一个控制LM相对于声学模型影响的超参数。它通常在开发集上进行调整。
在束搜索期间:
w_next扩展假设W_prefix,会查询NLM来计算P(wnext∣Wprefix)。对束中每个假设的每个可能下一个词查询大型NLM可能计算成本很高,相比查询n-gram模型(后者通常涉及预编译结构中更简单的查找)。将NLMs整合到ASR系统中时,这种计算成本是一个重要的考量,特别是对于实时应用。诸如缓存常见前缀的NLM状态或使用专用硬件等方法可以帮助缓解此问题。
结合这些得分的方法,如浅层结合和深层结合,将在下一节讨论。这些方法明确了NLM得分如何以及在哪个阶段被纳入整个ASR解码图或搜索过程。使用NLMs通常会使词错误率(WER)相比传统n-gram模型显著降低,特别是对于语言复杂或句子较长的任务,这使得在许多应用中增加的计算需求变得合理。
这部分内容有帮助吗?
© 2026 ApX Machine Learning用心打造