趋近智
虽然连接主义时间分类 (CTC) 提供了一种无需明确对齐即可训练声学模型的方法,但其输出预测之间条件独立的核心假设是一个主要限制。语音本身有结构;“apple”中“p”的发音受到前面的“a”和后面的“l”的影响。为了捕捉这些关联,我们需要一个直接对输出序列进行建模的架构。听觉、注意与拼写 (LAS) 模型正是一个开创性的端到端架构,实现了这一点。
由谷歌研究人员开发,LAS 将语音识别视为一个序列到序列 (Seq2Seq) 问题,这与机器翻译非常相似。它直接将音频特征序列转换为字符或单词序列。其名称本身简洁地描述了三个主要组成部分:“听者”负责处理音频,“注意力”机制负责关注音频的相关部分,“拼写者”负责生成文本记录。
LAS 架构由编码器、解码器和一个连接它们的注意力机制精巧构成。
接下来,让我们详细了解一下这些部分。
听者充当声学模型的编码器。其主要目标是学习输入语音的丰富、紧凑表示。通常,听者实现为循环神经网络的堆叠,最常见的是双向长短期记忆网络 (BLSTM)。
听者的输入是特征向量序列,X=(x1,x2,...,xT),其中 T 是音频中的时间步数。BLSTM 处理这个序列,并生成一组高级特征向量或编码器隐藏状态,H=(h1,h2,...,hT′)。
由于 LSTM 处理序列,它们非常适合捕捉语音中的时间模式。使用双向LSTM 尤其有效,因为它在前向和后向两个方向上处理音频,使得每个隐藏状态 hi 能够包含关于整个语音片段的信息,而不仅仅是过去的信息。
通常,听者包含一个金字塔结构 (pBLSTM),其中连续的时间步在更高层中合并。这逐步缩短了序列的时间长度 (T′<T),从而创建了更紧凑的表示,并降低了注意力机制的计算负担。
听者通过堆叠的 pBLSTM 层处理输入特征,以生成高级隐藏状态。
拼写者是一个自回归解码器,这意味着它一次生成一个标记的输出序列,并且每个新的预测都取决于先前生成的标记。LAS 在此处明确建模了 CTC 所忽略的输出关联。
拼写者通常是一个单向 LSTM 或 GRU。在每个解码步骤 i,它执行两个动作:
该过程从一个特殊的序列开始标记 <SOS> 开始,并持续进行,直到生成序列结束标记 <EOS> 为止。
注意力机制是该过程的核心。对于每个解码步骤 i,它将当前解码器状态 si−1 与所有编码器隐藏状态 H=(h1,h2,...,hT′) 进行比较。这种比较产生一组注意力分数或权重,然后用于计算编码器状态的加权平均。这个平均值就是上下文向量 ci。
αij=∑k=1T′exp(score(si−1,hk))exp(score(si−1,hj)) ci=j=1∑T′αijhj这使得拼写者能够“关注”当前正在转录音素对应的特定音频片段。例如,当生成“apple”中的字符“p”时,注意力权重对于原始音频中 /p/ 音对应的编码器隐藏状态将是最高的。
综合来看,LAS 模型在推理过程中以循环方式运行。
<EOS> 标记。完整的 LAS 架构。听者编码音频,对于每个输出步骤,拼写者使用注意力机制从编码器状态生成一个上下文向量,以预测下一个字符。
LAS 模型使用预测标记概率与真实文本记录之间的标准交叉熵损失进行端到端训练。训练期间常用一种名为教师强制的技术,即解码器在每一步都被输入来自真实文本记录的正确前一个标记,而非其自身(可能不正确的)预测。这有助于稳定训练,并帮助模型更快地学习。对于推理,由于真实数据不可用,会使用像束搜索这样的算法来考虑多个候选转录,并找到最有可能的那个。
虽然 LAS 是一大进步,但它存在局限。拼写者严格从左到右的自回归性质在推理时可能速度较慢,并且在处理非常长的语音片段时可能表现不佳,此时注意力机制可能失去聚焦。这些挑战促使人们转向像 Transformer 这样的完全基于注意力的模型,我们将在后面讨论。
这部分内容有帮助吗?
© 2026 ApX Machine Learning用心打造