趋近智
Transformer架构(最初用于机器翻译)在自动语音识别中变得非常有影响力。这种影响力源于它们对注意力机制的有效利用,该机制此前已在序列到序列任务中展现出显著成功。与顺序处理输入的循环神经网络(RNN)不同,Transformer完全依靠自注意力机制来计算其输入和输出的表示,从而大大增加了并行计算并更好地捕获长距离依赖。
自注意力机制是Transformer的核心。回顾编码器-解码器模型中使用的注意力机制,其中解码器关注编码器的输出。自注意力机制将此思想应用于单个序列内部(无论是输入音频特征还是输出文本序列)。它允许序列中的每个位置关注所有其他位置,根据相关性计算其表示的加权和。这使得模型能够直接关联语音信号的不同部分,而无需考虑它们之间的距离。
最常见的形式是缩放点积注意力。对于给定的序列元素,我们计算其查询 (Q)、键 (K) 和值 (V) 向量(通常通过线性投影)。注意力输出的计算方式如下:
注意力(Q,K,V)=softmax(dkQKT)V这里,dk 是键向量的维度。缩放因子 dk 防止点积过大,这可能导致softmax函数饱和并阻碍学习。
Transformer不执行单一注意力函数,而是采用多头注意力。Q、K和V向量通过不同的、学习到的线性投影进行多次投影(每个“头”一次)。每个头的注意力独立地并行计算,然后结果被连接起来并再次投影。
多头自注意力机制的流程。输入表示被投影为多个头的查询、键和值。注意力在每个头内部独立计算,然后结果被拼接并投影以形成最终输出。
这使得模型能够共同关注不同位置上来自不同表示子空间的信息。这样一来,不同的头可以学习不同类型的关系(例如,局部声学模式、长距离依赖)。
一个典型的基于Transformer的ASR模型包含一个编码器和(可选的)一个解码器。
编码器将声学特征(例如,对数梅尔滤波器组)的输入序列 X=(x1,...,xT) 映射到上下文表示序列 Z=(z1,...,zT)。它通常是一堆相同的层。每层有两个主要子层:
在两个子层周围都使用了残差连接,随后进行层归一化。每个子层的输出是 层归一化(x+子层(x)),其中 子层(x) 是子层本身实现的功能。
由于自注意力机制本身不处理序列顺序,因此必须注入位置信息。这通过位置编码完成,位置编码被添加到编码器堆栈底部的输入嵌入中。常见方式包括固定的正弦编码或学习到的位置嵌入。
当用于端到端序列到序列设置(如基于注意力的编码器-解码器模型)时,也使用Transformer解码器。它一次生成一个标记的输出序列(字符、音素、词语)(自回归地)。除了编码器中自注意力层和FFN子层外,解码器还插入了第三个子层: 3. 多头交叉注意力: 该层关注编码器 (Z) 的输出。查询来自前一个解码器层,而键和值来自编码器输出。这使得解码器在预测下一个输出标记时能够结合来自输入语音信号的信息。
解码器中的自注意力子层经过掩码处理,以防止位置关注后续位置。这保证了位置 i 的预测只能依赖于小于 i 的已知输出,从而保持了自回归特性。
另外,Transformer编码器可以作为一个高效的特征提取器,其输出被馈送到一个最终的线性层,然后是softmax,并使用前面讨论的CTC损失函数进行训练。这种方式使用了Transformer在获取上下文信息方面的能力,而无需自回归解码器,通常会带来更简单、更快的推断。
优点:
挑战:
为更好地解决局部关联建模问题,Conformer架构被提出。它将卷积神经网络(CNN)模块直接集成到Transformer块结构中。一个典型的Conformer块用一个序列替换标准FFN子层:一个FFN模块、一个多头自注意力模块、一个卷积模块和另一个FFN模块,所有这些都带有适当的归一化和残差连接。
Conformer块的简化视图,说明了前馈网络、多头自注意力以及卷积模块与残差连接的组合。注意:实际的残差连接通常涉及将主要组件夹在中间的半步前馈模块。
Conformer旨在兼顾Transformer的全局上下文建模优势和CNN的局部特征提取能力,它已成为当前最优ASR系统中声学建模的一种广泛采用且非常有效的架构。
总而言之,Transformer架构,特别是Conformer,代表着ASR声学建模的一大进步。它们通过自注意力机制有效建模长距离依赖的能力,结合计算并行性(以及Conformer中的卷积增强),使其成为现代语音识别系统的根本。这些模型的实际实现细节和相关训练策略将在动手实践部分和后续章节中进一步讨论。
这部分内容有帮助吗?
© 2026 ApX Machine Learning用心打造