趋近智
连接主义时间分类(CTC)提供了一种有效方法来训练声学模型,而无需预先对齐的数据集。然而,CTC基于一个强假设:模型在每个时间步的输出条件独立于所有其他输出。这意味着在时间 预测“c”的概率不取决于模型在时间 预测了“a”。这一局限阻止了模型学习输出序列中字符间的语言关联性。
为解决此问题,我们可以使用注意力机制。设想一个人如何转录音频。他们不会一次性处理整个声波,然后写出完整句子。相反,他们会先听,写下几个词,甚至可能会重听一小段以捕捉一个难词。注意力机制使模型能够模仿这种行为,在生成输出转录的每个部分时,选择性地关注输入音频序列的不同部分。它使模型能够权衡每个输出字符或词不同音频帧的重要性,从而有效形成动态且上下文相关的对齐。
注意力机制通常充当编码器和解码器之间的桥梁。
为每个输出步骤计算上下文向量的过程可以分为三部分。假设解码器即将生成转录的第个字符。它使用其先前的隐藏状态,,来查询编码器的输出向量,。
首先,模型需要一种方式来评估每个输入帧与当前正在生成的输出(由解码器状态表示)的对齐程度。这通过一个评分函数完成。一种常见的方法,称为加性注意力,使用一个小型前馈神经网络:
分数量化了第个音频帧与第个输出字符的相关性。分数越高,表示该帧对当前解码步骤越重要。
原始分数本身用处不大,因为它们的尺度可能变化很大。为了将它们归一化为更易解释的格式,我们将其通过softmax函数。这会将分数转换为概率分布,称为注意力权重,表示为。
每个权重是一个介于0和1之间的值,并且给定解码步骤的所有权重之和为1()。可以将这些权重看作解码器在生成当前输出字符时应对每个特定音频帧投入的“注意力”量。
最后,上下文向量,,被计算为所有编码器隐藏状态的加权和。此和中使用的权重是我们刚计算的注意力权重。
这个上下文向量是输入音频的总结,专为生成第个输出字符而定制。它包含了当前预测所需的最相关声学信息。解码器随后使用此上下文向量及其自身的隐藏状态,预测序列中的下一个字符。整个过程重复进行,直到解码器生成一个特殊的序列结束标记。
注意力机制的一大优点是其可解释性。通过在热力图中绘制注意力权重,我们可以清楚地看到模型在生成每个输出字符时具体关注了输入音频的哪些部分。
输入音频帧与词语“HELLO”的输出字符之间的对齐。蓝色越深表示注意力权重越高。请注意强大的对角线模式,这表明当模型从“H”生成到“O”时,其关注点在音频帧中逐步移动。
这种清晰的单调对齐在语音识别中很常见,并为调试提供了有益的工具。如果注意力模式显得混乱或不合理,这通常表明模型训练存在问题。
通过引入注意力机制,我们的ASR模型不再受CTC严格假设的限制。它们可以学习音频与文本之间柔性、数据驱动的对齐,从而显著提高转录准确性,特别是对于更长、更复杂的语音。这种机制是我们将要讨论的现代序列到序列模型的一个基本组成部分。
这部分内容有帮助吗?
© 2026 ApX Machine Learning用心打造