趋近智
标准循环神经网络 (neural network) (RNN),尤其是编码器-解码器结构中的LSTMs和GRUs,在许多序列建模任务中表现良好,但它们在处理非常长的序列时面临问题。基本的编码器-解码器架构将整个输入序列压缩成一个固定大小的向量 (vector),通常称为上下文 (context)向量或“思想向量”。这个向量必须表示整个输入的含义。对于长输入,期望单个向量捕获所有必要信息成为一个重要的瓶颈,可能导致序列早期部分的细节丢失。
注意力机制 (attention mechanism)提供了一种方法来克服这一限制。解码器不再仅仅依赖编码器的最终隐藏状态,而是被允许在生成输出的每一步“关注”整个输入序列的不同部分。试想人类如何翻译句子。你不会仅仅读完整个句子一次,完美记住其含义,然后写出翻译。相反,你在生成目标翻译的对应部分时,通常会回过头来关注源句子中的特定词语或短语。注意力机制为神经网络带来了类似的能力。
在生成输出的每一步(例如,预测翻译中的下一个词),注意力机制执行以下一般步骤:
softmax函数。这会将分数转换为总和为1的概率(注意力权重)。特定输入隐藏状态的权重越高,表示其对当前输出预测越重要。该图示意了注意力机制的一般流程。时间 的解码器状态 () 与所有编码器隐藏状态 () 产生联系,以计算注意力权重。这些权重用于创建一个上下文向量,该向量与 一起,有助于生成该步骤的输出。
注意力机制并非RNNs、LSTMs或GRUs的替代品。相反,它们通常与这些循环架构结合,尤其是在编码器-解码器框架(通常称为带注意力的序列到序列模型)内,以增强其处理复杂序列建模任务的能力。虽然我们在此仅提供简要介绍,但理解动态关注相关输入部分的核心思想,对许多现代序列处理系统而言非常重要。
这部分内容有帮助吗?
© 2026 ApX Machine Learning用心打造