趋近智
门控循环单元 (GRU),由 Cho 等人于 2014 年提出,提供了一种门控循环架构中的替代方案。这些单元与长短期记忆 (LSTM) 网络类似,旨在缓解简单循环神经网络 (neural network) (RNN) 中固有的梯度问题。GRU 的目标是实现类似的效果,即控制信息随时间流动,但与 LSTM 相比,它通过一种略微简化的结构来实现。这种简化通常会减少参数 (parameter),并可能加快计算速度,同时其性能常与 LSTM 相当。
GRU 单元不使用独立的细胞状态,而是直接通过两个主要门控机制来修改其隐藏状态 :重置门和更新门。我们来分析它们的作用和计算方式。
重置门决定了在提出新的候选隐藏状态时,前一个隐藏状态 有多少应该被有效地“遗忘”或忽略。如果重置门输出接近 0 的值,它允许单元丢弃过去被认为与当前计算无关的信息。反之,接近 1 的值则保留了前一状态的大部分信息。
计算涉及当前输入 和前一个隐藏状态 。一个 Sigmoid 函数 将输出压缩到 [0, 1] 范围:
这里,、 和 是针对重置门学习到的权重 (weight)矩阵和偏置 (bias)向量 (vector)。
更新门的作用类似于 LSTM 中遗忘门和输入门的组合。它决定了前一个隐藏状态 有多少信息应该传递到新的隐藏状态 。同时,它也控制着新计算出的候选隐藏状态 有多少应该被纳入。
它的计算结构与重置门相似:
、 和 是用于更新门学习到的参数 (parameter)。
候选隐藏状态表示在时间步 新隐藏状态的一个提议。它的计算受重置门 的影响。具体来说,前一个隐藏状态 的贡献通过重置门的输出进行调节(按元素相乘,表示为 ),然后与处理后的输入 结合。通常使用双曲正切函数 () 作为激活函数 (activation function):
、 和 是用于计算候选状态的学习参数。按元素相乘 是允许 GRU 根据 选择性地丢弃前一状态部分内容的机制。
当前时间步的最终隐藏状态 通过对前一个隐藏状态 和候选隐藏状态 进行线性插值计算得出。更新门 决定了这种插值的平衡。
当 接近 1 时,候选状态 贡献更多,有效地用新信息更新隐藏状态。当 接近 0 时,前一状态 大部分被保留,允许信息远距离传递。
门控循环单元 (GRU) 单元在时间步 内的数据流。 是输入, 是前一个隐藏状态。重置门 () 和更新门 () 控制着候选状态 () 和最终隐藏状态 () 的计算。虚线表示某个值在计算中的使用。
GRU 架构可被视为 LSTM 的一种简化:
从经验来看,两种架构在所有任务上都没有哪一个持续表现更优。LSTM 和 GRU 之间的选择通常取决于特定问题的实验结果,尽管当计算资源或参数效率是主要考量时,GRU 可能更受青睐。
尽管有精密的门控,GRU 仍保留了循环模型的基本特点:顺序计算。信息必须按序列长度一步步传播。这种固有的顺序性限制了训练时的并行化,使得它们在处理非常长的序列时,与 Transformer 等架构相比训练速度明显更慢。此外,尽管它们在捕捉更长距离的依赖关系方面远优于简单的 RNN,但依赖于将过去信息总结到一个固定大小的隐藏状态中,对于复杂依赖关系跨越很长的距离的极长序列,这仍然可能成为瓶颈。这些尚存的挑战促使了基于注意力的机制出现,我们接下来将讨论这些机制。
这部分内容有帮助吗?
© 2026 ApX Machine LearningAI伦理与透明度•