趋近智
重置门在门控循环单元 (GRU) 中扮演着一个具体而重要的角色,用于管理信息流动。它决定在计算新的候选隐藏状态 (ildeht) 时,应忽略或“重置”多少由前一个隐藏状态 (ht−1) 携带的过去信息。这个门可以看作是一个过滤器,用于决定过去背景信息对提议更新的记忆状态的关联度。
像更新门一样,重置门的激活值,记为 rt,是根据当前输入 xt 和前一个隐藏状态 ht−1 计算的。它使用 sigmoid 激活函数,确保其输出值在 0 到 1 之间。
该计算涉及学习单独的权重矩阵 (Wxr 和 Whr) 和一个偏置项 (br):
rt=σ(Wxrxt+Whrht−1+br)这里:
输出 rt 是一个与隐藏状态维度相同的向量。 rt 中的每个元素对应隐藏状态的一个维度,充当该特定维度的门控值。
重置门向量 rt 中的值直接控制着在计算候选隐藏状态 h~t 时前一个隐藏状态 ht−1 的影响。 rt 中某个特定维度接近 0 的值会有效地“重置”或抵消 ht−1 中相应维度的贡献。相反,接近 1 的值则允许前一个隐藏状态的该部分基本不变地通过。
这种机制通过重置门 rt 与前一个隐藏状态 ht−1 之间的逐元素乘法 (⊙) 实现。这种被调整过的先前状态随后用于计算候选隐藏状态:
h~t=tanh(Wxhxt+Whh(rt⊙ht−1)+bh)请注意 rt⊙ht−1 如何准确地决定前一个状态 ht−1 的哪些部分与当前输入 xt 结合以形成候选状态 h~t。如果 rt 中的一个元素为 0,则 ht−1 中对应的元素在 tanh 函数内部的加权和之前被有效地清零。
此图展示了重置门 rt 的计算过程,及其与前一个隐藏状态 ht−1 的逐元素乘法 (⊙) 如何影响候选隐藏状态 h~t。
重置门赋予 GRU 单元动态调整提议的新状态 (h~t) 对紧邻的过去状态 (ht−1) 依赖程度的能力。如果当前输入 xt 表明与 ht−1 中编码的内容相比,背景或主题发生了显著变化,重置门可以学习激活接近 0。这有效地让单元在计算候选状态时“重新开始”,更多地侧重于当前输入 xt,而不是将其与可能不相关的过去信息混合。
例如,在语言建模中,如果网络遇到句子的结尾(可能由 xt 中的标点符号表示),重置门可能会强烈激活(值接近 0),以减少前一个句子的隐藏状态在计算下一个句子开头候选状态时的影响。
总之,重置门充当一个控制器,在计算候选隐藏状态之前选择性地减弱前一个隐藏状态的某些部分。这使得 GRU 能够有效地忘记对紧邻下一步被认为不相关的信息,有助于其处理时间依赖的能力。
这部分内容有帮助吗?
© 2026 ApX Machine Learning用心打造