计算候选隐藏状态

GRU（Gated Recurrent Unit）单元使用两个主要门，即重置门( $r_t$ )和更新门( $z_t$ )，来生成新隐藏状态的建议。这个建议，称为候选隐藏状态（通常表示为 $ilde{h}_t$ ），代表了单元考虑添加到其记忆中的新信息。

候选隐藏状态的计算是重置门( $r_t$ )发挥作用的地方。请记住，重置门决定了先前隐藏状态( $h_{t-1}$ )有多少应影响当前候选计算。如果重置门对于某些维度输出接近0，则先前隐藏状态的相应维度在计算新候选状态时会有效地被“遗忘”或忽略。反之，如果重置门输出接近1，则先前状态信息会被传递过去。

其主要思想是将当前输入( $x_t$ )与经过重置门( $r_t$ )选择性过滤的先前隐藏状态( $h_{t-1}$ )的一个版本进行组合。这个组合随后通过双曲正切( $tanh$ )激活函数 (activation function)，类似于简单RNN中隐藏状态的计算方式。

在数学上，时间步 $t$ 的候选隐藏状态 $\tilde{h}_t$ 计算如下：

\tilde{h}_t = \tanh(W_{\tilde{h}} x_t + U_{\tilde{h}} (r_t \odot h_{t-1}) + b_{\tilde{h}})

我们来分解这个方程：

$x_t$ ：当前时间步 $t$ 的输入向量 (vector)。
$h_{t-1}$ ：来自前一时间步 $t-1$ 的隐藏状态向量。
$r_t$ ：时间步 $t$ 的重置门输出向量。
$\odot$ ：此符号表示元素级乘法（Hadamard积）。这就是重置门 $r_t$ 选择性缩放先前隐藏状态 $h_{t-1}$ 的方式。 $h_{t-1}$ 中的每个元素都与 $r_t$ 中的相应元素相乘。
$W_{\tilde{h}}$ ：用于转换输入 $x_t$ 的权重 (weight)矩阵。
$U_{\tilde{h}}$ ：用于转换重置门控的先前隐藏状态( $r_t \odot h_{t-1}$ )的权重矩阵。
$b_{\tilde{h}}$ ：添加到和中的偏置 (bias)向量。
$tanh$ ：双曲正切激活函数。它将结果向量的分量压缩到-1和1之间，有助于调节网络的激活。

权重矩阵( $W_{\tilde{h}}$ , $U_{\tilde{h}}$ )和偏置( $b_{\tilde{h}}$ )在训练过程中学习。它们决定了当前输入和过去的相应部分（由重置门决定）如何组合形成候选状态。

下方的图表显示了计算候选隐藏状态 $\tilde{h}_t$ 的数据流。

流图，显示了如何使用当前输入( $x_t$ )、先前隐藏状态( $h_{t-1}$ )和重置门( $r_t$ )来计算候选隐藏状态( $\tilde{h}_t$ )。

本质上， $\tilde{h}_t$ 代表了GRU单元可能将其状态更新为什么，这纯粹基于当前输入和先前状态中选择性保留的部分。它是对新记忆内容的建议。

请记住，这个候选状态 $\tilde{h}_t$ 并非当前时间步的最终隐藏状态 $h_t$ 。下一步，即涉及更新门 $z_t$ 的部分，将决定这个新候选状态 $\tilde{h}_t$ 有多少会实际与先前隐藏状态 $h_{t-1}$ 混合，以生成最终输出 $h_t$ 。我们将在“计算最终隐藏状态”一节中介绍这种组合过程。

这部分内容有帮助吗？

参考文献

Learning Phrase Representations using RNN Encoder-Decoder for Statistical Machine Translation, Kyunghyun Cho, Bart van Merriënboer, Caglar Gulcehre, Dzmitry Bahdanau, Fethi Bougares, Holger Schwenk, Yoshua Bengio, 2014 Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing (EMNLP) DOI: 10.3115/v1/D14-1179 - 介绍了门控循环单元（GRU）架构，详细阐述了重置门、更新门以及候选隐藏状态的计算方法。
Deep Learning, Ian Goodfellow, Yoshua Bengio, Aaron Courville, 2016 (MIT Press) - 一本全面的深度学习教材，在循环神经网络的背景下涵盖了GRU，包括候选隐藏状态的公式。
Dive into Deep Learning, Aston Zhang, Zack C. Lipton, Mu Li, Alex J. Smola, 2024 (Cambridge University Press) - 一本交互式且详细的在线教材，清晰地解释了GRU的组成部分，包括候选隐藏状态，并附有图表。
CS224n: Natural Language Processing with Deep Learning - Lecture Notes: Backpropagation in RNNs, LSTMs, and GRUs, Christopher Manning, Abigail See, 2019 (Stanford University) - 提供了GRU的教学解释，包括候选隐藏状态的数学公式和直观理解。