信息在长短期记忆 (LSTM) 单元中于单个时间步内以特定的方式流动。这种流动对于理解LSTM如何有效地处理长序列上下文,以及如何弥补简单循环神经网络 (RNN) 的不足之处非常重要。
在每个时间步 t,LSTM单元接收以下三个输入:
- 当前输入向量 xt。
- 前一个隐藏状态 ht−1。
- 前一个细胞状态 ct−1。
这些输入与门和细胞状态交互,产生两个输出:
- 新的隐藏状态 ht。
- 新的细胞状态 ct。
让我们按照数据路径进行说明:
1. 遗忘门:决定舍弃什么
第一步涉及遗忘门(ft)。它的作用是决定旧细胞状态 ct−1 的哪些部分不再相关并应被丢弃。它会查看前一个隐藏状态 ht−1 和当前输入 xt。一个Sigmoid激活函数(σ)会将细胞状态向量中每个数值的输出压缩到0和1之间。
ft=σ(Wf[ht−1,xt]+bf)
这里,[ht−1,xt] 表示这两个向量的拼接。Wf 和 bf 分别是遗忘门的权重矩阵和偏置向量,它们在训练期间学习得到。
输出为1表示“完全保留此信息”,而输出为0则表示“完全丢弃此信息”。这个门的输出 ft 随后与前一个细胞状态 ct−1 进行按元素相乘(⊙)。
2. 输入门:决定存储什么新信息
接下来,单元需要确定当前输入 xt 和前一个隐藏状态 ht−1 的哪些新信息应该添加到细胞状态中。这涉及两部分:
- 输入门层(it): 另一个Sigmoid层决定我们将更新哪些值。
it=σ(Wi[ht−1,xt]+bi)
- 候选值(c~t): 一个tanh层创建一个新的候选值向量,这些值可能被添加到状态中。
c~t=tanh(WC[ht−1,xt]+bC)
Wi,bi 和 WC,bC 分别是这些层的权重和偏置。tanh 函数的输出值在-1和1之间。
3. 更新细胞状态:结合旧与新
现在我们将旧的细胞状态 ct−1 更新为新的细胞状态 ct。我们结合遗忘门和输入门的结果:
- 首先,我们应用遗忘门的决定:ft⊙ct−1。这会丢弃标记为遗忘的信息。
- 然后,我们确定要添加的新信息:it⊙c~t。这根据我们决定更新每个状态值的程度来缩放候选值。
- 最后,我们将这两部分加在一起:
ct=ft⊙ct−1+it⊙c~t
这种加性交互与简单RNN中重复的矩阵乘法有显著的不同。它使得梯度在反向传播过程中能够更轻松地通过时间流动,从而减轻梯度消失问题。细胞状态就像一条传送带,传输信息,只伴随着微小的线性交互(与 ft 相乘和加上 it⊙c~t),使得在许多步骤中保持上下文变得更容易。
4. 输出门:决定输出什么
最后,我们需要决定隐藏状态 ht(以及可能作为此时间步的输出)应该是什么。这个输出将是细胞状态 ct 的一个过滤版本。
- 输出门层(ot): 一个Sigmoid层确定细胞状态的哪些部分将作为输出。
ot=σ(Wo[ht−1,xt]+bo)
- 过滤细胞状态: 我们将更新后的细胞状态 ct 通过tanh函数(将值压缩到-1和1之间),然后将其按元素与输出门 ot 的输出相乘:
ht=ot⊙tanh(ct)
产生的 ht 是传递到下一个时间步的隐藏状态。如果需要用于预测,它也可以作为单元在时间步 t 的输出。Wo 和 bo 是输出门的权重和偏置。
流程可视化
以下图表说明了这些组件如何连接以及数据在单个时间步内如何通过LSTM单元流动:
该图说明了在单个时间步 t 内,信息和计算在LSTM单元中的流动方式。输入 xt、ht−1、ct−1 经过遗忘门(ft)、输入门(it)和输出门(ot)以及候选状态(c~t)的处理,以计算新的细胞状态 ct 和隐藏状态 ht。Sigmoid(σ)和tanh激活函数控制着门控和状态更新。按元素相乘(⊙)和加法(+)组合中间结果。红色虚线表示 ct 和 ht 传递到下一个时间步。
通过精心调节在每个步骤中哪些信息被保留、丢弃、添加和输出,LSTM单元为梯度在训练期间更有效地流动创建了通道。细胞状态作为显式记忆通道,受门保护,使得网络能够在长时间内学习和记忆信息,这对处理复杂的序列建模任务非常重要。