趋近智
LSTM单元通过结合遗忘门(用于确定从先前状态中舍弃哪些信息)和输入门(用于识别哪些新的相关信息)的信息来更新其细胞状态。这个更新过程对LSTM维持长距离依赖的能力非常重要。
回顾一下之前的步骤:
细胞状态更新以直接但有效的方式组合这些部分。首先,旧的细胞状态与遗忘门的输出进行逐元素相乘。这会选择性地舍弃标记 (token)为遗忘的信息。
其次,候选值与输入门的输出进行逐元素相乘。这只会选择新候选信息中相关的部分。
最后,这两个结果进行逐元素相加,以形成更新后的细胞状态:
此处,表示逐元素相乘(哈达玛积)。
图示了LSTM细胞状态()的更新运作方式。先前的状态()由遗忘门()缩放,候选状态()由输入门()缩放,然后将结果相加。
这种加性更新机制与简单RNN中的更新规则有很大区别,简单RNN主要包含矩阵乘法。细胞状态的作用类似传送带。如果遗忘门对这些部分设置为接近1,且输入门接近0,则信息可以基本不受干扰地沿着它传输。反之,旧信息可以完全舍弃(),新信息可以完全融入()。这种结构使得梯度更容易在时间上反向传播 (backpropagation),而不会像简单RNN中那样快速消失或爆炸。通过门控加法和逐元素乘法控制信息流动,LSTM能够保留误差信号更长时间,从而实现对跨越较长时段依赖的学习。细胞状态实质上承载着长期记忆,它在每个时间步都根据当前输入和先前的隐藏状态进行有选择的修改。
这部分内容有帮助吗?
© 2026 ApX Machine Learning用心打造