趋近智
简单的循环神经网络 (neural network)(RNN)虽然其设计思路简洁,但在学习长序列模式时面临困难。其主要问题常在于时间上的反向传播 (backpropagation)过程。梯度可能呈指数级缩小(梯度消失),这使得网络难以学习远距离元素间的关联;或呈指数级增大(梯度爆炸),导致训练不稳定。这一局限性显著影响了它们在需要长时记忆任务上的表现。
为应对这些难题,更复杂的循环架构被发展出来,其中最著名的是长短期记忆(LSTM)网络和门控循环单元(GRU)。这些架构引入了被称为“门”的机制,用于调节循环单元内信息的流通,使它们能够在长时间内选择性地记忆或遗忘信息。
LSTM通过引入一个专门的细胞状态与隐藏状态并行,来处理梯度问题。可将细胞状态()想象成一条信息高速公路,它允许信息在序列中相对不变地流动,除非被明确修改。细胞状态的修改由三个主要的门来控制:
tanh 函数(将值推到-1和1之间)并将其乘以 sigmoid 门的输出,以便只输出选定的部分。这些门使用如 sigmoid()之类的激活函数 (activation function)(将值压缩到0和1之间)来控制信息流通。通过学习这些门的参数 (parameter),LSTM能够学习复杂的依赖关系并在多个时间步中保留重要信息,从而缓解了梯度消失问题。
LSTM单元内的信息流,突显遗忘门、输入门和输出门在管理细胞状态和隐藏状态方面的作用。
门控循环单元(GRU)是一种较新的循环架构,其引入是为了简化LSTM。它将遗忘门和输入门合并为一个更新门,并将细胞状态和隐藏状态合并。它还引入了一个重置门。
GRU比LSTM有更少的参数 (parameter)(因为它们缺少单独的输出门和细胞状态),有时在计算上更高效。从实践来看,它们在许多任务上的表现常与LSTM相近,虽然没有绝对的优胜者;最佳选择通常取决于具体的数据集和问题。
GRU单元内的信息流,显示重置门和更新门如何控制组合到新隐藏状态中的信息。
LSTM和GRU都通过引入门控机制,相对于简单的RNN取得了显著进步。这些门使网络能够学习在长序列中哪些信息应保留或丢弃,使它们成为自然语言处理、时间序列分析等领域中建模序列数据的有力工具。虽然我们不会在本入门课程中完整实现它们,但理解它们的作用对于判断何时标准前馈网络或简单循环网络可能不足是重要的。
这部分内容有帮助吗?
© 2026 ApX Machine LearningAI伦理与透明度•