趋近智
简单RNN在处理长序列时会遇到困难,因为在随时间反向传播 (backpropagation)过程中梯度可能消失或爆炸。LSTM引入了门控机制,正是为解决此问题而设。这些门像是调节器,仔细控制信息如何流入、流经和流出LSTM的核心记忆部件——细胞状态。
这些重要的调节器之一就是输入门。它的作用是决定从当前输入()和前一个隐藏状态()中,哪些新信息应该被存入细胞状态()。它并非独立运作;它与遗忘门(遗忘门决定从旧细胞状态中舍弃什么)一同工作,以有效管理细胞的记忆。
输入门的决策过程包含两个主要部分:
决定更新哪些值: 首先,一个sigmoid层决定细胞状态的哪些部分应该被更新。sigmoid函数,常用表示,将其输入压缩到0到1的范围。一个接近1的值表示“允许此信息通过”,而一个接近0的值表示“阻止此信息”。该层接收前一个隐藏状态()和当前输入(),并生成一个输出向量 (vector),我们称之为。
计算公式如下:
这里, 表示前一个隐藏状态与当前输入向量的拼接。是权重 (weight)矩阵,是专门用于输入门这一部分的偏置 (bias)向量。sigmoid函数()是逐元素应用的。中的每个元素都对应于细胞状态中的一个元素,作为该特定元素的过滤器或门值。
生成候选值: 同时,一个tanh层生成一个新候选值向量,记作(读作“C-tilde sub t”)。这些是可能被添加到细胞状态的潜在值。与sigmoid层类似,该层也使用前一个隐藏状态()和当前输入()。tanh激活函数 (activation function)将其输入压缩到-1到1的范围。
计算公式如下:
同样,和是针对这个特定层的权重矩阵和偏置向量。输出表示从当前输入和前一个语境中提取的新信息,其值缩放到-1到1之间。
可以将看作看门人,决定每个潜在的新信息片段()有多少应该被实际考虑加入记忆。包含潜在的更新,而包含用于缩放这些候选值的过滤值(介于0和1之间)。
该图显示了输入门的两个组成部分。它接收当前输入()和前一个隐藏状态(),通过并行的sigmoid和tanh层进行处理,并生成门激活()和候选值()。然后将它们逐元素结合(),形成用于细胞状态的更新信息。
连接输入门与细胞状态的重要一步,涉及将这两个层的输出进行组合。这通常通过逐元素乘法完成:。这个乘积表示经过过滤的候选值,即经过输入门选择和缩放的新信息。
这个结果向量()被添加到(适当遗忘的)前一个细胞状态,以形成新的细胞状态。我们将在下一节讨论更新细胞状态时,详细考察这个加法过程。目前,重要的是输入门提供了选择性地将新信息整合到LSTM记忆中的机制。
这部分内容有帮助吗?
© 2026 ApX Machine Learning用心打造