趋近智
正如我们在上一节中讨论的,训练期间层输入分布的变化,被称为内部协变量偏移,会使深度网络的训练过程变得极为复杂。这迫使我们使用较小的学习率和仔细的参数 (parameter)初始化,减缓收敛速度,并使训练更易出错。
批归一化 (normalization)(BN)由Sergey Ioffe和Christian Szegedy于2015年提出,旨在解决深度网络训练过程中层输入分布不断变化的问题。其主要思想直接而有效:在训练期间,对每个小批量的层输入进行归一化。BN的目标是使这些输入的均值和方差保持更稳定,而不是让层输入的分布发生剧烈变化。
可以设想一下我们如何对机器学习 (machine learning)模型的输入特征进行标准化(例如,减去均值并除以标准差)。批归一化采用类似的方法,但它是在网络内部对特定层的输入进行操作。
具体来说,对于给定层,批归一化在小批量训练期间执行以下步骤:
整个操作通常插入在层的激活函数 (activation function)之前。例如,在全连接层中,顺序可能是:线性变换 -> 批归一化 -> 激活函数(例如ReLU)。
标准层与在激活函数前加入批归一化的层之间数据流的比较。
通过对每个小批量内的输入进行归一化,批归一化有助于稳定学习过程。这种稳定性通常允许使用更高的学习率,极大地加快训练速度。此外,它减少了对仔细初始化的依赖,并可作为一种正则化 (regularization)形式,有时减少了对Dropout等其他技术的需求。
我们将在接下来的章节中考察前向和反向传播 (backpropagation)的精确计算、它在测试(推理 (inference))期间的行为以及它的各种好处。目前,请理解批归一化是一个插入到网络架构中的强大工具,用于调节激活的内部统计量并促进更稳定高效的训练。
这部分内容有帮助吗?
© 2026 ApX Machine LearningAI伦理与透明度•