模型训练中的批次划分与周期

训练神经网络 (neural network)时，特别是处理大型数据集时，很少将整个数据集一次性输入模型。这样做会耗费大量计算资源，且通常不利于学习。取而代之的是，训练过程围绕着两个重要的数据组织单元构建：周期和批次。了解这些有助于您高效配置训练循环并管理计算资源。

周期：数据的一次完整循环

一个周期代表着对整个训练数据集的一次完整处理。如果您有1,000个训练样本，当模型看到并处理了所有1,000个样本后，一个周期就完成了。

神经网络 (neural network)以迭代方式学习。一次数据处理（一个周期）几乎不足以让模型有效学习其潜在模式。模型的参数 (parameter)（权重 (weight)和偏置 (bias)）是逐步调整的。因此，训练通常需要运行多个周期。可以将其比作阅读教科书：您通常需要多次阅读材料才能完全掌握其内容。

周期数量是您需要设置的一个超参数 (hyperparameter)。

周期太少可能导致欠拟合 (underfitting)，即模型从数据中学到的信息不足。
周期太多在某些情况下可能导致过拟合 (overfitting)，即模型过于适应训练数据，包括其中的噪声，而对未见过的数据表现不佳。（本章稍后我们将讨论过拟合以及如何应对。）

随着模型经过多个周期训练，您通常会监测其在单独验证数据集上的表现，以决定何时停止训练。

小批量：分块处理数据

一次性处理整个数据集，特别是对于拥有数百万样本的数据集，会对内存（RAM和GPU显存 (VRAM)）造成很大压力，也可能导致收敛速度变慢。在这种情况下，小批量发挥作用。

小批量（通常简称为“批次”）是训练数据集的一个更小、更易于处理的子集。您不是在处理完整个数据集（这将是批量梯度下降 (gradient descent)）后才更新模型的权重 (weight)，而是在处理每个小批量后更新它们。

例如，如果您的训练数据集有1,000个样本，并且您选择批次大小为100，则数据集将被分为 $1000 / 100 = 10$ 个批次。模型将处理前100个样本，计算损失，计算梯度，并更新其权重。然后它将处理接下来的100个样本，再次更新权重，以此类推，直到所有10个批次（从而，所有1,000个样本）都被处理完毕。所有批次的处理完成构成一个周期。

使用小批量具有多项优势：

内存效率：较小的批次需要更少内存，使您能够使用无法一次性载入内存的大型数据集进行训练。这对于GPU训练尤其重要，因为GPU的内存通常比CPU RAM更受限。
更快的更新和潜在的更快收敛：模型的权重更新更频繁（在每个批次之后，而不是在整个周期之后）。这些更频繁（尽管准确性略低）的更新可以使模型更快地收敛到较好的解。
更嘈杂的梯度估计：从小批量计算的梯度是整个数据集梯度的一个近似值。这种近似会在训练过程中引入一些“噪声”。虽然这听起来有些反直觉，但这种噪声可能是有益的。它可以帮助优化过程摆脱不佳的局部最小值，并可能找到更好、泛化能力更强的解决方案。

迭代：学习的基本步骤

一个迭代指的是模型参数 (parameter)的一次更新。在小批量梯度下降 (gradient descent)（最常见的训练策略）的背景下，一次迭代对应于处理一个数据小批量。

这种关系是：

一个周期包含多个迭代。
每个周期的迭代次数由训练样本总数 ( $N$ ) 和批次大小 ( $B$ ) 决定。 $\text{每个周期的迭代次数} = \frac{N}{B}$ 如果 $N$ 不能被 $B$ 完美整除，那么一个周期中的最后一个批次可能较小，或者您可能会选择丢弃它，这取决于数据加载策略。

对于我们1,000个样本和批次大小为100的例子：

1个周期 = 10次迭代。
如果您训练50个周期，模型将总共执行 $50 \times 10 = 500$ 次参数更新。

下图说明了数据集如何通过周期和批次进行处理，从而实现迭代式模型更新。

完整数据集、周期、批次和迭代之间的关系。一个周期涉及处理源自数据集的所有批次，每个批次处理步骤构成一次迭代，在此迭代中模型更新其参数。

选择批次大小

批次大小是另一个重要超参数 (parameter) (hyperparameter)，它能明显影响训练动态和模型表现。没有一劳永逸的答案，最优批次大小通常取决于数据集、模型架构和可用硬件。

小批次大小（例如：1、8、16、32）：
- 优点：
  - 由于梯度更新的噪声，提供正则化 (regularization)效果，可以带来更好的泛化能力。
  - 需要更少内存。
  - 能够走出“尖锐”的最小值，转向“平坦”的最小值，这些最小值通常泛化能力更好。
- 缺点：
  - 训练在实际时间上可能更慢，因为硬件可能未充分利用（并行度较低）。
  - 如果学习率未仔细调整，梯度估计的高方差可能使收敛不稳定或缓慢。
- 批次大小为1对应于随机梯度下降 (gradient descent)（SGD）。
大批次大小（例如：128、256、512以上）：
- 优点：
  - 更准确的梯度估计能带来更平滑的收敛。
  - 可以更好地利用硬件并行性，从而加快每个周期的计算速度。
- 缺点：
  - 需要更多内存。
  - 可能会收敛到尖锐的最小值，这对于未见过的数据泛化能力可能不佳。
  - 在参数更新次数方面，可能需要更多周期才能收敛，因为更新频率较低。
- 如果批次大小等于整个数据集的大小，则称为批量梯度下降。由于内存限制和每次更新的计算成本，这在深度学习 (deep learning)中很少使用。

深度学习中常用的批次大小范围从32到256，但这很大程度上是经验性的。通常，尝试不同的批次大小是个好主意。批次大小还可能与其他超参数（例如学习率）相互影响。例如，在增加批次大小时，您有时可能也需要提高学习率以保持类似的训练动态。

在Julia中，MLUtils.jl等库提供DataLoader等工具，能高效地从您的数据集中创建和管理这些批次，然后您将在训练循环中对它们进行迭代。我们在第3章讨论数据处理时曾简要提及MLUtils.jl，在构建完整的训练循环时，您将看到它的实际应用。

通过将训练过程组织成周期和批次，您能够对模型如何从数据中学习获得细粒度控制，从而平衡计算效率与学习效果。接下来，我们将看到这些内容如何融入整体模型训练循环。

这部分内容有帮助吗？

参考文献

Deep Learning, Ian Goodfellow, Yoshua Bengio, Aaron Courville, 2016 (MIT Press) - 一本基础性教材，为深度学习提供全面的理论背景，详细解释了优化算法、批处理策略及其计算含义。
Neural Networks Part 3: Learning and Evaluation, Andrej Karpathy, Justin Johnson, Fei-Fei Li (Stanford University CS231n Lecture Notes), 2017 (Stanford University) - 一份来自备受推崇的深度学习课程的讲义，为神经网络训练提供实用和直观的解释，包含epochs、批处理和不同梯度下降变体等概念。