设置训练循环

微调大型语言模型的目标是利用特定任务数据更新我们预训练模型的所有参数 $\theta$ 。训练循环是此过程的运行核心。此循环根据在微调数据集上计算得到的损失函数提供的反馈，指导模型权重的迭代调整。

构建一个有效的训练循环需要若干相互关联的组成部分，每个部分都在引导模型在目标任务上取得更好表现方面发挥着不同作用。

微调循环的核心组成部分

典型的全参数微调循环遵循标准的监督学习模式，并适用于大型模型。以下是每次迭代中执行的重要步骤分解：

数据加载： 从上一章准备的微调数据集中获取一批数据（输入提示/文本及相应的目标输出）。这通常由数据加载器处理，它负责数据的洗牌、批处理以及可能的数据整理（在批次内将序列填充到相同长度）。
前向传播： 将输入批次通过大语言模型。模型处理输入标记并为序列中的每个位置生成原始输出分数，这些分数通常被称为 logits。 $\text{Logits} = \text{模型}(\text{输入批次}, \theta)$
损失计算： 计算损失，它量化了模型预测的 logits 与数据集中实际目标输出之间的差异。对于语言建模或序列生成任务，交叉熵损失是标准做法。它衡量模型预测序列中下一个标记的准确程度。 $L = \text{损失函数}(\text{Logits}, \text{目标批次})$
反向传播： 计算损失函数相对于所有可训练模型参数（ $\theta$ ）的梯度。此梯度 $\nabla_{\theta} L$ 指示每个参数为减少损失所需改变的方向和幅度。此步骤计算量大，因为它涉及将误差信号反向传播通过整个网络架构。 $\nabla_{\theta} L = \text{计算梯度}(L, \theta)$
优化器步骤： 使用优化算法更新模型的参数。优化器使用计算得到的梯度（ $\nabla_{\theta} L$ ）和学习率（ $\eta$ ）来调整权重，以期最小化损失。AdamW（Adam 加权衰减）是训练 Transformer 模型的常用优化器，以其有效性和稳定性而闻名。 $\theta \leftarrow \theta - \eta \cdot \text{优化器更新}(\nabla_{\theta} L)$
梯度清零： 在开始下一次迭代之前，重置模型参数中存储的梯度。这是必要的，因为在大多数深度学习框架中，梯度计算默认是累积的。未能清零梯度将导致基于先前批次累积梯度的不正确更新。

这些步骤会重复指定的轮数（遍历整个数据集）或迭代次数，逐步调整模型参数以更好地适应微调数据。

结构

尽管具体实现方式因所选框架（如 PyTorch、TensorFlow 或 Hugging Face Trainer 等更高级别的库）而异，但基本结构保持一致。

# 训练循环结构（使用类似 PyTorch 的语法）

model = load_pretrained_llm(...)
tokenizer = load_tokenizer(...)
dataset = load_finetuning_dataset(...)
dataloader = DataLoader(dataset, batch_size=...)
optimizer = AdamW(model.parameters(), lr=learning_rate)
# 可选：学习率调度器
# scheduler = get_linear_schedule_with_warmup(...)

model.train() # 将模型设置为训练模式

for epoch in range(num_epochs):
    for batch in dataloader:
        # 1. 准备输入（移至适当设备，例如 GPU）
        inputs = prepare_batch(batch, tokenizer, device)
        targets = inputs["labels"] # 假设标签已准备好

        # 2. 前向传播
        outputs = model(**inputs)
        logits = outputs.logits

        # 3. 损失计算
        loss = compute_loss(logits, targets) # 例如，交叉熵损失

        # 4. 反向传播
        loss.backward() # 计算所有参数的梯度

        # 5. 优化器步骤
        optimizer.step() # 更新参数：theta = theta - lr * grad

        # 可选：调度器步骤
        # scheduler.step()

        # 6. 梯度清零
        optimizer.zero_grad()

        # 日志记录、评估、检查点保存（稍后讨论）
        log_metrics(loss)

    # 可选：在每个 epoch 结束时评估
    evaluate_model(model, eval_dataloader)
    # 保存检查点
    save_checkpoint(model, optimizer, epoch)

管理设备放置

大语言模型体量庞大，而全参数微调需要大量的计算能力，通常是 GPU 或 TPU。请确保您的模型和数据批次在每次迭代开始时都明确地移至目标计算设备（例如 PyTorch 中的 .to(device)），以便使用硬件加速。

重要配置

设置此循环也涉及配置控制训练过程的参数：

学习率（ $\eta$ ）： 决定参数更新期间的步长。选择合适的学习率非常重要；过高可能导致不稳定，而过低则可能导致收敛缓慢。通常，与预训练相比，微调时使用较小的学习率（例如 $1e-5$ 到 $5e-5$ ）。
批次大小： 每次迭代中处理的样本数量。较大的批次大小可以提供更稳定的梯度估计，但需要更多内存。
轮数： 整个数据集被处理的次数。轮数过少可能导致欠拟合，而过多则可能导致过拟合。

这些设置与模型表现之间的相互关系很复杂，构成了超参数调整的根据，我们将在下一节进行讨论。

训练循环流程示意

训练循环表示一个由数据驱动的计算和参数更新循环。

流程图示意了微调训练循环单次迭代中的核心步骤。

理解并正确实现此训练循环是成功适配大语言模型的根本所在。尽管库可以抽象掉一些细节，但了解其底层机制有助于更好地进行调试、优化和定制微调过程。后续部分将在此根据上继续讲解，讨论超参数选择、正则化以及全参数微调特有的资源管理。

使用 Kerb 更快构建 LLM 应用

简洁的语法。内置调试功能。从第一天起就可投入生产。

为 ApX 背后的 AI 系统而构建

这部分内容有帮助吗？

参考文献

Deep Learning, Ian Goodfellow, Yoshua Bengio, and Aaron Courville, 2016 (MIT Press) - 本书为深度学习提供了全面的理论基础，涵盖了神经网络、反向传播、优化算法和损失函数等概念，这些是理解训练循环的基础。
Attention Is All You Need, Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Łukasz Kaiser, Illia Polosukhin, 2017 Advances in Neural Information Processing Systems, Vol. 30 (Curran Associates, Inc.) - 介绍了Transformer架构，它是大型语言模型的基础。理解这一架构有助于掌握LLM如何在前向传播中处理输入并生成logits。
Decoupled Weight Decay Regularization, Ilya Loshchilov and Frank Hutter, 2019 International Conference on Learning Representations (ICLR) DOI: 10.48550/arXiv.1711.05101 - 提出了AdamW，这是一种广泛用于训练Transformer模型的优化算法，本文中作为优化器步骤被提及。
PyTorch Documentation: Tutorials, Autograd, and Optim, PyTorch Core Developers, Ongoing (PyTorch Foundation) - PyTorch官方文档，提供了使用PyTorch实现深度学习训练循环的实用指南，包括自动微分、优化器和数据处理的详细信息。
Hugging Face Transformers: Trainer Class Documentation, Hugging Face, Ongoing (Hugging Face) - 描述了Trainer类，这是一个用于微调Transformer模型的高级API，它抽象了训练循环的许多细节，以便高效地适应LLM。