趋近智
要理解有监督学习 (supervised learning)如何更新模型的内部结构,需要观察其逐步训练的循环过程。有监督微调 (fine-tuning)通过使用特定的“指令-响应”对数据集,对已经掌握语法和常识的预训练 (pre-training)模型应用权重 (weight)更新规则。
在启动微调过程时,模型通过一个包含三个主要阶段的迭代循环进行学习:前向传播、损失计算和反向传播 (backpropagation)。
在训练期间,模型接收输入序列并尝试预测下一个标记(token)。这就是前向传播。原始文本被转换为数值标记,这些标记穿过模型的 Transformer 块,其中应用了自注意力 (self-attention)机制 (attention mechanism)和前馈神经网络 (neural network)。输出是针对整个词汇表 (vocabulary)的概率分布,通常被称为 logits。
由于这是有监督学习 (supervised learning),训练脚本可以访问正确答案。模型的预测结果会与自定义数据集中的实际目标标记进行对比。这种对比通过一个被称为损失函数 (loss function)的数学函数来量化 (quantization)。对于语言模型,通常使用交叉熵损失(Cross-Entropy Loss)。
在该方程中, 代表类别数量,即模型的词汇表大小。变量 是真实概率分布,正确标记为 1,其他均为 0。变量 是对标记 的预测概率。计算出的损失越低,表示模型的预测与目标数据越吻合。
计算出损失后,模型通过反向传播执行反向过程。这一步计算损失相对于模型中每一个权重 (weight)的梯度。我们在之前的权重更新方程中将此梯度表示为 。梯度指出了每个参数 (parameter)为了降低总损失所需要的调整方向和幅度。
此计算依赖于微积分中的链式法则。数学误差从最终输出层一直传导回初始输入嵌入 (embedding)层。在此阶段,系统会计算每个特定权重对最终误差的影响程度。
有监督微调 (fine-tuning)的循环过程,从产生预测的前向传播到更新模型权重的优化器步骤。
计算出梯度后,优化器负责实际更新模型的权重。虽然标准梯度下降 (gradient descent)使用基础的 公式,但现代微调 (fine-tuning)通常使用更先进的优化器,如 AdamW。
优化器应用学习率(用 表示),它控制模型在更新权重时迈出的步长。如果学习率过高,模型可能会跳过最优权重而无法收敛;如果学习率过低,训练过程会异常缓慢。AdamW 在基础公式上进行了改进,它根据历史梯度动态调整每个参数 (parameter)的学习率,同时加入权重衰减以防止模型死记硬背训练数据。
由于反向传播 (backpropagation)需要存储前向传播的中间激活值,因此有监督微调期间的内存开销明显高于标准文本生成。对于模型中的每个参数,系统必须存储权重本身、计算出的梯度以及优化器状态。
这正是训练小语言模型需要合理管理资源的原因。一个在生成文本时占用 4 GB 显存 (VRAM)的模型,在使用标准有监督微调进行训练时可能需要 16 GB 或更多显存。通过仅修改这些权重的一小部分,我们可以大幅降低内存占用。
这部分内容有帮助吗?
© 2026 ApX Machine LearningAI伦理与透明度•