趋近智
分析语言模型学习的数学原理对于理解参数 (parameter)缩减很有必要。在标准训练中,更新稠密层需要学习一个完整的权重 (weight)变化矩阵,记为 。如果预训练 (pre-training)权重矩阵 的维度是 ,那么更新矩阵 的维度也必须是 。对于隐藏层维度达数千的现代语言模型,单个权重矩阵就可能包含数千万个参数。
研究人员发现,过度参数化的神经网络 (neural network)具有较低的本征维度。这意味着,虽然模型在预训练期间需要数十亿个参数来学习通用的语言表征,但在适配特定的下游任务时,并不需要整个参数空间。所需的权重更新可以在更低维的空间中得到准确表示。低秩自适应应用这一原理来减轻训练的计算负担。
LoRA 并非计算和存储庞大的 矩阵,而是冻结原始矩阵 ,并使用矩阵分解来近似更新。更新矩阵 被分解为两个较小的矩阵 和 。
在此等式中,。我们定义一个秩参数 ,其中 。分解过程创建了矩阵 和矩阵 。当 与 相乘时,结果矩阵的维度与原始的 一致,使其能够与原始权重矩阵 进行逐元素相加。
当计算可训练参数量时,这种方法的数学效率显而易见。假设 Transformer 中的一个线性层具有输入维度 和输出维度 。
标准微调 (fine-tuning)需要更新整个 矩阵。
如果应用秩 的 LoRA,则只需训练矩阵 和 。矩阵 的维度为 ,矩阵 的维度为 。
标准权重更新与低秩适配器配置之间的可训练参数量对比。
相比近 1700 万个参数,仅更新 65,536 个参数,使该层的可训练参数减少了 99.6% 以上。由于 Adam 等现代优化器会为每个可训练参数存储梯度的运行平均值,这种参数量的大幅减少直接降低了对 GPU 显存 (VRAM)的需求。
在训练的前向传播过程中,模型同时通过冻结权重和可训练的适配器矩阵处理输入向量 (vector) 。该操作表示为:
使用低秩自适应矩阵的 Transformer 层中的数据流。
这些矩阵的初始化经过专门设计以确保训练稳定性。矩阵 使用随机高斯分布初始化。矩阵 初始化为零。由于矩阵 初始全为零,乘积 在训练开始时恰好为零。这保证了在第一个训练步中 ,意味着在发生第一次权重更新之前,网络的行为与未经修改的基础模型完全一致。
LoRA 还引入了一个缩放因子 (alpha) 来管理权重更新的幅度。在加到基础权重之前, 和 的乘积会乘以 与 的比值。
这种缩放机制确保了在超参数 (hyperparameter)调优期间更改秩 时,不需要大幅调整学习率。如果你为了捕捉自定义数据集中更复杂的模式而增加秩, 的比值会归一化 (normalization)初始梯度,使不同配置下的学习过程保持数学上的稳定。
这部分内容有帮助吗?
© 2026 ApX Machine LearningAI伦理与透明度•