在之前建立的低秩适配(LoRA)基础理解之上,本章着重介绍高级实现方法和变体,以提高其性能、效率和适用性。我们将考察超出基础LoRA设置的技术,以应对实际LLM微调场景中遇到的具体问题。您将学习以下内容:初始化策略: 设置LoRA矩阵($A$和$B$)初始值的不同方法及其对训练过程的影响。权重合并: 将训练好的LoRA适配器权重整合回原始模型层的方法,从而简化部署并可能提高推理速度。量化LoRA (QLoRA): QLoRA 背后的原理,该技术通过在训练LoRA适配器时对基础模型应用量化(例如,4位NormalFloat,$NF4$)来大幅降低内存需求。我们将介绍实现细节,包括双层量化和分页优化器的使用。组合方法: LoRA如何与其他参数高效微调(PEFT)技术结合,以可能取得更好效果。本章包含实用指导,并以一个侧重于为高效LLM微调实现QLoRA的实践练习作结。