所有课程

进阶LoRA与PEFT方法：大型语言模型微调

章节 1: 回顾微调与效率的必要性

全量微调的计算成本

参数效率的必要性

数学预备知识：奇异值分解

参数高效微调方法的分类

章节 2: 低秩适配 (LoRA) 详解

LoRA 假说：适配的低本征秩

LoRA的数学表述

权重更新矩阵的分解

秩选择策略

缩放参数 Alpha

LoRA 层的实施

将 LoRA 融入 Transformer 架构

实际操作：应用基础LoRA

章节 3: PEFT 方法概览

适配器微调：架构与原理

适配器微调的实现细节

前缀微调：通过连续前缀进行调节

提示词微调与P-Tuning变体

比较分析：参数与性能的权衡

内存与计算开销

动手实践：实施适配器微调

章节 4: 进阶LoRA实现方法和变体

LoRA 初始化策略

训练后合并LoRA权重

量化LoRA (QLoRA)：原理

QLoRA 实现细节

分页优化器提升内存效率

将LoRA与其他PEFT方法结合

动手实践：实现 QLoRA

章节 5: 优化、部署与实际考量

PEFT 训练所需的基础设施要求

用于PEFT的优化器和学习率调度器

多适配器/多任务训练方法

调试 PEFT 实现

PEFT 训练与推理的性能分析

PEFT 的分布式训练方法

使用 PEFT 适配器部署模型

动手实践：使用多个 LoRA 适配器进行微调

章节 6: 评估 PEFT 性能和局限性

PEFT评估的常用指标

PEFT 与完全微调的对比评估

分析模型的抗干扰能力和泛化能力

研究灾难性遗忘

计算成本分析再议

当前局限性与待解决的研究问题

全量微调的计算成本

这部分内容有帮助吗？

参考文献

Adam: A Method for Stochastic Optimization, Diederik P. Kingma, Jimmy Ba, 2014 International Conference for Learning Representations DOI: 10.48550/arXiv.1412.6980 - 介绍了Adam优化器，解释了其机制以及其状态变量的内存开销，这对于大型模型的微调至关重要。
Mixed Precision Training, Paulius Micikevicius, Sharan Narang, Jonah Alben, Gregory Diamos, Erich Elsen, David Garcia, Boris Ginsburg, Michael Houston, Oleksii Kuchaiev, Ganesh Venkatesh, Hao Wu, 2018 ICLR 2018 DOI: 10.48550/arXiv.1710.03740 - 关于混合精度训练（FP16/BF16）的开创性论文，详细介绍了其在减少深度学习模型内存占用和加速计算方面的优势，与内存部分直接相关。
Training Deep Nets with Sublinear Memory Cost, Tianqi Chen, Bing Xu, Chiyuan Zhang, Carlos Guestrin, 2016 arXiv preprint arXiv:1604.06174 DOI: 10.48550/arXiv.1604.06174 - 介绍了梯度检查点技术，通过重新计算激活来减少反向传播过程中的激活内存，这对于在有限GPU内存下训练深度网络至关重要。
DeepSpeed-ZeRO: Memory Optimization for Training Billions-Parameter Models, Samyam Rajbhandari, Jeff Rasley, Olatunji Ruwase, Yuxiong He, 2020 International Conference for High Performance Computing, Networking, Storage and Analysis (SC) (IEEE) DOI: 10.1109/SC41405.2020.00008 - 介绍了ZeRO内存优化策略，这是高效训练大规模语言模型的基础，解决了内存、计算和分布式训练设置中的挑战。

© 2025 ApX Machine Learning用心打造