所有课程

大型语言模型的微调与调整

章节 1: 大型语言模型适应原理

回顾：预训练语言模型和Transformer

微调和适配的必要性

自然语言处理中的迁移学习方法

微调时的架构考量

微调方法概述

章节 2: 微调数据准备

指令微调原则

指令数据集的获取与构建

监督微调（SFT）的数据格式化

域适应数据要求

数据稀缺与不平衡的处理

文本数据扩充技术

实践：准备指令微调数据集

章节 3: 全参数微调

全参数微调的机制

设置训练循环

超参数调优策略

防止过拟合的正则化方法

计算资源管理

检查点保存与训练恢复

动手实践：全参数微调较小规模的LLM

章节 4: 参数高效微调 (PEFT) 方法

参数高效性的原理

低秩适配 (LoRA)

量化低秩适配 (QLoRA)

适配器模块

PEFT 方法比较

使用 Hugging Face PEFT 库进行实现

动手实践：使用 LoRA 进行微调

实操：使用QLoRA进行微调

章节 5: 高阶微调策略

多任务微调

顺序适应与持续学习

减轻灾难性遗忘

人类反馈强化学习 (RLHF) 介绍

奖励模型训练

使用 PPO 进行策略优化

高级适应中的挑战

章节 6: 微调模型的评估与分析

传统自然语言处理评估指标的局限性

评估指令遵循能力

评估事实准确性和幻觉

偏见与公平性评估方法

鲁棒性评估（对抗性攻击、分布外数据）

模型校准评估

定性分析与错误分类

人工评估规范

实践：分析模型输出中的错误

章节 7: 优化与部署考量

训练时的内存优化

使用分布式策略加速训练

微调后优化：量化

微调后优化：剪枝

合并 PEFT 适配器

模型序列化与打包

推理服务框架

生产环境中微调模型的监控

使用 Hugging Face PEFT 库进行实现

这部分内容有帮助吗？

参考文献

Parameter-Efficient Fine-tuning (PEFT) Library, Hugging Face, 2024 - Hugging Face peft 库的官方文档，详细介绍了其组件、API以及各种PEFT方法的使用。
LoRA: Low-Rank Adaptation of Large Language Models, Edward J. Hu, Yelong Shen, Phillip Wallis, Zeyuan Allen-Zhu, Yuanzhi Li, Shean Wang, Lu Wang, Weizhu Chen, 2021 arXiv preprint arXiv:2106.09685 DOI: 10.48550/arXiv.2106.09685 - 引入大语言模型低秩适应（LoRA）微调的原始研究论文，解释了其理论基础和方法。
QLoRA: Efficient Finetuning of Quantized LLMs, Tim Dettmers, Artidoro Pagnoni, Ari Holtzman, Luke Zettlemoyer, 2023 arXiv preprint arXiv:2305.14314 DOI: 10.48550/arXiv.2305.14314 - 介绍了QLoRA的研究论文，这是一种用于量化大语言模型的有效微调方法，将LoRA与4位量化相结合。
Trainer, Hugging Face, 2024 (Hugging Face) - Hugging Face transformers.Trainer 类的官方文档，提供了用于训练模型的API，包括PEFT模型。

© 2025 ApX Machine Learning用心打造