趋近智
首页
博客
课程
大模型
中
大师班
如何构建大语言模型
章节 1: 大型语言模型概论
定义大型语言模型
序列建模的历史背景
规模的重要性
计算方面的挑战概览
软件与硬件环境
章节 2: 大型语言模型的数学预备知识
线性代数回顾:向量与矩阵
微积分回顾:梯度与优化
概率与统计基础知识
数值稳定性考量
本课程中使用的符号表示
章节 3: 回顾序列处理架构
循环神经网络 (RNN) 的基本内容
简单RNN的局限性
长短期记忆(LSTM)网络
门控循环单元 (GRU)
基于RNN的序列到序列模型
章节 4: Transformer 架构
通过注意力机制解决循环问题
缩放点积注意力
多头注意力机制
位置编码方法
编码器与解码器堆叠
层归一化与残差连接的作用
章节 5: 大词汇量分词
子词分词的必要性
字节对编码 (BPE) 算法
WordPiece 分词
SentencePiece 实现
处理特殊分词
词汇量大小选择的权衡
章节 6: 大规模文本数据的获取与收集
确定潜在数据来源
使用 Common Crawl 数据
规模化网页抓取技术
使用开放许可数据集
数据获取的法律考量
章节 7: 数据清洗与预处理流水线
质量筛选策略
文本标准化方法
处理冗余内容与标记删除
近似重复和精确重复检测
语种识别与过滤
构建可扩展的预处理流水线
章节 8: 建立和管理大规模数据集
数据存储格式(文本、Arrow、Parquet)
分布式文件系统 (HDFS, S3)
数据索引用于高效检索
数据集版本管理与复现性
用于训练的流式数据加载器
章节 9: 训练中的数据取样策略
数据配比的重要性
来源权重策略
基于温度的采样
课程学习简介
数据步进与退火调度
章节 10: 从零开始实现Transformer
设置项目环境
实现缩放点积注意力
构建多头注意力层
实现位置感知前馈网络
构建编码器层和解码器层
组装完整的Transformer模型
章节 11: Transformer模型规模化:架构选择
神经网络语言模型的缩放定律
深度与宽度取舍
激活函数选择 (ReLU, GeLU, SwiGLU)
规范化层放置位置(前置LN vs. 后置LN)
稀疏注意力机制简介
章节 12: 深度网络的初始化方法
恰当初始化的重要性
Xavier(Glorot)初始化
Kaiming (何) 初始化
Transformer组件中的初始化
末尾层的小初始化
章节 13: 位置编码的变体
绝对位置编码的局限性
相对位置编码的原理
Shaw 等人的相对位置实现
Transformer-XL 相对位置编码
旋转位置编码 (RoPE)
章节 14: 高级架构改进
参数高效微调的需求
Transformer的适配器模块
专家混合模型 (MoE) 简介
MoE 中的路由机制
MoE 层中的负载均衡
章节 15: 分布式训练策略
动机:为什么要进行分布式训练?
数据并行 (DP)
张量并行 (TP)
流水线并行 (PP)
混合并行策略 (DP+TP, DP+PP等)
通信开销分析
章节 16: 实现分布式训练框架
分布式训练库概述
DeepSpeed 介绍
使用 DeepSpeed ZeRO 优化
Megatron-LM 介绍
配置 Megatron-LM 中的张量和流水线并行
结合框架与策略
章节 17: LLMs的优化算法
梯度下降算法变体回顾 (SGD, 动量)
自适应优化器:Adam和AdamW
学习率调度策略
梯度裁剪方法
选择优化器超参数 (lr, betas, eps, weight_decay)
章节 18: 大型语言模型训练的硬件考量
GPU 架构 (NVIDIA Ampere, Hopper)
TPU 架构(Google TPU)
内存需求(HBM、GPU显存)
互连技术 (NVLink, InfiniBand)
硬件选择的权衡 (成本、性能、可用性)
章节 19: 检查点和容错
长时间训练中检查点的必要性
保存模型状态(权重、优化器状态)
处理分布式检查点
异步检查点与同步检查点
检查点频率与存储管理
从检查点恢复训练
章节 20: 混合精度训练方法
浮点数格式(FP32、FP16、BF16)简介
低精度的好处(速度、内存)
FP16训练中的挑战(范围问题)
损失缩放技术
使用 BF16 (BFloat16) 格式
框架对混合精度(AMP)的支持
章节 21: 内在评估指标
语言模型评估方法
困惑度:定义与计算
理解困惑度得分
每字符/词比特数
分词对困惑度的影响
章节 22: 下游任务外部评估
下游任务评估的理由
常见下游自然语言处理任务
评估时的微调步骤
标准基准:GLUE 和 SuperGLUE
少量示例和零示例评估
开发定制评估任务
章节 23: 分析模型行为
解读大型语言模型的难题
注意力图可视化
探查内部表示
神经元激活分析
找出失效模式
章节 24: 识别与应对训练不稳定现象
不稳定性常见表现
监控训练指标(损失、梯度范数)
诊断损失飙升
调试数值精度问题
稳定方法回顾(梯度裁剪、学习率、预热)
架构选择对稳定性的影响
章节 25: 对齐微调:监督式微调 (SFT)
大型语言模型对齐的目标
监督微调(SFT)介绍
构建高质量指令数据集
SFT数据格式(提示词,回应)
SFT训练过程与超参数
评估SFT模型对齐目标
章节 26: 人类反馈强化学习 (RLHF)
RLHF 流程概述
收集人类偏好数据
训练奖励模型 (RM)
近端策略优化 (PPO) 介绍
RL PPO 微调
KL散度惩罚的作用
RLHF中的挑战与考量
替代方法:直接偏好优化 (DPO)
章节 27: 模型压缩技术
模型压缩的动因
权重量化 (INT8, INT4)
激活量化考量
网络剪枝(结构化与非结构化)
知识蒸馏
评估性能与压缩的权衡
章节 28: 高效推理策略
自回归解码中的挑战
键值(KV)缓存
优化的注意力实现 (FlashAttention)
吞吐量批处理策略
推测解码
章节 29: 大规模部署大型语言模型
LLM 交互的 API 设计
模型服务框架 (Triton, TorchServe)
处理并发请求
跨模型实例的负载均衡
监控服务性能和成本
章节 30: 持续训练与模型更新
持续改进的缘由
持续预训练策略
持续微调(SFT/RLHF)的策略
安全地整合新数据源
模型架构变动后的更新
版本管理、部署与回滚策略
SFT训练过程与超参数
这部分内容有帮助吗?
有帮助
报告问题
标记为完成
© 2025 ApX Machine Learning
SFT训练的实施