大师班

如何构建大语言模型

章节 1: 大型语言模型概论

定义大型语言模型

序列建模的历史背景

规模的重要性

计算方面的挑战概览

软件与硬件环境

章节 2: 大型语言模型的数学预备知识

线性代数回顾：向量与矩阵

微积分回顾：梯度与优化

概率与统计基础知识

数值稳定性考量

本课程中使用的符号表示

章节 3: 回顾序列处理架构

循环神经网络 (RNN) 的基本内容

简单RNN的局限性

长短期记忆（LSTM）网络

门控循环单元 (GRU)

基于RNN的序列到序列模型

章节 4: Transformer 架构

通过注意力机制解决循环问题

缩放点积注意力

多头注意力机制

位置编码方法

编码器与解码器堆叠

层归一化与残差连接的作用

章节 5: 大词汇量分词

子词分词的必要性

字节对编码 (BPE) 算法

WordPiece 分词

SentencePiece 实现

处理特殊分词

词汇量大小选择的权衡

章节 6: 大规模文本数据的获取与收集

确定潜在数据来源

使用 Common Crawl 数据

规模化网页抓取技术

使用开放许可数据集

数据获取的法律考量

章节 7: 数据清洗与预处理流水线

质量筛选策略

文本标准化方法

处理冗余内容与标记删除

近似重复和精确重复检测

语种识别与过滤

构建可扩展的预处理流水线

章节 8: 建立和管理大规模数据集

数据存储格式（文本、Arrow、Parquet）

分布式文件系统 (HDFS, S3)

数据索引用于高效检索

数据集版本管理与复现性

用于训练的流式数据加载器

章节 9: 训练中的数据取样策略

数据配比的重要性

来源权重策略

基于温度的采样

课程学习简介

数据步进与退火调度

章节 10: 从零开始实现Transformer

设置项目环境

实现缩放点积注意力

构建多头注意力层

实现位置感知前馈网络

构建编码器层和解码器层

组装完整的Transformer模型

章节 11: Transformer模型规模化：架构选择

神经网络语言模型的缩放定律

深度与宽度取舍

激活函数选择 (ReLU, GeLU, SwiGLU)

规范化层放置位置（前置LN vs. 后置LN）

稀疏注意力机制简介

章节 12: 深度网络的初始化方法

恰当初始化的重要性

Xavier（Glorot）初始化

Kaiming (何) 初始化

Transformer组件中的初始化

末尾层的小初始化

章节 13: 位置编码的变体

绝对位置编码的局限性

相对位置编码的原理

Shaw 等人的相对位置实现

Transformer-XL 相对位置编码

旋转位置编码 (RoPE)

章节 14: 高级架构改进

参数高效微调的需求

Transformer的适配器模块

专家混合模型 (MoE) 简介

MoE 中的路由机制

MoE 层中的负载均衡

章节 15: 分布式训练策略

动机：为什么要进行分布式训练？

数据并行 (DP)

张量并行 (TP)

流水线并行 (PP)

混合并行策略 (DP+TP, DP+PP等)

通信开销分析

章节 16: 实现分布式训练框架

分布式训练库概述

DeepSpeed 介绍

使用 DeepSpeed ZeRO 优化

Megatron-LM 介绍

配置 Megatron-LM 中的张量和流水线并行

结合框架与策略

章节 17: LLMs的优化算法

梯度下降算法变体回顾 (SGD, 动量)

自适应优化器：Adam和AdamW

学习率调度策略

梯度裁剪方法

选择优化器超参数 (lr, betas, eps, weight_decay)

章节 18: 大型语言模型训练的硬件考量

GPU 架构 (NVIDIA Ampere, Hopper)

TPU 架构（Google TPU）

内存需求（HBM、GPU显存）

互连技术 (NVLink, InfiniBand)

硬件选择的权衡 (成本、性能、可用性)

章节 19: 检查点和容错

长时间训练中检查点的必要性

保存模型状态（权重、优化器状态）

处理分布式检查点

异步检查点与同步检查点

检查点频率与存储管理

从检查点恢复训练

章节 20: 混合精度训练方法

浮点数格式（FP32、FP16、BF16）简介

低精度的好处（速度、内存）

FP16训练中的挑战（范围问题）

损失缩放技术

使用 BF16 (BFloat16) 格式

框架对混合精度（AMP）的支持

章节 21: 内在评估指标

语言模型评估方法

困惑度：定义与计算

理解困惑度得分

每字符/词比特数

分词对困惑度的影响

章节 22: 下游任务外部评估

下游任务评估的理由

常见下游自然语言处理任务

评估时的微调步骤

标准基准：GLUE 和 SuperGLUE

少量示例和零示例评估

开发定制评估任务

章节 23: 分析模型行为

解读大型语言模型的难题

注意力图可视化

探查内部表示

神经元激活分析

找出失效模式

章节 24: 识别与应对训练不稳定现象

不稳定性常见表现

监控训练指标（损失、梯度范数）

诊断损失飙升

调试数值精度问题

稳定方法回顾（梯度裁剪、学习率、预热）

架构选择对稳定性的影响

章节 25: 对齐微调：监督式微调 (SFT)

大型语言模型对齐的目标

监督微调（SFT）介绍

构建高质量指令数据集

SFT数据格式（提示词，回应）

SFT训练过程与超参数

评估SFT模型对齐目标

章节 26: 人类反馈强化学习 (RLHF)

RLHF 流程概述

收集人类偏好数据

训练奖励模型 (RM)

近端策略优化 (PPO) 介绍

KL散度惩罚的作用

RLHF中的挑战与考量

替代方法：直接偏好优化 (DPO)

章节 27: 模型压缩技术

模型压缩的动因

权重量化 (INT8, INT4)

激活量化考量

网络剪枝（结构化与非结构化）

评估性能与压缩的权衡

章节 28: 高效推理策略

自回归解码中的挑战

键值（KV）缓存

优化的注意力实现 (FlashAttention)

吞吐量批处理策略

章节 29: 大规模部署大型语言模型

LLM 交互的 API 设计

模型服务框架 (Triton, TorchServe)

处理并发请求

跨模型实例的负载均衡

监控服务性能和成本

章节 30: 持续训练与模型更新

持续改进的缘由

持续预训练策略

持续微调（SFT/RLHF）的策略

安全地整合新数据源

模型架构变动后的更新

版本管理、部署与回滚策略

数值稳定性考量

这部分内容有帮助吗？

参考文献

Deep Learning, Ian Goodfellow, Yoshua Bengio, and Aaron Courville, 2016 (MIT Press) - 一本涵盖深度学习基础概念的综合性教材，包括反向传播、梯度问题、激活函数和初始化技术。
On the difficulty of training Recurrent Neural Networks, Razvan Pascanu, Tomas Mikolov, Yoshua Bengio, 2013 Proceedings of the 30th International Conference on Machine Learning, Vol. 28 (PMLR) - 这篇论文分析了深度网络中的梯度消失和梯度爆炸问题，并提出了梯度裁剪作为一种解决方案。
Mixed Precision Training, Paulius Micikevicius, Sharan Narang, Jonah Alben, Gregory Diamos, Erich Elsen, David Garcia, Boris Ginsburg, Michael Houston, Oleksii Kuchaiev, Ganesh Venkatesh, Hao Wu, 2018 International Conference on Learning Representations (ICLR) DOI: 10.48550/arXiv.1710.03740 - 这项开创性工作引入了深度神经网络的混合精度训练，详细介绍了利用损失缩放等技术高效使用FP16。
Layer Normalization, Jimmy Lei Ba, Jamie Ryan Kiros, and Geoffrey E. Hinton, 2016 arXiv preprint arXiv:1607.06450 DOI: 10.48550/arXiv.1607.06450 - 引入了层归一化作为批归一化的替代方案，因其不依赖于批大小，对循环神经网络和Transformer尤其有效。
Understanding the difficulty of training deep feedforward neural networks, Xavier Glorot and Yoshua Bengio, 2010 Proceedings of the Thirteenth International Conference on Artificial Intelligence and Statistics (AISTATS), Vol. 9 (JMLR Workshop and Conference Proceedings) DOI: 10.5555/3104322.3104327 - 这篇论文分析了深度网络中激活和梯度的初始分布，提出了Xavier/Glorot初始化方法以缓解梯度消失/爆炸问题。

© 2025 ApX Machine Learning用心打造