大师班

如何构建大语言模型

章节 1: 大型语言模型概论

定义大型语言模型

序列建模的历史背景

规模的重要性

计算方面的挑战概览

软件与硬件环境

章节 2: 大型语言模型的数学预备知识

线性代数回顾：向量与矩阵

微积分回顾：梯度与优化

概率与统计基础知识

数值稳定性考量

本课程中使用的符号表示

章节 3: 回顾序列处理架构

循环神经网络 (RNN) 的基本内容

简单RNN的局限性

长短期记忆（LSTM）网络

门控循环单元 (GRU)

基于RNN的序列到序列模型

章节 4: Transformer 架构

通过注意力机制解决循环问题

缩放点积注意力

多头注意力机制

位置编码方法

编码器与解码器堆叠

层归一化与残差连接的作用

章节 5: 大词汇量分词

子词分词的必要性

字节对编码 (BPE) 算法

WordPiece 分词

SentencePiece 实现

处理特殊分词

词汇量大小选择的权衡

章节 6: 大规模文本数据的获取与收集

确定潜在数据来源

使用 Common Crawl 数据

规模化网页抓取技术

使用开放许可数据集

数据获取的法律考量

章节 7: 数据清洗与预处理流水线

质量筛选策略

文本标准化方法

处理冗余内容与标记删除

近似重复和精确重复检测

语种识别与过滤

构建可扩展的预处理流水线

章节 8: 建立和管理大规模数据集

数据存储格式（文本、Arrow、Parquet）

分布式文件系统 (HDFS, S3)

数据索引用于高效检索

数据集版本管理与复现性

用于训练的流式数据加载器

章节 9: 训练中的数据取样策略

数据配比的重要性

来源权重策略

基于温度的采样

课程学习简介

数据步进与退火调度

章节 10: 从零开始实现Transformer

设置项目环境

实现缩放点积注意力

构建多头注意力层

实现位置感知前馈网络

构建编码器层和解码器层

组装完整的Transformer模型

章节 11: Transformer模型规模化：架构选择

神经网络语言模型的缩放定律

深度与宽度取舍

激活函数选择 (ReLU, GeLU, SwiGLU)

规范化层放置位置（前置LN vs. 后置LN）

稀疏注意力机制简介

章节 12: 深度网络的初始化方法

恰当初始化的重要性

Xavier（Glorot）初始化

Kaiming (何) 初始化

Transformer组件中的初始化

末尾层的小初始化

章节 13: 位置编码的变体

绝对位置编码的局限性

相对位置编码的原理

Shaw 等人的相对位置实现

Transformer-XL 相对位置编码

旋转位置编码 (RoPE)

章节 14: 高级架构改进

参数高效微调的需求

Transformer的适配器模块

专家混合模型 (MoE) 简介

MoE 中的路由机制

MoE 层中的负载均衡

章节 15: 分布式训练策略

动机：为什么要进行分布式训练？

数据并行 (DP)

张量并行 (TP)

流水线并行 (PP)

混合并行策略 (DP+TP, DP+PP等)

通信开销分析

章节 16: 实现分布式训练框架

分布式训练库概述

DeepSpeed 介绍

使用 DeepSpeed ZeRO 优化

Megatron-LM 介绍

配置 Megatron-LM 中的张量和流水线并行

结合框架与策略

章节 17: LLMs的优化算法

梯度下降算法变体回顾 (SGD, 动量)

自适应优化器：Adam和AdamW

学习率调度策略

梯度裁剪方法

选择优化器超参数 (lr, betas, eps, weight_decay)

章节 18: 大型语言模型训练的硬件考量

GPU 架构 (NVIDIA Ampere, Hopper)

TPU 架构（Google TPU）

内存需求（HBM、GPU显存）

互连技术 (NVLink, InfiniBand)

硬件选择的权衡 (成本、性能、可用性)

章节 19: 检查点和容错

长时间训练中检查点的必要性

保存模型状态（权重、优化器状态）

处理分布式检查点

异步检查点与同步检查点

检查点频率与存储管理

从检查点恢复训练

章节 20: 混合精度训练方法

浮点数格式（FP32、FP16、BF16）简介

低精度的好处（速度、内存）

FP16训练中的挑战（范围问题）

损失缩放技术

使用 BF16 (BFloat16) 格式

框架对混合精度（AMP）的支持

章节 21: 内在评估指标

语言模型评估方法

困惑度：定义与计算

理解困惑度得分

每字符/词比特数

分词对困惑度的影响

章节 22: 下游任务外部评估

下游任务评估的理由

常见下游自然语言处理任务

评估时的微调步骤

标准基准：GLUE 和 SuperGLUE

少量示例和零示例评估

开发定制评估任务

章节 23: 分析模型行为

解读大型语言模型的难题

注意力图可视化

探查内部表示

神经元激活分析

找出失效模式

章节 24: 识别与应对训练不稳定现象

不稳定性常见表现

监控训练指标（损失、梯度范数）

诊断损失飙升

调试数值精度问题

稳定方法回顾（梯度裁剪、学习率、预热）

架构选择对稳定性的影响

章节 25: 对齐微调：监督式微调 (SFT)

大型语言模型对齐的目标

监督微调（SFT）介绍

构建高质量指令数据集

SFT数据格式（提示词，回应）

SFT训练过程与超参数

评估SFT模型对齐目标

章节 26: 人类反馈强化学习 (RLHF)

RLHF 流程概述

收集人类偏好数据

训练奖励模型 (RM)

近端策略优化 (PPO) 介绍

KL散度惩罚的作用

RLHF中的挑战与考量

替代方法：直接偏好优化 (DPO)

章节 27: 模型压缩技术

模型压缩的动因

权重量化 (INT8, INT4)

激活量化考量

网络剪枝（结构化与非结构化）

评估性能与压缩的权衡

章节 28: 高效推理策略

自回归解码中的挑战

键值（KV）缓存

优化的注意力实现 (FlashAttention)

吞吐量批处理策略

章节 29: 大规模部署大型语言模型

LLM 交互的 API 设计

模型服务框架 (Triton, TorchServe)

处理并发请求

跨模型实例的负载均衡

监控服务性能和成本

章节 30: 持续训练与模型更新

持续改进的缘由

持续预训练策略

持续微调（SFT/RLHF）的策略

安全地整合新数据源

模型架构变动后的更新

版本管理、部署与回滚策略

优化的注意力实现 (FlashAttention)

这部分内容有帮助吗？

参考文献

FlashAttention: Fast and Memory-Efficient Exact Attention with IO-Aware Kernels, Tri Dao, Daniel Y. Fu, Stefano Ermon, Atri Rudra, and Christopher Ré, 2022 Advances in Neural Information Processing Systems (NeurIPS) 35 DOI: 10.48550/arXiv.2205.14135 - 这篇是介绍FlashAttention的原始论文，该算法通过减少内存I/O和利用GPU内存层次结构来优化自注意力机制。
FlashAttention-2: Faster Attention with Reduced I/O, Tri Dao, 2023 arXiv preprint arXiv:2307.08691 DOI: 10.48550/arXiv.2307.08691 - 这篇论文在原始FlashAttention的基础上，进一步优化了速度和效率，特别是在现代GPU架构上。
torch.nn.functional.scaled_dot_product_attention, PyTorch Developers, 2024 (PyTorch) - PyTorch官方文档，介绍了自动调用FlashAttention等优化注意力计算核的函数，对实际应用至关重要。

© 2025 ApX Machine Learning用心打造