趋近智
大师班
构建大型语言模型需要扎实掌握其背后的数学原理。尽管深度学习框架处理许多底层计算,但理解这些数学对于设计高效架构、理解训练过程、调试诸如梯度爆炸 (∇L→∞) 等问题以及实现自定义组件都很有帮助。
本章将回顾构成本课程所讨论技术支撑的主要数学内容。我们将回顾:
我们还将确立后续章节中使用的数学符号,以确保清晰。本次回顾旨在重温这些知识,为全面理解大型语言模型构建和训练的技术细节提供必要的背景。
2.1 线性代数回顾:向量与矩阵
2.2 微积分回顾:梯度与优化
2.3 概率与统计基础知识
2.4 数值稳定性考量
2.5 本课程中使用的符号表示
© 2026 ApX Machine Learning用心打造