趋近智
大师班
训练大型语言模型是一个资源消耗大的过程,在大型计算集群上常常持续数天甚至数周。鉴于持续时间长,遇到硬件故障、软件问题或意外中断的可能性很大。如果没有保存进度的办法,这些中断可能导致训练从头开始,浪费大量计算资源和时间。
本章讨论了在大型训练中通过检查点保存实现容错的实际需要。我们将介绍定期保存训练作业完整状态所需的方法。您将学到:
19.1 长时间训练中检查点的必要性
19.2 保存模型状态(权重、优化器状态)
19.3 处理分布式检查点
19.4 异步检查点与同步检查点
19.5 检查点频率与存储管理
19.6 从检查点恢复训练
© 2026 ApX Machine Learning用心打造