之前章节已阐述了Transformer架构的构成要素和理论原理。本章将重心转向这些模型在构建、训练和优化时的实际操作方面。我们会讨论重要的实现选择,首先是从选择合适的深度学习框架(PyTorch、TensorFlow、JAX)以及应用恰当的权重初始化策略开始。训练过程中的主要方面将进行考察,包括$Adam$ 和 $AdamW$ 等优化器的使用,学习率调度(包含预热和衰减阶段)的必要性,以及常见的正则化技术,如Dropout和Label Smoothing。此外,保证训练稳定性的方法,例如梯度裁剪,也将进行介绍。我们还会研究提升计算效率和减少内存占用的技术,例如混合精度训练以及I/O感知型注意力算法,如FlashAttention。最后,本章会介绍在多个计算设备上采用数据并行和模型并行来扩展训练的基本策略。