训练大型语言模型需要大量计算资源。这些模型规模庞大,通常包含数十亿或数万亿参数,对传统硬件的能力造成了挑战。本章将介绍使大型语言模型训练得以实现的硬件系统。我们将研究图形处理单元(GPU)和张量处理单元(TPU)的具体特性,它们专门用于加速深度学习计算。你将了解内存需求,尤其是高带宽内存(HBM),以及NVLink和InfiniBand等高速互连技术在分布式训练配置中的作用。我们还将分析硬件选择中涉及的权衡,包括成本、性能和可用性。扎实理解这些硬件考量对于规划和管理大规模模型训练来说非常重要。