实践：创建硬件规格表

理论提供依据，但将项目需求转化为具体的组件清单，是基础设施工程成为实用学科之处。创建硬件规格表是连接AI工作负载需求与功能性本地服务器的主要文件。此过程涉及应用既定原则，以做出明智的决定，并根据性能目标和限制条件说明你的选择。

想象一下，你是一家公司工程师，该公司希望构建一个内部知识库助手。目标是在公司私有文档上微调一个强大的开源大型语言模型。

你的任务是为一台旨在处理上述情景的服务器填写硬件规格表。该表格不仅应列出组件，还应为每项选择提供明确的理由，并将其与项目需求关联起来。

下面是你的规格表模板。我们将逐步填写LLM情景的表格，解释每项选择背后的原因。

类别	组件	所选规格	数量	理由
计算	图形处理单元 (GPU)	你的选择及原因	#	解释为什么此GPU型号、显存 (VRAM)容量和数量适用。
	中央处理单元 (CPU)	你的选择及原因	1	解释为什么此CPU与GPU和工作负载匹配。
平台	主板	你的选择及原因	1	根据GPU支持、PCIe通道和CPU兼容性进行说明。
	服务器机箱	你的选择及原因	1	根据外形尺寸、散热和组件兼容性进行说明。
内存	系统内存 (RAM)	你的选择及原因	#	计算数据预处理和系统开销所需的内存。
存储	主存储 (热数据)	你的选择及原因	#	解释活动数据集和操作系统的技术选择（例如NVMe）和容量。
	副存储 (冷数据)	你的选择及原因	#	解释选择用于存储完整数据集存档和模型检查点的原因。
网络	网络接口卡 (NIC)	你的选择及原因	1	说明所需的网络速度。
电源	电源单元 (PSU)	你的选择及原因	1	计算总功耗，并选择具有适当瓦数和效率等级的PSU，并留有余量。

我们来根据LLM微调 (fine-tuning)情景填充模板。

图形处理单元 (GPU)： NVIDIA RTX 4090，数量 4。
- 理由： Llama 3 70B模型需要大量显存 (VRAM)。一个700亿参数 (parameter)模型在全精度（FP32）下需要280 GB显存（ $700 \text{亿参数} \times 4 \text{ 字节/参数}$ ）。即使使用混合精度（FP16/BF16），仍需140 GB。使用四块RTX 4090 GPU，每块24 GB显存，总共提供96 GB。这足以使用量化 (quantization)（例如4位）和LoRA等技术对700亿模型进行微调。这四块GPU将并行工作，大幅缩短训练时间以达到48小时以内的目标。虽然A100等专业显卡提供更多显存和NVLink，但RTX 4090在此预算下提供了出色的性能成本比。通信将通过PCIe 4.0进行，这对于此规模来说足够快。
中央处理单元 (CPU)： AMD Ryzen Threadripper 7960X (24核)
- 理由： CPU在此的主要作用是向GPU提供数据并管理系统。它不需要最高的核数，但它绝对必须提供足够的PCIe通道。Threadripper平台提供大量PCIe 5.0通道，这对于同时为所有四块GPU提供最大带宽而不会造成瓶颈至关重要。24个核心足以处理后台操作系统任务和为GPU准备批次的数据加载流程。

所提议服务器架构图。CPU为每块GPU和主NVMe存储提供专用的高带宽PCIe通道，确保通信开销最小化。

主板： TRX50 芯片组主板
- 理由： 必须与Threadripper CPU (sTR5插槽) 兼容，并至少有四个PCIe x16插槽，且间距足够容纳双槽或三槽GPU。TRX50芯片组确保从CPU获得大量PCIe通道。
服务器机箱： 4U 机架式或全塔式工作站机箱
- 理由： 需要一个大型机箱来物理容纳四块大型GPU、主板，并提供充足的气流。4U机架式机箱适用于服务器机房，而全塔式机箱适用于办公环境。两者都必须具有出色的散热潜力，并配备多个高风量风扇。
系统内存 (RAM)： 256 GB DDR5
- 理由： 尽管GPU有自己的显存，但系统需要充足的内存用于数据预处理。对于500 GB数据集，数据加载器在将数据传输到GPU之前会将其分块读入系统内存。256 GB为操作系统、多名工程师的数据加载器以及其他应用程序提供了充足的缓冲，而不会导致系统交换到磁盘，这将是主要的性能障碍。

主存储 (热数据)： 4 TB NVMe Gen4 SSD
- 理由： 速度对于活动数据集非常重要。NVMe SSD提供极快的读取速度，确保数据流水线能够使GPU保持饱和。4 TB提供了足够的空间用于操作系统、软件和500 GB数据集，并有额外空间用于中间文件。
副存储 (冷数据)： 8 TB SATA SSD
- 理由： 700亿模型的检查点可能非常大（每个超过100 GB）。8 TB SATA SSD为存储多个检查点、实验日志和数据集备份提供了一种经济高效的方案。它比NVMe慢，但比硬盘驱动器 (HDD) 快得多且更可靠。
网络接口卡 (NIC)： 10 GbE (10千兆以太网)
- 理由： 500 GB数据集需要传输到服务器，结果需要共享。标准的1 GbE连接会是重要的瓶颈（仅数据集传输就需要一个多小时）。10 GbE提供10倍的速度提升，使团队的数据管理更高效。
电源单元 (PSU)： 2000W 80+ Titanium
- 理由： 功耗要求很高。每块RTX 4090可消耗高达450W，CPU在负载下可消耗超过300W。
- 总GPU功耗： $4 \times 450W = 1800W$ 。
- 此计算是简化估算；峰值功率可能更高。一个2000W的PSU提供了足够的余量。80+ Titanium认证确保高电源效率，减少废热和电费，这对于一台运行48小时高强度任务的服务器来说是重要的考量。

现在，使用空模板为以下更具限制性的情景创建你自己的规格表。

考虑这些不同要求将如何改变你的组件选择。例如，你仍然需要四块GPU吗？对于此任务，系统内存还是显存 (VRAM)更重要？24/7推理要求如何影响你的组件和PSU选择？此练习将增强你根据特定工作负载特征调整硬件选择的能力。