趋近智
运行大型语言模型,其对基础设施和数据管理的要求与小型模型有着很大差异。处理规模可达PB级 () 的训练数据集,以及调度数百甚至数千个GPU (),都需要特定的架构模式和操作方法。简单地扩展标准MLOps技术往往不足或成本过高。
本章侧重于构建和管理LLM运营基础的实际方面。您将学会如何:
我们首先考察可扩展计算和网络的设计原则,然后转到数据本身的管理,包括存储、预处理和版本控制。
2.1 设计可扩展的计算基础设施
2.2 分布式系统的网络考量
2.3 管理PB级数据集
2.4 大语言模型数据预处理流程
2.5 大型数据和模型的版本控制
2.6 云端与本地基础设施的权衡
2.7 实践:配置可扩展存储
© 2026 ApX Machine Learning用心打造