所有课程

高级AI基础设施设计与优化

章节 1: 第1章：人工智能平台的架构模式

规模化MLOps原则

算力选择：CPU、GPU 和 TPU 架构

分布式系统的高带宽互连

大规模AI数据集的存储方案

机器学习集群的网络拓扑

实践环节：环境与工具设置

章节 2: 第二章：分布式模型训练的工程化

数据并行：同步与异步更新

大型模型的模型与流水线并行

使用 Horovod 进行训练

使用 Microsoft DeepSpeed 实现 ZeRO 和卸载

长时间运行任务中的容错与检查点技术

动手实践：使用 PyTorch FSDP 进行分布式训练

章节 3: 第三章：使用Kubernetes进行高级资源编排

使用 KubeFlow Pipelines 管理机器学习工作流程

高级GPU调度与共享

面向动态机器学习工作负载的集群自动扩缩容

使用竞价实例和可抢占实例的策略

通过命名空间、配额和优先级类实现多租户

实践：配置GPU感知型自动扩缩组

章节 4: 第4章：高性能模型推理与服务

针对延迟和吞吐量的推理服务架构设计

使用 TensorRT 和 ONNX Runtime 进行模型优化

模型量化技术：INT8和FP8

NVIDIA Triton 推理服务器的多模型服务

模型的A/B测试与金丝雀部署

实战操作：在Triton上部署优化模型

章节 5: 第5章：可伸缩数据管理与特征工程

特征存储的设计与实施

实时与批处理特征计算

结合 DVC 和 Pachyderm 的数据版本控制与血缘追溯

高吞吐量数据处理：Spark 与 Ray

AI数据湖和数据仓储管理

实践：构建一个基本特征摄取管道

章节 6: 第6章：AI的财务运营与治理

将 FinOps 原则应用于机器学习工作负载

机器学习团队的成本归因与分摊模型

优化数据集的云存储成本

为训练和推理合理配置计算资源

自动化成本异常检测

资源消耗治理策略

实践：分析云成本和使用报告

大型模型的模型与流水线并行

这部分内容有帮助吗？

参考文献

GPipe: Efficient Training of Giant Models using Pipeline Parallelism, Yanping Huang, Youlong Cheng, Ankur Bapna, Orhan Firat, Dehao Chen, Mia Chen, HyoukJoong Lee, Jiquan Ngiam, Quoc V Le, Yonghui Wu, Zhifeng Chen, 2019 Advances in Neural Information Processing Systems, Vol. 32 (NeurIPS) DOI: 10.5555/3454287.3455115 - 介绍了带微批处理的流水线并行，以提高设备利用率，解决训练大型模型时的“流水线气泡”问题。
Megatron-LM: Training Multi-Billion Parameter Language Models Using Model Parallelism, Mohammad Shoeybi, Mostofa Patwary, Raul Puri, Patrick LeGresley, Jared Casper, Bryan Catanzaro, 2019 arXiv preprint arXiv:1909.08053 DOI: 10.48550/arXiv.1909.08053 - 描述了如何为超大型语言模型实现张量（层内）和流水线并行，包括通信和混合方法的讨论。
DeepSpeed: Pipeline Parallelism, DeepSpeed Team, 2023 (Microsoft) - 提供了在DeepSpeed框架中实现流水线并行和先进调度技术的实践指导。

© 2025 ApX Machine Learning用心打造