ApX 标志

趋近智

高级AI基础设施设计与优化
章节 1: 第1章:人工智能平台的架构模式
规模化MLOps原则
算力选择:CPU、GPU 和 TPU 架构
分布式系统的高带宽互连
大规模AI数据集的存储方案
机器学习集群的网络拓扑
实践环节:环境与工具设置
章节 2: 第二章:分布式模型训练的工程化
数据并行:同步与异步更新
大型模型的模型与流水线并行
使用 Horovod 进行训练
使用 Microsoft DeepSpeed 实现 ZeRO 和卸载
长时间运行任务中的容错与检查点技术
动手实践:使用 PyTorch FSDP 进行分布式训练
章节 3: 第三章:使用Kubernetes进行高级资源编排
使用 KubeFlow Pipelines 管理机器学习工作流程
高级GPU调度与共享
面向动态机器学习工作负载的集群自动扩缩容
使用竞价实例和可抢占实例的策略
通过命名空间、配额和优先级类实现多租户
实践:配置GPU感知型自动扩缩组
章节 4: 第4章:高性能模型推理与服务
针对延迟和吞吐量的推理服务架构设计
使用 TensorRT 和 ONNX Runtime 进行模型优化
模型量化技术:INT8和FP8
NVIDIA Triton 推理服务器的多模型服务
模型的A/B测试与金丝雀部署
实战操作:在Triton上部署优化模型
章节 5: 第5章:可伸缩数据管理与特征工程
特征存储的设计与实施
实时与批处理特征计算
结合 DVC 和 Pachyderm 的数据版本控制与血缘追溯
高吞吐量数据处理:Spark 与 Ray
AI数据湖和数据仓储管理
实践:构建一个基本特征摄取管道
章节 6: 第6章:AI的财务运营与治理
将 FinOps 原则应用于机器学习工作负载
机器学习团队的成本归因与分摊模型
优化数据集的云存储成本
为训练和推理合理配置计算资源
自动化成本异常检测
资源消耗治理策略
实践:分析云成本和使用报告