所有课程

AI 平台规划与优化

章节 1: AI 计算基础设施入门

人工智能工作负载概览

CPU在AI系统中的作用

GPU 在加速人工智能中的作用

CPU与GPU架构在机器学习中的对比

TPU及其他ASIC简介

内存及其对大型模型的重要性

AI数据集存储方案

分布式系统的网络考量

动手实践：CPU 与 GPU 性能对比

章节 2: 设计本地AI基础设施

评估工作负载需求

AI服务器硬件的选择

GPU 互联技术

高速存储配置

数据与模型传输的网络配置

功耗与散热要求

构建裸机AI服务器

实践：创建硬件规格表

章节 3: 借助云平台实现人工智能

主要云提供商的人工智能服务概览

托管AI服务与IaaS的比较

为训练选择虚拟机实例

选择用于推理和服务的实例

用于数据集的对象存储服务

理解云网络和虚拟私有云（VPC）

云中的安全考量

动手实践：启动GPU云实例

章节 4: 机器学习的容器化与编排

Docker 在可复现环境中的使用介绍

构建包含机器学习库的Docker镜像

Kubernetes 管理机器学习工作负载简介

Kubernetes 组件：Pod、Service、Deployment

在Kubernetes集群中管理GPU资源

使用 Kubeflow 构建机器学习管道

动手实践：在 Kubernetes 上部署模型

章节 5: 性能优化策略

识别性能瓶颈

分布式训练技术

混合精度训练的应用

模型量化以实现高效推理

优化数据加载和预处理管道

剖析GPU和CPU使用情况

实操练习：应用混合精度训练

章节 6: 成本管理与优化

分析本地部署总拥有成本

了解云定价模式

降低云算力成本的策略

管理数据存储与传输成本

实施成本监控与预警

工作负载的适度基础设施配置

实践：计算和比较任务成本

内存及其对大型模型的重要性

这部分内容有帮助吗？

参考文献

Adam: A Method for Stochastic Optimization, Diederik P. Kingma, Jimmy Ba, 2015 International Conference on Learning Representations (ICLR) DOI: 10.48550/arXiv.1412.6980 - 介绍了 Adam 优化器，详细阐述了其设计以及每个参数的两个一阶和二阶矩估计，解释了其内存占用。
Deep Learning, Ian Goodfellow, Yoshua Bengio, Aaron Courville, 2016 (MIT Press) - 一本基础教材，涵盖了神经网络训练、反向传播以及激活值和参数的内存注意事项。
NVIDIA Deep Learning Performance Guide, NVIDIA Corporation, 2023 (NVIDIA Corporation) - 官方指南，详细介绍了在 NVIDIA GPU 上优化深度学习性能的最佳实践，包括内存管理考量。
ZeRO: Memory Optimizations Toward Training Trillion-Parameter Models, Samyam Rajbhandari, Jeff Rasley, Olatunji Ruwase, Yuxiong He, 2020 Proceedings of the International Conference for High Performance Computing, Networking, Storage and Analysis (SC '20) (ACM) DOI: 10.1145/3410464.3410714 - 介绍了 ZeRO，这是一系列内存优化技术，通过在多个 GPU 之间高效分发模型状态，对于训练数十亿参数的模型至关重要。

© 2025 ApX Machine Learning用心打造