所有课程

AI 平台规划与优化

章节 1: AI 计算基础设施入门

人工智能工作负载概览

CPU在AI系统中的作用

GPU 在加速人工智能中的作用

CPU与GPU架构在机器学习中的对比

TPU及其他ASIC简介

内存及其对大型模型的重要性

AI数据集存储方案

分布式系统的网络考量

动手实践：CPU 与 GPU 性能对比

章节 2: 设计本地AI基础设施

评估工作负载需求

AI服务器硬件的选择

GPU 互联技术

高速存储配置

数据与模型传输的网络配置

功耗与散热要求

构建裸机AI服务器

实践：创建硬件规格表

章节 3: 借助云平台实现人工智能

主要云提供商的人工智能服务概览

托管AI服务与IaaS的比较

为训练选择虚拟机实例

选择用于推理和服务的实例

用于数据集的对象存储服务

理解云网络和虚拟私有云（VPC）

云中的安全考量

动手实践：启动GPU云实例

章节 4: 机器学习的容器化与编排

Docker 在可复现环境中的使用介绍

构建包含机器学习库的Docker镜像

Kubernetes 管理机器学习工作负载简介

Kubernetes 组件：Pod、Service、Deployment

在Kubernetes集群中管理GPU资源

使用 Kubeflow 构建机器学习管道

动手实践：在 Kubernetes 上部署模型

章节 5: 性能优化策略

识别性能瓶颈

分布式训练技术

混合精度训练的应用

模型量化以实现高效推理

优化数据加载和预处理管道

剖析GPU和CPU使用情况

实操练习：应用混合精度训练

章节 6: 成本管理与优化

分析本地部署总拥有成本

了解云定价模式

降低云算力成本的策略

管理数据存储与传输成本

实施成本监控与预警

工作负载的适度基础设施配置

实践：计算和比较任务成本

模型量化以实现高效推理

这部分内容有帮助吗？

参考文献

Post Training Quantization (PTQ) and Quantization Aware Training (QAT), PyTorch Contributors, 2019 (PyTorch Foundation) - PyTorch量化API的官方文档，提供了在PyTorch中实现训练后量化（PTQ）和量化感知训练（QAT）的实用指南和示例。
A Survey of Quantization Methods for Efficient Neural Network Inference, Amir Gholami, Song Han, Sheng Shen, Kaiyuan Yang, Shangyu Sun, Lu Hou, Zhuang Liu, Sehoon Kim, Bichen Wu, Matthew Yao, Michael W. Mahoney, Kurt Keutzer, 2021 arXiv preprint arXiv:2103.01533 DOI: 10.48550/arXiv.2103.01533 - 一篇全面的学术综述，详细介绍了各种量化方法、其理论基础以及高效神经网络推理的实践考量。
NVIDIA Deep Learning Performance Guide, NVIDIA Corporation, 2023 (NVIDIA Corporation) - 一份官方指南，提供了在NVIDIA GPU上优化深度学习模型性能的最佳实践，包括使用Tensor Cores进行混合精度训练和INT8推理的策略。

© 2025 ApX Machine Learning用心打造