ApX 标志

趋近智

AI 平台规划与优化
章节 1: AI 计算基础设施入门
人工智能工作负载概览
CPU在AI系统中的作用
GPU 在加速人工智能中的作用
CPU与GPU架构在机器学习中的对比
TPU及其他ASIC简介
内存及其对大型模型的重要性
AI数据集存储方案
分布式系统的网络考量
动手实践:CPU 与 GPU 性能对比
章节 2: 设计本地AI基础设施
评估工作负载需求
AI服务器硬件的选择
GPU 互联技术
高速存储配置
数据与模型传输的网络配置
功耗与散热要求
构建裸机AI服务器
实践:创建硬件规格表
章节 3: 借助云平台实现人工智能
主要云提供商的人工智能服务概览
托管AI服务与IaaS的比较
为训练选择虚拟机实例
选择用于推理和服务的实例
用于数据集的对象存储服务
理解云网络和虚拟私有云(VPC)
云中的安全考量
动手实践:启动GPU云实例
章节 4: 机器学习的容器化与编排
Docker 在可复现环境中的使用介绍
构建包含机器学习库的Docker镜像
Kubernetes 管理机器学习工作负载简介
Kubernetes 组件:Pod、Service、Deployment
在Kubernetes集群中管理GPU资源
使用 Kubeflow 构建机器学习管道
动手实践:在 Kubernetes 上部署模型
章节 5: 性能优化策略
识别性能瓶颈
分布式训练技术
混合精度训练的应用
模型量化以实现高效推理
优化数据加载和预处理管道
剖析GPU和CPU使用情况
实操练习:应用混合精度训练
章节 6: 成本管理与优化
分析本地部署总拥有成本
了解云定价模式
降低云算力成本的策略
管理数据存储与传输成本
实施成本监控与预警
工作负载的适度基础设施配置
实践:计算和比较任务成本