趋近智
基于前面学过的部署方法,本章解决大规模运行扩散模型时经常遇到的更复杂的运行要求。你将学习到一些技术,用于在地理上分散模型,通过多区域架构以降低延迟并提高可用性。我们将介绍安全引入变更的方法,例如对新模型版本或采样参数 (parameter)进行A/B测试。此外,本章还提出用于成本优化的高级策略,包括有效使用竞价实例以及减轻其中断影响的方法。最后,我们将分析具体的运行挑战,例如管理冷启动延迟以及配置适合扩散模型推理 (inference)长时间处理的负载均衡。
6.1 多区域与全球部署策略
6.2 金丝雀发布与 A/B 测试模型
6.3 高级成本优化策略
6.4 处理 GPU 故障和竞价实例中断
6.5 优化数据传输成本
6.6 无服务器和容器环境中的冷启动
6.7 有状态/长时间任务的负载均衡策略