尽管计算资源,特别是GPU,在大型扩散模型部署的运营开销中占很大一部分,但数据传输成本可能意外增加并影响总预算。这些成本源于数据在不同网络位置之间的传输,例如存储和计算实例之间、可用区或区域之间,或传送到公共互联网。随着部署规模扩大,处理更多请求或跨多个地理位置运行,优化数据传输变得越来越重要。
本节重点是找出扩散模型工作流程中数据传输成本的主要来源,并提出减少这些成本的方法,这基于本章前面讨论的高级部署模式。
找出数据传输成本的驱动因素
在典型的扩散模型部署架构中,有几种类型的数据传输会产生费用:
-
模型加载: 扩散模型通常很大(数千兆字节)。将这些模型文件从对象存储(如AWS S3、Google Cloud Storage或Azure Blob Storage)传输到计算实例(GPU虚拟机或容器Pod)会产生费用,特别是当:
- 扩容时:新实例需要下载模型。
- 使用Spot实例时:被抢占的实例会丢失其状态,导致替换实例需要重新下载模型(在“处理GPU故障和Spot实例中断”中讨论过)。
- 多区域部署时:模型可能需要传输到多个区域或在多个区域中冗余存储。
- 模型更新时:推出新模型版本涉及传输更新后的文件。
-
输出图片交付: 生成的图片,特别是高分辨率的图片,文件大小可能很大。从推理服务传输这些图片:
- 到最终用户(出站流量到互联网)。
- 到持久化对象存储以供后续获取。
-
服务间通信: 在基于微服务的架构或分布式系统中:
- 服务之间的流量(例如,API网关、请求队列、推理工作器)可能跨越可用区边界,产生可用区间传输费用。
- 在多区域设置中,跨区域通信可能明显更昂贵。
-
监控和日志数据: 将指标、日志和追踪数据从推理实例发送到中心监控或日志系统,特别是当这些系统在VPC外部或在不同区域时。
以下图表说明了可能产生传输成本的典型数据流:
典型的扩散模型部署中的数据流,突出显示了可能产生数据传输成本的点:(1) 模型下载,(2) 直接出站(不太理想),(3) CDN出站(优化过的),(4) 存储写入(区域内通常成本较低),(5) 服务间通信。
优化策略
优化数据传输成本涉及减少数据传输量并选择成本效益高的路径。
优化模型传输
- 区域本地化: 将模型文件存储在与推理计算资源相同的云区域中。大多数云提供商在同一区域内,存储服务(如S3/GCS)与计算实例之间的数据传输是免费或成本很低的。除非你的架构绝对需要,否则应避免从不同区域的存储桶中获取模型。
- 计算节点缓存: 在计算节点本身上实现缓存机制。模型下载后,将其本地保留在实例的磁盘上(如果适用,也可以是EFS/NFS等共享文件系统),以避免在新任务到来或容器重启时(如果底层存储是持久化的)重复下载。这对于运行多个请求的无状态推理服务特别有效。确保你的编排系统(例如Kubernetes)智能地调度Pod,以便尽可能使用现有缓存的模型。
- 共享文件系统: 对于单个可用区或区域内的集群,使用由所有推理工作器挂载的网络文件系统(如AWS EFS、Google Filestore、Azure Files)可以集中存储模型。将模型一次下载到共享卷,所有实例都可以访问它,从而减少重复下载。请注意文件系统本身的性能特点和成本。
- 容器镜像层: 将大型、稳定的模型文件打包到容器镜像层中。虽然这会增加镜像大小,但容器运行时通常会缓存层,如果基础层在同一节点上的多个模型版本或实例之间重复使用,可能会减少下载时间和成本。如果模型不经常变化,这种方法效果最好。
优化输出图片传输
这通常是出站成本的最大来源。
- 图片压缩和格式: 在将生成的图片从推理服务传输出去或存储之前,应用压缩。
- 使用WebP或AVIF等高效格式,这些格式在相同的感知质量下,通常比JPEG或PNG等旧格式提供更好的压缩比。
- 根据应用程序对质量降低的容忍度,应用适当的有损压缩级别。即使是轻微的压缩,在大规模部署中也能带来显著的数据节省。
- 内容分发网络 (CDN): 这是服务生成内容的基本优化方法。
- 配置你的应用程序,将最终图片保存到与推理服务在同一区域内的对象存储(S3、GCS等)中。
- 通过CDN(AWS CloudFront、Google Cloud CDN、Cloudflare等)将图片服务给最终用户,CDN的源站配置为该对象存储桶。
- CDN在更接近用户的边缘位置缓存内容,从而提高加载时间。重要的是,从云存储到CDN的数据传输通常比从存储或计算实例直接传输到互联网(出站)明显便宜得多。有时,这种传输(源站拉取)甚至是免费的。出站成本转移到CDN,而CDN通常具有比标准云出站低得多的每GB费率。
预估月度出站成本对比,直接从云计算/存储传输数据对比使用CDN。假设了示例性定价层级;实际成本因提供商和使用量而异。请注意,在较高数据量下,使用CDN有显著的节省潜力。
- 直接存储上传: 确保你的推理工作器直接将生成的图片写入同一区域的目标对象存储桶中。避免不必要地将图片数据路由回API网关或其他中间服务,因为这会产生额外的内部数据传输步骤和潜在成本。
优化内部和监控流量
- 私有网络: 在同一区域内,使用私有端点(例如,AWS服务的VPC Endpoint、Google私有访问、Azure Private Link)进行你的服务(API、队列、工作器)与云提供商服务(存储、数据库)之间的通信。这些私有连接上的流量通常保留在提供商的网络内部,并避免公共互联网数据传输费用。
- 可用区感知: 尽管通常比区域间传输成本低,但同一区域内可用区(AZ)之间的数据传输仍可能产生费用。如果在非常大的规模下运行并以最低成本为目标,可以考虑可用区感知路由或将频繁通信的服务部署在同一可用区内等策略,尽管这会增加架构复杂性并可能影响弹性。
- 日志/指标聚合和过滤: 通过以下方式减少传输的监控数据量:
- 在将指标发送到中心系统之前,在实例本地或可用区内聚合指标。
- 过滤掉低优先级日志或在源头采样日志。
- 选择提供高效数据传输协议或代理的监控解决方案。
通过仔细分析数据流模式并应用这些优化技术,特别是采用模型的区域本地化和CDN进行输出交付,你可以有效管理和减少大规模部署扩散模型所产生的数据传输成本。