在对模型进行推理优化并建立可伸缩的基础设施之后,重点转向通过明确定义的接口来展现模型的功能。本章讨论构建应用程序编程接口 (API),这些API专门用于高效地大规模处理扩散模型的推理请求。您将考察适用于生成式任务的API设计模式,包括通过异步操作和消息队列来管理长时间运行的图像生成过程的策略。请求批处理以最大化GPU吞吐量、实现速率限制以保护服务、处理身份验证以及管理API版本等技术都将涉及。目标是让您掌握构建可靠高效的访问点所需的知识,以用于您已部署的扩散模型。