部署模式：联机预测与批量预测

模型在训练和打包之后，需要决定如何为应用程序生成预测。这不只是一个技术细节；它定义了用户和系统如何与模型的智能进行交互。服务预测有两种主要方法：批量预测和联机预测。每种方法都有不同的用途，并在成本、速度和基础架构方面各有权衡。

批量预测（也称为离线预测）是模型一次性为大量观测数据计算预测的过程。批量处理不是全天候即时响应请求，而是按计划运行，例如每小时一次或每天一次。

假设你想向最有可能购买特定产品的客户发送每日促销邮件。由于不需要实时识别这些客户，可以每晚运行一次处理程序，分析当天的客户活动，生成目标客户列表，并保存该列表供营销团队在第二天早上使用。

这就是批量预测的本质。其工作流程通常如下：

典型的批量预测架构。模型作为定时作业运行，处理大量数据并将结果存储供以后使用。

当业务不需要立即获得预测结果时，批量预测非常适用。常见的案例包括：

这种模式的主要优点是高吞吐量 (throughput)和成本效益。由于任务对时间不敏感，你可以使用较便宜的计算资源，并在一次运行中处理数百万条记录。基础架构也更简单，因为不需要一个始终在线并随时准备响应的服务。缺点是高延迟；从数据产生到预测结果可用可能需要数小时甚至数天。

联机预测（也称为实时推理 (inference)或按需推理）旨在立即提供预测。在这种模式下，模型被部署为一个持久运行的服务（通常是 Web API），始终等待请求。

考虑一个必须决定是否批准信用卡交易的网站。当客户在结账处等待时，必须在几毫秒内做出决定。应用程序将交易详情发送到模型的 API，模型必须几乎瞬间返回“批准”或“拒绝”的预测。

这是联机预测的经典案例。其工作流程是一个直接的请求-响应循环：

联机预测架构，应用程序直接与模型 API 服务通信以获取即时预测。

只要应用程序需要立即响应才能正常运行，联机预测就是必须的。常见的例子包括：

这种模式的主要优点是低延迟。预测结果在毫秒内即可获得，从而实现交互式的用户体验。主要缺点与成本和复杂度有关。它需要维护一个高可用的服务来应对流量波动，这通常比简单的定时作业更昂贵，运维要求也更高。

选择正确的模式是设计机器学习 (machine learning)系统的初始步骤。这一决策由你的产品对速度、规模和成本的要求决定。

在实践中，一些复杂的系统甚至会使用混合方法。例如，电子商务网站可能每晚运行批量作业，为所有用户生成基础产品推荐。当用户登录时，联机模型可以根据用户在当前会话中的点击操作进一步优化这些推荐。

理解这两种基本模式是规划模型部署的重要组成部分，有助于确保部署方案符合你的应用需求。

参考文献

Designing Machine Learning Systems: An Iterative Process for Production-Ready AI, Chip Huyen, 2022 (O'Reilly Media) - 本书详细介绍了ML系统的端到端设计，其中包含专门讨论在线和批量推理部署策略的部分。
Machine Learning Engineering, Andriy Burkov, 2020 (True Positive Inc.) - 为ML系统的构建、部署和维护提供了实用指导，包括在不同操作环境中服务模型的架构考量。
MLOps: A guide to operations for machine learning, Google Cloud, 2023 (Google Cloud) - 从行业角度提供了MLOps最佳实践，涵盖了在健壮的ML生产系统中在线和批量预测等模型部署模式。
CS 329S: Machine Learning Systems Design - Lecture on Model Deployment, Chip Huyen, 2022 (Stanford University) - 斯坦福大学的课程材料，讨论了各种模型服务策略，包括在线和批量预测之间的差异和权衡。