趋近智
在开发和训练复杂的 PyTorch 模型之后,重点转向如何将它们投入实际应用。本章将介绍模型部署和性能优化,提供使模型在推理 (inference)时更快、更小、更节省资源的方法。
我们将介绍使用 TorchScript 进行模型序列化,学习跟踪和脚本两种方法。您将学习模型压缩技术,包括量化 (quantization)(静态、动态和量化感知训练)和剪枝策略,以减小模型大小和计算需求。我们将使用 PyTorch Profiler 来识别 CPU 和 GPU 执行中的性能瓶颈。此外,您还将学习将模型导出为 ONNX 格式以获得更广泛的兼容性,并学习使用 TorchServe 高效地提供模型服务。
在本章结束时,您将掌握分析模型性能的实用技能,并运用多种优化技术,这对于将 PyTorch 模型从开发环境部署到生产环境是必不可少的。
4.1 TorchScript 基础: 追踪与脚本化
4.2 模型量化技术
4.3 模型剪枝策略
4.4 PyTorch Profiler 性能分析
4.5 通过外部库优化算子
4.6 模型导出为 ONNX 格式
4.7 使用 TorchServe 提供模型服务
4.8 实践:模型性能分析与量化