趋近智
到目前为止,您已经完成对参数 (parameter)高效适配器的训练与评估。微调 (fine-tuning)过程产出了一组 LoRA 权重 (weight),这些权重充当原始模型的修改项。为了在生产环境中高效运行模型,需要将这些更新后的权重与基础架构结合起来。
本章介绍将模型从训练产物转变为部署应用所需的具体步骤。首先,您将把训练好的 LoRA 适配器融合到基础模型层中。对于基础权重矩阵 和低秩适配器矩阵 与 ,合并后的权重矩阵计算如下:
此操作使模型能够独立运行,无需在推理 (inference)时动态应用适配器层,从而消除了额外的计算开销。
合并权重后,您会将最终模型导出为 Safetensors 格式。这种格式提供了一种安全且快速的机制,可将张量直接加载到内存中。随后,您将配置 vLLM 来运行模型,以实现高吞吐量 (throughput)的本地推理。最后,您将编写一个 RESTful API 来封装该模型服务,以便外部应用程序可以通过编程方式发送文本生成请求。在本节结束时,您将拥有一套部署在本地服务器上、能够处理即时查询且功能完备的特定任务语言模型。
7.1 将 LoRA 适配器与基础模型合并
7.2 将模型导出为 Safetensors 格式
7.3 使用 vLLM 部署 SLM
7.4 API 集成策略
7.5 实践:在本地部署自定义模型