趋近智
所有课程
4.1 量化后的推理优化技术
4.2 选择合适的部署框架
4.3 使用文本生成推理 (TGI) 进行部署
4.4 借助 vLLM 实现高吞吐量推理
4.5 使用 NVIDIA TensorRT-LLM 进行 GPU 优化
4.6 使用ONNX Runtime进行部署
4.7 容器化与扩展策略
4.8 监控已部署的量化模型
4.9 动手实操:通过推理服务器部署
© 2025 ApX Machine Learning