优化大型语言模型,通过量化或剪枝等方法,解决了模型大小和计算复杂性问题。然而,实现大幅度推理速度提升需要模型与底层硬件和系统软件的有效配合。本章将侧重于加速大语言模型执行的方法,即根据特定硬件能力调整计算方式并优化周边系统组件。您将了解到:将大语言模型核心操作,例如注意力机制和矩阵乘法,映射到不同的硬件架构上,包括CPU、GPU和专用加速器。管理大语言模型庞大内存需求的策略,包括激活检查点和高效缓存等技术。运用专用的、高度优化的软件例程(核函数)进行大语言模型核心计算,以最大化硬件吞吐量。编译器如何通过算子融合和内存布局优化等技术提升性能。采用张量并行和流水线并行,实现跨多个设备的分布式推理方法。专门设计用于加速生成过程的算法,例如推测解码。跨不同硬件平台的性能基准测试系统化方法。优化框架和运行时(例如ONNX Runtime、TensorRT或vLLM)的实际操作。理解这些硬件和系统层面的优化,有助于弥合理论上压缩模型与实际快速部署之间的差距。