趋近智
大语言模型(LLMs)展现出令人瞩目的能力,但其计算需求给部署带来了不小的难题。本章将说明为何需要优化。我们将考察模型大小与资源需求之间的关系,这通常由缩放定律描述,例如 ,其中 代表参数量或数据大小。
您将学会识别推理过程中的主要瓶颈,特别是内存带宽限制和计算制约。我们将分析Transformer架构的特定组成部分如何影响效率,并介绍用于评估模型压缩和速度的标准指标。此外,我们将概览用于大语言模型的常见硬件平台(CPU、GPU、TPU),并提及优化工作中固有的理论权衡。学完本章,您将对驱动本课程其余部分所讲技术的根本效率问题有扎实的理解。
1.1 LLM的规模法则与计算成本
1.2 LLM推理中的内存带宽和计算瓶颈
1.3 实现效率的架构考量
1.4 评估LLM压缩与延迟的衡量标准
1.5 LLM 部署的硬件
1.6 压缩与加速的理论边界
© 2026 ApX Machine Learning用心打造