趋近智
现代LLM的庞大体量要求进行优化以实现实际应用。但我们如何衡量这些优化工作的成效呢?如果模型性能下降到无法接受的程度,仅仅减小模型尺寸或提升速度是不够的。评估优化后的LLM需要采取多方面的方法,平衡效率提升与模型质量的潜在损失。我们需要精确的衡量标准来量化 (quantization)这两个方面。
主要目标通常是在不显著损害其能力的前提下压缩或加速LLM。评估这一点需要仔细的衡量,通常结合使用自动化衡量标准和针对特定任务的基准。
标准语言模型衡量标准: 困惑度(PPL)是衡量语言模型预测给定文本语料库能力的一种常见内在衡量指标。较低的PPL通常表明与数据有更好的统计拟合度。它的计算方法是每个单词平均负对数似然的指数: 其中 是语料库, 是模型分配的概率。尽管有用,PPL并不总是与下游任务的性能完全相关,特别是复杂的推理 (inference)或生成任务。对于翻译或摘要等任务,BLEU、ROUGE和METEOR等外部衡量标准通过比较生成文本与参考文本来提供更直接的输出质量衡量。
下游任务基准: 评估优化后LLM最具参考价值的方法通常是衡量其在特定预期任务上的性能。这包括使用既定的基准测试套件,例如:
"* 人工评估: 对于生成模型,自动化衡量标准通常无法捕捉连贯性、创造力、事实准确性或安全性等方面。尽管人工评估资源消耗大,但它仍然是评估生成输出的可用性和质量的重要组成部分。"
校准: 优化,特别是量化 (quantization),有时会影响模型的校准——即其预测的置信度得分反映实际正确可能性的程度。评估校准(例如,使用预期校准误差)对于需要可靠置信度估计的应用程序来说是必要的。
稳定性与公平性: 压缩和加速可能会在细微处无意中改变模型的行为,可能影响其对分布外输入的稳定性或放大现有偏见。尽管更详细的分析将在后面讨论,初步评估应包含检查这些方面是否受到明显负面影响。
效率衡量标准量化 (quantization)通过优化技术获得的收益。这些通常分为与尺寸、速度和计算资源相关的类别。
压缩衡量标准:
延迟和吞吐量 (throughput)衡量标准: 这些衡量推理 (inference)速度。
计算成本衡量标准:
优化很少是免费的。模型忠实度(准确性、质量)与效率提升(尺寸、速度)之间几乎总是存在权衡。目标是推进帕累托前沿——在给定忠实度水平下实现尽可能好的效率,反之亦然。将这些权衡可视化对于为特定使用场景选择正确的优化策略来说非常必要。
任务准确度与推理 (inference)延迟之间的权衡,针对应用于LLM的不同优化技术。图中偏向右上方的点表示高准确度和低延迟的更好组合。
选择合适的衡量标准在很大程度上取决于目标应用程序和部署限制。实时聊天机器人优先考虑低TTFT和每token延迟,而批处理系统可能优先考虑吞吐量 (throughput)和能效。此外,延迟和吞吐量基准只有在与测试所用的特定硬件(CPU、GPU型号、内存)和软件堆栈(如TensorRT、vLLM、ONNX Runtime等推理库)相关联时才具有意义。严谨和标准化的基准测试对于有效比较技术来说非常必要。理解这些衡量标准为评估后续章节中讨论的先进优化技术奠定了基础。
这部分内容有帮助吗?
© 2026 ApX Machine LearningAI伦理与透明度•