趋近智
推理 (inference)是指使用预训练 (pre-training)的LLM来生成文本、回答问题或执行其他语言任务。实现这一过程需要特定的硬件资源。推理对硬件的要求通常比训练低,但它们仍然与你打算运行的模型大小直接相关。
运行LLM推理 (inference)最直接的硬件考量是内存。具体来说,你需要足够的内存来存储模型的参数 (parameter)。
可以将模型参数视为一本非常大的操作手册。VRAM就像工人(GPU)旁边的操作台。如果手册能放在操作台上,工人可以非常快地查阅。如果手册太大,必须放在房间另一边的架子上(系统RAM),工人就必须不断来回走动,大大减慢整个过程。
因此,在考虑推理硬件时的首要问题是:“我是否有足够的VRAM来加载所需的模型?”
我们将在第五章讨论如何估算这一点,但基本原理是:更大的模型(更多参数)需要更多的VRAM。使用量化 (quantization)等方法(在第三章简要介绍)可以减少内存占用,使得更大的模型能够适应更少的VRAM,但基本要求仍然是:模型(可能经过压缩)必须能够装入内存。
虽然拥有足够的VRAM对于加载模型是必要的,但GPU的处理能力决定了推理 (inference)运行的速度。推理涉及使用模型参数 (parameter)和输入提示来执行大量计算(矩阵乘法)以生成输出。
因此,VRAM决定了你能否运行模型,而GPU的计算能力和内存带宽则决定了你能多快运行它。
此图显示了不同硬件组件对LLM推理速度的普遍影响,前提是VRAM足以首先加载模型。GPU计算和带宽是性能(每秒标记数)的主要驱动因素。
系统内存和CPU在推理 (inference)过程中也扮演着重要的辅助作用。
总而言之,对于推理,你需要:
了解这些作用在选择硬件或决定现有系统可以运行哪些模型时是很重要的。对于大多数与预训练 (pre-training)LLM交互的用户来说,重点将是满足这些推理要求,这些要求远不如从头开始训练模型的要求密集。
这部分内容有帮助吗?
© 2026 ApX Machine Learning用心打造