尽管中央处理器(CPU)处理一般计算任务,内存(RAM)提供主要工作空间,但图形处理器(GPU)及其专用内存——显存(VRAM),在大语言模型(LLM)的运行提速中扮演着重要角色。可以把中央处理器看作一位能够处理复杂、顺序任务的资深经理,而图形处理器则是一个庞大的团队,擅长同时进行大量简单重复的计算。图形处理器擅长运行大语言模型的原因大语言模型执行大量的数学运算,主要是矩阵乘法以及对大型数据集(称为张量)的相关计算。这些运算本质上是并行的,这意味着许多计算可以同时独立进行。中央处理器: 拥有少数核心,适合处理复杂多样的任务,按顺序执行或仅有有限的并行能力。面对大语言模型的庞大并行计算需求时,它们的效率较低。图形处理器: 包含数千个较小的专用核心,专门用于并行计算。这种架构使得它们在处理大语言模型所需的那类数学运算时速度极快,在这些特定任务上通常比中央处理器有明显优势。运行大语言模型,就好比需要同时计算数千片落叶的轨迹。中央处理器(经理)会一片一片或几片几片地计算,耗时很久。图形处理器(大型团队)则会将每片叶子的计算分派给不同的工作人员,从而大大加快完成任务的速度。显存的重要性正如你的电脑需要内存供中央处理器处理数据一样,图形处理器也需要自己的专用高速内存:显存(VRAM)。存储内容: 显存保存着大语言模型的参数(常称为“权重”),这些是模型训练过程中学习到的数值,它们决定了模型的运作方式。它还存储文本生成过程中所需的中间计算结果(激活值)。对性能的直接影响: 为了让图形处理器以最高速度运行,整个模型及其工作数据都需要装入显存。如果模型对于现有显存来说过大,部分内容就必须在较慢的系统内存和显存之间频繁交换,甚至卸载到中央处理器。这种交换过程会大幅降低运行效能,常常使大语言模型感觉迟缓或无响应。你的图形处理器拥有的显存量直接限制了你能有效运行的大语言模型的大小。显存需求估算模型大小通常以亿参数(例如70亿、130亿、700亿)为单位来衡量。所需的显存量取决于模型的大小及其格式,特别是其存储效率(这是一种称为量化的方法,我们将在第3章中介绍)。以下是运行GGUF等格式的量化模型(这些模型更小,常在本地使用)的一些大致估算:小型模型(例如,约30亿参数): 在配备4GB显存的系统上可能运行尚可,尽管6GB及以上会更好。中型模型(例如,70亿-80亿参数): 通常需要至少6GB到8GB的显存才能获得良好的运行体验。大型模型(例如,130亿参数): 通常需要10GB到12GB或更多显存。超大型模型(例如,300亿以上参数): 需求明显增加,常常需要24GB、48GB或更多显存。这些通常需要高端消费级或专业级图形处理器。{ "layout": { "title": "量化模型(GGUF Q4_K_M)所需显存估算", "xaxis": { "title": "模型大小(亿参数)" }, "yaxis": { "title": "估算显存(GB)" }, "colorway": ["#1c7ed6", "#748ffc", "#d0bfff", "#f783ac", "#ff8787"] }, "data": [ { "type": "bar", "x": ["30亿", "70亿", "130亿", "340亿", "700亿"], "y": [3, 5, 9, 20, 40], "name": "估算显存" } ] }加载常用量化模型(例如Q4_K_M GGUF格式)所需的显存估算。实际使用情况会因量化级别、软件和上下文长度而异。请记住,这些是运行(推理)模型的估算,而不是模型训练所需的资源,后者需要更多的资源。稍后讨论的量化方法,通过以较低精度表示参数,使大型模型能够适应较少的显存,通常对输出质量影响很小。图形处理器类型与软件兼容性存在多种类型的图形处理器,软件支持情况可能不同:英伟达图形处理器(GeForce, RTX, Quadro): 由于英伟达成熟的CUDA并行计算平台,它们通常为大语言模型提供最好的运行效能和最广泛的软件兼容性。多数大语言模型工具首先针对CUDA进行优化。选择图形处理器时,请关注其CUDA核心数量,并且重要的是,要有充足的显存(例如RTX 3060 12GB,RTX 3090/4090 24GB)。AMD图形处理器(Radeon RX): 大语言模型的运行效能正在改善,AMD的ROCm软件栈提供了一种替代CUDA的方案。然而,与英伟达相比,与所有大语言模型工具的兼容性有时可能需要额外的配置步骤或特定软件版本。请查看你计划使用的工具(如Ollama、LM Studio、llama.cpp)的文档,了解对AMD的支持情况。Apple Silicon(M1、M2、M3系列): 这些芯片采用统一内存架构。这意味着中央处理器和图形处理器高效地共享相同的系统内存池。虽然你不会看到独立的显存规格,但系统的总内存实际上起到了图形处理器(神经网络引擎)显存的作用。这使得配备16GB或更多内存的Mac电脑在运行中型本地大语言模型时表现出惊人的能力,尤其是在使用苹果的Metal图形API时。通过Ollama和LM Studio等工具的软件支持通常非常出色。英特尔集成显卡(Iris Xe, Arc): 尽管英特尔正在改进其图形处理器产品(Arc系列),但笔记本电脑中大多数集成显卡缺乏运行除最小或量化程度最高的之外的大语言模型所需的显存和处理能力。通常需要独立图形处理器才能获得良好的体验。如果你没有高性能图形处理器怎么办?即使你没有高端图形处理器也不必担心!许多大语言模型工具,特别是那些通过llama.cpp等库(驱动Ollama和LM Studio部分功能)使用GGUF格式的工具,都可以在中央处理器上有效运行。虽然与有能力的图形处理器相比,中央处理器上的推理速度会明显更慢,但你仍然可以运行小型和中型量化模型。在这种情况下,拥有足够的系统内存(如前所述)变得更为重要,因为模型将主要驻留在那里。第3章和第4章将指导你选择合适的模型和工具,即使没有独立图形处理器也能良好运作。了解你的图形处理器和显存有助于预设对运行效能的预期,并指导你后续的模型选择。这是决定你的本地大语言模型响应速度的一个重要因素。