随机存取存储器(RAM)是一个主要影响您可以在本地运行哪些大型语言模型(LLM)以及它们运行情况的因素。您可以把内存想象成您电脑的工作台:它是临时的高速存储空间,电脑在其中存储正在处理的数据和程序。内存对LLM为何重要当您想使用LLM时,首要步骤是将模型数据载入内存。LLM之所以“大”,主要是因为它们包含数十亿个参数,这些参数本质上是模型用于进行预测的学习数值。模型运行时,所有这些参数都需要一个存放的地方,这个地方主要是您系统的内存,特别是当您没有专用GPU或GPU内存(VRAM)不足时。充足内存的重要性如下:模型载入: 整个模型,或至少是当前所需的部分,必须从您的存储设备(如SSD或HDD)载入到速度快得多的内存中。如果内存不足以容纳模型,您将无法载入它,或者系统可能会尝试使用较慢的存储设备作为溢出内存(称为“交换”或“分页”),导致性能大幅下降。推理计算: 除了存储模型的参数外,运行模型(这一过程称为“推理”,即它根据您的输入生成文本)需要额外的内存来保存中间计算结果和输入数据本身(您的提示和生成的文本)。多少内存才够用?所需内存量直接取决于您打算运行的LLM模型大小。模型大小通常以数十亿参数来衡量(例如,7B代表70亿参数,13B代表130亿参数)。对于未优化的模型,一个非常粗略的经验法则是,您所需的内存略高于模型大小(以GB为单位),再乘以每个参数的大小(通常为2字节或更多)。例如,一个每个参数占用2字节的7B参数模型,仅参数部分就需要大约 $7 \times 2 = 14$ GB内存,此外还需要额外的内存用于计算和操作系统。然而,现代技术已显著提高效率。量化,我们将在第三章详细介绍这一过程,减少了每个参数所需的内存量,通常能将内存需求减少50-75%或更多,同时对许多任务的质量影响极小。这使得在消费级硬件上运行大型模型成为可能。以下是一些通用指导原则,请记住,这些是估计值,实际使用情况在很大程度上取决于特定的模型格式(例如GGUF,稍后会讨论)和量化级别:最低要求(小型模型/尝试): 8 GB内存可能让您运行非常小的模型(例如1B-3B参数)或少量化后稍大的模型,但性能可能较慢,且您需要关闭其他应用程序。建议用于常见模型(例如7B): 16 GB内存通常是一个实用的起点,可以舒适地运行流行的量化7B模型,同时兼容您的操作系统和其他基本应用程序。适用于大型模型(例如13B+): 32 GB内存提供更大的灵活性,让您更流畅地运行良好量化的13B模型,甚至是一些更大的模型(如经过大量量化的30B+模型)。它还为操作系统和其他任务提供了更多余量。爱好者/超大型模型: 如果您计划运行量化程度较低的较大模型(30B+),或者尝试运行多个模型或更复杂的工作流程,64 GB或更多内存将有所助益。{"layout": {"title": {"text":"量化模型所需内存估算", "x":0.5}, "xaxis": {"title":"模型大小(十亿参数)"}, "yaxis": {"title":"估算最低内存(GB)"}, "margin": {"l": 50, "r": 20, "t": 50, "b": 40}}, "data": [{"type": "bar", "x": ["~3B", "~7B", "~13B"], "y": [4, 6, 10], "marker": {"color": "#228be6"}, "name": "所需内存"}]}载入和运行常用量化LLM模型(例如4位量化)所需的内存估算。包含操作系统和推理开销的小部分余量。实际需求有所不同。请记得考虑您的操作系统(Windows、macOS、Linux)以及任何后台应用程序,它们也会占用内存。您电脑上显示的内存量是总内存;LLM可用的内存会更少。内存不足时会怎样?如果您尝试载入一个所需内存超过可用内存的模型,很可能会发生以下两种情况之一:载入失败: 尝试载入模型的软件(例如Ollama或LM Studio,将在第四章介绍)很可能会报告错误并无法载入模型。速度极慢(交换): 操作系统可能会尝试通过使用硬盘或SSD作为临时内存来弥补(这被称为交换或分页)。由于存储设备的读写速度比内存慢数个数量级,LLM的性能将变得极其缓慢,使其几乎无法使用。内存与显存对比区分系统内存和显卡内存(视频内存,即VRAM)很有必要,我们将在下一节讨论。如果您有一个性能良好的GPU并具备充足的VRAM,LLM的部分(或者如果VRAM足够大,则整个模型)可以载入到GPU上进行更快的处理。然而,系统内存仍然有其作用:如果VRAM不足,它可能会容纳模型的部分(这称为模型拆分)。如果您没有合适的GPU或选择完全在CPU上运行模型,它就是主要使用的内存。检查您的内存正如本章后面“检查您的系统配置”部分所提及的,您可以轻松地查阅电脑有多少内存:Windows: 任务管理器(性能选项卡)或系统信息。macOS: 关于本机 -> 内存选项卡。Linux: 终端中的 free -h 命令或系统监视器应用程序。在您开始下载模型之前,了解您系统的内存容量非常重要。它直接影响您可以进行本地运行的模型类型。尽管量化等技术有助于提升硬件的效用,拥有充足的内存能够为初次使用本地LLM提供更流畅和灵活的体验。