趋近智
随机存取存储器(RAM)是一个主要影响您可以在本地运行哪些大型语言模型(LLM)以及它们运行情况的因素。您可以把内存想象成您电脑的工作台:它是临时的高速存储空间,电脑在其中存储正在处理的数据和程序。
当您想使用LLM时,首要步骤是将模型数据载入内存。LLM之所以“大”,主要是因为它们包含数十亿个参数,这些参数本质上是模型用于进行预测的学习数值。模型运行时,所有这些参数都需要一个存放的地方,这个地方主要是您系统的内存,特别是当您没有专用GPU或GPU内存(VRAM)不足时。
充足内存的重要性如下:
所需内存量直接取决于您打算运行的LLM模型大小。模型大小通常以数十亿参数来衡量(例如,7B代表70亿参数,13B代表130亿参数)。
对于未优化的模型,一个非常粗略的经验法则是,您所需的内存略高于模型大小(以GB为单位),再乘以每个参数的大小(通常为2字节或更多)。例如,一个每个参数占用2字节的7B参数模型,仅参数部分就需要大约 GB内存,此外还需要额外的内存用于计算和操作系统。
然而,现代技术已显著提高效率。量化,我们将在第三章详细介绍这一过程,减少了每个参数所需的内存量,通常能将内存需求减少50-75%或更多,同时对许多任务的质量影响极小。这使得在消费级硬件上运行大型模型成为可能。
以下是一些通用指导原则,请记住,这些是估计值,实际使用情况在很大程度上取决于特定的模型格式(例如GGUF,稍后会讨论)和量化级别:
载入和运行常用量化LLM模型(例如4位量化)所需的内存估算。包含操作系统和推理开销的小部分余量。实际需求有所不同。
请记得考虑您的操作系统(Windows、macOS、Linux)以及任何后台应用程序,它们也会占用内存。您电脑上显示的内存量是总内存;LLM可用的内存会更少。
如果您尝试载入一个所需内存超过可用内存的模型,很可能会发生以下两种情况之一:
区分系统内存和显卡内存(视频内存,即VRAM)很有必要,我们将在下一节讨论。如果您有一个性能良好的GPU并具备充足的VRAM,LLM的部分(或者如果VRAM足够大,则整个模型)可以载入到GPU上进行更快的处理。然而,系统内存仍然有其作用:
正如本章后面“检查您的系统配置”部分所提及的,您可以轻松地查阅电脑有多少内存:
free -h 命令或系统监视器应用程序。在您开始下载模型之前,了解您系统的内存容量非常重要。它直接影响您可以进行本地运行的模型类型。尽管量化等技术有助于提升硬件的效用,拥有充足的内存能够为初次使用本地LLM提供更流畅和灵活的体验。
这部分内容有帮助吗?
© 2026 ApX Machine Learning用心打造