你已经学习了模型在哪里可以找到、大小和格式如何影响性能、量化的作用以及许可证的重要性。现在,让我们将这些知识付诸实践,为本地试用选择你的第一个大型语言模型。这里的目的不是找到绝对“最佳”的模型,而是找到一个在你的硬件上能运行得相当好,并让你开始与本地大型语言模型互动的合适起点。
将模型与你的机器匹配
影响你首次模型选择最重要的因素是你的电脑硬件,具体来说是内存(系统内存)以及(如果可用)显存(图形处理器内存)。正如之前讨论的,参数更多、尺寸更大的模型需要更多内存。量化有助于减少内存需求,但硬件限制仍然是主要的筛选条件。
- 内存不足 / 无独立图形处理器(例如,小于8GB内存): 你可能需要选择可用的最小模型,参数范围可能在10亿到30亿之间,并且大幅量化(如Q2或Q3 GGUF格式)。性能可能较慢,但这只是个开始。
- 内存适中 / 基础图形处理器(例如,8-16GB内存,小于6GB显存): 参数在70亿范围内的模型,尤其是量化版本(如Q4或Q5 GGUF),通常可以管理。你可能主要在中央处理器上运行这些模型,如果显存允许,部分层可能会卸载到图形处理器。
- 内存充足 / 性能强的图形处理器(例如,16GB+内存,8GB+显存): 你可以流畅运行70亿参数的模型,试用130亿参数的模型(量化版本),甚至可能根据你的具体显存大小运行更大的模型。显存越多,模型就越能在更快的图形处理器上运行。
下表大致展示了使用常用量化级别时,不同模型尺寸的内存占用。请记住这些是估计值;实际使用情况取决于具体的模型、量化方法以及你使用的软件。
运行量化GGUF模型(例如Q4_K_M)的估算内存需求。实际使用情况可能因具体模型和软件而异。
从小尺寸和量化模型开始
首次尝试本地大型语言模型时,强烈建议从较小的模型开始,通常在70亿参数范围内,并选择量化的GGUF版本。
为什么?
- 易于管理: 较小、量化的模型下载更快,占用更少磁盘空间。
- 性能: 与更大、未量化的模型相比,它们在普通消费级硬件上加载更快,生成文本也更快。
- 易用性: 一个70亿参数的量化模型通常在能力和资源需求之间取得了很好的平衡,即使没有强大的图形处理器也能运行良好。
- 学习: 它提供了一个好的平台来学习下载、加载和互动等基本操作,无需漫长等待或复杂设置。
寻找量化级别为Q4_K_M或Q5_K_M的GGUF文件。这些通常能在减小尺寸/资源占用和保持模型质量之间提供一个很好的平衡。你可以在Hugging Face等模型库中找到这些文件,它们通常由专门创建这些优化格式的社区成员提供(在基础模型名称旁边搜索“GGUF”等词汇是有效的)。
检查模型的用途和许可证
浏览模型时(例如在Hugging Face上),请注意模型卡:
- 预期用途: 寻找被描述为“聊天”或“指令”模型的模型。这些模型经过微调以遵循指令并进行对话,使它们非常适合入门。避免选择设计用于高度特定任务(例如仅用于代码生成,或医疗文本分析)的模型,除非那是你的具体目标。
- 许可证: 仔细检查模型的许可证。对于初步试用和个人使用,许多流行模型都有宽松的许可证(如Apache 2.0、MIT或特定的Llama/Mistral许可证)。确保许可证允许你的预期用途,尤其如果你打算构建的不仅仅是简单的测试。
起始模型(模型系列)示例
虽然具体模型推荐变化很快,但以下是经常是很好的起点的模型类型,通常为70亿参数的量化GGUF格式:
- 基于Mistral的模型: 源自Mistral AI发布模型(如Mistral 7B)以其相对尺寸的强大性能而闻名。寻找指令微调的GGUF版本。
- 基于Llama的模型: Meta的Llama模型(Llama 2、Llama 3)衍生出许多微调变体。同样,寻找70亿参数的指令或聊天GGUF版本。
- 基于Phi的模型: 微软的Phi模型在较小尺寸(约30亿参数)下提供良好能力。如果有,查看聊天微调的GGUF格式。
始终优先寻找这些基础模型的GGUF量化版本,通常可在Hugging Face上通过社区贡献者获得。
预期需要迭代
选择你的第一个模型,就只是一个开始。不要担心立即做到完美。根据上述标准下载一个候选模型。在下一章中,你将学习如何运行它。
- 如果运行流畅,太好了!开始试用吧。
- 如果太慢或占用太多内存,尝试参数更少的模型或更激进的量化级别(例如,Q3而不是Q4)。
- 如果似乎不太理解指令,也许尝试来自同一系列或完全不同系列的另一个指令微调模型。
试用是使用这些模型的正常部分。
决策清单
总结一下,在选择你的第一个模型时:
- 评估硬件: 记下你可用的内存和显存。
- 目标尺寸: 最初瞄准一个较小的模型(例如,70亿参数范围)。
- 格式: 寻找GGUF格式。
- 量化: 选择一个平衡的量化级别(例如,
Q4_K_M)。
- 用途: 根据其模型卡选择一个为“聊天”或“指令”微调的模型。
- 许可证: 验证许可证是否允许你的预期用途。
- 下载: 获取模型文件(通常来自Hugging Face)。
通过这些步骤,你将做好准备,选择一个模型,以便在下一章中成功运行你的第一个本地大型语言模型。