趋近智

所有课程

本地大型语言模型入门

章节 1: 大型语言模型入门

什么是大型语言模型（LLM）？

大语言模型如何运作的简单视图

理解标记与文本生成

为何在本地运行大型语言模型？

本地LLM与云端LLM

章节 2: 准备本地环境

硬件考量：中央处理器

硬件考量：内存

硬件考量：图形处理器和显存

检查您的系统规格

操作系统兼容性

安装 Python (可选但建议)

命令行/终端简介

章节 3: 查找和选择本地大型语言模型

寻找LLM模型：Hugging Face Hub

理解模型大小与参数

模型格式：GGUF及其他

量化：缩小模型

了解模型卡片中的信息

模型许可与使用限制

选择你的第一个模型

章节 4: 运行你的第一个本地LLM

本地LLM运行器介绍

用 Ollama 下载模型

使用 Ollama 运行模型 (命令行)

设置 LM Studio

在 LM Studio 中查找和下载模型

在LM Studio中加载模型并进行聊天

llama.cpp 简介 (核心思想)

动手实践：运行模型

章节 5: 简单交互与提示词使用

什么是提示？

你的第一个提示：简单问题

理解上下文窗口

提示词排版基础建议

温度与创造力

常见交互方式

实践：简单的提示技巧

量化：缩小模型

这部分内容有帮助吗？

参考文献

GPTQ: Accurate Post-Training Quantization for Generative Pre-trained Transformers, Elias Frantar, Saleh Ashkboos, Torsten Hoefler, Dan Alistarh, 2022 ICLR 2023 DOI: 10.48550/arXiv.2210.17323 - 详细介绍了GPTQ，这是一种专为大型语言模型设计的精确训练后4比特量化方法，解决了精度权衡问题。
llama.cpp repository, Georgi Gerganov and the llama.cpp Community Contributors, 2024 - 该项目的代码仓库和相关文档，详细介绍了用于本地LLM推理的GGUF文件格式及其特定的量化方案（例如Q_K变体）。

© 2025 ApX Machine Learning