首先,我们来明确“模型推理”的定义。设想一个已经学会理解和生成语言的大语言模型(LLM)。这个学习过程,常被称为“训练”,需要大量的精力与计算资源,我们将在后续讨论。推理是模型训练之后发生的活动。它是实际使用已训练模型来完成特定任务的过程。当你与AI聊天机器人互动,要求它总结文档、翻译文本或生成代码时,你就是在启动推理过程。你提供一个输入(你的提示或问题),预训练模型运用其学到的知识(存储在其参数中)来生成输出(答案、摘要、译文或代码)。核心思想:应用知识在推理过程中,模型不会学习任何新知识。它的内部参数代表了模型在训练期间学习到的模式和关系,这些参数基本是“冻结”或固定的。模型接收你的输入,通过其人工神经元层,使用这些固定参数进行处理,并产生一个结果。想象你有一份组装家具的完整说明书。训练 就像编写和测试这份说明书,找出最佳的步骤顺序并创建清晰的图表。这是一个复杂、迭代的过程。推理 就像依照已完成说明书中的指示来组装一件家具。你阅读步骤(处理输入)并根据预先写好的指南执行动作(生成输出)。你没有修改说明书本身;你只是在应用它的知识。digraph G { bgcolor="transparent"; node [shape=box, style="rounded,filled", fillcolor="#a5d8ff", fontname="sans-serif"]; edge [fontname="sans-serif"]; Input [label="你的提示\n(例如:'法国的首都是哪里?')"]; Model [label="预训练LLM\n(固定参数)", fillcolor="#91a7ff"]; Output [label="生成的回应\n(例如:'法国的首都是巴黎。')"]; Input -> Model [label="由模型处理"]; Model -> Output [label="生成输出"]; }推理过程的简要示意:输入流入预训练模型,模型运用其固定知识生成输出。LLM的常见推理任务推理是LLM可用于日常任务的阶段。一些常见的例子包括:文本生成: 根据提示创建故事、文章或电子邮件。问答: 提供事实性问题的答案。摘要: 将长文档浓缩成简短摘要。翻译: 将文本从一种语言转换为另一种语言。代码生成: 根据描述编写计算机代码。情感分析: 判断一段文本的情感基调。在所有这些情况下,底层机制都是相同的:预训练模型接收输入,并通过推理生成所需的输出,而不会改变其核心程序。了解推理很重要,因为它是人们与LLM互动最常见的方式,而且它的硬件要求虽然仍旧不小,但通常远低于训练时的要求。接下来我们将研究这些具体的硬件需求。