趋近智
大型语言模型(LLM)将文本分解成标记,并根据已处理的序列来预测下一个标记。一个核心问题是模型如何确定哪个标记是最可能的下一个标记。这个决定主要依赖于语境——预测点之前出现的标记序列。
设想一下阅读一个故事。如果你跳到一段的中间,你可能会难以理解正在发生的事情。你需要之前的句子和段落来提供语境:角色是谁?背景是什么?已经发生了哪些事件?LLM 的运作方式类似。在模型生成输出之前提供给它的文本,就是它对当前状况的理解。
从根本上说,LLM 不断地根据它已处理的序列来计算下一个标记的概率。语境直接影响这些概率。输入语境的微小变化可能导致完全不同的输出。
考虑这些简单示例:
在每种情况下,生成点之前的词语都强烈提示了最可能的下一个词。模型依据在大量文本训练期间学到的模式来理解“白色”常跟在“云彩是”之后,“鸡蛋”常跟在“培根和”之后,而“扳手”与“修好漏水的水龙头”相关。
语境不仅仅是预测下一个词;它对于生成更长、连贯且切题的文本也很关键。当你向 LLM 提供提示或继续对话时,整个前置序列都会影响后续的生成。
想象你问 LLM:
“写一个关于宇航员在火星上找到一种奇异植物的短篇故事。这种植物发出微弱的光。”
LLM 将整个请求用作语境。当它生成故事时,它不断地回溯到这个初始语境(以及它迄今为止生成的内容),以确保故事始终围绕宇航员、火星、奇异植物及其发光的特点。如果语境只提到“写一个故事”,那么输出会远不如这个具体。
你可能想知道模型是否对语境中的每个词都赋予相同的权重。如果语境非常长,第一个词的影响力是否和最后一个词一样大?通常不是。
现代 LLM,特别是那些基于前面提到的 Transformer 架构的模型,使用通常被称为注意力的机制。这使得模型在生成特定输出标记时,可以衡量输入语境中不同部分的重要性。它可以“更多地关注”语境中与预测下一个标记最相关的词语或短语。
例如,如果模型正在生成“宇航员拿起发光的 _”之后的下一个词,注意力机制可能会大量关注之前语境中的“宇航员”、“发光”和“植物”,以预测一些相关词,可能是“样本”或“花”。
此图例说明了注意力机制在预测下一个词时,如何可能侧重于语境中的相关词语(“宇航员”、“发光”、“植物”)。线条的粗细和颜色深浅表示所分配的相对重要性。
尽管语境很强大,但 LLM “记住”或考虑过去文本的能力并非无限。模型具有语境窗口(也称作语境长度),这是模型在任一时刻可以考虑的最大标记数量。这包括输入提示和生成的输出。
可以将其视为短期记忆。模型只能保持一定量的近期信息处于活跃状态。如果对话或文档超出语境窗口的大小,模型会有效地遗忘最早的部分。
例如,一个拥有 4096 个标记语境窗口的模型,大约可以处理 3000 个词(因为标记与词不是一对一的关系)。如果你提供给它一份 5000 词的文档并要求摘要,它在生成摘要时可能只能考虑最后约 3000 个词,可能会遗漏开头的某些信息。
不同 LLM 的语境窗口大小差异很大。拥有更大语境窗口的模型可以处理更长的对话、处理更大的文档,并在更长时间的交互中保持连贯性,但它们通常需要更多的计算资源。
了解语境如何影响生成对于有效使用 LLM 非常重要。通过在模型的语境窗口内提供清晰、相关且充足的语境,你可以引导它生成更准确、连贯且有用的输出。当你开始在下一章编写提示时,请记住你提供的语境是塑造 LLM 响应的主要手段。
这部分内容有帮助吗?
© 2026 ApX Machine Learning用心打造