语境如何影响生成

大型语言模型（LLM）将文本分解成标记 (token)，并根据已处理的序列来预测下一个标记。一个核心问题是模型如何确定哪个标记是最可能的下一个标记。这个决定主要依赖于语境——预测点之前出现的标记序列。

设想一下阅读一个故事。如果你跳到一段的中间，你可能会难以理解正在发生的事情。你需要之前的句子和段落来提供语境：角色是谁？背景是什么？已经发生了哪些事件？LLM 的运作方式类似。在模型生成输出之前提供给它的文本，就是它对当前状况的理解。

前置文本的重要性

从根本上说，LLM 不断地根据它已处理的序列来计算下一个标记 (token)的概率。语境直接影响这些概率。输入语境的微小变化可能导致完全不同的输出。

考虑这些简单示例：

输入语境： “天空是蓝色的，云彩是”
- 可能的下一个标记： “白色”、“蓬松”、“灰色”
输入语境： “早餐我喜欢吃培根和”
- 可能的下一个标记： “鸡蛋”、“吐司”、“薄饼”
输入语境： “要修好漏水的水龙头，他需要一个”
- 可能的下一个标记： “扳手”、“水管工”、“工具”

在每种情况下，生成点之前的词语都强烈提示了最可能的下一个词。模型依据在大量文本训练期间学到的模式来理解“白色”常跟在“云彩是”之后，“鸡蛋”常跟在“培根和”之后，而“扳手”与“修好漏水的水龙头”相关。

保持连贯性和主题

语境不仅仅是预测下一个词；它对于生成更长、连贯且切题的文本也很关键。当你向 LLM 提供提示或继续对话时，整个前置序列都会影响后续的生成。

想象你问 LLM：

“写一个关于宇航员在火星上找到一种奇异植物的短篇故事。这种植物发出微弱的光。”

LLM 将整个请求用作语境。当它生成故事时，它不断地回溯到这个初始语境（以及它迄今为止生成的内容），以确保故事始终围绕宇航员、火星、奇异植物及其发光的特点。如果语境只提到“写一个故事”，那么输出会远不如这个具体。

聚焦相关信息（初识注意力机制 (attention mechanism)）

你可能想知道模型是否对语境中的每个词都赋予相同的权重 (weight)。如果语境非常长，第一个词的影响力是否和最后一个词一样大？通常不是。

现代 LLM，特别是那些基于前面提到的 Transformer 架构的模型，使用通常被称为注意力的机制。这使得模型在生成特定输出标记 (token)时，可以衡量输入语境中不同部分的重要性。它可以“更多地关注”语境中与预测下一个标记最相关的词语或短语。

例如，如果模型正在生成“宇航员拿起发光的 _”之后的下一个词，注意力机制可能会大量关注之前语境中的“宇航员”、“发光”和“植物”，以预测一些相关词，可能是“样本”或“花”。

此图例说明了注意力机制在预测下一个词时，如何可能侧重于语境中的相关词语（“宇航员”、“发光”、“植物”）。线条的粗细和颜色深浅表示所分配的相对重要性。

限制：语境窗口

尽管语境很强大，但 LLM “记住”或考虑过去文本的能力并非无限。模型具有语境窗口（也称作语境长度），这是模型在任一时刻可以考虑的最大标记 (token)数量。这包括输入提示和生成的输出。

可以将其视为短期记忆。模型只能保持一定量的近期信息处于活跃状态。如果对话或文档超出语境窗口的大小，模型会有效地遗忘最早的部分。

例如，一个拥有 4096 个标记语境窗口的模型，大约可以处理 3000 个词（因为标记与词不是一对一的关系）。如果你提供给它一份 5000 词的文档并要求摘要，它在生成摘要时可能只能考虑最后约 3000 个词，可能会遗漏开头的某些信息。

不同 LLM 的语境窗口大小差异很大。拥有更大语境窗口的模型可以处理更长的对话、处理更大的文档，并在更长时间的交互中保持连贯性，但它们通常需要更多的计算资源。

了解语境如何影响生成对于有效使用 LLM 非常重要。通过在模型的语境窗口内提供清晰、相关且充足的语境，你可以引导它生成更准确、连贯且有用的输出。当你开始在下一章编写提示时，请记住你提供的语境是塑造 LLM 响应的主要手段。

这部分内容有帮助吗？

参考文献

Attention Is All You Need, Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Lukasz Kaiser, Illia Polosukhin, 2017 Advances in Neural Information Processing Systems (NIPS) 30 DOI: 10.48550/arXiv.1706.03762 - 介绍Transformer架构和自注意力机制，这些是现代LLM处理上下文的核心。
Deep Learning, Ian Goodfellow, Yoshua Bengio, Aaron Courville, 2016 (MIT Press) - 一本全面的深度学习教科书，涵盖深度学习概念，包括序列建模和与上下文处理相关的神经网络架构。
CS224N: Natural Language Processing with Deep Learning (Winter 2023), Christopher Manning, 2023 (Stanford University) - 来自大学课程的资料，提供LLM架构、注意力机制以及NLP中上下文处理的详细解释。
Models overview, OpenAI, 2024 (OpenAI) - 提供常用LLM模型的上下文窗口限制和令牌处理的技术规范和实用细节。