趋近智
虽然增加一个简单的短期记忆,比如最近对话轮次的列表,可以大幅提升智能体进行连贯对话的能力,但这种方法并非没有自身的问题。了解这些界限很重要,以便为你的智能体能力设定实际的预期,并在情况不如预期时排查问题。让我们来看看基本短期记忆实现方式的一些固有局限。
LLM智能体的核心部分是大型语言模型本身。这些模型虽然强大,但有一个根本限制:上下文窗口。可以将上下文窗口看作LLM在任何给定时刻可以“查看”或处理的文本量(包括指令、当前查询以及任何提供的历史信息)。如果对话历史变得过长,它就根本无法适应这个窗口。
当使用追加最近交互的简单短期记忆时,对话中较早的部分最终会被推出,为新的交互腾出空间。这就像试图往一个已经装满的玻璃杯里倒更多的水;有些水不可避免地会溢出。
上图说明了固定大小的上下文窗口可能只能看到较长对话的最新部分。如果总历史记录加上当前查询超出窗口大小,早期交流(例如“用户:你好!请告诉我关于LLM的信息。”)可能会从LLM的视图中被截断。
影响:
上下文窗口的大小在不同的LLM之间有所不同(例如,4,096个令牌、8,192个令牌、32,768个令牌,或者对于较新的模型甚至更大,其中一个令牌大致相当于一个词或词的一部分)。你需要了解你所使用的LLM的限制。
简单的短期记忆机制通常会在每次新轮次时向LLM呈现整个记忆的历史。在这种情况下,最新信息往往对LLM的响应产生更大的影响。这有时被称为近因效应。
想象你正在阅读一份建议列表。你最后阅读的那些可能比开头的更容易留在你的记忆中。类似地,如果智能体的短期记忆只是一个按时间顺序的日志,最新的用户输入或智能体动作可能会盖过较早的、可能更重要的信息。
影响:
基本短期记忆,例如存储过去消息的列表,通常采用非常简单的检索策略:它将所有存储的历史记录(直到上下文窗口限制)包含在给LLM的提示中。没有智能选择哪些过去交互与当前查询最相关。
LLM本身随后必须筛选整个历史记录以找到它需要的信息片段。虽然LLM在这方面做得不错,但并非总是高效。
影响:
不断将不断增长的历史记录输入LLM的上下文窗口会带来直接的实际后果:
这里存在一个直接的权衡:更长的记忆提供更多上下文,但代价是更高的运营成本和可能更慢的性能。
如果一个任务要求智能体将交互中很早期的信息与很久以后发生的事情联系起来,并且早期信息已经被固定大小的短期记忆推出,那么智能体很可能会失败。
例如,想象一个智能体的任务是:
X = 10。”如果在第21轮中提供给LLM的短期记忆中不再包含最初的声明X = 10,智能体将无法回答。简单短期记忆的性质决定了它不太适合处理超出其容量的长距离依赖任务。
重要的是要记住,大多数简单的短期记忆系统仅仅充当存储,一个所说或所做内容的日志。它们通常不涉及智能体主动“理解”、总结或将信息整合为更抽象或压缩的形式。
记忆内容通常是原始记录。这意味着LLM每次都必须重新处理这些原始信息。相比之下,人类会整合记忆,提取要点,并形成抽象概念。基本的LLM智能体记忆通常不会这样做。
影响:
了解这些界限的目的不是让你气馁,而是让你拥有实际的视角。简单的短期记忆是一个基本组成部分,了解其局限性是设计更有效智能体的第一步,并且在必要时,了解更高级的记忆技术,这些是更高级学习的主题。对于许多直接的任务,管理良好的短期记忆完全足够。
简洁的语法。内置调试功能。从第一天起就可投入生产。
为 ApX 背后的 AI 系统而构建
这部分内容有帮助吗?
© 2026 ApX Machine Learning用心打造