随着大型语言模型迅速受到关注,关于它们能力的讨论,常常模糊了它们实际作用和人们认为它们作用之间的界限。它们生成类似人类文本的能力,很容易导致对它们内部运作产生不准确的设想。认识这些常见误解对于建立合理预期并有效使用这些工具很必要。让我们来讨论一些常见的混淆点。误解一: 大型语言模型像人类一样“理解”文本最主要的误解也许是,大型语言模型以人类的感知方式理解语言。当一个大型语言模型给出相关回答或写出连贯的段落时,感觉上它们好像理解了。但它们的处理方式有根本区别。“大型语言模型是非常复杂的模式匹配系统。它们通过计算给定前续词语时,序列中下一个词(或更准确地说,令牌)出现的概率来运作。它们从训练时用到的大量文本数据中习得这些概率。可以把它看作一个极其高级的自动补全功能。它能基于它见过的无数例子来预测下一个词应该是什么,但它不像人类那样掌握这些词语背后的意义、意图或语境。它们不具备信念、意识或真正的理解能力。它们的“理解”是统计性的,而非语义性的。”误解二: 大型语言模型总是事实正确因为大型语言模型能生成听起来权威的文本,内容涉及多方面,所以很容易让人认为它们的输出是准确的事实。这是个有风险的设想。大型语言模型从文本数据中学习,而这些数据包含偏见、错误、把观点当作事实呈现的内容以及过时信息。模型会学习复制它看到的模式,包括不正确的模式。它没有内部的事实核查机制,除非特别设计了外部工具来获取实时数据,否则也无法访问实时信息。大型语言模型能产生听起来合理但完全不准确的输出。这种现象常被称为“幻觉”。模型并非有意说谎;它只是根据训练生成统计上可能出现的词语序列,即使该序列与现实不符。务必使用可靠来源核实大型语言模型生成的重要信息。误解三: 大型语言模型拥有常识或推理能力大型语言模型有时看起来能进行推理或运用常识,特别是在解决训练数据中出现的问题时。然而,这通常是识别和复制与推理相关的模式的结果,而非进行实际的逻辑推导或理解因果关系。在需要真正常识、理解物理环境或在训练文本中不常出现的全新情境下进行多步推理的任务上,它们常有困难。例如,如果它在训练中见过类似例子,可能能回答标准的物理问题,但如果特定情境在数据中不常见,则可能无法回答关于物体交互的简单常识问题。它们的“推理”基于文本关联,而非对逻辑或现实的基本把握。误解四: 大型语言模型拥有情感、信念或观点大型语言模型可以被提示生成表达情感、持有特定观点或扮演特定角色的文本。它们可能生成听起来有同情心、愤怒或带有偏见的文本。这不代表模型具备这些内在状态。大型语言模型表现出的任何情感、信念或个性,纯粹是其训练数据中模式的反映,或是提示中指令的直接结果。例如,如果它在大量情感丰富的电影评论上训练过,就能生成模仿情感的文本。如果被要求“像一个多疑的海盗那样写作”,它会根据训练使用与该角色相关的词语和短语。它没有真正的情感、个人经历、主观体验或自己的道德准则。误解五: 大型语言模型的每个回复都是原创且独一无二的大型语言模型逐序列生成文本,从而产生海量可能的输出,但它们的回复从根本上来说源自于它们所训练的数据。这意味着它们的输出并非人类意义上的“原创”,即从经验和思考中创造出全新事物。总有可能,特别是在使用非常具体的提示或常见短语时,大型语言模型可能会生成与其训练数据中现有段落相同或非常相似的文本。如果直接使用输出而不进行审查或在必要时注明出处,这会引发关于抄袭的考量。它是在基于习得的模式构建回复,而非从零开始创造新颖的想法。认识到这些点有助于正确看待大型语言模型:它们是基于习得的统计模式来处理和生成文本的强大工具,而不是有意识、有理解力或无所不知的实体。认识到它们的局限性是负责任和有效使用它们的第一步。