趋近智
大语言模型(LLM)是一种旨在理解并生成类似人类文本的人工智能。但它究竟是如何运行的呢?我们先从一个简化的视角来看,暂时不涉及复杂的数学。
可以将 LLM 看作是一个高度先进的模式匹配机器,并结合了一个精密的预测引擎。它在海量的文本数据上进行了训练——这些数据包括书籍、文章、网站、代码等等。在这个训练阶段,模型并非像人类那样通过理解意义来“学习”事实。相反,它学习的是单词之间以及单词序列之间的统计关系。它根据无数的例子,找出了在不同语境下哪些单词可能会跟着其他单词出现。
例如,在训练数据中看到“The quick brown fox jumps over the lazy...”这个短语数百万次之后,模型会知道“dog”这个词极有可能紧随其后。它学习语法规则、常用短语、事物间的联系(例如“天空”和“蓝色”),甚至写作风格,所有这些都是从数据中得出的模式。
因此,当你给 LLM 一个提示(输入文本)时,它并非以人类的方式理解你的请求。相反,它执行以下步骤:
它一次构建一部分响应,根据提示和它迄今已生成的文本,不断预测接下来应该出现什么。
一个简化的流程图,展示了 LLM 如何处理提示以生成文本。
这种预测性的、逐步进行的流程,就是 LLM 常被描述为大规模“下一个词预测器”的原因。它们生成连贯、与语境相关且常常出人意料地富有创造性的文本的能力,源于其训练数据的庞大规模以及它们学到的模式的复杂性,而非源于真正的理解或意识。在下一节中,我们将更仔细地查看这些模型所处理的“部分”,它们被称为 token。
这部分内容有帮助吗?
© 2026 ApX Machine Learning用心打造