趋近智
让我们了解这些大型语言模型是怎样获得语言能力的。这并非魔法;这是一个从海量文本数据中学习的过程。
可以把训练前的LLM想象成一个空的“大脑”,准备学习一门语言,但目前一无所知。为了教它,我们向它提供一个大量的数字图书馆——可能包含数十亿个网页、书籍、文章、代码库以及来自互联网和数字化收藏的其他文本资料。这个集合被称为训练数据集。
这个学习过程(常被称为训练或预训练)背后的主要思想,从宏观上看非常简单:模型学习预测一段文本中接下来会出现什么。它会不断地接收来自训练数据的文本序列,其中一部分被隐藏起来,它的任务是猜出被隐藏的部分,最常见的是下一个词。
例如,模型可能会看到:
"The quick brown fox jumps over the lazy..."
它的任务是预测下一个词,在这个常见短语中,这个词是"dog"。
最初,模型的预测是随机的,通常不正确。然而,每当它做出预测时,它会将其猜测与训练数据中的实际文本进行比较。如果预测错误,模型会稍微调整其内部配置,使其在下次遇到类似情境时,更有可能预测出正确的词(或一个类似合理的词)。
这些内部调整发生在数十亿甚至数万亿个内部值上,这些值被称为参数或权重。你可以将这些参数看作是控制模型学习的不同想法之间连接强度的“旋钮”。当模型犯错时,训练过程会计算如何转动这些“旋钮”来改进未来的预测。
LLM训练过程的简化视图。文本数据输入到训练算法中,该算法迭代预测文本的某些部分,并根据正确性调整模型的内部参数,最终生成一个能够理解和生成文本的训练好的LLM。
这个过程重复无数次,不断处理来自庞大训练数据集的序列。随着时间的推移,通过简单地学习预测各种情境中的下一个词,模型间接地学习到:
数据的庞大规模非常重要。接触数万亿个词汇使模型能够吸收细微的语言使用模式,而这些模式在较小的数据集中无法显现。这就是它们被称为“大型”语言模型的原因——模型的大小(参数数量)和训练数据的大小是决定它们惊人能力的重要特点。
重要的是要记住,模型不像人类那样理解意义。它完全基于训练它的文本来学习词语和想法之间的统计关系。这对其能力和局限性都有影响,我们将在后面提到。目前,主要观点是LLM通过处理海量文本并调整其内部参数来学习,从而非常擅长预测接下来出现什么文本。
这部分内容有帮助吗?
© 2026 ApX Machine Learning用心打造