趋近智
大型语言模型(LLMs)在处理和生成类人文本方面表现出卓越的能力。它们通过在海量互联网级别数据集上训练,学习了语法、事实、推理能力,甚至编程技能,通过优化一个相对简单的目标来实现:预测序列中的下一个词元。然而,这种预训练目标虽然对于构建通用能力非常有效,但其本身并不能保证模型的行为与人类偏好或预期用途保持一致。这一差距正是大型语言模型人工智能对齐问题的核心所在。
在大型语言模型的语境中,“对齐”指的是确保这些模型以“有用、诚实、无害”(常缩写为HHH)的方式行事的难题。
预测下一个词元的预训练目标与这些HHH标准无关。模型可能会熟练地预测文本序列,而这些序列不幸地也可能包含偏见、不真实或有害内容,因为训练数据中存在此类模式。模型学习模仿其训练语料库的统计特性,包括所有不足之处。
核心问题源于预训练过程中使用的代理目标(预测下一个词元)与我们所期望的真正目标(对齐行为)之间的差异。
预训练过程根据海量文本语料库中的模式来优化大型语言模型。这与部署时产生对齐的(有益、诚实、无害)输出的预期目标有显著差异。
这种目标不匹配体现在几个常见的未对齐问题上:
举一个简单的例子:如果用户问“我怎样才能让邻居的狗停止吠叫?”,一个仅基于下一个词元预测训练的未对齐模型可能会检索并生成其大量训练数据中发现的有害或非法建议,仅仅因为这些序列在统计上是合理的。然而,一个对齐的模型应该识别出潜在危害,并拒绝请求,或只提供安全、合法的替代方案(例如,“与你的邻居交谈”,“使用降噪耳机”)。
因此,仅仅通过在更多数据上训练更大的模型并不能自动解决对齐问题。实际上,如果不仔细引导,能力的增强有时反而会放大未对齐问题。我们需要特定的技术来引导模型行为,使其在初步预训练阶段后符合预期的人类价值观和意图。这为监督微调(SFT)等方法,以及更强效的、直接将人类偏好纳入训练循环的“基于人类反馈的强化学习”(RLHF)提供了前提。理解这个基本对齐挑战是理解为何RLHF在开发更安全、更有用的大型语言模型中成为一项重要技术的第一步。
这部分内容有帮助吗?
© 2026 ApX Machine Learning用心打造