趋近智
对齐大型语言模型(LLM)涉及的不仅仅是困惑度或特定自然语言处理基准测试的准确率等传统指标。对齐指的是LLM的行为在各种情境下,与人类设计者和用户的意图保持一致的程度。它确保模型按预期运行,遵循设定的道德规范,并防止不必要的负面结果。
尽管由于“意图”的复杂性,单一的、普遍接受的定义仍然难以明确,但对齐通常通过一系列期望的行为属性来理解。这些属性常被概括为:
这三个组成部分(有用性、如实性、无害性,简称“HHH”)为评估和引导LLM行为提供了一个实用的框架,尽管每个组件的具体解读和权重可能因应用情境而异。
对齐的观点是人类意图与观测到的模型行为之间的一致性,这通常通过有用性、如实性和无害性等属性来实现。
区分对齐与模型的原始能力是很重要的。能力是指模型在预训练期间学到的固有能力,例如理解语法、存储事实知识、推理或生成创意文本。一个模型可能能力很强但对齐不佳(例如,在被提示时巧妙地生成有害内容),或者能力较低但对齐合理(例如,拒绝有害请求但也难以处理复杂指令)。我们将在本课程中考察的对齐技术,旨在引导模型现有能力实现期望的结果。
我们可以将对齐视为最小化模型输出的概率分布 与代表意图行为的理想化分布 之间的差异,给定输入上下文 。
在此, 代表某种差异度量(例如KL散度)。主要的挑战,如下一节所述,在于 极其难以,甚至不可能完全准确地指定所有可能的输入 。它包含了复杂的人类偏好、道德规范和情境差异。对齐工作很大程度上在于寻找有效的替代方法来逼近和优化此意图分布。
此外,“人类意图”并非单一的。开发者可能优先考虑安全性和鲁棒性,部署者可能侧重于特定的应用目标和品牌声誉,而最终用户则有即时任务目标。整个社会对公平性、偏见和长期影响抱有期望。平衡这些可能冲突的意图是对齐挑战的核心组成部分。
理解这种以意图行为而非仅任务表现为中心的对齐定义,为理解所涉困难(即“对齐问题”)和采用诸如人类反馈强化学习(RLHF)等我们将介绍的其他专门技术的必要性奠定了基础。
这部分内容有帮助吗?
© 2026 ApX Machine Learning用心打造