趋近智
虽然预训练 (pre-training)的大型语言模型 (LLM) 展现出色的能力,能够基于从大量数据集中学习到的模式来理解和生成人类语言,但它们并不会自动地以对特定应用始终有用、真实或安全的方式行事。它们的训练目标通常侧重于预测序列中的下一个标记 (token),即 ,这最大化了预训练语料库上的似然度,但并不会直接优化以遵循用户指令或符合人类价值观。
对齐 (alignment)是调整预训练大型语言模型以更好地匹配人类意图和偏好的过程。它旨在引导模型的强大生成能力朝着期望的行为。监督式微调 (fine-tuning) (SFT),作为本章的侧重点,是此过程中的重要一步。对齐的主要目标,也是SFT开始处理的,常分为三个大类,有时被称为“HHH”标准:有用性、诚实性、无害性。
这或许是SFT处理的最直接的目标。一个有用的模型应该理解并准确遵循提示中呈现的用户指令。它应该有效地执行所请求的任务,无论是回答问题、总结文本、编写代码、翻译语言,还是以特定的对话风格交流。
考虑一个被问及“解释梯度下降 (gradient descent)的原理”的预训练 (pre-training)模型。
SFT 通过使模型接触大量由高质量、有用响应配对的提示示例来做到这一点。微调 (fine-tuning)过程调整模型的参数 (parameter),以增加为类似提示生成此类有用响应的概率。这涉及最小化模型生成响应与SFT数据集中目标有用响应之间的损失(例如,交叉熵)。
对齐通过SFT等技术,将通用预训练模型转变为表现出期望行为的模型。
一个对齐 (alignment)的模型应该力求准确,并避免生成虚假信息,通常被称为“幻觉 (hallucination)”。虽然预训练 (pre-training)使模型接触到事实知识,但其生成性质意味着它很容易构建听起来合理但不正确的陈述。诚实性意味着:
SFT 有助于提高诚实性,通过包含模型正确回答事实问题或明确说明其局限性的示例。然而,确保深层的事实性和校准的不确定性通常需要更先进的技术,例如整合检索机制或使用强化学习 (reinforcement learning)(如RLHF,在第26章中讨论)以惩罚人类反馈识别出的不真实输出。
此目标侧重于阻止模型生成有害、不道德、带有偏见、有毒或促进非法活动的输出。预训练 (pre-training)数据不可避免地包含互联网和数字化文本中存在的偏见和有害内容。一个未对齐 (alignment)的模型可能会轻易地再现或放大这些问题。无害性要求模型:
SFT 通过包含模型拒绝有害请求或提供安全、中性响应的示例,在此方面发挥作用。精心策划的SFT数据集过滤掉不理想的示例,并明确呈现安全拒绝。类似于诚实性,在多样化和对抗性输入下实现无害性具有挑战性,并且通常会从后续的RLHF中获得显著益处,在RLHF中,模型根据人类判断被训练以偏好安全输出。
总而言之,对齐旨在使大型语言模型不仅有能力,而且在各种应用中成为有益且安全的伙伴。SFT 作为一个起点,主要增强了有用性和指令遵循能力,同时通过提供期望模型输出的具体示例,也开始了灌输诚实性和无害性的过程。这些目标指导SFT数据集的创建和对齐模型的评估,确保它们从仅仅预测文本转向生成真正有用和负责任的响应。
这部分内容有帮助吗?
© 2026 ApX Machine LearningAI伦理与透明度•