趋近智
用于对齐 (alignment)的监督微调 (fine-tuning)(SFT)和来自人类反馈的强化学习 (reinforcement learning)(RLHF)都面临着重要的规模化难题。SFT 需要大量高质量、由人类制作的数据,涵盖无数场景,随着模型能力和所需对齐范围的增长,这变得难以处理。RLHF 尽管有效,但依赖于持续的人类偏好标注,形成了一个瓶颈,限制了反馈的数量和多样性,可能引入偏见,并且无法跟上模型交互的体量。
这使我们认识到可扩展的监督的必要性:指导和监督AI行为的机制,其中所需的人力投入增长速度显著慢于AI运作的规模或其承担任务的复杂性。理想情况下,人力投入应与AI交互或决策的数量呈次线性关系增长,或者主要集中在系统设计、定期评估和更新上,而不是持续的逐例监督。
设想一个大型语言模型(LLM)每天处理数十亿次交互。即使是其中极小一部分的直接人工监督也是不可行的。即使是进行交互采样的RLHF,也需要大量持续的人工标注工作(,其中 是标注样本的数量, 是每个标注的平均时间)。如果所需对齐的复杂性需要更详细的比较( 增加)或更广的覆盖( 增加),人力成本很快就会变得过高。
因此,可扩展的监督与要求对模型大部分输出或行为进行直接人工判断的方法形成鲜明对比。相反,它意味着系统应具备以下特点:
比较了在不同监督模式下,随着模型交互或复杂性的增加,人力监督投入可能如何变化。可扩展监督的目标是显著减缓人力投入的增长。
实现可扩展监督对于开发安全可靠的先进AI系统非常重要。它克服了直接人工监督的限制,创造出可能应对高能力LLM复杂性的方法。接下来的章节将研究如宪法AI(CAI)和来自AI反馈的强化学习(RLAIF)等技术,这些技术被清晰地设计为尝试实现此类可扩展监督机制。
这部分内容有帮助吗?
© 2026 ApX Machine Learning用心打造