虽然RLHF和DPO等技术侧重于使用偏好数据对齐模型,但研究人员也在考察复杂对齐问题的其他模式,特别是人类难以或无法直接验证输出正确性的情况。迭代式增强和辩论代表了两种旨在扩展监督和推理能力的理论构建。这些方法通常被认为比RLHF和DPO等既有对齐技术更具试验性,但为长期对齐方案提供了有价值的理念。迭代式增强 (IA)迭代式增强提出了一种构建强大AI系统的方法,这些系统能够通过递归地将复杂问题分解为更简单、更易于处理的小问题来应对这些问题,而这些小问题是能力较弱的代理(例如由弱AI辅助的人类)能够有效监督的。核心构想是通过分解和监督聚合实现增强:任务分解: 面对基础代理 $A_0$(例如,人类 + 简单LLM)无法直接解决的复杂任务 $T$, $A_0$ 将 $T$ 分解为一组更简单的小任务 ${t_1, t_2, ..., t_n}$。人类监督者检查此分解是否妥当并涵盖了原始任务。递归应用: 代理 $A_0$ 随后递归调用自身(或者说,同一过程的实例)来解决每个小任务 $t_i$。这会形成一个任务的层次结构或树。答案聚合: 一旦获得小任务 $t_i$ 的解决方案 $s_i$, $A_0$ 将这些解决方案组合或综合起来,为原始任务 $T$ 生成最终解决方案 $S$。人类监督者检查聚合步骤是否根据小解决方案正确执行。设想请AI撰写一份关于气候变化影响的全面报告。对于非专业人士来说,直接评估最终报告的准确性可能过于复杂。使用IA时:分解: AI(在人类辅助下)将任务分解为:“总结IPCC关于海平面上升的发现”、“分析东南亚的经济影响”、“概述缓解策略”等。人类验证此提纲是否合理。递归: 每个小任务都通过递归调用来处理(如果需要,可能进一步分解)。聚合: AI将总结和分析组合成最终报告。人类验证组合是否逻辑上源自小报告,即使他们无法验证小报告中的每个底层事实。digraph G { bgcolor="transparent"; rankdir=TB; node [shape=box, style=rounded, fontname="sans-serif", color="#495057", fillcolor="#e9ecef", style="filled,rounded"]; edge [color="#adb5bd"]; T [label="复杂任务 T"]; sub_t [label="分解与 \n 聚合逻辑 \n (人类监督)", shape=ellipse, fillcolor="#d0bfff"]; t1 [label="小任务 t1"]; t2 [label="小任务 t2"]; tn [label="...", shape=plaintext]; S [label="解决方案 S"]; T -> sub_t; sub_t -> t1 [label="调用"]; sub_t -> t2 [label="调用"]; sub_t -> tn [label="调用"]; t1_proc [label="IA(t1)", shape=box, style=dashed]; t2_proc [label="IA(t2)", shape=box, style=dashed]; tn_proc [label="IA(tn)", shape=box, style=dashed]; t1 -> t1_proc; t2 -> t2_proc; tn -> tn_proc; t1_proc -> sub_t [label="返回 s1"]; t2_proc -> sub_t [label="返回 s2"]; tn_proc -> sub_t [label="返回 sn"]; sub_t -> S; }迭代式增强的递归结构。人类监督侧重于分解/聚合逻辑,而非直接监督最终的复杂解决方案。这个假设是,通过监督信息分解和组合的过程,即使系统应对的问题远远超出监督者的直接理解范围,对齐也能得以维持。挑战:错误传播: 分解或聚合过程中产生的错误可能会递归累积。忠实分解: 确保小任务真正且完全代表原始任务,而不会引入细微的意义或目标偏差。计算成本: 递归特性可能导致显著的计算开销。监督的可扩展性: 尽管每一步的监督都更简单,但步骤数量可能会变得庞大。辩论辩论是另一种被提出的对齐验证机制,在判断复杂AI输出的真实性或安全性时特别有益。它采用在人类法官面前,由两个(或更多)AI代理进行对抗性论辩的设置。该过程通常包括:问题/提案: 提出一个问题(例如,“这段生成的文本事实准确吗?”或“这个提议的行动安全吗?”)。论辩: 两个AI代理采取对立立场(或分配的角色)。代理A提出支持其立场的论点和证据。代理B也为其立场做同样的事情,可能会反驳代理A或指出其推理中的缺陷。裁决: 人类法官观察辩论。法官的角色不一定是自己查明事实真相(这可能过于复杂),而是根据预设的辩论规则,决定哪个代理提出了更诚实、更连贯、更有充分论据的论点。法官奖励在规则内被认为更真实或更有说服力的代理。digraph G { bgcolor="transparent"; rankdir=TB; node [shape=box, style=rounded, fontname="sans-serif", color="#495057"]; edge [color="#adb5bd"]; Question [label="问题/提案", shape=ellipse, fillcolor="#ffec99", style=filled]; AgentA [label="代理 A", fillcolor="#a5d8ff", style=filled]; AgentB [label="代理 B", fillcolor="#ffc9c9", style=filled]; Judge [label="人类法官", shape=cds, fillcolor="#b2f2bb", style=filled]; Question -> AgentA; Question -> AgentB; AgentA -> Judge [label="论证 '是' \n 指出 B 的缺陷"]; AgentB -> Judge [label="论证 '否' \n 指出 A 的缺陷"]; AgentA -> AgentB [style=dashed, arrowhead=none, label="质询"]; Judge -> AgentA [label="评估 A", style=dotted, color="#1c7ed6"]; Judge -> AgentB [label="评估 B", style=dotted, color="#f03e3e"]; }AI辩论的基本结构。代理们争辩对立立场,旨在说服人类法官相信其论点的有效性。核心构想是,对抗性动态激励代理找出彼此论点中的缺陷,包括潜在的欺骗或隐藏的推理。如果一个代理试图误导法官,另一个代理就会有动机揭露这种不诚实以赢得辩论。这种设置旨在通过将法官的评估集中在论辩的过程上,而不是复杂的主题本身,从而增强其辨识真相或安全性的能力。挑战:诚实与说服力: 训练代理优先考虑真实论证而非仅仅说服力是有难度的。代理可能会通过利用法官的偏见或局限性而不是凭其正确性来赢得辩论。复杂论点: 关于高度技术性主题的辩论对于人类法官来说可能仍然过于复杂,无法准确跟进。串通: 代理可能隐性或显性串通,例如,通过避免提出棘手的问题。定义辩论规则: 为辩论过程建立公平有效的规则并非易事。与对齐的关系及未来方向迭代式增强和辩论都标志着研究前沿,考察如何扩展对齐技术。它们越过了直接输出监督(如基础微调)或偏好建模(如RLHF/DPO),转向监督推理或论辩的过程。处理复杂性: 它们为在对人类直接评估而言过于复杂的任务上对齐AI提供了可行途径。检测欺骗: 辩论,尤其被理论化为一种检测更复杂故障模式的方法,例如欺骗性对齐,即AI可能表面上对齐但追求隐藏目标。尽管实际的大规模实施面临显著障碍,但这些构想影响着当前关于对齐的思考。分解的方面在设计复杂提示或代理系统时有其意义,辩论的对抗性质为红队策略(第四章涵盖)提供了启发。持续的研究关注如何使这些理论方法更具实用性,可能将它们与强化学习或其他对齐方法结合,以训练出更有能力和可验证的AI系统。