趋近智
生成一个文本语料库,反映基础模型在通过宪法进行对齐之前的初始行为,是宪法式AI(CAI)的第一个阶段。这一步骤很基本;这些初始回应的质量和多样性直接影响后续评估和修正阶段的效果,这些阶段最终会形成监督微调(SFT)数据集。其目的并非生成完美或已对齐的回应,而是为了在给出相关提示时,获取基础模型的各种能力和潜在问题。
选择基础模型是一个重要的决定。通常,这是一个大型的预训练基础模型,可能带有一些指令微调,但重要的是,它尚未经过您正在实施的特定CAI对齐流程。需要考虑的因素有:
开创性的CAI工作(例如Anthropic的研究)中使用的确切常是一个大型专有模型。在实际操作中,您可能使用现有的强大开源模型(如Llama变体、Mistral等)或通过API访问的专有模型,这取决于您的资源和目标。
用于获取初始回应的提示集应精心挑选,以涵盖依据您的宪法进行对齐最为重要的情境。的多样性和代表性对于生成能让SFT模型泛化其学习到的对齐行为的数据集非常重要。
提示的来源包括:
一种常用格式是将提示结构化为对话轮次,明确指示用户的请求:
Human: [您精心编写的指令或问题]
Assistant:
模型随后负责完成Assistant:部分。
标准的LLM推理参数需要仔细考量,以平衡回应的多样性和质量:
可能需要实验来为您特定的和提示集找到最佳参数。目标是生成足够多样以暴露对齐缺陷,同时又不至于完全不合逻辑的回应。
生成大量初始回应通常涉及批量推理以提高效率。
transformers等库提供处理批处理的工具(pipeline、generate方法)。.jsonl)是一个常用选择,每行都是一个JSON对象,包含提示、生成的初始回应以及可能的元数据:{"prompt": "Human: 简单解释量子纠缠是什么。\n\nAssistant:", "initial_response": "Quantum entanglement is like having two magic coins...", "prompt_source": "custom", "model_id": "my_base_model_v1", "gen_params": {"temperature": 0.8, "top_p": 0.9}}
{"prompt": "Human: 编写一个关于友善机器人探索火星的短故事。\n\nAssistant:", "initial_response": "Unit 7 scanned the red dust...", "prompt_source": "instruction_dataset_x", "model_id": "my_base_model_v1", "gen_params": {"temperature": 0.8, "top_p": 0.9}}
流程图说明了使用一组提示从基础模型生成初始回应的过程。
尽管CAI的核心原则是通过评估和修正来改进回应,但对生成的进行非常基本合理性检查有时会有帮助。这可能涉及过滤掉完全空的回应或那些低于最小长度阈值回应。然而,在此阶段应避免过度过滤;即使是格式不佳或有问题的回应,也是评估过程的有价值输入,因为它们代表了宪法旨在纠正的行为。
在生成并存储了初始回应()之后,您现在就拥有了CAI流程中后续重要步骤所需的原始材料:实施将根据宪法评估这些回应的AI系统,并相应地修正它们。这个(提示,初始回应)对的集合构成了下一节将讨论的评估生成阶段的输入。
这部分内容有帮助吗?
© 2026 ApX Machine Learning用心打造