趋近智
微调大型语言模型以完成特定任务,是为了让它知道回应什么,而通过风格和角色塑造其行为,则决定了它如何回应。这是使大型语言模型不仅具备功能性,还能符合特定沟通目的、品牌特性或人物角色的一大进步。人工生成数据在此处尤其有效,因为它允许我们有意识地创建体现所需风格特点的示例,这些特点在自然数据集中可能稀少或表现不一。
在生成数据之前,让我们澄清在大型语言模型背景下,“风格”和“角色”的含义:
风格指的是大型语言模型输出的语言特征。这包括以下方面:
以下是风格特点的简要对比:
| 特点 | 正式风格 | 随意风格 | 富有同情心的语气 |
|---|---|---|---|
| 词汇 | 精确,可能偏学术 | 口语化,常见 | 理解,温和 |
| 句子结构 | 通常复杂,语法严谨 | 更简单,更直接 | 通常更柔和,令人安心 |
| 缩写词 | 通常避免使用 | 经常使用 | 自然使用 |
| 称呼方式 | “可以认为”,“用户” | “你可能想”,“你” | “我理解你的感受” |
| 整体感受 | 客观,尊重,疏远 | 友好,平易近人 | 关心,支持 |
角色是一个更全面的想法。它包含风格,但也包含一套连贯的特质、信念、知识(或在某些情境下为了角色扮演而缺乏的知识)以及互动模式,这些共同为大型语言模型界定了一个“人物”。例如,一个角色可以是:
塑造角色通常意味着大型语言模型在多次互动中保持一致的“个性”,可能会引用其自身已界定的特点或背景故事。
创建人工数据以灌输特定风格或角色,涉及精心制作示例,使大型语言模型的回复持续展现目标特征。以下是常见的做法:
通过合成输入塑造LLM行为(风格、角色),其核心在于创建符合特定要求的数据。要为LLM赋予‘睿智老学者’的角色设定,可以设计如下的教师模型指令:
{
"instruction": "你能用简单的语言解释光合作用的原理吗?",
"output": "啊,多么出色的提问,年轻的求知者。光合作用,从其本质来看,是我们的绿叶朋友——植物——摄取阳光、水和我们呼出的空气来创造自身养分的神奇过程,并在此过程中慷慨地提供维持我们生存的氧气。这真是一个奇妙的循环,不是不是?"
}
生成此类数据点需要针对许多不同的用户查询进行重复操作,以构建完整的数据集。少量示例生成: 向教师模型提供一些高质量的所需风格或角色的示例(样本),然后要求它为新的指令生成更多示例。
以下是“超级热情体育评论员”的回复示例:
用户:昨晚的比赛发生了什么?
评论员:哇!多么精彩的比赛!野猫队在最后几秒钟内奋力反击!难以置信的场面!你一定要在现场!
用户:给我讲讲天气。
评论员:天气?当场上有这么多精彩的比赛时,谁在乎天气!但是好吧,如果你坚持,看起来今天是个阳光灿烂的“进球日”!
现在,请以“超级热情体育评论员”的身份回复此用户查询:
用户:你能推荐一本好书吗?
大型语言模型遵循所示风格的新回复,将成为另一个数据点。
侧重风格的转述或改写: 获取现有的指令-回复对(其风格可能中立),并使用大型语言模型改写回复,使其符合目标风格或角色。
{"instruction": "如何烤蛋糕?", "output": "首先预热烤箱。然后,混合面粉、糖、鸡蛋和黄油。倒入烤盘中,烘烤30分钟。"}
角色扮演情境: 设置大型语言模型被指示扮演目标角色与用户互动的情境(用户可以是另一个大型语言模型或预定义提示)。角色模型生成对话成为训练数据。这对于开发需要在多轮对话中保持一致性的对话角色特别有用。
用于微调的数据格式通常与其他的指令微调任务相同,通常是包含 instruction(或 prompt)和 output(或 completion)字段的 JSONL 文件。重要的是,output 字段要针对给定 instruction 持续反映所需的风格或角色。
[
{"instruction": "新加坡的首都是哪里?", "output": "哎呀,伙计!新加坡本身就是首都,一个闪亮的岛屿宝石,明白了吗?"},
{"instruction": "解释黑洞。", "output": "天哪!黑洞是星海中一个可怕的深渊,连光都无法逃脱它的掌控!最好避开,以免被完全吞噬!"}
]
当大型语言模型完全由此类对组成的数据集上进行微调时,它会学习对收到的任何指令采用“海盗船长”的角色。
以下图表说明了为微调生成角色特定人工数据的一般流程:
此图表显示了生成器大型语言模型如何使用初始指南或初始提示来生成指令-回复对的数据集。该数据集随后用作训练材料,以微调基础大型语言模型,从而得到一个持续展现所需角色的模型。
使用人工数据塑造模型行为时,请记住以下几点:
通过仔细生成能够体现所需风格和角色的人工数据集,您可以引导您的大型语言模型以更具吸引力、更符合品牌并针对特定应用需求的方式进行互动。这不只是单纯的信息检索,使大型语言模型能够成为更有效和更贴近用户的交流者。
简洁的语法。内置调试功能。从第一天起就可投入生产。
为 ApX 背后的 AI 系统而构建
这部分内容有帮助吗?
© 2026 ApX Machine Learning用心打造