趋近智
遵循指令微调的原则,下一步的实际操作是获取所需数据。您的微调模型的效果在很大程度上取决于所用指令数据集的质量、多样性和相关性。仅仅拥有大量数据是不够的;数据集必须引导模型实现所需的指令遵循行为。下面我们来看看获取和构建这些数据集的常用方法。
寻找或生成合适的指令数据通常涉及以下一种或多种方法:
使用现有公开数据集: 许多公开可用的数据集是专门为指令微调创建或改编的。例如:
text-davinci-003 通过 Self-Instruct 方法生成,起始于一小组人工编写的指令种子集。它包含大约 52,000 个指令-响应对。dolly-v2-12k): 完全由 Databricks 员工创建,侧重于人工生成的指令-响应对,涵盖头脑风暴、分类和创意写作等多种能力。它强调质量和人工原创性。使用公开数据集时,请考虑其来源(人工或合成)、许可、任务多样性、潜在偏见和整体质量。它们提供了一个有力的起点,但可能需要根据具体需求进行筛选或补充。
转换现有 NLP 数据集: 许多标准 NLP 基准测试可以被重新利用为指令遵循格式。这通常涉及通过编程方式向现有输入-输出对添加指令短语。
(上下文, 问题) -> 答案 对转换为:
上下文: [上下文]\n问题: [问题][答案]文档 -> 摘要 对转换为:
[文档][摘要]源语句 -> 目标语句 对转换为:
[源语句][目标语句]此方法在利用现有标注数据方面具有成本效益,但与人工生成的数据相比,可能导致指令不那么自然或多样。如果从简单模板通过编程生成,所产生的指令也可能重复。
人工标注: 直接雇佣人工标注者来编写指令和相应的 E高质量响应,在质量和相关性方面提供了最大的潜力。这能够实现:
人工标注通常是最昂贵和耗时的方法。它需要明确的指导方针、质量控制机制和对标注过程的细致管理。可扩展性也可能是一个挑战。诸如 Amazon SageMaker Ground Truth 或专业数据标注服务等平台可以促进此过程。
合成生成(Self-Instruct 方法): 这种技术使用一个强大的现有 LLM(通常称为“教师”模型)来生成新的指令数据,通常以一小组人工编写的示例为种子。一般过程包括:
Self-Instruct 方法因 Alpaca 数据集而普及,它允许在初始种子集和筛选后,以最少的人工投入快速生成大型数据集。然而,它也伴随着风险:
指令数据集获取方法的相对比较。成本反映了初始资源投入。
无论数据来源如何,构建一个有影响力的指令数据集都涉及多方面考量:
指令数据集的获取和构建是一个迭代过程。你可能会从一个公开数据集开始,用转换后的数据进行补充,并可能用少量高质量的人工标注数据进一步完善,以解决特定弱点或达成所需能力。目标是创建一个数据集,它能清晰地教会模型如何有效响应它将遇到的指令类型。
简洁的语法。内置调试功能。从第一天起就可投入生产。
为 ApX 背后的 AI 系统而构建
这部分内容有帮助吗?
© 2026 ApX Machine Learning用心打造