趋近智
“输入垃圾,输出垃圾”的原则在微调中尤其适用。模型的学习能力直接受您提供的数据限制。微调工作流程中起始且可能最具份量的一步是找到并验证一个数据源,该数据源能精确反映您希望模型掌握的特定知识或行为。这个过程需要仔细评估潜在的数据集,无论它们是公开可用的还是来自内部私有来源。
寻找合适数据的途径将带您了解两大类主要来源:公共和私有。
公共数据集易于获取,通常是绝佳的起点。它们通常可以在研究资料库、数据共享平台和开源项目中找到。
datasets 库访问的数据集。您可以按任务(例如,文本生成、摘要)、语言和许可证进行筛选。像 databricks/dolly-15k(指令遵循)或 samsum(对话摘要)这样的数据集是流行的起始选择。私有数据集是组织专有的。这通常是最有价值的数据,因为它对您的用例来说是独特的。示例包括:
虽然私有数据具有独特的优势,但它通常需要更密集的清洗和结构化,因为它最初并非为机器学习目的而创建。
一旦您发现潜在数据集,就必须严格按照多项标准对其进行评估。在此阶段选择不当会在稍后造成重大问题,任何超参数调整都无法弥补。
一个用于评估微调候选数据集的决策框架。
数据集必须与您的目标应用方向以及您希望模型执行的特定任务紧密对齐。
相关性不匹配是微调项目失败最常见的原因。模型将学习您呈现给它的内容,因此请呈现您希望它生成的内容。
高质量数据是干净、一致且准确的。低质量数据会引入噪声,这可能会混淆模型,导致性能不佳、幻觉或加强不良行为。检查数据集时,请寻找:
<p>、<div>)、Markdown 格式或样板文本(“点击此处订阅”)?{"question": "...", "answer": "..."},还是格式不规则?不一致的标签或结构会降低学习效果。小而高质量的数据集几乎总是优于大量、有噪声的数据集。
一个好的数据集应该包含多样化的示例,覆盖您的目标应用方向的广度。如果您正在微调一个模型来回答有关特定软件库的问题,您的数据应包含所有主要模块的示例,而不仅仅是最受欢迎的那个。缺乏多样性会导致模型过拟合于它见过的少数模式,使其变得脆弱,无法泛化到略有不同的输入。
例如,如果您的所有指令示例都以“请解释...”开头,模型可能会对以“什么是...”开头的提示感到困难。
一个常见问题是:“我需要多少数据?”没有单一答案,所需数量取决于:
对于许多指令微调任务,仅需几百到几千个高质量示例即可获得明显的改善。对于在特定应用方向进行完全微调,您可能需要数万个或更多示例。从小规模、高质量的数据集开始,评估结果,如有必要再进行扩展。
这是一个非技术性但极为有价值的核查点,尤其对于商业应用而言。数据集是创作作品,并附带规定其使用方式的许可证。
在投入时间预处理数据集之前,务必检查许可证。Hugging Face Hub 会方便地列出每个数据集的许可证,使此检查变得简单。未能遵守许可条款可能会产生严重的法律后果。
简洁的语法。内置调试功能。从第一天起就可投入生产。
为 ApX 背后的 AI 系统而构建
这部分内容有帮助吗?
datasets 库的官方文档,该库提供了高效加载、处理和共享机器学习数据集(包括用于微调大型语言模型的数据集)的工具。© 2026 ApX Machine Learning用心打造