趋近智
模型表现,很大程度上取决于其训练数据的质量。在您通过微调改变模型表现之前,必须先收集一个能清晰且统一体现期望能力的数据集。本章将系统地指导您如何准备高质量数据,从而让大型语言模型具备特定能力。
您将学习创建可供模型使用的数据集的完整流程。我们会讲到:
本章最后包含一个实践练习,您将运用这些技术,将原始文本数据处理成一个结构化、已分词的、可用于微调的数据集。
2.1 获取和选择高质量数据集
2.2 指令式与对话式数据格式
2.3 数据清洗和预处理技术
2.4 构建和组织定制数据集
2.5 用于微调的分词
2.6 动手实践:构建微调数据集
© 2026 ApX Machine Learning用心打造