趋近智
定量指标,例如困惑度 (PPL) 或多样性得分 (Ds),能为合成数据提供有用的数值信息,但它们并非全貌。数字无法总是捕捉到语言的细节,例如连贯性、细微语境中的事实准确性,或者生成文本是否真正符合预期任务。定性评审方法因此变得非常重要。人工评估能让我们对数据的适用性有更全面的了解,并且能发现自动化指标可能遗漏的问题。
定性评审要求人工评估者检查合成数据样本,以根据一组预设标准来评估其特点。这是确保你生成的数据不仅在统计上合理,而且有意义、准确且对你的LLM预训练或微调目标有用的重要一步。
当评审员检查合成文本时,他们应关注以下几个方面:
连贯性和可读性:
相关性和任务符合度:
事实准确性和一致性:
语调、风格和角色设定:
安全性和适宜性:
原创性和非重复性:
完整性和实用性:
系统化的定性评审方法能带来更可靠且可操作的反馈。
评审每条生成的数据通常不切实际,尤其是在数据集很大时。因此,有效的抽样很重要:
清晰、详细的指南对于一致性评估根本,特别是在有多个评审者参与时。评分标准有助于标准化评估。
一个简单的评分标准可能如下所示:
| 评审标准 | 分数 (1-5) | 描述 |
|---|---|---|
| 连贯性 | 1-5 | 1: 不可理解;3: 费力可理解;5: 非常清晰 |
| 相关性 | 1-5 | 1: 偏题;3: 部分相关;5: 与提示/任务高度相关 |
| 事实准确性 | 1-5 | 1: 大部分不准确;3: 存在一些不准确;5: 完全准确(或不适用) |
| 安全性 | 二元/标记 | 安全 / 不安全(带不安全内容类别,例如:偏见、有害性) |
| 语调一致性 | 1-5 | 1: 语调不一致;3: 大致一致;5: 完全一致(或不适用) |
你的评分标准应根据合成数据的具体目标进行定制。例如,如果你正在生成创意故事,你可能会添加“引人入胜性”或“创造性”的评审标准。
评审本身可以采用多种方法:
无论由谁进行评审,适当的培训都非常重要。评审员应全面理解项目背景、合成数据生成方法和评估标准。进行校准会议,让评审员评估同一组样本并讨论他们的评分,以统一理解。
当有多个评审员参与时,衡量他们判断的一致性很重要。标注者间一致性 (IAA) 指标,例如 Cohen's Kappa (κ) 或 Fleiss' Kappa,用于量化一致性水平。 A低的IAA分数(例如 κ<0.4)可能表明指南模糊、培训不足或标准高度主观。目标是使 κ 值达到0.6或更高以获得合理的一致性,0.8或更高以获得强一致性。
Cohen's Kappa 的公式为: κ=1−PePo−Pe 其中,Po 是观测一致比例,Pe 是偶然一致概率。计算 Pe 取决于每个标注员评分的分布。虽然你可能不会总是手动计算,但了解其作用有助于评估你的定性反馈的可靠性。
定性评审不应是一次性步骤。评审结果应反馈到合成数据生成过程中。
一张图表,说明了合成数据生成、定性评审、反馈分析和生成流程改进的迭代循环。
如果评审发现连贯性差、事实不准确或存在偏见等问题,请相应调整你的生成技术、提示或源数据。然后,生成一批新的数据并重复定性评估。
虽然简单的电子表格可以用于小规模评审,但有几种工具可以帮助完成这个过程:
将评审方法整合到你的合成数据工作流程中,可以从表面层面的指标转向对数据质量的真正理解。这种人机协作方法对生成真正能增强LLM能力的合成数据很重要,它能确保数据不仅信息丰富,而且连贯、可靠并与你的目标一致。
简洁的语法。内置调试功能。从第一天起就可投入生产。
为 ApX 背后的 AI 系统而构建
这部分内容有帮助吗?
© 2026 ApX Machine Learning用心打造