合成文本特性的定量分析

后续部分将讨论定性评估和人工判断，而本节侧重于数据。定量指标提供客观、可扩展且可重复的方法来评估合成文本的特点。这些测量对于追踪生成过程的改进、比较不同的数据创建方案，以及发现多样性不足或流畅度不佳等问题，在它们影响下游大型语言模型应用之前，非常有帮助。让我们来看看一些评估合成文本的常用指标。

流畅性和连贯性：文本是否可读且合理？

这组指标评估生成文本的基本质量。它是否自然流畅？它是否合理？流畅连贯的文本是合成数据有用的根本，无论是用于预训练 (pre-training)还是微调 (fine-tuning)。

困惑度 (PPL)

困惑度是评估语言模型生成文本流畅性的一种常用指标。简单来说，它衡量一个概率模型对给定文本序列的“惊讶”程度。较低的困惑度得分表示语言模型认为合成文本更可预测，这通常说明文本更流畅或听起来更自然。

假设你有一个在大量自然语言语料库上训练的语言模型。如果这个模型能轻松预测你的合成数据集中句子的下一个词，那么该句子的困惑度将很低。反之，如果句子显得别扭、语法不正确或没有意义，模型将难以预测它们，从而导致更高的困惑度。

困惑度 (Perplexity, PPL) 通常计算为序列的指数化平均负对数似然。对于文本序列 $W = w_1, w_2, ..., w_N$ ，其中 $N$ 是词元 (token)数量：

PPL(W) = \exp\left( -\frac{1}{N} \sum_{i=1}^{N} \log P(w_i | w_1, ..., w_{i-1}) \right)

这里， $P(w_i | w_1, ..., w_{i-1})$ 是语言模型估计的第 $i$ 个词元在给定前序词元时的概率。

虽然较低的困惑度通常更好，但它并非衡量质量的完美指标。极低的困惑度有时可能表示文本过于重复或过于简单，虽然易于预测，但缺乏内容丰富性。困惑度也受评估模型的词汇量和所用分词 (tokenization)方案的影响。因此，困惑度值在一致条件下进行比较时最有意义：即对所有要比较的数据集使用相同的评估语言模型和分词方法。

何时使用: 比较不同合成数据生成方法的总体文本流畅性，或追踪数据迭代优化过程中流畅性的提升。
注意事项: 务必结合其他指标，更重要的是结合定性的人工评估来使用困惑度。

其他流畅性指标

除了困惑度，你还可以考虑：

语法错误率: 使用自动化语法和拼写检查工具（如 LanguageTool 或专用库）来计算每100或1000个词中的语法错误数量。较低的错误率表示更好的语言质量和流畅性。

多样性：文本是否多样且有内容？

合成数据生成中常遇到的问题是文本过于单一、重复，或者只涵盖狭窄的主题、风格或结构。这种缺乏多样性的情况会限制合成数据用于训练大型语言模型的效用。多样性指标有助于量化 (quantization)生成文本的丰富性和变异性。多样性分数，有时在研究中表示为 $D_s$ ，旨在衡量这方面。

独特N元语法 (Dist-n)

这是一组直观且常用的指标，用于衡量词汇多样性，即文本中短语的种类。它的计算方法是独特N元语法（ $n$ 个词的序列）占N元语法总数的比例。

Dist-1 (一元语法多样性): 计算独特词汇与词汇总数的比率。值越高表示使用的词汇范围越广。
Dist-2 (二元语法多样性): 计算独特双词序列（二元语法）与二元语法总数的比率。这表明短语的多样性。
Dist-n: 这可以推广到更长的序列（三元语法、四元语法等），尽管最常报告的是 Dist-1 和 Dist-2。

较高的Dist-n分数通常表示更大的词汇多样性。公式为：

\text{Dist-n} = \frac{\text{独特N元语法的数量}}{\text{N元语法的总数量}}

例如，如果一个合成数据集总共包含1000个二元语法，其中650个是独特的，那么 Dist-2 = 650/1000 = 0.65。

这里有一个简化的Python示例来说明Dist-1的计算：

# Dist-1（一元语法多样性）的简化示例
# 注意：在生产环境中使用可靠的分词器，并考虑大小写/标点符号。
def calculate_dist_1(texts_list):
    all_words = []
    for text_item in texts_list:
        # 通过空格分割和转换为小写进行基本分词
        all_words.extend(text_item.lower().split())

    if not all_words:
        return 0.0

    unique_words = set(all_words)
    return len(unique_words) / len(all_words)

# 使用示例：
dataset_alpha = ["the quick brown fox jumps over the lazy dog", 
                 "a nimble red fox leaped over a sleeping canine"]
dataset_beta = ["the quick brown fox jumps over the lazy dog", 
                "the quick brown fox jumped over the lazy dog again"]

# 注意：实际数据集会大很多，才能获得有意义的分数。
print(f"数据集 Alpha Dist-1: {calculate_dist_1(dataset_alpha):.3f}")
print(f"数据集 Beta Dist-1: {calculate_dist_1(dataset_beta):.3f}")

在这个小例子中，数据集 Alpha 可能显示更高的 Dist-1，因为它使用了更多样的词汇。

自我BLEU

BLEU（双语评估替身）是一种传统上用于通过比较机器生成译文与一个或多个人工参考译文来评估机器翻译质量的指标。自我BLEU巧妙地调整了这一点，它将合成数据集中的每个句子与该数据集中的所有其他句子进行比较。

在这种情况下，较低的自我BLEU得分是理想的。它说明合成语料库中的句子彼此之间没有过度相似，表明多样性更高。反之，较高的自我BLEU得分则指向生成文本的重复性。

语义相关性和连贯性（与参考或任务相比）

如果你的合成数据旨在模仿特定风格、涵盖特定主题，或作为特定任务（例如，生成医疗对话或Python代码解释）的训练数据，你将需要评估其与这些目标语义一致性的指标。

N元语法重叠指标 (BLEU, ROUGE, METEOR)

当你有参考数据集时，这些指标特别有用，参考数据集是真实的、高质量的数据语料库，你的合成数据试图扩充、复制或从中获取启发。

BLEU (双语评估替身): 主要衡量N元语法的准确率。它计算合成文本中有多少N元语法（通常最多4元语法）也出现在参考文本中。它适用于评估生成文本是否使用与参考文本相似的措辞和术语。
ROUGE (面向召回的摘要评估替身): 侧重于N元语法的召回率。它检查参考文本中有多少N元语法被合成文本包含。例如，ROUGE-L 考虑最长公共子序列，这使得它对评估摘要或应从源文本中捕获主要信息的内容很有用。
METEOR (带显式排序的翻译评估指标): 通过考虑同义词和词干提取，比简单的N元语法匹配更进一步。这使得对相似性有更具语义意识的看法，因为它能识别出“quick”和“fast”可能相关，即使它们不是精确匹配。

使用这些指标时，你将你的合成语料库（或从中提取的样本）与一个可信的参考语料库进行比较。较高的分数通常表示在内容和风格方面与参考数据有更好的一致性。

基于嵌入 (embedding)的相似性

词嵌入和句子嵌入（源自 Word2Vec、GloVe 或基于 Transformer 的模型如 Sentence-BERT 等）将语义信息表示为高维空间 (high-dimensional space)中的密集向量 (vector) (dense vector)。这些嵌入可用于评估语义特性：

平均余弦相似度：
- 与参考数据相比: 如果你有参考数据集，你可以计算合成数据集和参考数据集中句子的嵌入。然后，对于每个合成句子，使用余弦相似度在参考数据集中找到其最接近的匹配。对这些相似度取平均值，可衡量你的合成数据与真实数据在语义上的接近程度。
- 集合内连贯性/多样性: 计算合成数据集内部随机句子对的嵌入之间的平均余弦相似度。非常高的平均相似度可能表示多样性低（所有句子在语义上非常接近），而非常低的分数可能表示主题缺乏专注，如果数据旨在围绕特定主题保持一致。解释取决于你数据集所需的特点。
嵌入可视化: 降低句子嵌入的维度（例如，使用 t-SNE 或 UMAP）并进行绘图。这有助于直观检查：合成数据点是否与真实数据点（如果可用）类似地聚类？它们是否覆盖了预期的语义空间，或者是否存在明显的空白或对某些区域的过度强调？

句子嵌入的二维投影。“合成数据 (覆盖良好)”点（绿色叉形）与“真实数据点”（蓝色圆形）重叠良好，表明语义覆盖充分。“合成数据 (覆盖不佳/漂移)”点（红色菱形）占据了不同且较小的区域，这可能说明它未能捕捉真实数据的完整语义范围，或已偏离目标分布。

特定任务表现

归根结底，如果你正在为特定的下游大型语言模型任务（例如，为指令遵循、摘要或代码生成微调 (fine-tuning)模型）生成合成数据，最直接的评估是使用这些合成数据训练或微调的模型在该任务上的表现如何。

在合成数据上训练，在真实数据上评估: 常见做法是仅在合成数据集上训练你的大型语言模型（或为更快迭代而使用的小型代理模型），或在合成数据和真实数据的混合上训练。然后，在一个代表目标任务的、预留的高质量测试集上评估其性能。
任务指标: 使用与该特定任务相关的标准评估指标。例如：
- 分类：准确率、F1分数、精确率、召回率。
- 问答：精确匹配 (EM)、F1分数。
- 摘要：ROUGE 分数。
- 翻译：BLEU, METEOR。
- 指令遵循：这通常难以自动量化 (quantization)，可能需要人工评估或专门的基准测试，但有时可以通过任务完成率或特定指令集上的得分来近似衡量。

这种评估直接衡量了你的合成数据对于预期目的的实用性，使其成为一个非常重要的质量指标。

将指标应用于实践

有效使用定量指标不仅仅是计算数字：

整体考量: 避免仅依赖单一指标。每个指标只反映数据质量的某些方面。一个包含流畅性、多样性和相关性（如果适用）指标的仪表盘或集合能提供更全面的情况。
基准比较是相对的: 许多指标（如困惑度或Dist-n）的绝对值单独来看可能难以理解。它们的真正用途在于相对比较：
- 与你领域中高质量的真实数据的指标（如果可用）进行比较，以设定目标或基线。
- 随着你完善生成过程，追踪合成数据不同版本间的指标变化。
- 比较不同方法或参数 (parameter)设置生成的数据。例如，如果生成方法 A 产生 Dist-2 为 0.7，方法 B 产生 0.5，则方法 A 生成的文本具有更多样的二元语法。
敏感性分析: 试验当你改变合成数据生成过程中的参数（例如，基于大型语言模型生成的 temperature 设置，或基于规则系统中规则的复杂性）时指标如何变化。这种理解可以帮助你调整过程以获得期望的结果。
可用工具: 你不必总是从头实现这些指标。许多自然语言处理库提供了实现：
- NLTK (自然语言工具包): 对基本文本处理、分词 (tokenization)和N元语法计算很有用。
- Hugging Face evaluate 库: 一个全面的库，提供易于使用的各种指标实现，包括 BLEU、ROUGE、METEOR 和困惑度（通常与其 datasets 库结合使用）。
- Scikit-learn: 提供计算余弦相似度和其他可用于文本评估的通用机器学习 (machine learning)指标的工具。

定量分析提供关于合成数据特点的客观数值证据。它说明了你的数据有哪些属性。在后续部分，我们将通过查看定性评估方法来补充这一点，这些方法有助于说明数字背后的“原因”，并提供关于数据质量的重要人工见解。定量和定性评估的结合构成了一个稳固的评估框架。

使用 Kerb 更快构建 LLM 应用

简洁的语法。内置调试功能。从第一天起就可投入生产。

为 ApX 背后的 AI 系统而构建

这部分内容有帮助吗？

参考文献

BLEU: a Method for Automatic Evaluation of Machine Translation, Kishore Papineni, Salim Roukos, Todd Ward, and Wei-Jing Zhu, 2002 Proceedings of the 40th Annual Meeting of the Association for Computational Linguistics (Association for Computational Linguistics) DOI: 10.3115/1073083.1073135 - 介绍了广泛采用的BLEU指标，用于机器翻译质量的自动评估，对于n-gram精度评估很重要。
ROUGE: A Package for Automatic Evaluation of Summaries, Chin-Yew Lin, 2004 Text Summarization Branches Out. Proceedings of the ACL-04 Workshop (Association for Computational Linguistics) DOI: 10.3115/1621375.1621382 - 提出了ROUGE指标套件，用于自动评估摘要，侧重于n-gram召回率和最长公共子序列匹配。
Speech and Language Processing: An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition, Daniel Jurafsky, James H. Martin, 2025 (Pearson) - 这是一本流行教科书的第三版草稿，涵盖了包括语言模型和困惑度计算在内的基础NLP概念。
BERTScore: Evaluating Text Generation with BERT, Tianyi Zhang, Varsha Kishore, Felix Wu, Kilian Q. Weinberger, and Yoav Artzi, 2020 International Conference on Learning Representations (ICLR) (International Conference on Learning Representations (ICLR)) DOI: 10.48550/arXiv.1904.09675 - 引入了BERTScore，这是一种基于嵌入的文本生成评估指标，利用上下文嵌入来衡量语义相似性。