评估合成文本：困惑度、BLEU分数

这部分内容有帮助吗？

参考文献

BLEU: a Method for Automatic Evaluation of Machine Translation, Kishore Papineni, Salim Roukos, Todd Ward, Wei-Jing Zhu, 2002 Proceedings of the 40th Annual Meeting of the Association for Computational Linguistics (Association for Computational Linguistics) DOI: 10.3115/1073083.1073135 - 介绍了BLEU分数，这是一种广泛用于评估机器翻译和文本生成质量的指标。
Speech and Language Processing: An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition, Daniel Jurafsky, James H. Martin, 2025 (Pearson) - 一本全面的自然语言处理教材，涵盖了语言建模和困惑度等基本概念。
ROUGE: A Package for Automatic Evaluation of Summaries, Chin-Yew Lin, 2004 Text Summarization Branches Out (Association for Computational Linguistics) DOI: 10.3115/1621251.1621280 - 提出了ROUGE指标，常用于基于n-gram召回率评估摘要和文本生成。
BERTScore: Evaluating Text Generation with BERT, Tianyi Zhang, Varsha Kishore, Felix Wu, Kilian Q. Weinberger, Yoav Artzi, 2020 International Conference on Learning Representations (ICLR) DOI: 10.48550/arXiv.1904.09675 - 介绍了BERTScore，一种基于预训练上下文嵌入的指标，用于更语义化地评估文本生成质量。