趋近智
在投入大量计算和数据资源训练大型语言模型后,下一步是衡量它在基本任务——建模语言——上的实际表现。评估这些复杂系统需要特定的方法。有一类评估方法直接关注模型预测文本序列的能力,而无需在下游应用中对其进行测试。
本章着重介绍这些内在评估方法。我们将研究直接从模型为文本序列分配的概率中得出的指标。最常见的内在指标是困惑度,它量化 (quantization)了概率模型预测样本的效果。它与训练期间使用的交叉熵损失有紧密联系。较低的困惑度分数通常表明模型在预测测试数据方面表现更好,这意味着它为观测到的序列分配了更高的概率。对于序列 ,困惑度可以根据模型分配的概率 表示为:
理解困惑度为模型的语言建模质量提供了一个基础评估。
在本章中,你将学到:
21.1 语言模型评估方法
21.2 困惑度:定义与计算
21.3 理解困惑度得分
21.4 每字符/词比特数
21.5 分词对困惑度的影响