趋近智
与监督学习任务相比,评估生成模型的输出带来了一系列特有的困难。分类任务拥有清晰的指标,如准确率、精确率和召回率,可以直接将预测与已知的真实标签进行比较。类似地,回归任务使用均方误差(MSE)等指标来衡量与目标值的偏差。然而,生成模型缺乏这种直接的真实数据比较。当GAN从潜在向量生成图像,或者扩散模型通过其逆过程合成数据时,并没有一个唯一的“正确”图像或数据点应该产生。相反,目标是生成在真实数据分布下合理的样本。这种根本区别导致了一些评估难题。
一个主要难题在于同时评估两个经常相互竞争的方面:样本质量(保真度)和样本多样性。
这两个方面可能相互制约。GAN中一种常见的失败模式,即模式崩溃,便说明了这一点。生成器可能只学会生成少数几种输出,这些输出能够可靠地欺骗判别器。这些输出单独看质量可能很高,但模型未能捕捉到真实数据分布的多样性。评估模型需要能够有效衡量这两个方面的指标和方法。仅仅查看少数“最佳”样本是不够的;我们需要理解生成器产生的整体分布。
对于图像、音频和文本等数据类型,人类感知往往是质量的最终评判标准。自动化指标试图量化这一点,但它们本质上是近似值。一幅图像可能在某个特定指标上得分很高,但仍包含人类观察者显而易见的细微缺陷;反之,一幅被人类认为是高质量的图像,在某些指标上可能得分不高。设计与人类感知判断在不同数据集和模型类型上良好相关的指标,仍然是一个持续的研究方向。
核心数学难题是比较学习到的分布与真实数据分布。两者通常都是复杂的高维概率分布。直接估计这些密度通常难以处理,特别是对于高分辨率图像或复杂结构化数据,其维度非常大()。
评估方法通常依赖于比较从和中抽取的样本的统计量或特征。这带来了一系列自身难题:
尽管定量指标提供了客观且可重复的分数,但它们并非万无一失。
评估生成模型可能是计算密集型的。涉及使用大型神经网络(如Inception V3用于FID/IS)进行特征提取或比较大量样本的方法,可能需要大量时间和资源,使得训练期间的频繁评估或广泛的超参数搜索变得昂贵。存在更快、近似的方法,但通常涉及准确性方面的权衡。
最终,“好”生成模型的定义可能取决于其预期应用。
因此,评估生成模型通常需要多方面的方法,将多种定量指标与定性评估结合起来,并在适用情况下,基于下游任务性能进行评估。接下来的部分将介绍为应对这些难题而开发的具体指标,详细说明它们的计算方法、解释、优点和缺点。
这部分内容有帮助吗?
© 2026 ApX Machine Learning用心打造