趋近智
评估生成对抗网络(GAN)的输出不像监督学习中计算准确度或损失那样直接。由于生成器的目标是产生逼真且多样的样本,以模拟目标分布,我们需要能评估单个生成图像的质量(保真度)以及整个生成集合的多样性(变化程度)的指标。仅仅查看样本是主观的,且难以大规模衡量,而训练期间生成器和判别器的损失通常与最终输出的感知质量没有强关联。因此,需要专门的量化指标来对不同 GAN 模型或训练检查点进行客观比较。
主要问题在于比较概率分布:真实数据分布 和由生成器隐式定义的分布 。我们想衡量 与 的“接近”程度。此领域中有两个重要指标已成为标准:Inception 分数(IS)和 Fréchet Inception 距离(FID)。
Inception 分数旨在利用预训练的图像分类模型(通常是在 ImageNet 上训练的 Inception V3)来衡量保真度和多样性。其原理有两方面:
这两方面结合起来,使用条件分布和边缘分布之间的 Kullback-Leibler (KL) 散度,并对所有生成样本 进行平均:
更高的 Inception 分数通常被认为更好。然而,IS 存在局限性。它主要衡量生成的图像是否像 ImageNet 中的任何类别,而不一定衡量如果目标数据集与 ImageNet 不同时,生成的图像是否像目标数据集中的特定类别。它也不直接比较生成图像与目标分布中的真实图像,并且易受类别内对抗性样本影响。此外,研究表明 IS 并非总能与人类对图像质量的感知良好关联,特别是在类别内部的多样性方面。
Fréchet Inception 距离已成为一个更受欢迎和广泛采用的指标,因为它解决了 IS 的一些不足。FID 直接比较生成图像的统计数据与目标数据集中真实图像的统计数据。它在预训练 Inception V3 模型的特征空间中运行。
FID 的计算方法如下:
特征提取: 从预训练的 Inception V3 网络中选择特定层(通常是分类头之前的最终平均池化层)。将大量真实图像 () 和生成图像 () 通过网络处理到该层,以获取每张图像的特征向量。
分布建模: 假设真实图像和生成图像的提取特征向量服从多元高斯分布。分别计算真实和生成集合的特征向量的均值向量 (,) 和协方差矩阵 (,)。
距离计算: 计算两个建模分布 ( 和 ) 之间的 Fréchet 距离(在高斯分布中也称为 Wasserstein-2 距离)。公式如下:
其中, 表示均值向量间的平方欧几里得距离, 是矩阵的迹(对角线元素的和), 是协方差矩阵乘积的矩阵平方根。
较低的 FID 分数表明生成图像特征的统计数据与真实图像特征的统计数据更相似,这表示生成分布 更接近真实数据分布 。较低的 FID 通常对应更好的图像质量和多样性。
使用 Inception 模型从真实和生成图像中提取的特征向量被建模为高斯分布。FID 衡量这些分布之间的距离,同时考虑它们的均值 () 和协方差 ()。距离越小意味着相似度越高。
FID 对噪声更敏感,对模式崩溃也敏感(因为它会影响均值和协方差),并且与人类对图像质量的判断相关性优于 IS。然而,它需要真实和生成分布中的大量样本(通常为 10,000 到 50,000 个)才能可靠地估计均值和协方差矩阵。其计算也比 IS 更密集。
尽管 IS 和 FID 最为常见,但还存在其他衡量方法:
实用建议:
总之,评估 GAN 需要超越简单的损失函数。像 IS,特别是 FID 这样的指标,通过比较生成图像(通常在特征空间中)与真实图像的分布,提供了量化方法来评估生成图像的质量和多样性。理解这些指标的工作原理及其局限性,对于有效地开发和比较生成模型来说非常重要。
这部分内容有帮助吗?
© 2026 ApX Machine Learning用心打造