趋近智
尽管 Inception Score (IS) 提供了一个量化评估,但它主要关注生成图像自身的特性(基于 Inception 分类器的清晰度和多样性),而没有直接将它们的分布与真实数据分布进行比较。这有时可能产生误导,特别是当生成器产生高质量但不具多样性的样本(模式崩溃),并且这些样本在有限的类别上恰好能很好地欺骗 Inception 分类器时。
Fréchet Inception 距离 (FID) 通过直接比较从真实图像和生成图像中提取特征的统计数据来弥补这一不足。它提供了一种更科学的方法来衡量高维特征空间中这两种分布之间的距离。
FID 的主要思路是使用预训练的深度卷积网络(通常是 Inception v3 模型)生成的嵌入来表示真实图像集和生成图像集。FID 不使用最终的分类输出,而是使用来自中间层(通常是分类头之前的最终平均池化层)的激活。该层能获取丰富的、高层次的视觉特征。
以下是具体过程:
特征提取: 大量真实图像 (Nr) 和大量生成图像 (Ng) 经过预训练的 Inception v3 网络。收集每个图像所选中间层的激活。这会得到两组特征向量:一组用于真实图像 (Xr),一组用于生成图像 (Xg)。每个特征向量都存在于一个高维空间中(例如,典型的 Inception v3 层有 2048 维度)。
分布建模: FID 假定真实图像和生成图像的这些高维特征向量可以被多元高斯分布合理地建模。这是一种简化,但在实际应用中效果良好。
计算统计量: 为每组特征向量计算平均向量和协方差矩阵:
Fréchet 距离是衡量两个多元高斯分布之间距离的一种方式。FID 分数是根据 Inception 特征的均值和协方差矩阵计算得出的,具体如下:
FID(Xr,Xg)=∣∣μr−μg∣∣22+Tr(Σr+Σg−2(ΣrΣg)1/2)我们来分析这个公式:
∣∣μr−μg∣∣22: 这是真实图像 (μr) 和生成图像 (μg) 平均特征向量之间的平方欧几里得距离(或 L2 范数平方)。它反映了两个集合的平均特征差异程度。距离越小,表示生成的图像在平均意义上与真实图像具有类似的高层次特征。
Tr(…): 这一项涉及协方差矩阵 (Σr 和 Σg) 组合的迹(对角线元素的和)。协方差矩阵反映了不同特征维度之间的分散和相关性。这一项衡量了两种分布协方差结构之间的距离。(ΣrΣg)1/2 表示协方差矩阵乘积的矩阵平方根。较小的迹值表明,生成图像特征的分散和相关性与真实图像类似。这部分对于体现生成样本相对于真实数据的多样性尤其有意义。
FID 分数是一个非负值,其单位与特征空间中的平方距离有关。
该图描述了 FID 如何在 Inception 特征空间中衡量真实和生成图像特征分布(建模为高斯分布)之间的距离。FID 同时考量均值 (μr,μg) 和协方差矩阵 (Σr,Σg) 的差异。
与 Inception Score 相比,FID 通常被认为更值得信赖。它对模式崩溃(影响 Σg)和图像伪影(同时影响 μg 和 Σg)都很敏感。它还使得生成分布与目标真实分布的比较更为直接。需要注意的是,FID 的计算依赖于所选的预训练模型 (Inception v3) 和使用的具体特征层。此外,为获得可靠的均值和协方差估计,计算一个稳定的 FID 分数需要从真实和生成集合中获取足够多的样本(通常为 10,000 或更多,常推荐 50,000 个)。
这部分内容有帮助吗?
© 2026 ApX Machine Learning用心打造