虽然像FID、IS和KID这样的定量指标为比较生成模型提供了有用的数值分数,但它们未能完全说明问题。这些分数通常来源于预训练网络中的激活或统计距离,有时可能会遗漏样本质量中微小但重要的方面,无法捕捉特定类型的伪影,或者忽略多样性和对条件输入的依从性中的细节。一个模型可能获得良好的FID分数,但对人类观察者而言,其生成的样本可能仍然明显不真实或缺乏多样性。因此,定性评估仍然是评估生成模型表现的不可或缺的一部分。
定性方法依赖于人类的感知和判断来评估合成数据。它们有助于回答以下问题:“这些样本看起来真实吗?”、“是否存在反复出现的视觉问题?”、“模型是否捕捉到了训练数据的全部多样性?”以及“生成的输出是否与请求的条件准确匹配?”。
视觉检查(“肉眼检查”)
最直接的定性方法是对生成样本进行直接视觉检查。这包括生成足够大且有代表性的一批样本,并仔细检查它们,通常与真实数据示例并排比较。
评估方面:
- 逼真度和真实感: 检查整体的合理性。生成的图像(或其他数据类型)是否类似于真实数据分布中的样本?密切关注细节、纹理以及物体和场景的连贯性。生成模型常见的特定伪影包括:
- GANs: 棋盘格模式(通常来自转置卷积)、模式崩溃(缺乏多样性)、不真实的纹理、扭曲的物体部分。
- 扩散模型: 过度平滑的区域、轻微模糊(尤其是在采样步数较少时)、色彩偏移或在意想不到位置出现的噪点状纹理。
- 多样性: 检查生成批次中的变化。模型是否产生广泛的输出范围,或者许多样本是重复的或彼此之间只有细微变动?将多样性与真实数据集进行比较。缺乏多样性,即使单个样本具有高逼真度,也表明可能存在模式崩溃或覆盖问题。
- 伪影: 识别多个样本中存在的任何系统性视觉错误或不自然元素。某些特征是否持续被错误表示?是否存在奇怪的几何扭曲或颜色模式?
- 条件一致性(如适用): 对于条件模型(例如,文本到图像、类别条件生成),验证生成的输出是否准确反映了条件输入。如果要求一张“红色汽车”的图像,生成的图像是否明确是一辆车,而且是红色的?评估条件的强度和准确性。
示例网格比较:
假设您从模型中生成了64张图像。将它们显示在8x8的网格中。旁边,显示一个从您的训练集中随机选择的64张真实图像的网格。全局比较这些网格(整体纹理、颜色分布、多样性),并单独比较(将特定的合成图像与类似的真实图像进行比较)。
局限性:
- 主观性: 一个人认为真实或多样,另一个人可能不这么认为。结果可能因评估者而异。
- 可扩展性: 手动检查数千或数百万个样本是不切实际的。您通常只评估一小部分。
- 偏见: 评估者可能专注于他们熟悉的某些方面,或无意识地偏爱外观上令人愉悦的样本,即使它们并非完全真实。
尽管存在这些局限性,视觉检查是重要的第一步,并且常能发现定量指标遗漏的问题。
人类研究和用户调查
为了进行更严谨和系统的定性评估,特别是在对模型进行基准测试或需要可量化的人类感知数据时,会采用结构化的人类研究。
常见方法:
- 真假辨别(图灵测试): 参与者被展示真实和合成样本的混合(一次一个或并排),并被要求识别哪个是哪个。模型的成功通常通过其“欺骗”人类的能力来衡量(即,实现接近50%的辨别准确率)。
- 偏好判断: 参与者被展示成对的样本(例如,模型A对比模型B,或模型A对比真实数据),并被要求根据真实感、质量或无伪影等具体标准选择他们偏好的一个。汇总的偏好可以对模型进行排名。
- 评分量表: 参与者在数值量表上(例如,1到5)对单个样本进行评分,评分属性包括:
- 整体真实感
- 伪影的存在
- 图像质量
- 属性正确性(针对条件生成)
设计有效的研究:
- 明确的任务定义: 指示必须明确。明确定义用户应评估的标准(例如,“哪张图片看起来更像真实的摄影作品?”)。
- 随机化: 随机化样本呈现的顺序以及真/假标签的分配(在辨别任务中),以避免顺序效应和偏见。
- 足够的样本量: 包含足够的生成样本、真实样本和人类参与者,以获得统计学上有效的结果。
- 参与者群体: 考虑目标受众。评估医学图像可能需要专家放射科医生,而评估一般摄影作品可能使用众包参与者。注意潜在的人口统计偏见。
- 伦理考量: 如果使用人类参与者,请确保知情同意并遵守相关伦理准则(可能需要IRB审查)。
真假研究的示例工作流程:
流程图展示了进行合成图像真假人类评估研究的步骤。
缺点:
人类研究比自动化指标或简单的视觉检查显著更耗时和资源密集(成本、后勤)。正确设计和执行它们需要细心,以避免引入偏见。
属性分析
另一种方法是使用预训练模型(分类器或检测器)来分析生成数据中存在的语义属性。这作为纯粹视觉检查和定量指标之间的连接。
流程:
- 识别数据集中相关的属性(例如,对于人脸:年龄、性别、表情、眼镜;对于场景:物体存在,如“汽车”、“树”、“建筑”)。
- 获取或训练这些属性的分类器/检测器。
- 在大量真实数据样本上运行这些分类器,以获得属性的基线分布。
- 在您的模型生成的大量合成数据样本上运行相同的分类器。
- 比较真实数据集和合成数据集之间预测属性的分布。
示例: 如果您的真实人脸数据集包含50%带有眼镜的图像,但您的合成数据集中只有10%被预测为带有眼镜,这表明模型未充分表示此属性(可能是模式崩溃或偏见的一种形式)。
优点:
- 在检查特定语义属性方面,比手动检查更具可扩展性。
- 为属性表示和潜在偏见提供了定量见解。
局限性:
- 严重依赖属性分类器的可用性和准确性。分类器本身的偏见会扭曲评估。
- 如果属性过于粗糙,可能无法捕捉到真实感的细微方面。
比较分析
通常,目标不仅仅是孤立地评估一个模型,而是比较不同的模型、不同的超参数或训练的不同阶段。定性比较在此处非常有效。
将来自不同来源的样本并排呈现。这使得观察者更容易发现以下方面的相对差异:
- 伪影减少
- 细节逼真度
- 多样性改进
- 条件作用的有效性
这在消融研究中特别有用,您希望直观地表明添加或移除特定组件或技术(如新的损失项或架构改变)的影响。
定性与定量评估相结合
定性方法与定量指标结合使用时最有效。像FID这样的指标可以提供高级基准并在训练期间跟踪进展,而定性检查和人类研究可以验证这些分数,展现失败模式,并为感知的质量和多样性提供更全面的理解。一个好的评估策略通常包括:
- 在训练期间监控定量指标(例如FID)。
- 定期进行生成批次的视觉检查。
- 为了最终模型选择或重要的比较,进行更严谨的定性分析(例如属性分析或人类研究)。
最终,理解您的模型如何成功或失败,需要超越数字,直接评估其生成的数据。这些定性技术为这种重要的评估提供了必要的工具。