监控生成质量

虽然延迟 ( $L_{gen}$ ) 和吞吐量 (throughput) ( $T_{req}$ ) 等指标量化 (quantization)了您部署的扩散模型的效率，但它们未能反映生成输出的有效性或可接受性。监控生成质量对于确保用户满意度、实现应用目标以及维持系统信任同等重要，甚至更为重要。即使性能指标优异，输出质量下降也可能使服务变得无用甚至有害。

生成模型，特别是生成图像的扩散模型，其质量是多方面的。它通常是主观的，并高度依赖于具体的应用。衡量维度包括：

提示词 (prompt)一致性： 生成图像在多大程度上忠实地反映了输入提示中描述的意图和细节？它是否捕捉到了指定的物体、动作、风格和构图？
逼真度和真实感： 对于旨在实现照片般逼真效果的应用，输出的可信度和无失真程度如何？它是否包含不自然的纹理、不可能的物理现象或其他视觉上的不一致？
美观性： 图像是否具有视觉吸引力？这高度主观，但有时可以根据构图、色彩协调和风格进行近似评估或判断。
生成瑕疵： 是否存在常见的扩散模型失败模式，例如扭曲的面部、多余的肢体、损坏的文本、不自然的重复，或者训练数据中可见的水印？
多样性： 对于相似的提示词，模型是否生成合理多样化的输出，还是出现模式崩塌，生成重复的图像？
安全性和适宜性： 模型是否根据预设的安全准则生成有害、有偏见、冒犯性或任何不适宜的内容？

在生产环境中监控这些维度需要结合自动化技术和人工监督，因为纯粹的算法评估往往无法完全捕捉到真实感知到的质量。

自动化质量评估

自动化方法提供了可扩展的方式来获取关于生成质量的持续信号，尽管它们通常是代理指标而非最终的衡量标准。

对齐 (alignment)度量（例如，CLIP 分数）： CLIP 分数等度量指标使用联合视觉语言模型（如 CLIP）来衡量输入提示词 (prompt)和生成图像之间的语义相似性。分数越高通常表明文本描述与图像内容之间的对齐更好。尽管有用，但 CLIP 分数并不能完美捕捉一致性或失败情况。它是根据图像嵌入 (embedding) ( $E_I$ ) 和文本嵌入 ( $E_T$ ) 之间的余弦相似度计算得出的：
$\text{CLIP 分数} = \frac{E_I \cdot E_T}{\|E_I\| \|E_T\|}$
随着时间推移跟踪生成图像的平均 CLIP 分数有助于检测系统性偏差，即模型开始生成与提示词相关性较低的输出。

平均 CLIP 分数的下降，如 2024-01-05 左右所示，可能表明提示词一致性出现退步，需要调查。
无参考图像质量评估（NR-IQA）： 可以应用无需参考图像即可预测感知图像质量的算法。训练用于预测美观性（例如，LAION Aesthetic Predictor）或检测特定技术缺陷（模糊、噪声）的模型属于此类别。它们可以提供关于视觉吸引力或特定类型退化存在的信号。
生成瑕疵检测模型： 您可以训练专门的分类模型来检测扩散模型常见的生成瑕疵（例如，多余的手指、扭曲的面部、模糊区域）。对生成的图像样本运行这些分类器可提供衡量瑕疵频率的量化 (quantization)指标。
安全分类器： 部署分类器来检测不适合工作（NSFW）内容、暴力、仇恨言论图像或您的内容策略定义的其他类别，这是很重要的。监控这些分类器的触发率对于负责任的部署非常重要。

需要记住的是，自动化指标与人类判断的相关性往往不完美。它们最好用于检测变化和趋势，而非作为绝对的质量衡量标准。平均 CLIP 分数大幅下降或生成瑕疵检测率飙升，应触发进一步调查，可能需要人工评审。

人工反馈机制

对于评估生成质量的方面，如提示词 (prompt)的细微误解、美观性或新的失败模式，人工判断仍是最可靠的方式。

用户直接反馈： 在应用程序中集成简单的反馈机制（例如，“赞/踩”按钮、星级评分、针对特定问题（如“与提示不符”或“包含瑕疵”）的报告选项）提供了宝贵的直接输入。汇总这些评分并跟踪趋势。“踩”的数量突然增加是质量问题的强烈信号。
内部评审与标注： 建立一个流程，供内部团队定期评审生成输出的样本。这可能包括：
- 对所有生成内容进行随机抽样。
- 对自动化监控器标记 (token)的生成内容进行有针对性的抽样（低 CLIP 分数、高瑕疵概率）。
- 评审由特定具有挑战性的提示词或提示词类别生成的输出。标准化的标注指南有助于在这些评审中保持一致性。
A/B测试： 在推出新的模型版本、不同的采样器设置或更新的安全过滤器时，使用 A/B 测试框架。将不同配置的输出提供给不同的用户群，并比较各组之间的质量指标（包括自动化分数和用户反馈率），以做出数据驱动的决策。

整合人工反馈通常涉及构建一个循环，其中反馈数据被收集、汇总、分析，并用于指导模型改进或操作调整。

图示了一个典型的反馈循环，用于监控和改进生成质量，结合了自动化指标和用户输入。

代理指标

有时，直接测量质量很困难。在这种情况下，可以寻找基于用户行为的代理指标，这些指标可能与用户对输出质量的满意度相关联：

用户参与度： 跟踪用户下载、分享或保存生成图像的频率。下降可能表示感知质量较低。
任务完成率： 如果生成是更大工作流程的一部分，则跟踪该工作流程的成功率。
支持工单： 监控与图像质量差或意外输出相关的支持工单的数量和性质。

实施策略

有效地监控生成质量包括：

定义质量标准： 清晰定义您的特定应用可接受的质量标准，包括提示词 (prompt)一致性、瑕疵容忍度和安全要求等方面。
结合多种方法： 依靠自动化指标的组合（用于广泛的监测和趋势发现）和人工反馈（用于提供真实数据和详细评估）。
系统抽样： 监控有代表性的生产流量样本，而不是试图评估每一个生成的图像。
建立基线： 测量已知良好模型版本的质量指标，以建立用于比较的基线。
可视化与警报： 使用监控仪表板（如 Grafana、CloudWatch Dashboards）可视化随时间变化的质量趋势。设置警报以应对明显偏离基线或阈值的情况（例如，平均 CLIP 分数急剧下降、瑕疵率超过 X%、负面用户评分飙升、安全过滤器触发次数增加）。
迭代改进： 使用从质量监控中获得的见解来优先进行改进、指导微调 (fine-tuning)工作并完善安全协议。

监控生成质量不是一次性设置，而是一个持续的过程，对于您的规模化扩散模型部署的长期成功和可靠性是必不可少的。它确保您的服务不仅高效运行，还能为用户提供有价值且可接受的结果。

这部分内容有帮助吗？

参考文献

Learning Transferable Visual Models From Natural Language Supervision, Alec Radford, Jong Wook Kim, Chris Hallacy, Aditya Ramesh, Gabriel Goh, Sandhini Agarwal, Girish Sastry, Amanda Askell, Pamela Mishkin, Jack Clark, Gretchen Krueger, and Ilya Sutskever, 2021 Proceedings of the 38th International Conference on Machine Learning (ICML), Vol. 139 DOI: 10.48550/arXiv.2103.00020 - 解释了CLIP模型，这是监测生成图像提示一致性所用的CLIP分数的基础。
Designing Machine Learning Systems: An Iterative Process for Production-Ready Applications, Chip Huyen, 2022 (O'Reilly Media) - 提供了MLOps的实践指导，包括监测部署的机器学习模型策略，以确保其在生产环境中的质量和可靠性。