趋近智
训练好多模态AI模型后,如何判断它是否表现良好?损失函数通过告知模型预测的偏差程度来引导训练过程。虽然损失函数对训练不可或缺,但它们给出的分数通常在表现方面人类不易解读。这时,评估指标就派上用场了。评估指标提供标准化、易懂的分数,帮助我们衡量和比较模型在特定任务上的表现。它们回答了这个问题:“这个模型在预定功能上表现如何?”
不同的多模态任务会产生不同类型的输出(例如文本描述、问题答案、类别标签),因此我们需要针对每种情况定制不同的指标。我们来看一下常见多模态应用的一些基础指标。
图像字幕生成模型为给定图像生成文本描述。评估这些字幕需要将机器生成的文本与人类编写的参考字幕进行比较。
BLEU(双语评估替补) BLEU是一种广泛使用的指标,用于评估机器生成的文本,包括图像字幕。它衡量候选字幕(来自模型)与一个或多个参考字幕(由人类编写)的相似程度。 核心思想是统计候选字幕和参考字幕之间匹配的词序列,称为n-gram。
匹配的n-gram数量越多(特别是更长的n-gram),表明相似性越好。BLEU分数通常在0到1(或0到100)之间,分数越高表示模型的字幕越接近人类参考文本。例如,如果模型生成“a cat sits on a mat”,而参考文本是“a cat is on the mat”,它们共享几个单元(“a”、“cat”、“on”、“mat”)和二元(“a cat”、“on a”、“a mat”)。
尽管BLEU很流行,但它主要关注精确度(模型字幕中有多少词出现在参考文本中),并施加简洁惩罚,以避免字幕过短。它不能完全捕捉语义或语法正确性。
其他字幕生成指标 研究人员开发了其他指标来解决BLEU的一些局限性:
对于初学者来说,主要认识是这些指标提供了量化评估字幕质量的方法,即通过与人类标准进行比较。
在VQA中,模型回答有关图像的问题。答案类型可以不同(例如,“是/否”、数字、短语)。
准确率 对于许多VQA任务,尤其是那些具有简单、事实性答案的任务,准确率是一个直接且有效的指标。其计算方式如下:
例如,如果一个模型在1000个问题中正确回答了800个,那么它的准确率为80%。
有时会针对不同类型的问题分别报告准确率:
对于开放式答案,简单的字符串匹配可能过于严格。例如,如果真实答案是“红色”而模型说是“深红色”,严格的准确率会将其视为错误。更高级的VQA指标(如衡量语义相似度的Wu-Palmer相似度或WUPS)可以处理此类变体,但基础准确率是一个不错的起点。
多模态情感分析旨在判断结合了文本、音频和视频等模态的数据中所表达的情感(例如,积极、消极、中性)。由于这通常是一个分类任务,因此标准的分类指标适用。
我们假设进行二元情感分类(积极与消极)。我们可以定义:
以下图表展示了这些术语:
一个图表,展示了二元分类任务中的真阳性(TP)、假阳性(FP)、假阴性(FN)和真阴性(TN)。
基于这些,我们可以计算:
这些指标可以扩展到多类别情感分析(例如,积极、消极、中性),使用宏平均(对每个类别的指标进行平均)或微平均(在计算指标前对全局计数进行聚合)等技术。
评估AI生成的图像,例如文本到图像合成中的图像,比评估文本或简单分类更复杂。虽然存在自动化指标(如Inception Score或Fréchet Inception Distance,它们比较生成图像与真实图像的统计属性),但它们可能难以理解,并且不总是与人类对质量的感知相符。
对于入门学习者而言,需要了解的是,人工评估在此处扮演着非常重要的角色。人类通常评估:
自动化指标是一个活跃的研究方向,但目前,常结合人类判断和现有量化分数进行评估。
虽然自动化指标快速、可扩展,并提供客观的比较数据,但它们往往未能全面体现多模态AI系统的表现。它们可能无法全面评估:
这时,人工评估变得必不可少。在许多情况下,特别是对于生成任务或涉及丰富理解的任务,会要求人类对模型输出进行评分或比较。这提供了定性反馈,补充自动化分数,并能提供模型优势和劣势的更深刻见解。
评估指标的选择在很大程度上取决于:
作为初学者,专注于每种任务类型最常用且易于理解的指标是一个不错的起点。准确率、BLEU以及标准分类指标(精确率、召回率、F1-分数)涵盖了许多基本场景。理解这些指标衡量什么以及它们的局限性,是构建和改进多模态AI系统的一个重要步骤。这些评估结果将引导您优化模型架构、训练过程,甚至您使用的数据。
这部分内容有帮助吗?
© 2026 ApX Machine Learning用心打造