趋近智
假设你有两位专家,各自擅长一种不同类型的信息。一位专家分析书面报告,另一位分析音频记录。要得到一个最终的综合意见,你不会要求他们合并原始笔记(如早期融合那样)或中间概要(如中期融合那样)。相反,你会让每位专家先得出各自的独立结论。然后,你会找到一种方法,将这些独立的结论整合成一个更全面的决策。这就是晚期融合的核心思想。
在晚期融合(亦称决策层融合)中,我们将信息在处理流程的最后阶段进行组合。每种模态(如文本、图像或音频)首先由其各自的专用模型独立处理。这些独立模型各自生成输出,通常是预测结果、分类得分或概率分布。只有在这些独立预测结果生成后,我们才将它们组合起来,从而得到最终的多模态预测结果。
这种方法与早期融合形成对比,早期融合是在原始数据或低级特征层面进行组合,例如直接拼接原始图像和文本向量。它也与中期融合不同,中期融合是在处理的中间阶段组合特征。
晚期融合的过程可以分为几个步骤:
这是一个说明晚期融合过程的图表:
该图表显示了两种独立的模态由各自的模型进行处理。输出(预测结果 A 和预测结果 B)随后被输入到融合机制中,该机制生成最终的组合预测结果。
一旦你得到了每个单模态模型的独立预测结果,有几种方式可以组合它们:
平均/加权平均:如果输出是数值分数或概率,你可以直接对它们求平均值。例如,如果图像模型预测某个事件发生的概率为70%,而音频模型预测概率为60%,则平均预测结果将是65%。 如果你认为某种模态或模型比另一种更可靠,也可以使用加权平均。如果 是模型 A 的概率, 是模型 B 的概率,则融合后的概率 可以是: 其中 和 是总和为1的权重(例如,)。
投票:如果模型输出类别标签,可以使用多数投票。如果三个模型预测“A”、“A”和“B”,则最终预测结果将是“A”。这可以扩展到加权投票,其中每个模型的投票权重由其置信分数决定。
最大/最小规则:你可以选择置信分数最高的预测结果(最大规则),或者在某些情况下选择最低的。
乘积规则:将概率相乘可能很有效,特别是当概率经过良好校准并代表独立证据时。
学习型融合函数:一种更精巧的方法是训练另一个小型模型(有时称为“元学习器”或“门控网络”),它会学习组合预测结果的最佳方式。这个融合模型以单模态模型的输出作为输入,并经过训练以生成最终预测结果。这可以是一个简单的逻辑回归、支持向量机(SVM),甚至是一个小型神经网络。
晚期融合具有多项实际益处,使其成为许多应用中受欢迎的选择:
虽然晚期融合直接且灵活,但它也存在一些局限性:
让我们思考一下如何分析包含文本和评论者短视频片段的产品评论情感。
文本模型:一个文本情感分析模型处理书面评论(例如,“这个产品太棒了,完美运行!”),并输出情感概率,例如:
视频模型:一个视频分析模型(它可能在内部查看面部表情并听取语调)处理视频片段,并输出其自身的情感概率:
晚期融合:我们现在可以组合这些预测结果。
在这种情况下,晚期融合使我们能够独立运用文本和视频专用模型的优势,然后组合它们的分析结果,从而做出更好的情感预测。
晚期融合提供了一种灵活且通常有效的方法,用于在希望将每种模态的处理分开直至决策阶段时,组合来自不同来源的信息。当使用现有单模态系统或模块化是重要考量时,它尤其有用。然而,始终要考虑你是否会遗漏早期融合方法能够获取的模态之间有意义的低级别相互作用。
这部分内容有帮助吗?
© 2026 ApX Machine Learning用心打造