趋近智
在本章中,我们了解了结合不同模态信息的几种方式。有时,通过视觉方式展现这些方法能帮助它们变得清晰。本次实践练习旨在通过绘制和解读图表,帮助你建立关于结合和表示策略如何运作的心智模型。不必担心绘画技巧;目标是清晰明了。
请记住,多模态 (multimodal)结合可以在不同阶段发生:
我们尝试图示这些。
轮到你:动手绘制!
在查看我们的示例之前,拿张纸或打开绘图工具。尝试为以下每种结合类型绘制一个简单的框图:早期、中间和后期。思考以下问题:
此练习有助于巩固你的理解。尝试过后,请将你的草图与下方图表比较。
早期结合,也称为输入级别或数据级别结合,涉及在处理过程的最开始结合来自不同模态的信息。这通常意味着拼接原始数据或从每种模态提取的基本特征。
显示早期结合的图表。来自模态 A 和模态 B 的数据在结合阶段直接结合,生成结合特征,然后输入多模态模型。
早期结合方法(Early Fusion Method)的输入包括 模态 A(例如,原始图像像素)和 模态 B(例如,原始文本词元 (token))。它们立即被输入到 早期结合 阶段。这可以像将它们的特征向量 (vector)并排堆叠一样简单,例如在方程 中。结合特征 然后由单个 多模态模型 处理以生成 输出。这种方法的主要特点是结合发生在对每种模态进行任何显著独立处理之前。
中间结合,或特征级别结合,发生在每种模态经过一些初步处理和特征提取之后。这些提取的特征随后被结合。
演示中间结合的图表。模态 A 和模态 B 首先由独立的特征提取器处理。产生的特征(特征 A 和特征 B)随后在结合阶段进行结合。这种结合表示随后由一个多模态模型使用。
以下是所发生的情况:
模态 A 和 模态 B 首先由各自的 特征提取器 处理(例如,用于图像的卷积神经网络 (neural network) (CNN),用于文本的词嵌入 (embedding)层)。特征 A 和 特征 B,它们是比原始数据更抽象的表示。中间结合 阶段进行结合。结合特征 输入到 多模态模型。
结合发生于一些单模态处理之后,但模型最终决策部分之前。后期结合,也称为决策级别结合,涉及通过独立的模型独立处理每种模态。这些模型的输出或决策随后被结合以产生最终结果。
后期结合图表。模态 A 由模型 A 处理以生成预测 A。独立地,模态 B 由模型 B 处理以生成预测 B。这些独立的预测随后在结合阶段进行结合,以产生最终预测。
在后期结合中:
模态 A 输入到 模型 A,产生 预测 A。模态 B 输入到 模型 B,产生 预测 B。后期结合 阶段进行结合(例如,通过平均、投票或一个简单的学习层)。最终预测。
主要思路是每种模态都由各自的模型完全处理,只有高级结果被合并。思考一下: 回顾你自己的草图和这些示例。
两种主要思路是共享表示和协调表示。
共享表示(或联合嵌入 (embedding))旨在将来自不同模态的数据映射到单一的公共向量 (vector)空间中。在这个共享空间中,来自不同模态的表示可以被直接比较。例如,一张猫的图像和“猫”这个词可能会被投影到这个空间中彼此靠近的点。
演示共享表示空间的图表。模态 A 被转换成“图像表示”,模态 B 被转换成“文本表示”。两种表示都存在于同一“共享空间 (S)”中,允许直接比较或交互。
在此图表中:
模态 A(例如,一张图像)通过 编码器 A。模态 B(例如,文本)通过 编码器 B。表示 A 和 表示 B)投影到同一个 共享空间 (S)。
目标是相似的项目,无论其原始模态如何,最终都能在这个共享空间中彼此靠近。这对跨模态检索(基于文本查询查找图像)等任务很有用。另一方面,协调表示不一定强制将所有事物放入一个相同的空间。相反,它们侧重于学习每种模态独立表示空间之间的映射或关联。这些空间被“协调”,以便你可以将信息从一个空间转换或关联到另一个空间,即使它们的结构不同。
协调表示空间的图表。模态 A 被编码成“表示 A”,并与其自身的“空间 A”关联,而模态 B 被编码成“表示 B”,并与其“空间 B”关联。“协调(学习到的映射)”机制允许这些不同的表示相互关联或转换。
在这种设置中:
模态 A 被编码成 表示 A,并与 空间 A 相关联。模态 B 被编码成 表示 B,并与 空间 B 相关联。协调(学习到的映射)。这个映射使得系统能够理解 表示 A 和 表示 B 之间的关系,即使它们处于不同的数学空间中。例如,模型可能会学习将 空间 A 中的图像表示转换为 空间 B 中的文本描述表示。快速检查: 共享空间与协调空间中,来自不同模态的表示处理方式主要区别是什么?一种将它们汇集到公共区域;另一种在独立区域之间建立联系。哪个是哪个?
我们尝试应用这些思路。 假设你被要求构建一个简单系统,帮助识别鸟类物种。你有两种输入类型:
你的目标是预测鸟类物种。
活动:
这里没有唯一的“正确”答案。目标是使用我们练习过的视觉语言来思考设计选择。
例如,如果你选择了中间结合:
一个使用中间结合的鸟类识别场景示例图。图像和音频输入由各自的特征提取器处理。产生的特征被结合,然后输入分类器以预测鸟类物种。
此图表显示了一种处理鸟类识别任务的方式。你也可以绘制早期或后期结合方法进行比较。
希望通过绘制和查看这些图表,能让结合多模态 (multimodal)数据的不同方式变得更清晰。当然,这些是简化视图。多模态系统可能复杂得多,常常混合这些策略。然而,理解这些结合和表示的基本模式是一个很好的第一步。当你遇到更高级的多模态架构时,试着看看能否发现这些基本组成部分的作用。
这部分内容有帮助吗?
© 2026 ApX Machine Learning用心打造