趋近智
一旦我们将文本、图像或音频等各种数据类型转换为数值表示并妥善对齐(如“对齐来自多个来源的数据”一节所述),一个重要问题就出现了:我们如何判断来自这些不同来源的信息是否相关?例如,我们如何判断一段给定的文本是否准确描述了一张图像,或者视频中的声音是否与视觉场景匹配?本节将介绍跨不同模态信息比较的基本思路。
信息比较能力是许多多模态AI任务的基础。例如,在使用“山顶日落”之类的文本查询来搜索图片库时,系统需要将文本查询(一种模态)与图像内容(另一种模态)进行比较,以找到最佳匹配项。再比如,一个系统需要验证视频中说话的人是否与听到的声音是同一个人。这也需要比较来自视觉和音频流的信息。
其核心在于,跨模态信息比较意味着评估其内容之间的相似或差异程度。如果一张图片显示一只猫在玩毛线球,而文字描述说“一只猫科动物在玩毛线玩具”,我们会直观地说这两条信息非常相似。如果文字说“一只狗对着汽车吠叫”,那就会非常不同。AI系统旨在量化这种相似性或差异性。
为此,它们使用我们之前学到的数值表示(例如,文本的向量,图像的特征集)。如果来自不同模态的两条信息在语义上相关,它们的数值表示也应该以某种方式反映这种关系。这通常意味着它们的表示在数学意义上可能“靠近”彼此,或共享某些可预测的模式。
为了使比较具体化,AI系统通常会计算一个相似性分数。这通常是一个数字,表示两条信息的关联程度。分数越高可能表示越相似,分数越低表示越不相似(反之亦然,取决于具体的衡量方法)。有几种方法可以处理这个问题。
一种直观的相似性考量方式是通过距离。如果我们可以将图像和一段文本都表示为某个高维空间中的点(即使这些空间最初是不同的),原则上我们就可以衡量它们之间的“距离”。如果这些点靠近,则认为这些项目更相似。 例如,如果 是表示图像的向量,而 是表示文本描述的向量,如果它们在相同空间且具有相同维度,就可以使用简单的距离(如欧几里得距离)。然而,来自不同模态的数据最初通常存在于非常不同类型的数值空间中。
一种非常常见且有效的衡量方法,特别是在处理文本嵌入或图像特征等高维数据时,是余弦相似度。余弦相似度不是只看两点(向量)之间的距离,而是衡量它们之间夹角的余弦值。
想象两个向量是从同一点出发的箭头。
向量 和 之间余弦相似度的公式是: 这里, 是向量的点积, 和 是它们的大小(或长度)。余弦相似度的一个优点是它对向量的大小不那么敏感,而更侧重于它们的方向或内容的“方向”。这通常很有用,因为特征向量的长度可能不如其值的模式提供更多信息。
例如,一个关于“狗”的短句和一个长描述性段落可能具有不同大小的特征向量,但如果它们在特征空间中指向相似的方向,它们的余弦相似度仍然可能很高,表明它们都与“狗的特性”相关。
如果我们可以将来自不同模态的数据投射到共享表示空间中(有时称为公共嵌入空间),信息比较就会变得更加直接。在这样的空间中,语义相似的项目彼此靠近,不论其原始模态。
例如,一张自行车的图像、单词“bicycle”,甚至自行车铃的声音都可能被映射到这个共享空间中的附近点。一旦数据采用这种共同格式,比较它们就可以像计算它们在这个共享空间中各点之间的距离或余弦相似度一样简单。
在此图中,来自文本和图像模态的与“狗”相关的项目都被映射到共享空间中的附近点。类似地,与“猫”相关的项目形成了另一个簇。这使得我们更容易看出文本“玩耍的狗”与玩耍的狗的图像比与睡觉的猫的图像更相似。
实现这样一个共享空间是许多多模态学习技术的重要目标,我们将在课程后期讨论这些内容。
让我们考虑几个直接的场景:
图像-文本匹配:
音频-视觉同步:
尽管信息比较的理念看似直观,但它伴随着一系列挑战:
理解如何表示、对齐和比较来自不同模态的信息,奠定了重要的基础。这些比较不仅仅是最终目标;它们通常是迈向更复杂任务的垫脚石,在这些任务中,来自多个来源的信息被整合以做出决策或生成新内容,我们将在后续章节中看到。
这部分内容有帮助吗?
© 2026 ApX Machine Learning用心打造