跨模态信息比较

一旦我们将文本、图像或音频等各种数据类型转换为数值表示并妥善对齐 (alignment)（如“对齐来自多个来源的数据”一节所述），一个重要问题就出现了：我们如何判断来自这些不同来源的信息是否相关？例如，我们如何判断一段给定的文本是否准确描述了一张图像，或者视频中的声音是否与视觉场景匹配？本节将介绍跨不同模态信息比较的基本思路。

信息比较能力是许多多模态 (multimodal)AI任务的基础。例如，在使用“山顶日落”之类的文本查询来搜索图片库时，系统需要将文本查询（一种模态）与图像内容（另一种模态）进行比较，以找到最佳匹配项。再比如，一个系统需要验证视频中说话的人是否与听到的声音是同一个人。这也需要比较来自视觉和音频流的信息。

比较的含义是什么？

其核心在于，跨模态信息比较意味着评估其内容之间的相似或差异程度。如果一张图片显示一只猫在玩毛线球，而文字描述说“一只猫科动物在玩毛线玩具”，我们会直观地说这两条信息非常相似。如果文字说“一只狗对着汽车吠叫”，那就会非常不同。AI系统旨在量化 (quantization)这种相似性或差异性。

为此，它们使用我们之前学到的数值表示（例如，文本的向量 (vector)，图像的特征集）。如果来自不同模态的两条信息在语义上相关，它们的数值表示也应该以某种方式反映这种关系。这通常意味着它们的表示在数学意义上可能“靠近”彼此，或共享某些可预测的模式。

衡量相似性

为了使比较具体化，AI系统通常会计算一个相似性分数。这通常是一个数字，表示两条信息的关联程度。分数越高可能表示越相似，分数越低表示越不相似（反之亦然，取决于具体的衡量方法）。有几种方法可以处理这个问题。

特征空间中的距离

一种直观的相似性考量方式是通过距离。如果我们可以将图像和一段文本都表示为某个高维空间 (high-dimensional space)中的点（即使这些空间最初是不同的），原则上我们就可以衡量它们之间的“距离”。如果这些点靠近，则认为这些项目更相似。例如，如果 $V_I$ 是表示图像的向量 (vector)，而 $V_T$ 是表示文本描述的向量，如果它们在相同空间且具有相同维度，就可以使用简单的距离（如欧几里得距离）。然而，来自不同模态的数据最初通常存在于非常不同类型的数值空间中。

余弦相似度：比较方向

一种非常常见且有效的衡量方法，特别是在处理文本嵌入 (embedding)或图像特征等高维数据时，是余弦相似度。余弦相似度不是只看两点（向量）之间的距离，而是衡量它们之间夹角的余弦值。

想象两个向量是从同一点出发的箭头。

如果箭头指向几乎相同的方向，它们之间的夹角很小，该角度的余弦值接近1（高度相似）。
如果箭头垂直（指向不相关的方向），夹角为90度，余弦值为0（不相似）。
如果它们指向相反的方向，夹角为180度，余弦值为-1（非常不相似，尽管这种解释可能有所不同）。

向量 $A$ 和 $B$ 之间余弦相似度的公式是： $\text{相似度} = \cos(\theta) = \frac{A \cdot B}{\|A\| \|B\|}$ 这里， $A \cdot B$ 是向量的点积， $\|A\|$ 和 $\|B\|$ 是它们的大小（或长度）。余弦相似度的一个优点是它对向量的大小不那么敏感，而更侧重于它们的方向或内容的“方向”。这通常很有用，因为特征向量的长度可能不如其值的模式提供更多信息。

例如，一个关于“狗”的短句和一个长描述性段落可能具有不同大小的特征向量，但如果它们在特征空间中指向相似的方向，它们的余弦相似度仍然可能很高，表明它们都与“狗的特性”相关。

共享表示空间的理念

如果我们可以将来自不同模态的数据投射到共享表示空间中（有时称为公共嵌入 (embedding)空间），信息比较就会变得更加直接。在这样的空间中，语义相似的项目彼此靠近，不论其原始模态。

例如，一张自行车的图像、单词“bicycle”，甚至自行车铃的声音都可能被映射到这个共享空间中的附近点。一旦数据采用这种共同格式，比较它们就可以像计算它们在这个共享空间中各点之间的距离或余弦相似度一样简单。

在此图中，来自文本和图像模态的与“狗”相关的项目都被映射到共享空间中的附近点。类似地，与“猫”相关的项目形成了另一个簇。这使得我们更容易看出文本“玩耍的狗”与玩耍的狗的图像比与睡觉的猫的图像更相似。

实现这样一个共享空间是许多多模态 (multimodal)学习技术的重要目标，我们将在课程后期讨论这些内容。

跨模态比较的简单示例

让我们考虑几个直接的场景：

图像-文本匹配：
- 图像：一张有棕榈树的阳光海滩照片。
- 文本描述 A：“阳光海滩上的棕榈树。”
- 文本描述 B：“一个雪山山顶。” 系统会将图像转换为数值特征向量 (vector)。它还会将描述 A 和描述 B 转换为各自的文本向量。然后，它会计算图像向量与描述 A 的向量之间以及图像向量与描述 B 的向量之间的相似度（例如，余弦相似度）。我们预期描述 A 的相似性分数会更高。
音频-视觉同步：
- 视频片段：一个人在说话，嘴唇动作清晰。
- 音频轨道：他们的声音。系统可能会从嘴唇动作（视觉模态）中提取特征，并从音频波形（音频模态）中提取特征。通过比较这些随时间变化的特征流，系统可以判断它们是否同步并相互对应，例如，通过检查唇闭合的时机是否与音频中的爆破音（如“p”或“b”）匹配。

模态比较中的挑战

尽管信息比较的理念看似直观，但它伴随着一系列挑战：

数据异构性：文本、图像和音频根本不同。文本是符号化且序列化的，图像是像素的空间阵列，音频是时间波形。找到共同点或有意义的方式来比较它们的原始表示可能很困难。这就是为什么将它们转换为合适的特征向量 (vector)或嵌入 (embedding)是必要的第一步。
语义鸿沟：低级特征（如图像中的像素值或原始音频频率）不直接对应于高级语义意义（如“这是一张快乐的狗的照片”或“这个人听起来很生气”）。弥合这一鸿沟，从而使比较反映真正的语义相似性，是一个重要的研究方向。
粒度：比较应该针对哪个细节层面？我们是在比较整个图像与整个段落，还是图像中的特定对象与文本中的特定短语？
上下文 (context)：信息的含义可能高度依赖上下文。一个词或图像片段在不同情况下可能意味着不同的事情，如果不考虑更广泛的上下文，直接比较会很困难。

理解如何表示、对齐 (alignment)和比较来自不同模态的信息，奠定了重要的基础。这些比较不仅仅是最终目标；它们通常是迈向更复杂任务的垫脚石，在这些任务中，来自多个来源的信息被整合以做出决策或生成新内容，我们将在后续章节中看到。

这部分内容有帮助吗？

参考文献

Learning Transferable Visual Models From Natural Language Supervision, Alec Radford, Jong Wook Kim, Chris Hallacy, Aditya Ramesh, Gabriel Goh, Sandhini Agarwal, Girish Sastry, Amanda Askell, Pamela Mishkin, Jack Clark, Gretchen Krueger, Ilya Sutskever, 2021 Proceedings of the 38th International Conference on Machine Learning, Vol. 139 (PMLR) DOI: 10.5555/3540306.3540445 - 这篇论文介绍了CLIP，一个通过对比学习为图像和文本学习到稳健共享表示的模型，它支持直接的跨模态比较，并展示了共享嵌入空间的实用性。
Efficient Estimation of Word Representations in Vector Space, Tomas Mikolov, Kai Chen, Greg Corrado, Jeffrey Dean, 2013 International Conference on Learning Representations (ICLR) Workshop DOI: 10.48550/arXiv.1301.3781 - 这项工作介绍了Word2Vec，一种学习词语密集向量表示的方法，其中语义关系通过向量邻近度和余弦相似性来捕捉，它说明了信息比较的原理。
Deep Learning, Ian Goodfellow, Yoshua Bengio, Aaron Courville, 2016 (MIT Press) - 第15章“表示学习”解释了神经网络如何学习有意义的数据表示，这为创建用于跨模态比较的特征向量和共享空间提供了支持。