多模态AI的界定：处理多样数据

人工智能系统从数据中学习。许多AI系统被设计为一次处理一种特定类型的信息，例如分析文章中的文本或识别图像中的物体。如果AI能够像人类一样，同时使用多种类型的信息来理解情况呢？这就是多模态 (multimodal)AI。

多模态 (multimodal)AI的界定

多模态人工智能是指被设计用来处理、理解并生成来自多种不同类型数据源（称为模态）信息的AI系统。可以把这些模态看作是不同的信息通道。常见例子包括：

文本：书面文字、句子、文档。
图像：照片、插图、图表。
音频：口语、音乐、环境声音。
视频：通常伴随音频的图像序列。
其他类型，如传感器数据（温度、压力），甚至是生物信号。

多模态AI的决定性特点不仅是其单独处理这些不同数据类型的能力，更是其以相互关联和整合的方式处理它们的能力。它的目标是教会AI“看”一张图片，“读”其说明，“听”相关声音，然后组合这些信息，形成更全面的理解。

想象您正在看电影。您看到演员的表情（视觉），听到他们的对话和背景音乐（音频），或许还会看到字幕（文本）。您的大脑毫不费力地结合了这些信息流。多模态AI旨在赋予机器类似的能力，从各种来源整合信息。

处理多样数据：不只是处理多个文件

当我们谈论多模态 (multimodal)AI中的“处理多样数据”时，这不只是指为文本、图像和音频设置单独的程序。这表示AI系统被构建为在这些不同模态之间寻找关联、依赖和互补信息。

例如：

看到猫的图片并读取文本“一只毛茸茸的姜黄色猫”的AI，能够确认图像确实与描述匹配。
倾听某人说话并同时观察其唇部动作的AI，可能会更准确地理解语音，尤其是在嘈杂的环境中。
分析社交媒体帖子的AI，可能会查看发布的图像、文本说明，甚至使用的表情符号，以更好地判断所表达的情绪。

系统学习将一种模态的元素与另一种模态的元素关联起来。这种整合处理使得多模态AI能够执行那些对于仅使用单一数据类型的系统来说难以或无法完成的任务。

一个多模态AI系统接收来自各种数据类型（如文本、图像和音频）的输入。然后，它将这些输入一起处理，形成一个综合的理解或生成相关的输出。

为何组合不同数据类型？

组合来自多个来源的信息具有多项益处：

更丰富的理解：每种模态都能提供独特的视角或难题的一部分。通过组合它们，AI可以对一个主题或情况形成更全面、更详细的理解。例如，一段视频（图像+音频）比单独的静止图像或文本记录能提供更多关于事件的情境信息。
消除歧义：来自一种模态的信息可以帮助澄清另一种模态中的歧义。例如，文本中的讽刺单凭文字可能无法察觉，但伴随音频中的语调可以使其变得清楚。
更完整的信息：有时，单一模态不包含所有必要信息。一份关于事件的新闻报道（文本）与显示其位置的地图（图像）结合，能够呈现更完整的情况。

本质上，多模态 (multimodal)AI致力于构建以更整体的方式感知和解读信息的系统，超越了仅分析单一数据流的局限性。这种方法使得AI能够处理更复杂的任务，并以更符合人类理解周围事物的方式与信息互动。尽管专注于单一数据类型（单模态AI）的系统在特定任务中非常强大，但多模态AI为更通用和情境感知的AI带来了更多可能性。我们将在后续章节中更仔细地查看单模态AI和多模态AI之间的差异。

这部分内容有帮助吗？

参考文献

A Survey on Multimodal Deep Learning for Advanced Artificial Intelligence, D. R. Ramachandram, P. W. Wimalaratne, 2023 IEEE Access, Vol. 11 (Institute of Electrical and Electronics Engineers) DOI: 10.1109/ACCESS.2023.3263056 - 这篇最新综述全面概述了多模态深度学习方法、架构和常见应用，有助于理解处理和整合不同数据的当前趋势。
CMU 11-777/18-777 Multimodal Machine Learning Course, Louis-Philippe Morency, 2023 (Carnegie Mellon University) - 提供了来自知名大学课程的教学材料、讲座和资源，为多模态AI概念和数据处理提供了结构化学习。