结合多种模态的益处

多模态 (multimodal)AI系统旨在同时处理多种类型的数据，例如文本、图像和音频。您可能会想：为何要增加这种复杂性？为何不坚持使用一次只处理一种数据类型的AI系统呢？结果是，结合来自多种模态的信息能带来一些显著的优势，使AI系统更强大、更可靠、更多功能。

人类天生会使用多种感官来理解周围环境。如果你听到一声猫叫，你可能会猜到附近有只猫。如果你同时看到一个毛茸茸的四条腿生物，又听到猫叫，你就会更加确定那是一只猫。多模态 (multimodal)AI的目标是，通过整合来自不同源的信息，使系统获得类似、更丰富的信息把握。

以理解人类交流为例。单独的文本有时会模棱两可。例如，短语“Oh, that's just great”可能表示真诚，也可能带有讽刺意味。

通过处理这些多重线索（文本、音频和视觉），多模态AI能够得到更准确的解读，就像人类一样。这种形成整体性理解的能力是开发多模态系统的主要推动力。它使AI能够掌握单独查看单一数据类型时可能遗漏的情境和细节。

下图呈现了多模态AI系统如何结合不同数据类型。

多种数据类型经多模态AI系统处理，以得出更全面的理解。

当AI系统仅依赖单一信息源时，如果信息嘈杂、不完整或模棱两可，系统就容易被误导。结合多种模态提供了一种交叉验证信息的方式，可以提升系统的整体可靠性和准确性。

设想一个语音识别系统，在一个非常嘈杂的咖啡馆里试图转录某人所说的话。

仅音频: 杯子的碰撞声和背景对话声可能使系统难以准确分辨词语。
音频 + 视频 (唇部动作): 如果系统也能“看到”说话者的唇部动作，它就可以使用这些视觉信息来帮助消除声音的歧义。例如，“pack”和“back”的声音相似，但最初的唇部动作却很不相同。视觉线索可以明显提升嘈杂环境中的转录准确性。

同样，如果AI试图识别图像中部分隐藏或模糊的物体，随附的文本描述（“树后面有一辆部分可见的红色汽车”）可以提供识别所需的线索。一种模态可以弥补另一种的不足或模糊之处。

一些最具创新性的AI应用本身就是多模态 (multimodal)的。如果AI只能处理一种数据类型，它们根本不可能实现。以下是本课程后面会提到的一些例子：

图像字幕生成: 这涉及AI查看图像并生成其所见内容的文本描述（例如，“一只黑猫坐在木栅栏上”）。这需要处理视觉信息（图像）并生成文本信息（字幕）。
视觉问答 (VQA): 在这里，你可以向AI展示一张图像，并用自然语言提问（例如，图像：[厨房照片]，问题：“微波炉是什么颜色？”）。AI必须理解图像内容和文本问题才能提供文本回答。
文本到图像生成: 你提供文本描述，AI生成与该描述相符的新图像（例如，“一幅机器人弹钢琴的印象派画作”）。这会将文本转换为视觉内容。

这些应用要求AI不仅处理多种模态，还要发现它们之间的关系并进行信息转换。

人类以多模态 (multimodal)方式交流和互动。我们说话、打手势、书写、绘画，并解读面部表情，通常这些行为是同时进行的。能够理解和使用多种模态的AI系统，可以带来人类与计算机交互的更自然、更直观的方式。

考虑与智能家居助手交互的场景。

仅语音: “打开客厅的灯。”这很有用，但有局限。
语音 + 手势/视觉: 想象一下，在一个满是灯的房间里，你指着一盏特定的灯说：“把那盏关掉。”一个能够同时处理你的语音指令和手势（并看到你指向什么）的AI，可以提供更流畅、更像人类的交互体验。

随着AI更广泛地融入我们的日常生活，通过语音、触控、视觉和文本的结合与之交互的能力，将使技术不再像是我们操作的工具，而更像是我们协作的伙伴。

在某些情况下，数据并不完美。一个数据流可能损坏、缺失或质量低下。多模态 (multimodal)系统可以被设计为在这种情况下更具韧性。

例如，考虑一个旨在识别个体的安防系统。

通过拥有多个信息源，即使部分输入数据受损，AI系统也有更大机会有效执行其任务。系统并非完全依赖于一个可能脆弱的数据流。

总之，结合多种模态使得AI系统能够获得更全面的理解，做出更可靠的决策，处理更广泛的任务，更自然地与我们交互，并且即使面对不完善的信息也能表现更好。这些益处正是多模态AI成为一个日益重要的研究和发展方向的原因。

参考文献

VQA: Visual Question Answering, Stanislaw Antol, Aishwarya Agrawal, Jiasen Lu, Margaret Mitchell, Dhruv Batra, C. Lawrence Zitnick, Devi Parikh, 2015 Proceedings of the IEEE International Conference on Computer Vision (ICCV) (IEEE) DOI: 10.1109/ICCV.2015.337 - 这篇论文介绍了视觉问答（VQA）任务，这是多模态AI的一个突出例子，它需要结合视觉和文本信息来理解并回答问题，展示了新型应用的开发。