趋近智
多模态 (multimodal)AI系统旨在同时处理多种类型的数据,例如文本、图像和音频。您可能会想:为何要增加这种复杂性?为何不坚持使用一次只处理一种数据类型的AI系统呢?结果是,结合来自多种模态的信息能带来一些显著的优势,使AI系统更强大、更可靠、更多功能。
人类天生会使用多种感官来理解周围环境。如果你听到一声猫叫,你可能会猜到附近有只猫。如果你同时看到一个毛茸茸的四条腿生物,又听到猫叫,你就会更加确定那是一只猫。多模态 (multimodal)AI的目标是,通过整合来自不同源的信息,使系统获得类似、更丰富的信息把握。
以理解人类交流为例。单独的文本有时会模棱两可。例如,短语“Oh, that's just great”可能表示真诚,也可能带有讽刺意味。
通过处理这些多重线索(文本、音频和视觉),多模态AI能够得到更准确的解读,就像人类一样。这种形成整体性理解的能力是开发多模态系统的主要推动力。它使AI能够掌握单独查看单一数据类型时可能遗漏的情境和细节。
下图呈现了多模态AI系统如何结合不同数据类型。
多种数据类型经多模态AI系统处理,以得出更全面的理解。
当AI系统仅依赖单一信息源时,如果信息嘈杂、不完整或模棱两可,系统就容易被误导。结合多种模态提供了一种交叉验证信息的方式,可以提升系统的整体可靠性和准确性。
设想一个语音识别系统,在一个非常嘈杂的咖啡馆里试图转录某人所说的话。
同样,如果AI试图识别图像中部分隐藏或模糊的物体,随附的文本描述(“树后面有一辆部分可见的红色汽车”)可以提供识别所需的线索。一种模态可以弥补另一种的不足或模糊之处。
一些最具创新性的AI应用本身就是多模态 (multimodal)的。如果AI只能处理一种数据类型,它们根本不可能实现。以下是本课程后面会提到的一些例子:
这些应用要求AI不仅处理多种模态,还要发现它们之间的关系并进行信息转换。
人类以多模态 (multimodal)方式交流和互动。我们说话、打手势、书写、绘画,并解读面部表情,通常这些行为是同时进行的。能够理解和使用多种模态的AI系统,可以带来人类与计算机交互的更自然、更直观的方式。
考虑与智能家居助手交互的场景。
随着AI更广泛地融入我们的日常生活,通过语音、触控、视觉和文本的结合与之交互的能力,将使技术不再像是我们操作的工具,而更像是我们协作的伙伴。
在某些情况下,数据并不完美。一个数据流可能损坏、缺失或质量低下。多模态 (multimodal)系统可以被设计为在这种情况下更具韧性。
例如,考虑一个旨在识别个体的安防系统。
通过拥有多个信息源,即使部分输入数据受损,AI系统也有更大机会有效执行其任务。系统并非完全依赖于一个可能脆弱的数据流。
总之,结合多种模态使得AI系统能够获得更全面的理解,做出更可靠的决策,处理更广泛的任务,更自然地与我们交互,并且即使面对不完善的信息也能表现更好。这些益处正是多模态AI成为一个日益重要的研究和发展方向的原因。
这部分内容有帮助吗?
© 2026 ApX Machine Learning用心打造