趋近智
多模态 (multimodal)AI应用处理各种类型的数据作为输入,并生成多样化的输出。理解多模态系统需要考察这些数据交互。每个AI系统,无论是多模态还是非多模态,都会接收某种形式的数据(输入)来产生结果(输出)。对于多模态系统来说,一个主要特点通常是输入端、输出端或两端涉及的数据类型多样性。
您可以将这个过程想象成一个复杂的厨房。食材(输入)可以是多种多样的,也许是一个视觉场景(图像)、一个口头提问(音频)和一条书面指令(文本)。最终的菜肴(输出)则取决于系统如何组合和转换这些不同食材,例如,将它们转化为一个伴随生成图像的口头回答。
现在,让我们来分析本章前面讨论过的应用程序的输入和输出。
这些系统旨在自动为给定图像生成文字描述。它们查看图像并用文字描述其中内容。
图像(视觉数据)被输入到系统,然后生成文字字幕。
VQA 系统比字幕生成更进一步。它们回答关于图像的自然语言问题。这意味着系统必须理解图像的视觉内容以及基于文本问题的语义。
VQA 系统处理图像和文本问题,以生成基于文本的答案。
这个应用在某种程度上与图像字幕生成相反。您向系统提供文字描述,系统会尝试生成与该描述匹配的新图像。
标准的自动语音识别 (ASR) 系统将口语音频转换为书面文本。然而,人类语音理解通常受益于视觉线索,如唇部运动,尤其是在嘈杂的环境中。多模态 (multimodal)语音识别结合了这一点。
情感分析旨在确定内容中表达的情感或观点。多模态情感分析通过考量来自各种来源的信息来增强这一点。
为了更清楚地说明这一点,让我们看一下一个表格,总结我们讨论过的应用程序的输入和输出模态:
| 应用 | 主要输入 | 输入模态 | 主要输出 | 输出模态 |
|---|---|---|---|---|
| 图像字幕生成 | 图像 | 视觉 | 文字字幕 | 文本 |
| 视觉问答 (VQA) | 图像、文本问题 | 视觉、文本 | 文字回答 | 文本 |
| 文本到图像合成 | 文字描述或提示 | 文本 | 图像 | 视觉 |
| 增强型语音识别 | 音频(语音)、视频(唇部运动) | 音频、视觉 | 转录文本 | 文本 |
| 多模态 (multimodal)情感分析 | 文本、音频和/或视频内容 | 文本、音频、视觉 | 情感标签或分数 | 分类/数值型 |
此表格展现了常见入门级多模态应用程序的数据类型流程。请注意,根据任务的不同,输入和输出如何使用不同的模态组合。
理解这些输入和输出模式是使用多模态AI的一个基础步骤。当您遇到一个新的多模态AI应用时,首先要考量的问题之一是:“它接收什么类型的数据,以及产生什么类型的数据?”回答这个问题有助于阐明系统的目的、其操作流程以及设计中涉及的挑战。随着您继续学习,您会看到这些I/O模式以各种形式出现,通常以更复杂和组合的方式。
这部分内容有帮助吗?
© 2026 ApX Machine Learning用心打造