在前面的章节中,我们了解了多模态AI所需的主要思想、数据表示、集成方法以及模型组成部分。现在,我们将重点转向观察这些元素在不同应用中如何一起运行。本章会介绍几个将不同数据类型结合起来,从而提供更强功能的例子。我们会讲到:图像描述系统,能从图像生成文本描述。视觉问答(VQA),通过自然语言问题实现与图像的互动。文本到图像生成简介,即AI系统如何从文本创建视觉内容。简单看看视觉信息如何提升语音识别。多模态情感分析,根据来自多个来源的线索理解观点。通过学习这些应用,您将对多模态AI系统如何设计以及它们能执行哪些任务有一个实际的认识。