趋近智
在前面的章节中,我们了解了多模态 (multimodal)AI所需的主要思想、数据表示、集成方法以及模型组成部分。现在,我们将重点转向观察这些元素在不同应用中如何一起运行。
本章会介绍几个将不同数据类型结合起来,从而提供更强功能的例子。我们会讲到:
通过学习这些应用,您将对多模态AI系统如何设计以及它们能执行哪些任务有一个实际的认识。
5.1 图像描述系统:从图像生成文本
5.2 视觉问答:通过提问与图片互动
5.3 文本到图像生成:根据描述创建视觉内容(简介)
5.4 通过视觉信息提升的语音识别 (介绍)
5.5 多模态情感分析:从多重线索理解观点
5.6 多模态应用中的输入与输出
5.7 实践:构思多模态解决方案
© 2026 ApX Machine Learning用心打造