所有课程

多模态人工智能介绍

章节 1: 什么是多模态人工智能？

人工智能：简要概述

理解数据模态：文本、图像、音频

多模态AI的界定：处理多样数据

结合多种模态的益处

多模态AI与单模态AI：主要区别

多模态系统示例

多模态AI的主要难点

一个多模态任务示例：生成图像描述

练习：识别常见技术中的模态

第 1 章测验

章节 2: 多模态系统的数据预备

文本数据表示：从字符到意义

图像数据表示：像素、特征与结构

音频数据表示：声波到数字信号

视频数据：图像与声音的序列

不同数据类型的基本预处理

多源数据对齐

跨模态信息比较

动手实践：观察数据格式

第 2 章测验

章节 3: 模态整合方法

多模态整合的方法：早期、中期、晚期

早期整合：在输入阶段结合数据

中间层次的合并：已处理特征的整合

晚期融合：组合独立预测结果

共享表示：学习共同特征

协调表示：模态间映射

多模态学习的基本架构

注意力机制简介：集中于相关信息

实践：图示结合方法

第 3 章测验

章节 4: 多模态AI模型的组成部分

从文本数据中提取特征

从图像数据中提取特征

从音频数据中提取特征

用于多模态任务的简单神经网络层

衡量性能：组合数据的损失函数

多模态系统训练：概述

多模态输出的基础评估指标

动手实践：构思一个简单模型

第 4 章测验

章节 5: 多模态AI入门应用

图像描述系统：从图像生成文本

视觉问答：通过提问与图片互动

文本到图像生成：根据描述创建视觉内容（简介）

通过视觉信息提升的语音识别 (介绍)

多模态情感分析：从多重线索理解观点

多模态应用中的输入与输出

实践：构思多模态解决方案

第 5 章测验

多模态应用中的输入与输出

这部分内容有帮助吗？

参考文献

Multimodal Machine Learning: A Survey and Taxonomy, Tadas Baltrušaitis, Chaitanya Ahuja, and Louis-Philippe Morency, 2018 IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 41 (IEEE) DOI: 10.1109/TPAMI.2018.2798607 - 全面概述了多模态机器学习，对与理解多样化输入和输出相关的融合策略和应用进行了分类。
Show, Attend and Tell: Neural Image Caption Generation with Visual Attention, Kelvin Xu, Jimmy Ba, Ryan Kiros, Kyunghyun Cho, Aaron Courville, Ruslan Salakhutdinov, Richard Zemel, and Yoshua Bengio, 2015 International Conference on Machine Learning (ICML) DOI: 10.48550/arXiv.1502.03044 - 提出了一个从图像生成文本描述的基础模型，展示了视觉输入到文本输出的实例。
VQA: Visual Question Answering, Stanislaw Antol, Aishwarya Agrawal, Jiasen Lu, Margaret Mitchell, Dhruv Batra, C. Lawrence Zitnick, and Devi Parikh, 2015 International Conference on Computer Vision (ICCV) (IEEE) DOI: 10.1109/ICCV.2015.279 - 介绍了视觉问答任务和数据集，展示了系统如何处理图像和文本输入以生成文本答案。

© 2025 ApX Machine Learning用心打造