所有课程

多模态人工智能介绍

章节 1: 什么是多模态人工智能？

人工智能：简要概述

理解数据模态：文本、图像、音频

多模态AI的界定：处理多样数据

结合多种模态的益处

多模态AI与单模态AI：主要区别

多模态系统示例

多模态AI的主要难点

一个多模态任务示例：生成图像描述

练习：识别常见技术中的模态

第 1 章测验

章节 2: 多模态系统的数据预备

文本数据表示：从字符到意义

图像数据表示：像素、特征与结构

音频数据表示：声波到数字信号

视频数据：图像与声音的序列

不同数据类型的基本预处理

多源数据对齐

跨模态信息比较

动手实践：观察数据格式

第 2 章测验

章节 3: 模态整合方法

多模态整合的方法：早期、中期、晚期

早期整合：在输入阶段结合数据

中间层次的合并：已处理特征的整合

晚期融合：组合独立预测结果

共享表示：学习共同特征

协调表示：模态间映射

多模态学习的基本架构

注意力机制简介：集中于相关信息

实践：图示结合方法

第 3 章测验

章节 4: 多模态AI模型的组成部分

从文本数据中提取特征

从图像数据中提取特征

从音频数据中提取特征

用于多模态任务的简单神经网络层

衡量性能：组合数据的损失函数

多模态系统训练：概述

多模态输出的基础评估指标

动手实践：构思一个简单模型

第 4 章测验

章节 5: 多模态AI入门应用

图像描述系统：从图像生成文本

视觉问答：通过提问与图片互动

文本到图像生成：根据描述创建视觉内容（简介）

通过视觉信息提升的语音识别 (介绍)

多模态情感分析：从多重线索理解观点

多模态应用中的输入与输出

实践：构思多模态解决方案

第 5 章测验

协调表示：模态间映射

这部分内容有帮助吗？

参考文献

Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering, Peter Anderson, Xiaodong He, Chris Buehler, Damien Teney, Mark Johnson, Stephen Gould, and Lei Zhang, 2018 Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR) (IEEE Computer Society) DOI: 10.1109/CVPR.2018.00636 - 提出了一种开创性的基于注意力的图像字幕模型，展示了从视觉特征到文本序列的直接映射。
Learning Transferable Visual Models From Natural Language Supervision, Alec Radford, Jong Wook Kim, Chris Hallacy, Aditya Ramesh, Gabriel Goh, Sandhini Agarwal, Girish Sastry, Amanda Askell, Pamela Mishkin, Jack Clark, Gretchen Krueger, and Ilya Sutskever, 2021 arXiv preprint arXiv:2103.00020 DOI: 10.48550/arXiv.2103.00020 - 介绍了一种非常有影响力的模型，该模型通过对比预训练学习到鲁棒的跨模态表示，从而实现有效的关联和检索任务。

© 2026 ApX Machine Learning用心打造