趋近智

所有课程

多模态人工智能介绍

章节 1: 什么是多模态人工智能？

人工智能：简要概述

理解数据模态：文本、图像、音频

多模态AI的界定：处理多样数据

结合多种模态的益处

多模态AI与单模态AI：主要区别

多模态系统示例

多模态AI的主要难点

一个多模态任务示例：生成图像描述

练习：识别常见技术中的模态

第 1 章测验

章节 2: 多模态系统的数据预备

文本数据表示：从字符到意义

图像数据表示：像素、特征与结构

音频数据表示：声波到数字信号

视频数据：图像与声音的序列

不同数据类型的基本预处理

多源数据对齐

跨模态信息比较

动手实践：观察数据格式

第 2 章测验

章节 3: 模态整合方法

多模态整合的方法：早期、中期、晚期

早期整合：在输入阶段结合数据

中间层次的合并：已处理特征的整合

晚期融合：组合独立预测结果

共享表示：学习共同特征

协调表示：模态间映射

多模态学习的基本架构

注意力机制简介：集中于相关信息

实践：图示结合方法

第 3 章测验

章节 4: 多模态AI模型的组成部分

从文本数据中提取特征

从图像数据中提取特征

从音频数据中提取特征

用于多模态任务的简单神经网络层

衡量性能：组合数据的损失函数

多模态系统训练：概述

多模态输出的基础评估指标

动手实践：构思一个简单模型

第 4 章测验

章节 5: 多模态AI入门应用

图像描述系统：从图像生成文本

视觉问答：通过提问与图片互动

文本到图像生成：根据描述创建视觉内容（简介）

通过视觉信息提升的语音识别 (介绍)

多模态情感分析：从多重线索理解观点

多模态应用中的输入与输出

实践：构思多模态解决方案

第 5 章测验

多模态人工智能数据：表示与预处理

章节 2: 多模态系统的数据预备

为有效使用多种类型的数据，人工智能系统首先需要对每种数据类型有充分的认识。本章将说明文本、图像、音频和视频等不同形式的信息如何进行准备和组织，以便机器进行处理。我们将介绍这些数据常见的表示方式，以及为应对更复杂的跨模态任务而采取的初步处理步骤。

您将了解到：

数据表示：文本、图像、音频和视频如何转换为人工智能模型可以使用的数字格式。例如，图像可以看作是像素值网格，每个像素的坐标为 $(x, y)$ ，其强度为 $I(x,y)$ 。
基本预处理：用于清洗和准备来自每种模态的原始数据的初步方法，使其适合人工智能算法。
数据对齐 (alignment)：同步或关联来自不同来源数据的重要性，例如将音频文件中的口语与视频中相应的视觉线索进行匹配。
跨模态信息比较：介绍我们如何衡量各类数据传达内容中的相似点或不同点。

掌握这些数据准备工作是学习人工智能模型如何整合不同信息流的重要一步。

课程章节

2.1 文本数据表示：从字符到意义
2.2 图像数据表示：像素、特征与结构
2.3 音频数据表示：声波到数字信号
2.4 视频数据：图像与声音的序列
2.5 不同数据类型的基本预处理
2.6 多源数据对齐
2.7 跨模态信息比较
2.8 动手实践：观察数据格式

© 2026 ApX Machine Learning