章节 4: 多模态AI模型的组成部分

在了解了什么是多模态 (multimodal)AI、不同数据类型如何表示以及它们的整合方法之后，我们现在将注意力转向这些系统的实际构成部分。本章将研究构成多模态AI模型的常见要素，并介绍它们是如何构建和评估的。

你将学习从不同模态中提取有意义特征的方法，这些模态包括文本、图像和音频数据。我们接下来会讨论多模态任务中常使用的简单神经网络 (neural network)层，同时介绍适用于组合数据类型的损失函数 (loss function)。此外，我们还将概述这些系统的训练过程，并介绍用于评估它们性能的基本指标。本章旨在使你掌握这些核心部分，为你接下来的实践活动做准备，在该活动中你将设计一个简单的多模态模型。

课程章节

4.1 从文本数据中提取特征
4.2 从图像数据中提取特征
4.3 从音频数据中提取特征
4.4 用于多模态任务的简单神经网络层
4.5 衡量性能：组合数据的损失函数
4.6 多模态系统训练：概述
4.7 多模态输出的基础评估指标
4.8 动手实践：构思一个简单模型