在了解了什么是多模态AI、不同数据类型如何表示以及它们的整合方法之后,我们现在将注意力转向这些系统的实际构成部分。本章将研究构成多模态AI模型的常见要素,并介绍它们是如何构建和评估的。你将学习从不同模态中提取有意义特征的方法,这些模态包括文本、图像和音频数据。我们接下来会讨论多模态任务中常使用的简单神经网络层,同时介绍适用于组合数据类型的损失函数。此外,我们还将概述这些系统的训练过程,并介绍用于评估它们性能的基本指标。本章旨在使你掌握这些核心部分,为你接下来的实践活动做准备,在该活动中你将设计一个简单的多模态模型。