趋近智
在了解了什么是多模态 (multimodal)AI、不同数据类型如何表示以及它们的整合方法之后,我们现在将注意力转向这些系统的实际构成部分。本章将研究构成多模态AI模型的常见要素,并介绍它们是如何构建和评估的。
你将学习从不同模态中提取有意义特征的方法,这些模态包括文本、图像和音频数据。我们接下来会讨论多模态任务中常使用的简单神经网络 (neural network)层,同时介绍适用于组合数据类型的损失函数 (loss function)。此外,我们还将概述这些系统的训练过程,并介绍用于评估它们性能的基本指标。本章旨在使你掌握这些核心部分,为你接下来的实践活动做准备,在该活动中你将设计一个简单的多模态模型。
4.1 从文本数据中提取特征
4.2 从图像数据中提取特征
4.3 从音频数据中提取特征
4.4 用于多模态任务的简单神经网络层
4.5 衡量性能:组合数据的损失函数
4.6 多模态系统训练:概述
4.7 多模态输出的基础评估指标
4.8 动手实践:构思一个简单模型
© 2026 ApX Machine Learning用心打造