为有效使用多种类型的数据,人工智能系统首先需要对每种数据类型有充分的认识。本章将说明文本、图像、音频和视频等不同形式的信息如何进行准备和组织,以便机器进行处理。我们将介绍这些数据常见的表示方式,以及为应对更复杂的跨模态任务而采取的初步处理步骤。您将了解到:数据表示:文本、图像、音频和视频如何转换为人工智能模型可以使用的数字格式。例如,图像可以看作是像素值网格,每个像素的坐标为 $(x, y)$,其强度为 $I(x,y)$。基本预处理:用于清洗和准备来自每种模态的原始数据的初步方法,使其适合人工智能算法。数据对齐:同步或关联来自不同来源数据的重要性,例如将音频文件中的口语与视频中相应的视觉线索进行匹配。跨模态信息比较:介绍我们如何衡量各类数据传达内容中的相似点或不同点。掌握这些数据准备工作是学习人工智能模型如何整合不同信息流的重要一步。