理解数据模态：文本、图像、音频

在上一节中，我们简要提及了人工智能的大致设想。人工智能系统其根本旨在处理信息，与人类处理方式类似。但我们所说的是哪种信息呢？信息以多种形式存在，在人工智能方面，我们将这些不同形式或类型的数据称为模态。

可以将模态看作是信息可通过其接收或表达的不同通道。对人类而言，这些是我们的感官：视觉、听觉、触觉、味觉和嗅觉。人工智能系统也处理来自不同来源的信息，在进一步了解人工智能如何整合这些信息之前，理解这些来源是基础。我们来看看你在多模态 (multimodal)人工智能中会遇到的主要数据模态。

文本：我们书写和阅读的语言

文本可能是最为常见的数据模态。它是通过书面语言传递的信息。这包括：

本网页上的文字。
你在线阅读或报纸上的文章。
你通过电子邮件或社交媒体发送的消息。
书籍、散文，甚至计算机代码。

对人工智能系统来说，文本不仅仅是字母的集合。它是承载意义的字符、单词和句子的序列。尽管我们将在后面详细说明人工智能如何处理文本，但目前，可以将其视为一种结构化信息，人工智能可以对其进行分析，以理解主题、情感，甚至根据提供的文本回答问题。

图像：捕捉视觉画面

图像数据表示视觉信息。它体现了我们如何捕获和分享所见。例子包括：

用手机或相机拍摄的照片。
图画、绘画和插图。
图表和示意图。
医学扫描，如X射线或核磁共振（MRI）。
地球的卫星视图。

当人工智能系统“查看”图像时，它通常看到一个由称为像素的微小点组成的网格。每个像素都包含颜色和亮度信息。通过分析这些像素中的模式，人工智能可以学会识别物体（如猫或汽车）、识别场景（沙滩、森林），或检测图像中的特定特征。

音频：我们周围的声音

音频数据是通过声音传递的信息。这种模态涵盖了多种声音类型：

口语： 某人说话、播客，或给予智能助手的语音指令。
音乐： 来自各种乐器或人声的旋律、节奏与和声。
环境音： 狗叫声、汽车喇叭声、雨声或鸟鸣声。

对人工智能系统来说，音频通常表示为已转换为数字格式的声波。这些数字信号随时间捕获频率（音高）和振幅（响度）等特征。人工智能可以分析这些信号，将语音转录为文本，识别不同的音乐类型，或识别特定的声音事件。

人工智能系统可以接收来自多种数据模态的输入，如文本、图像和音频。

窥探其他数据类型

虽然文本、图像和音频是我们在本入门课程中将讨论的最常见模态，但了解人工智能也能处理其他类型的数据是好的。例如：

视频： 视频常被视为一种独立的模态，但它本质上是随时间呈现的图像帧序列，通常伴有音轨。我们将在下一章更详细地提及这一点。
传感器数据： 这可以包括来自各种传感器的读数，如温度、压力、GPS坐标，或来自加速度计（如智能手机中的）的运动数据。
表格数据： 以行和列组织的数据，如电子表格中所示，是人工智能可以处理的另一种信息形式，尽管它通常由不同的专业人工智能技术处理。

在“多模态 (multimodal)人工智能导论”中，我们主要关注人工智能系统如何处理文本、图像和音频数据的组合。

理解模态的重要性

每种数据模态都以独特的方式承载信息，并拥有其固有的结构。文本是顺序的，图像是空间的，而音频则随时间展开。认识到这些差异是了解多模态 (multimodal)人工智能复杂性和能力的第一步。当人工智能系统能够处理并关联来自这些不同来源的信息时，它能够获得更全面的理解，就像人类一样。

在接下来的章节中，我们将说明组合这些模态的意义，以及为何这样做能够带来更强大和智能的人工系统。

参考文献

Multimodal Machine Learning: A Survey and Taxonomy, Tadas Baltrušaitis, Chaitanya Ahuja, and Louis-Philippe Morency, 2018 IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 41 (IEEE) DOI: 10.1109/TPAMI.2018.2798607 - 该调查提供了多模态机器学习的概述，包括不同数据模态的定义、分类及其处理挑战。
Speech and Language Processing: An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition, Daniel Jurafsky and James H. Martin, 2025 (Pearson) - 这本教科书的第三版涵盖了自然语言处理和语音识别的基本概念，解释了AI如何处理文本和音频（语音）数据。
Computer Vision: Algorithms and Applications, Richard Szeliski, 2022 (Springer) - 这本教科书的第二版广泛介绍了计算机视觉，详细说明了处理和理解图像数据的原理和算法。