在上一节中,我们简要提及了人工智能的大致设想。人工智能系统其根本旨在处理信息,与人类处理方式类似。但我们所说的是哪种信息呢?信息以多种形式存在,在人工智能方面,我们将这些不同形式或类型的数据称为模态。可以将模态看作是信息可通过其接收或表达的不同通道。对人类而言,这些是我们的感官:视觉、听觉、触觉、味觉和嗅觉。人工智能系统也处理来自不同来源的信息,在进一步了解人工智能如何整合这些信息之前,理解这些来源是基础。我们来看看你在多模态人工智能中会遇到的主要数据模态。文本:我们书写和阅读的语言文本可能是最为常见的数据模态。它是通过书面语言传递的信息。这包括:本网页上的文字。你在线阅读或报纸上的文章。你通过电子邮件或社交媒体发送的消息。书籍、散文,甚至计算机代码。对人工智能系统来说,文本不仅仅是字母的集合。它是承载意义的字符、单词和句子的序列。尽管我们将在后面详细说明人工智能如何处理文本,但目前,可以将其视为一种结构化信息,人工智能可以对其进行分析,以理解主题、情感,甚至根据提供的文本回答问题。图像:捕捉视觉画面图像数据表示视觉信息。它体现了我们如何捕获和分享所见。例子包括:用手机或相机拍摄的照片。图画、绘画和插图。图表和示意图。医学扫描,如X射线或核磁共振(MRI)。地球的卫星视图。当人工智能系统“查看”图像时,它通常看到一个由称为像素的微小点组成的网格。每个像素都包含颜色和亮度信息。通过分析这些像素中的模式,人工智能可以学会识别物体(如猫或汽车)、识别场景(沙滩、森林),或检测图像中的特定特征。音频:我们周围的声音音频数据是通过声音传递的信息。这种模态涵盖了多种声音类型:口语: 某人说话、播客,或给予智能助手的语音指令。音乐: 来自各种乐器或人声的旋律、节奏与和声。环境音: 狗叫声、汽车喇叭声、雨声或鸟鸣声。对人工智能系统来说,音频通常表示为已转换为数字格式的声波。这些数字信号随时间捕获频率(音高)和振幅(响度)等特征。人工智能可以分析这些信号,将语音转录为文本,识别不同的音乐类型,或识别特定的声音事件。digraph G { rankdir=TB; bgcolor="transparent"; node [shape=box, style="filled,rounded", fontname="Helvetica", fontsize=10, margin=0.2]; edge [fontname="Helvetica", fontsize=9]; subgraph cluster_modalities { label = "数据模态"; style="filled"; color="#e9ecef"; fontname="Helvetica"; fontsize=12; text_data [label="文本数据\n(例如,文章、消息)", fillcolor="#a5d8ff"]; image_data [label="图像数据\n(例如,照片、图画)", fillcolor="#b2f2bb"]; audio_data [label="音频数据\n(例如,语音、音乐)", fillcolor="#ffec99"]; } ai_system [label="人工智能系统", shape=ellipse, style="filled", fillcolor="#fcc2d7", fontsize=11]; text_data -> ai_system [label="处理输入"]; image_data -> ai_system [label="理解输入"]; audio_data -> ai_system [label="解读输入"]; }人工智能系统可以接收来自多种数据模态的输入,如文本、图像和音频。窥探其他数据类型虽然文本、图像和音频是我们在本入门课程中将讨论的最常见模态,但了解人工智能也能处理其他类型的数据是好的。例如:视频: 视频常被视为一种独立的模态,但它本质上是随时间呈现的图像帧序列,通常伴有音轨。我们将在下一章更详细地提及这一点。传感器数据: 这可以包括来自各种传感器的读数,如温度、压力、GPS坐标,或来自加速度计(如智能手机中的)的运动数据。表格数据: 以行和列组织的数据,如电子表格中所示,是人工智能可以处理的另一种信息形式,尽管它通常由不同的专业人工智能技术处理。在“多模态人工智能导论”中,我们主要关注人工智能系统如何处理文本、图像和音频数据的组合。理解模态的重要性每种数据模态都以独特的方式承载信息,并拥有其固有的结构。文本是顺序的,图像是空间的,而音频则随时间展开。认识到这些差异是了解多模态人工智能复杂性和能力的第一步。当人工智能系统能够处理并关联来自这些不同来源的信息时,它能够获得更全面的理解,就像人类一样。在接下来的章节中,我们将说明组合这些模态的意义,以及为何这样做能够带来更强大和智能的人工系统。