趋近智
在上一节中,我们简要提及了人工智能的大致设想。人工智能系统其根本旨在处理信息,与人类处理方式类似。但我们所说的是哪种信息呢?信息以多种形式存在,在人工智能方面,我们将这些不同形式或类型的数据称为模态。
可以将模态看作是信息可通过其接收或表达的不同通道。对人类而言,这些是我们的感官:视觉、听觉、触觉、味觉和嗅觉。人工智能系统也处理来自不同来源的信息,在进一步了解人工智能如何整合这些信息之前,理解这些来源是基础。我们来看看你在多模态人工智能中会遇到的主要数据模态。
文本可能是最为常见的数据模态。它是通过书面语言传递的信息。这包括:
对人工智能系统来说,文本不仅仅是字母的集合。它是承载意义的字符、单词和句子的序列。尽管我们将在后面详细说明人工智能如何处理文本,但目前,可以将其视为一种结构化信息,人工智能可以对其进行分析,以理解主题、情感,甚至根据提供的文本回答问题。
图像数据表示视觉信息。它体现了我们如何捕获和分享所见。例子包括:
当人工智能系统“查看”图像时,它通常看到一个由称为像素的微小点组成的网格。每个像素都包含颜色和亮度信息。通过分析这些像素中的模式,人工智能可以学会识别物体(如猫或汽车)、识别场景(沙滩、森林),或检测图像中的特定特征。
音频数据是通过声音传递的信息。这种模态涵盖了多种声音类型:
对人工智能系统来说,音频通常表示为已转换为数字格式的声波。这些数字信号随时间捕获频率(音高)和振幅(响度)等特征。人工智能可以分析这些信号,将语音转录为文本,识别不同的音乐类型,或识别特定的声音事件。
人工智能系统可以接收来自多种数据模态的输入,如文本、图像和音频。
虽然文本、图像和音频是我们在本入门课程中将讨论的最常见模态,但了解人工智能也能处理其他类型的数据是好的。例如:
在“多模态人工智能导论”中,我们主要关注人工智能系统如何处理文本、图像和音频数据的组合。
每种数据模态都以独特的方式承载信息,并拥有其固有的结构。文本是顺序的,图像是空间的,而音频则随时间展开。认识到这些差异是了解多模态人工智能复杂性和能力的第一步。当人工智能系统能够处理并关联来自这些不同来源的信息时,它能够获得更全面的理解,就像人类一样。
在接下来的章节中,我们将说明组合这些模态的意义,以及为何这样做能够带来更强大和智能的人工系统。
这部分内容有帮助吗?
© 2026 ApX Machine Learning用心打造