在我们理解人工智能系统如何同时处理图像和文本等多种信息类型之前,对人工智能(AI)本身有一个共同的认识是很有帮助的。本节提供了简要介绍,为我们的主要议题:多模态AI做好准备。什么是人工智能?从根本上说,人工智能是计算机科学的一个分支,致力于开发能够执行通常需要人类智慧才能完成的任务的机器或软件。例如学习、解决问题、理解语言、感知环境和做出判断等活动。人工智能的总目标是构建能够模拟这些认知功能的系统。举例来说,当你向手机上的虚拟助手提问,它能理解你并给出回答时,那就是人工智能在运作。当导航应用推荐最快的路线,或者电子邮件服务过滤掉垃圾邮件时,这些也是人工智能的应用。这些系统旨在处理信息并以我们认为“智能”的方式行事。机器如何“学习”?机器学习登场现代人工智能的一个重要组成部分,也是与我们关于多模态系统讨论最相关的部分,就是机器学习(ML)。机器学习不是为计算机编写针对每种情况的明确指令(这对于许多任务来说复杂到无法实现),而是让系统能够从数据中学习。想象一下教孩子识别一只猫。你不会列出所有规则:“如果它有毛发、尖耳朵、胡须并且会喵喵叫,那么它就是一只猫。”相反,你会向孩子展示许多猫的例子。随着时间的推移,孩子会学习到潜在的模式,并能识别出他们从未见过的猫。机器学习的工作原理相似。我们向一个机器学习模型输入大量与任务相关的数据。模型随后从这些数据中“学习”模式、关系和特征。一旦训练完成,模型就能对新的、未见过的数据进行预测或做出决策。例如,一个在数千张猫狗图片上训练过的机器学习模型,可以学习区分它们。digraph G { rankdir=TB; bgcolor="transparent"; node [shape=box, style="filled,rounded", fontname="sans-serif", margin="0.3,0.15", fontsize=10]; edge [fontname="sans-serif", fontsize=9]; AI_node [label="人工智能\n(构建模拟\n人类认知功能的机器)", fillcolor="#a5d8ff", color="#1c7ed6", fontcolor="#1c7ed6", id="AI_node"]; ML_node [label="机器学习\n(自动从数据中学习模式以执行任务的系统)", fillcolor="#96f2d7", color="#0ca678", fontcolor="#0ca678", id="ML_node"]; AI_node -> ML_node [label=" 人工智能中的一种主要方法是", color="#495057"]; }人工智能是一个宽泛的研究领域。机器学习提供了一套常用的技术,用于构建能够从数据中学习的人工智能系统。为何人工智能当下发展迅猛?人工智能作为一种构想已存在数十年,但其近期在能力和应用方面的快速增长是多种因素共同作用的结果:数据丰富: 我们生活在一个数字时代,每秒都在生成海量数据,包括文本、图像、音频、视频等。这些数据是机器学习模型的“食粮”;它们拥有的高质量数据越多,学习效果就越好。计算能力提升: 训练复杂的人工智能模型需要大量的计算资源。计算机硬件的进步,特别是擅长并行计算的图形处理器(GPU),使得训练比以往任何时候都更大、更复杂的模型成为可能。算法优化: 研究人员和工程师正在不断开发更有效、更高效的算法。这些是模型用来从数据中学习并进行预测的“秘诀”。从通用人工智能到多模态人工智能对人工智能和机器学习的这份基本认识是必不可少的,因为多模态人工智能,其核心在于将人工智能应用于一个特定的问题:同时理解和处理来自多种数据源的信息。正如你同时使用眼睛(视觉)和耳朵(听觉)来理解事物一样,多模态人工智能系统旨在整合来自文本、图像和音频等不同模态的信息,以获得更全面的理解或执行更复杂的任务。在介绍了这些人工智能基本原理之后,我们现在能更好地认识多模态人工智能的独特之处,以及为何结合不同数据类型如此有效。