趋近智
人工智能(AI)是理解系统如何处理图像和文本等多种信息类型的基础。这里提供了人工智能(AI)的简要概述。
从根本上说,人工智能是计算机科学的一个分支,致力于开发能够执行通常需要人类智慧才能完成的任务的机器或软件。例如学习、解决问题、理解语言、感知环境和做出判断等活动。人工智能的总目标是构建能够模拟这些认知功能的系统。
举例来说,当你向手机上的虚拟助手提问,它能理解你并给出回答时,那就是人工智能在运作。当导航应用推荐最快的路线,或者电子邮件服务过滤掉垃圾邮件时,这些也是人工智能的应用。这些系统旨在处理信息并以我们认为“智能”的方式行事。
现代人工智能的一个重要组成部分,也是与我们关于多模态系统讨论最相关的部分,就是机器学习(ML)。机器学习不是为计算机编写针对每种情况的明确指令(这对于许多任务来说复杂到无法实现),而是让系统能够从数据中学习。
想象一下教孩子识别一只猫。你不会列出所有规则:“如果它有毛发、尖耳朵、胡须并且会喵喵叫,那么它就是一只猫。”相反,你会向孩子展示许多猫的例子。随着时间的推移,孩子会学习到潜在的模式,并能识别出他们从未见过的猫。
机器学习的工作原理相似。我们向一个机器学习模型输入大量与任务相关的数据。模型随后从这些数据中“学习”模式、关系和特征。一旦训练完成,模型就能对新的、未见过的数据进行预测或做出决策。例如,一个在数千张猫狗图片上训练过的机器学习模型,可以学习区分它们。
人工智能是一个宽泛的研究领域。机器学习提供了一套常用的技术,用于构建能够从数据中学习的人工智能系统。
人工智能作为一种构想已存在数十年,但其近期在能力和应用方面的快速增长是多种因素共同作用的结果:
对人工智能和机器学习的这份基本认识是必不可少的,因为多模态人工智能,其核心在于将人工智能应用于一个特定的问题:同时理解和处理来自多种数据源的信息。正如你同时使用眼睛(视觉)和耳朵(听觉)来理解事物一样,多模态人工智能系统旨在整合来自文本、图像和音频等不同模态的信息,以获得更全面的理解或执行更复杂的任务。
在介绍了这些人工智能基本原理之后,我们现在能更好地认识多模态人工智能的独特之处,以及为何结合不同数据类型如此有效。
这部分内容有帮助吗?
© 2026 ApX Machine Learning用心打造