趋近智
了解计算机视觉的起源,有助于我们认识到它的巨大进步以及当前技术所依赖的根本。尽管机器“看”的想法听起来很未来化,但它的起源可追溯到几十年前。
计算机视觉在20世纪60年代正式成型,受到人工智能热潮的推动。1966年的麻省理工学院夏季视觉项目是一个主要时刻。研究人员乐观地期望在一个夏天内构建一个能分析场景并识别其中物体的系统。尽管这个目标被证明过于宏大,但它标志着结构化研究的开端。早期工作通常集中在高度受限的环境中,比如解释堆叠积木的图像(即“积木环境”)。这简化了问题,使得拉里·罗伯茨等先驱能够开发出从2D图像中寻找边缘和理解基本3D形状的初步算法。
早期方法的局限性促使研究人员更深入地思考视觉本身的过程。神经科学家兼心理学家大卫·马尔在20世纪70年代末提出了一个有影响力的框架。他提出视觉处理分阶段进行:
马尔的观点强调了理解视觉输入几何和结构的重要性,引导研究采用更具原则性的方法从图像中提取有意义的信息。这个时期也更加注重开发检测图像特征(如边缘和角点)的技术,这些内容我们将在本课程后续部分进行介绍。
一个简化的时间线,勾勒出计算机视觉发展中的主要时期和转变。
随着计算能力的提升,出现了更复杂的算法。大量精力投入到开发对视角、光照和尺度变化不那么敏感的特征检测器上。像20世纪90年代后期开发的尺度不变特征变换(SIFT)等算法,使计算机能够在不同条件下找到同一物体或场景不同图像间的对应点。
这一时期也出现了应用于视觉问题的机器学习技术。研究人员不再仅仅依赖于手工设计的规则,而是开始在大规模数据集上训练系统。一个重要例子是Viola-Jones人脸检测框架(2001年),它使得消费级相机上的人脸实时检测成为可能,并成为首批广泛部署的计算机视觉应用之一。这显示了直接从数据中学习模式的潜力。
最显著的转变发生在2012年左右,伴随着深度学习,特别是卷积神经网络(CNNs)的出现。一个名为AlexNet的系统在ImageNet大规模视觉识别挑战赛(ILSVRC)中取得了突破性表现,这是一项针对图像分类和物体检测的年度比赛。
深度学习如此高效的原因在于它能够直接从原始像素数据中自动学习分层特征。工程师不再需要设计复杂的特征提取器,网络在训练过程中会为任务学习出最佳特征。这使得几乎所有计算机视觉任务都取得了快速进展,从以显著准确度分类图像,到识别和分割复杂场景中的多个物体。如今,深度学习是大多数高性能计算机视觉系统的主流方法。
计算机视觉已从受限环境中的宏大实验,发展成为一项融入现代生活无数方面的技术,包括智能手机相机、医学图像分析、机器人技术和自动导航系统。尽管仍存在挑战,特别是在理解语境、场景推理以及确保公平性和鲁棒性方面,但该领域仍在快速发展。
这份简短的历史回顾为我们理解将要介绍的基本原理奠定了根基。您将学到的技术,从基本的图像处理到特征检测,都是贯穿这段历史而形成的重要组成部分,对于理解当今计算机如何处理和解读视觉信息仍然具有重要意义。
这部分内容有帮助吗?
© 2026 ApX Machine Learning用心打造