计算机视觉是计算机科学和人工智能的一个分支,旨在使计算机能够理解和处理来自数字源的视觉信息,就像人类用眼睛看东西一样。想象一下,你多么轻松地就能认出朋友的脸、阅读标牌上的文字或绕过障碍物。计算机视觉致力于让机器也拥有类似的能力,通过数字图像和视频作为输入。核心来说,计算机视觉旨在自动化人类视觉系统所执行的任务。计算机视觉系统不使用生物眼睛和大脑,而是利用摄像头、传感器、算法和计算能力。输入通常是数字图像或一系列图像(视频)。输出不仅仅是处理过的图像;它是对图像中内容的一种理解或解释形式。这可能包括:识别物体(例如,“这张照片里有一只猫和一只狗”)。识别文本(例如,读取车牌号)。估计物体的位置或运动(例如,跟踪体育比赛中的球)。从二维图像重建三维场景(例如,为机器人创建三维地图)。根据视觉输入做出决策(例如,自动驾驶汽车检测到障碍物时刹车)。举个简单的例子:使用面部识别解锁智能手机。手机摄像头捕捉你的面部图像(输入)。计算机视觉算法分析此图像,提取独特的面部特征,将其与存储的信息进行比较,然后判断是否是你本人(解释和决策)。digraph G { rankdir=LR; node [shape=box, style=rounded, fontname="sans-serif", color="#495057", fontcolor="#495057"]; edge [color="#adb5bd"]; 计算机视觉系统通过处理数字图像和视频,旨在实现对视觉信息的解释和决策。这些解释和决策包括识别物体标签、读取文本或理解动作。 Input -> CV_System; CV_System -> Output; }计算机视觉过程的简化视图:视觉数据进入系统,系统对其进行分析以产生有意义的信息或动作。区分计算机视觉与图像处理很重要。虽然计算机视觉经常使用图像处理技术(例如调整亮度或应用滤镜,这些你将在后面学到),但图像处理更侧重于处理图像或增强图像,以供人观看或进行进一步分析。计算机视觉更进一步;它的最终目标通常不仅仅是转换图像,而是从图像中提取有意义的信息,以理解它所代表的场景。计算机视觉是一个快速发展的分支,与其他许多方向都有联系,包括机器学习(它为构建视觉系统提供了强大工具)、模式识别、物理学(光学)和信号处理。随着本课程的学习推进,你将学习基本技术,使计算机能够开始理解它们接收到的视觉数据。