趋近智
APX AI
在线
趋近智
计算机视觉的目标是让计算机从数字图像或视频中获取理解。与人类感知视觉信息的方式相比,计算机究竟是如何“看”的?弄清这种区别对于掌握计算机视觉所用技术非常有用。
我们的视觉系统是生物工程的奇迹。当光线进入眼睛时,它聚焦在视网膜上,触发感光细胞(视杆细胞和视锥细胞)。这些信号通过视神经传输到大脑,在那里进行复杂的处理。我们的大脑不只是记录光强度和颜色;它能即时解读形状、辨认熟悉物体、推断距离、判断空间关系,并利用多年的经验和情境。
试想一下在人群中认出朋友的脸。你的大脑能轻松处理光线、角度、表情甚至部分被遮挡视线的变化。这个过程感觉瞬间完成且直观。它是整体性的、关联的,并与我们的其他感官和知识相结合。
另一方面,计算机缺乏这种生物构造和固有的理解能力。对于计算机而言,数字图像并非一个完整的场景;它仅仅是数据。具体来说,图像被表示为由微小元素构成的网格,这些元素被称为像素(英文“picture elements”的缩写)。
想象一下将图像划分为一个细密的网格,就像在一张图像上覆盖了一张方格纸。网格中的每个方块都是一个像素,它包含一个或多个数值,代表该特定点的颜色和亮度。
灰度图像: 最简单的情况下,对于灰度(黑白)图像,每个像素都有一个值表示其亮度。这个值通常范围是 0(代表黑色)到 255(代表白色),介于两者之间的是不同深浅的灰色。计算机看到的是这些亮度值的二维数组(或矩阵)。
彩色图像: 对于彩色图像,每个像素通常存储三个值,通常代表红、绿、蓝光的强度(RGB 色彩模型)。因此,彩色图像本质上是三个数值网格堆叠在一起,每个网格对应一个颜色通道。
我们用一个微小、简化的灰度图像来数值化地表示它:
计算机如何将一个小灰度图像存储为强度值网格的视图,其中 0 为黑色,255 为白色。
对于计算机来说,左侧的图像只不过是右侧的数值网格。它没有内置的“阴影”、“形状”或“物体”认识。它看到的只是数字:150,255,150,80,0,80。
这个根本性的差异是计算机视觉的挑战。该学科致力于开发算法和技术,以处理这些原始的数值数组并提取有意义的信息,力求以计算方式重现人类视觉理解的某些方面。识别物体、辨识人脸或阅读文本等任务,都涉及分析这些像素值,找出数字中的规律、构成和关联,从而推断出更高层的含义。
继续学习时,请记住这个核心:计算机视觉始于将图像视为数字(像素)的结构化集合。这些技术旨在处理和解读这些数值数据以达成特定目标,从原始像素值逐步转向理解图像的内容。
© 2026 ApX Machine Learning内容诚信与透明度•