计算机如何理解图像

计算机视觉的目标是让计算机从数字图像或视频中获取理解。与人类感知视觉信息的方式相比，计算机究竟是如何“看”的？弄清这种区别对于掌握计算机视觉所用技术非常有用。

我们的视觉系统是生物工程的奇迹。当光线进入眼睛时，它聚焦在视网膜上，触发感光细胞（视杆细胞和视锥细胞）。这些信号通过视神经传输到大脑，在那里进行复杂的处理。我们的大脑不只是记录光强度和颜色；它能即时解读形状、辨认熟悉物体、推断距离、判断空间关系，并利用多年的经验和情境。

试想一下在人群中认出朋友的脸。你的大脑能轻松处理光线、角度、表情甚至部分被遮挡视线的变化。这个过程感觉瞬间完成且直观。它是整体性的、关联的，并与我们的其他感官和知识相结合。

另一方面，计算机缺乏这种生物构造和固有的理解能力。对于计算机而言，数字图像并非一个完整的场景；它仅仅是数据。具体来说，图像被表示为由微小元素构成的网格，这些元素被称为像素（英文“picture elements”的缩写）。

想象一下将图像划分为一个细密的网格，就像在一张图像上覆盖了一张方格纸。网格中的每个方块都是一个像素，它包含一个或多个数值，代表该特定点的颜色和亮度。

灰度图像： 最简单的情况下，对于灰度（黑白）图像，每个像素都有一个值表示其亮度。这个值通常范围是 0（代表黑色）到 255（代表白色），介于两者之间的是不同深浅的灰色。计算机看到的是这些亮度值的二维数组（或矩阵）。
彩色图像： 对于彩色图像，每个像素通常存储三个值，通常代表红、绿、蓝光的强度（RGB 色彩模型）。因此，彩色图像本质上是三个数值网格堆叠在一起，每个网格对应一个颜色通道。

我们用一个微小、简化的灰度图像来数值化地表示它：

计算机如何将一个小灰度图像存储为强度值网格的视图，其中 0 为黑色，255 为白色。

对于计算机来说，左侧的图像只不过是右侧的数值网格。它没有内置的“阴影”、“形状”或“物体”认识。它看到的只是数字：150，255，150，80，0，80。

这个根本性的差异是计算机视觉的挑战。该学科致力于开发算法和技术，以处理这些原始的数值数组并提取有意义的信息，力求以计算方式重现人类视觉理解的某些方面。识别物体、辨识人脸或阅读文本等任务，都涉及分析这些像素值，找出数字中的规律、构成和关联，从而推断出更高层的含义。

继续学习时，请记住这个核心：计算机视觉始于将图像视为数字（像素）的结构化集合。这些技术旨在处理和解读这些数值数据以达成特定目标，从原始像素值逐步转向理解图像的内容。

参考文献

Computer Vision: Algorithms and Applications, Richard Szeliski, 2010 (Springer London) DOI: 10.1007/978-1-84882-935-0 - 一本全面且广受推崇的教科书，涵盖了计算机视觉的基本原理，包括图像形成、表示以及该领域的目标。

灰度图像： 最简单的情况下，对于灰度（黑白）图像，每个像素都有一个值表示其亮度。这个值通常范围是 0（代表黑色）到 255（代表白色），介于两者之间的是不同深浅的灰色。计算机看到的是这些亮度值的二维数组（或矩阵）。
彩色图像： 对于彩色图像，每个像素通常存储三个值，通常代表红、绿、蓝光的强度（RGB 色彩模型）。因此，彩色图像本质上是三个数值网格堆叠在一起，每个网格对应一个颜色通道。

我们用一个微小、简化的灰度图像来数值化地表示它：

计算机如何将一个小灰度图像存储为强度值网格的视图，其中 0 为黑色，255 为白色。

参考文献

Computer Vision: Algorithms and Applications, Richard Szeliski, 2010 (Springer London) DOI: 10.1007/978-1-84882-935-0 - 一本全面且广受推崇的教科书，涵盖了计算机视觉的基本原理，包括图像形成、表示以及该领域的目标。