趋近智
前馈神经网络 (neural network),也称为多层感知机(MLP),能够从数据中学习复杂的非线性关系。它们的结构,通常包含全连接层,每个神经元都连接到前一层的所有神经元,使得它们在输入是固定大小的特征向量 (vector)时,成为强大的函数逼近器。
然而,正是这种结构引入了局限性,当处理具有固有结构、难以用简单向量表示的特定类型数据时。下面我们来看两个标准前馈网络表现不佳的重要方面:即处理图像等网格结构数据,以及处理文本或时间序列等序列数据。
图像不仅仅是像素的随意集合;它们具有很强的空间结构。相互靠近的像素通常是相关的,共同形成纹理、边缘和物体。当你将图像输入标准 MLP 时,通常的第一步是将图像矩阵(例如,高度 x 宽度 x 通道数)展平为一个单一的长向量 (vector)。
2D 图像在输入 MLP 之前通常会被展平为 1D 向量。请注意,原本垂直相邻的像素(例如,1 和 4)在向量中现在是分离的。
这种展平过程丢弃了明确的 2D 空间排列。图像中紧密相邻的像素(例如,一个在另一个正上方)在输入向量中可能会相距很远。MLP 在第一层中对这个向量的每个元素进行一定程度的独立处理,这使得它难以有效地学习基于局部空间模式的特征。
此外,考虑连接方式。在全连接层中,每个神经元都连接到每个输入像素。即使对于中等大小的图像(例如,256x256 像素),这也会导致第一隐藏层中参数 (parameter)(权重 (weight))数量庞大。这种参数数量的急剧增加带来了几个问题:
另一个挑战是平移不变性。一个物体(比如一只猫),无论它出现在图像的左上角还是右下角,都应该仍然能被识别为猫。MLP 缺乏内置的平移不变性。因为每个输入像素都由连接它的权重独特处理,网络实质上需要针对猫可能出现的每个位置单独学习检测其特征。这效率极低。
自然语言文本、语音音频或金融时间序列等数据本质上是序列化的。元素的顺序非常重要。例如,“狗咬人”与“人咬狗”的含义截然不同。
标准 MLP 在处理序列时遇到两个主要困难:
与图像情况类似,MLP 也缺乏跨时间步的参数 (parameter)共享。如果某个特定模式或特征无论其在序列中出现何处都很重要(例如,检测特定短语),那么 MLP 需要不同的权重来检测该模式在序列的开头、中间或结尾处。这效率很低,并且需要更多数据才能有效学习。
这些局限性表明需要专门设计的网络架构来处理空间层次(如图像中)和时间依赖(如序列中)。卷积神经网络 (neural network)(CNN)解决了空间数据的挑战,而循环神经网络(RNN)则专为序列数据设计。接下来我们将阐述这些架构的原理。
这部分内容有帮助吗?
© 2026 ApX Machine Learning用心打造