趋近智
构建估算动作价值函数 的神经网络是深度Q网络 (DQN) 的主要考量之一。DQN 运用经验回放和目标网络等核心机制。这个网络的设计很大程度上取决于环境提供的状态表示形式。
第一步是确定输入层的结构。智能体“看到”什么?
向量形式状态: 如果状态表示为数值特征向量(例如:位置、速度、传感器读数),标准多层感知机(MLP)(也称全连接网络)通常足够使用。输入层的神经元数量将与状态向量中的特征数量相等。
图像形式状态: 对于状态由图像(例如屏幕像素)表示的环境,**卷积神经网络(CNN)**是标准选择。CNN擅长识别网格状数据中的空间层次和模式。输入层通常会接受图像的维度(高度、宽度、颜色通道)。通常会将多个连续帧堆叠作为输入,为网络提供时间信息,例如速度或移动方向。
在输入层之后,一个或多个隐藏层会处理信息。
MLP: MLP中的隐藏层通常是全连接层。一层中的每个神经元都从前一层的所有神经元接收输入。层的数量以及每层神经元的数量是您需要设定的超参数。先从简单的设置开始(例如,一或两个隐藏层,中等数量的神经元),如果需要可以增加复杂度。修正线性单元 (ReLU) 激活函数()是DQN中隐藏层的普遍且有效的选择。
CNN: 对于图像输入,最初的隐藏层通常是卷积层,后接池化层。卷积层应用滤波器以识别局部模式(边缘、纹理),而池化层则降低空间维度,使表示更易处理,并且对细微平移具有不变性。在经过几个卷积和池化层之后,得到的特征图通常被展平为一个向量,并输入到一个或多个全连接层,类似于MLP。同样,ReLU是这些层的标准激活函数。那个让DQN在Atari游戏中取得成功的著名论文,就采用了由多个卷积层和全连接层构成的CNN架构。
网络的最后一层非常重要:它必须输出估算的Q值。
以下是展示常见结构的图示:
1. 适用于向量形式状态的MLP:
MLP接收状态向量 ,并通过全连接(FC)隐藏层(通常带有ReLU激活)为每个动作 生成Q值估算。
2. 适用于图像形式状态的CNN(简化版):
CNN通过卷积层和池化层处理输入图像,以提取空间特征。这些特征随后被展平并通过全连接层,为每个动作输出Q值。
选择合适的架构是让DQN取得良好效果的一个环节。通过考虑状态空间的特性并借助常见的网络设计模式,您可以为您的强化学习智能体构建有效的函数估算器。
这部分内容有帮助吗?
© 2026 ApX Machine Learning用心打造