趋近智
经验回放是标准深度Q网络方法中常用的一种技术,用于打断连续样本之间的关联并重用过往经验。回放缓冲区存储转换 ,智能体从该缓冲区中均匀随机采样小批量,以进行Q网络更新。尽管有效,这种均匀采样将所有转换视为同等重要。然而,从直觉上看,有些经验可能比其他经验提供更多的学习机会。设想一个智能体遇到导致意外高回报或低回报的情境,或者其当前Q值预测偏差很大。这些“令人惊讶的”转换对于学习而言,似乎比预测已准确的常规转换更有价值。
优先经验回放(PER)不再采用均匀采样。它不再随机选择转换,PER会按比例采样转换,根据它们的学习价值,通常通过其时序差分(TD)误差的绝对值来衡量。TD误差表示一个转换对网络来说有多么“意外”:
较大的TD误差绝对值,,表明网络对状态-动作对 的预测与观察到的回报和下一状态的估计值相比不准确。这些正是我们希望智能体关注的转换。
在PER中,回放缓冲区中的每个转换 都被分配一个优先级 。定义此优先级的一种常见方法是基于TD误差的绝对值:
这里, 是一个小的正数常量,用于确保TD误差为零的转换仍有非零的采样概率。
转换 的采样概率 则根据其优先级定义:
指数 是一个超参数 (parameter) (hyperparameter),控制优先级的程度。当 时,我们恢复到原始的均匀采样策略(,而 是缓冲区大小)。随着 增大,采样会更倾向于TD误差高的转换。根据这些概率进行高效采样通常涉及专门的数据结构,如SumTrees。
根据优先级采样转换会引入偏差,因为更新不再反映经验的原始分布。TD误差高的转换在训练批次中被过度表示。为了抵消这种偏差,PER在计算采样转换的损失时使用重要性采样(IS)权重 (weight)。
转换 的IS权重 用于纠正其非均匀采样概率 :
这里, 是回放缓冲区的大小。超参数 (parameter) (hyperparameter) 控制施加的校正量。当 时,它完全补偿非均匀概率;而当 时,则不施加任何校正。实际操作中, 通常在训练过程中从一个初始值(例如0.4)退火到1。
这些权重随后被纳入损失函数 (loss function),通常通过在梯度更新步骤中将TD误差 乘以 来实现。这确保了虽然我们更频繁地采样重要转换,但其更新的幅度会按比例减小,以防止对这些特定样本的过拟合 (overfitting),并在期望中保持无偏估计。为了数值稳定性,权重通常通过除以小批量中最大权重来归一化 (normalization):。
优先经验回放是对DQN中使用的标准经验回放机制的改进。通过根据TD误差的绝对值采样转换,它将学习过程集中在最有信息量的经验上。尽管它通过优先级计算、非均匀采样和重要性采样权重 (weight)引入了一些复杂性,但与均匀采样相比,PER通常能显著提升学习速度和数据效率。它常与其他DQN改进方法(如双DQN和对偶网络)结合使用,以构建高效的强化学习 (reinforcement learning)智能体。
这部分内容有帮助吗?
© 2026 ApX Machine LearningAI伦理与透明度•