趋近智
虽然像 ϵ-贪婪这样的简单试探方法能确保所有行动最终都会被尝试,但它们是随机进行试探,没有考虑到对每个行动的了解程度。偶然发现好策略在复杂问题中效率低下。我们需要更明智地引导试探,趋向有前景但尚不明晰的选择。“不确定性下的乐观主义”原则提供了一种正式的方法:根据现有信息,假设一切都尽可能地好。上限置信区间(UCB)算法体现了这一原则。
UCB 方法起源于多臂老虎机(MABs)的更简单环境。想象一下,你面对多台老虎机(“臂”),每台机器的回报都来自一个未知的概率分布。你的目标是在一系列拉动中最大化总回报。你应该继续拉动迄今为止给出最佳平均回报的臂(采纳当前最佳),还是尝试那些可能更好但尚未被充分试探的臂(进行试探)?
UCB 提供了一个在每个时间步 t 选择臂 a 的标准。它依赖于两个组成部分:
一种流行的 UCB 算法,UCB1,选择使这两个项之和最大的行动:
At=aargmax[Qt(a)+cNt(a)lnNt]此处:
项 Nt(a)lnNt 充当不确定性度量。它随总游戏次数(Nt)对数增长,并随着特定臂被玩次数的增加(Nt(a) 增加)而减小。这确保了那些不常尝试的行动,或估计值可能不准确的行动,会获得奖励,从而使它们更有可能被选中。如果 Nt(a)=0,奖励项被认为是无限的,确保每个行动至少被尝试一次(假设进行了适当的初始化)。
这种“乐观”的方法有效地平衡了试探与采纳。具有高估计价值的行动受到偏爱,但不确定性高的行动也获得机会,尤其是在早期或其潜在上限具有竞争力时。
将 UCB 从无状态老虎机环境扩展到马尔可夫决策过程(MDPs)中的序贯决策,带来了挑战,但遵循相同的核心原则。状态增加了复杂性,因为一个行动的价值取决于它所处的状态。
调整 UCB 的常见方式是在每个状态 s 内将其应用于行动选择。选择规则变为:
At=aargmax[Q(s,a)+cN(s,a)lnN(s)]此处:
这需要维护 Q 值的估计(例如,使用 Q-learning 或 SARSA 更新),同时跟踪状态访问计数 N(s) 和状态-行动计数 N(s,a)。
Q 值、不确定性奖励项以及由此产生的 UCB 分数的演变,针对真实平均值分别为 0.6 和 0.7 的两个行动(A 和 B)。随着行动 B 更高潜力的得以展现,其 UCB 分数最终超过了 A。
上述直接应用在表格化设置或具有离散、可管理状态空间的环境中效果良好。然而,在具有大型或连续状态和行动空间的环境中,它面临重大障碍:
尽管存在这些挑战,UCB 的核心原则影响了许多高级试探方法。例如,在基于模型的强化学习中,UCB 经常用于蒙特卡洛树搜索(MCTS)等规划算法中,以引导模拟过程趋向不确定但可能有益的行动序列(如第 5 章所示)。结合函数逼近和处理广阔状态空间的改进也得到了发展,通常将 UCB 的思想与其他方法(如自举法或内在激励)结合。
UCB 方法通过显式建模不确定性,提供了一种原则性的方式来管理试探与采纳的权衡。通过向估计的行动价值添加不确定性奖励项,UCB 鼓励对那些尚不清晰但可能带来高回报的行动进行试探。尽管在大规模强化学习中的直接应用需要进行调整以处理广阔的状态空间和函数逼近,但“不确定性下的乐观主义”这一思想在设计复杂序贯决策问题的试探策略时仍具有重要意义。这代表了迈向更具方向性且可能更高效地发现最优策略的一步。
这部分内容有帮助吗?
© 2026 ApX Machine Learning用心打造