趋近智
你在强化学习学习过程中,一直会遇到试错与利用之间的基本矛盾。智能体必须利用其现有知识来最大化即时奖励,但它也必须对环境进行试探,以期为将来发现潜在的更优策略。如果总是选择利用已知最优动作,可能会导致陷入次优的常规做法,从而错失通过起初不那么确定的路径才能获得的显著更高的奖励。反之,过度试探而不利用已学到的知识,则会导致性能低下和收敛缓慢。
例如 ϵ-贪心法这样的简单策略提供了一种平衡探索与利用权衡的基本机制。通过在大多数时间采取已知最优动作(以 1−ϵ 的概率),并偶尔采取随机动作(以 ϵ 的概率),智能体确保了一定程度的试探。尽管对小问题足够,但当应用于复杂、高维环境时,这种方法却暴露出其局限性。
为什么这种看似简单的平衡在高级场景中变得如此具有挑战性?
考虑随机试探的低效性与更具方向性的方法相比:
状态空间中的路径。随机试探(红色)可能会绕很多弯路,而有方向的试探(蓝色)则有可能找到一条通往目标状态(绿色)的更有效的路径。
ϵ-贪心策略平等对待所有未曾尝试的动作。它不区分从未尝试过的动作和尝试过一次但结果不佳的动作。它缺乏足够的精巧性来优先试探那些对其最不确定,或根据某种启发式看起来最有希望的动作或状态。
因此,对于需要高性能和样本效率的复杂问题,我们需要更高级的试探策略。这些方法超越了简单的随机性,并融入了以下原则:
本章研究了几种此类技术。通过理解如何智能地引导试探,即使面对庞大的状态空间、稀疏的奖励和复杂的动态,你也可以设计出能够高效学习有效策略的智能体。以下各节会考察具体的算法,这些算法实现了更精密的策略来应对试错-利用权衡。
这部分内容有帮助吗?
© 2026 ApX Machine Learning用心打造