趋近智
免模型方法在强化学习中指的是那些能够直接从经验中学习价值函数,而无需预定义环境动态(状态转移和奖励)模型的算法。这些方法在马尔可夫决策过程(MDP)及其相关价值函数的框架内运行。其中最基本的是Q学习和SARSA,两者都属于时序差分(TD)学习算法的范畴。它们根据其他习得的估计值来更新价值估计,从而从当前价值函数进行自举。当状态空间和动作空间足够小,能够用表格表示时,这些方法能有效运行,因此被称为“表格型方法”。
Q学习是一种广受欢迎的异策略TD控制算法。其目的是直接习得最优动作价值函数,Q∗(s,a),它表示从状态s开始,采取动作a,并在此之后遵循最优策略π∗所获得的预期回报。所谓“异策略”,意味着即使在学习过程中采取的动作是由不同且可能带有探索性的策略(例如epsilon-greedy)确定的,Q学习也能习得最优价值函数。
智能体与环境交互,观察状态转移(St,At,Rt+1,St+1)。在每次状态转移后,它使用以下规则更新其对Q(St,At)的估计:
Q(St,At)←Q(St,At)+α[Rt+1+γa′maxQ(St+1,a′)−Q(St,At)]我们来分析一下这个更新公式:
项Rt+1+γmaxa′Q(St+1,a′)被称为TD目标。TD目标与当前估计值Q(St,At)之间的差值是TD误差,它推动了学习更新。
为了确保充分的探索,Q学习通常与epsilon-greedy(ε-贪婪)等策略结合使用,其中智能体以ϵ的概率选择一个随机动作,并以1−ϵ的概率选择当前Q值最高的动作(argmaxaQ(St,a))。重要的是,更新规则使用了max操作符,它习得的是贪婪(最优)动作,即使实际执行的是一个探索性动作。
图示了Q学习单次更新步骤的信息流。
SARSA(State-Action-Reward-State-Action,状态-动作-奖励-状态-动作)是另一种TD控制算法,它是同策略的。与Q学习不同,SARSA学习的是与当前遵循的策略相对应的动作价值函数Q(s,a),包括其探索行为。
更新过程需要知道当前策略在下一状态St+1中选择的后续动作 At+1。五元组(St,At,Rt+1,St+1,At+1)为该算法命名。更新规则为:
Q(St,At)←Q(St,At)+α[Rt+1+γQ(St+1,At+1)−Q(St,At)]请注意与Q学习的主要区别:SARSA没有对所有可能的后续动作取最大Q值(maxa′Q(St+1,a′)),而是使用智能体根据当前策略实际将要采取的特定后续动作At+1的Q值(例如,由epsilon-greedy策略为状态St+1选择的动作)。
这使得SARSA对正在执行的策略敏感。如果策略具有探索性(ϵ值较高),SARSA会学习到考虑到采取次优探索性动作可能性的Q值。这可能导致在学习过程中,与Q学习相比,智能体表现得更“保守”,因为Q学习总是假设在下一步中将采取最优动作作为其更新目标。
图示了SARSA单次更新步骤的信息流,需要后续动作At+1。
Q学习和SARSA都是许多高级强化学习技术的重要构成部分。它们通过迭代更新存储在表格中的价值估计值来工作,这些估计值以状态-动作对作为索引。然而,当处理状态或动作数量非常大或无限(例如连续空间)的问题时,它们对这种显式表格的依赖成为一个主要瓶颈,这也是下一节的主题。
这部分内容有帮助吗?
© 2026 ApX Machine Learning用心打造