趋近智
到目前为止,我们一直专注于基于价值的强化学习方法。我们学习了如何估计状态 () 或状态-动作对 () 的价值,并基于这些价值来得出策略。本章将介绍一种不同的方法:策略梯度方法。
使用策略梯度方法,我们直接学习一个参数化的策略,记作 。我们不先估计价值函数,而是旨在优化策略参数 以最大化预期回报。这种方法在具有连续动作空间的环境中或当我们希望学习随机策略时特别适用。
在本章中,你将学习到:
我们将从原理上讲解这些算法,并指导你实现一个基本的 REINFORCE 智能体。
8.1 直接学习策略
8.2 策略梯度定理 (理念)
8.3 REINFORCE 算法
8.4 降低方差的基线
8.5 Actor-Critic 方法概述
8.6 对比基于价值和基于策略的方法
8.7 实践:实现 REINFORCE
© 2026 ApX Machine Learning用心打造