趋近智
所有课程
8.1 直接学习策略
8.2 策略梯度定理 (理念)
8.3 REINFORCE 算法
8.4 降低方差的基线
8.5 Actor-Critic 方法概述
8.6 对比基于价值和基于策略的方法
8.7 实践:实现 REINFORCE
© 2025 ApX Machine Learning