趋近智
所有课程
4.1 基于价值方法的局限性
4.2 策略直接参数化
4.3 策略梯度定理
4.4 REINFORCE 算法
4.5 理解策略梯度中的方差
4.6 方差减少的基线
4.7 动手实践:实现REINFORCE算法
© 2025 ApX Machine Learning