趋近智
所有课程
4.1 基于完整回合的学习
4.2 蒙特卡洛预测:估计 Vπ
4.3 蒙特卡洛控制:估算 Qπ
4.4 同策略学习与异策略学习对比
4.5 无非固定起点MC控制
4.6 同策略首次访问蒙特卡洛控制的实现
4.7 离策略蒙特卡洛预测与控制简介
4.8 实践:实现蒙特卡洛预测
© 2025 ApX Machine Learning