趋近智
在前几章中,我们建立了马尔可夫决策过程(MDPs)的框架,并使用动态规划方法寻找最优策略。动态规划的一个主要局限是需要环境的完整模型,包括状态转移概率和奖励函数。通常,这样的模型是不可用的。
本章介绍蒙特卡洛(MC)方法,这是一类免模型的强化学习算法。蒙特卡洛方法直接从经验片段中学习,无需预先知道环境的运行方式。它们通过平均从交互序列(片段)中获得的样本回报来运作。
在这里,您将侧重于:
通过学习蒙特卡洛方法,您将了解如何纯粹从采样经验中学习最优行为,这是解决环境规则未知问题所需的一个步骤。
4.1 基于完整回合的学习
4.2 蒙特卡洛预测:估计 Vπ
4.3 蒙特卡洛控制:估算 Qπ
4.4 同策略学习与异策略学习对比
4.5 无非固定起点MC控制
4.6 同策略首次访问蒙特卡洛控制的实现
4.7 离策略蒙特卡洛预测与控制简介
4.8 实践:实现蒙特卡洛预测
© 2026 ApX Machine Learning用心打造