在前几章中,我们建立了马尔可夫决策过程(MDPs)的框架,并使用动态规划方法寻找最优策略。动态规划的一个主要局限是需要环境的完整模型,包括状态转移概率和奖励函数。通常,这样的模型是不可用的。本章介绍蒙特卡洛(MC)方法,这是一类免模型的强化学习算法。蒙特卡洛方法直接从经验片段中学习,无需预先知道环境的运行方式。它们通过平均从交互序列(片段)中获得的样本回报来运作。在这里,您将侧重于:从完整片段中学习的基本思想。使用蒙特卡洛进行预测:估计状态价值函数 $V^\pi$。应用蒙特卡洛进行控制:通过估计动作价值函数 $Q^\pi$ 来寻找最优策略。了解同策略和异策略蒙特卡洛方法之间的区别。应对蒙特卡洛控制中探索的需求,例如,使用 $\epsilon$-柔性策略。实现基本的蒙特卡洛预测。通过学习蒙特卡洛方法,您将了解如何纯粹从采样经验中学习最优行为,这是解决环境规则未知问题所需的一个步骤。