趋近智
迄今为止,我们主要关注了直接通过互动学习的无模型算法。本章将转向研究基于模型的强化学习 (reinforcement learning)。其核心思想是让智能体建立一个内部模型来描述环境的运作方式。这包括学习近似的状态转移概率(通常表示为 )以及预期奖励函数 。
一旦模型被习得,即使是不完美的模型,智能体也可以在内部运用它进行规划或模拟经验,这可能促使真实互动的使用效率更高。我们将考察学习这些动态模型的方法,以及如何将它们与规划结合。主要内容包括Dyna-Q架构,运用已学模型进行轨迹采样,蒙特卡洛树搜索(MCTS)的原理及其集成方式,以及与模型预测控制(MPC)的联系。我们还将考虑与模型准确性以及规划计算成本相关的实际问题。在本章结束时,你将熟悉基于模型的强化学习所使用的原理、技术和常用方法。
5.1 基于模型的强化学习的理由
5.2 基于模型方法的分类
5.3 学习环境动态模型
5.4 Dyna 架构:学习与规划的结合
5.5 使用已学习模型进行规划:轨迹采样
5.6 蒙特卡洛树搜索(MCTS)基本原理
5.7 将MCTS与习得模型整合
5.8 模型预测控制 (MPC) 的关联
5.9 挑战:模型准确性与计算成本
5.10 简单基于模型的智能体实践