趋近智
有效的强化学习 (reinforcement learning)需要在搜寻环境以发现更好的策略与利用现有知识以获得即时奖励之间取得谨慎的平衡。基本的搜寻方法,例如 -贪心法,在涉及大型状态空间或稀疏反馈的复杂情境中往往力有不逮。本章介绍进阶搜寻技术,能够实现更高效、更有方向性的发现。
你将考察根植于管理不确定性的策略,包括上置信区间(UCB)方法和汤普森采样。我们还将研究基于计数的方法,这些方法鼓励访问较不熟悉的状态,以及内在动机技术,其中智能体根据预测误差(如ICM)、状态新颖性(如RND)或信息增益产生内部奖励。最后,将讨论参数 (parameter)空间噪声在搜寻中的应用。理解这些方法将为你提供工具,来设计能够应对困难搜寻难题的智能体。
4.1 再谈试错-利用权衡
4.2 不确定性下的乐观主义:UCB 方法
4.3 概率匹配:汤普森采样
4.4 参数空间噪声用于行为多样性
4.5 伪计数:基于计数的寻访方法
4.6 预测误差作为好奇心:内生激励
4.7 状态新颖性:随机网络蒸馏 (RND)
4.8 信息增益在行动引导中的应用
4.9 行为策略的对比与结合
4.10 寻优策略实施实践