趋近智
所有课程
4.1 再谈试错-利用权衡
4.2 不确定性下的乐观主义:UCB 方法
4.3 概率匹配:汤普森采样
4.4 参数空间噪声用于行为多样性
4.5 伪计数:基于计数的寻访方法
4.6 预测误差作为好奇心:内生激励
4.7 状态新颖性:随机网络蒸馏 (RND)
4.8 信息增益在行动引导中的应用
4.9 行为策略的对比与结合
4.10 寻优策略实施实践
© 2025 ApX Machine Learning