趋近智
所有课程
5.1 从不完整的回合中学习
5.2 TD(0) 预测:估计 Vπ
5.3 TD学习相对于蒙特卡洛方法的优势
5.4 SARSA:同策略TD控制
5.5 Q学习:离策略TD控制
5.6 比较 SARSA 与 Q-学习
5.7 期望SARSA
5.8 动手实践:Q-学习的实现
© 2025 ApX Machine Learning