趋近智
所有课程
2.1 序贯决策建模
2.2 MDP的正式定义
2.3 状态转移概率
2.4 奖励函数
2.5 回报:未来累积奖励
2.6 未来奖励的折现
2.7 策略与价值函数 (Vπ, Qπ)
2.8 寻找最优策略
© 2025 ApX Machine Learning