趋近智
本章为理解强化学习 (reinforcement learning) (RL) 奠定基础。我们将从定义强化学习开始,并将其与其他机器学习 (machine learning)方法进行比较。您将了解到下列核心组成部分:做出决策的智能体、智能体运行所在的环境、描述情境的状态、智能体可采取的动作,以及作为反馈收到的奖励。
我们将考察智能体的行为如何由策略决定,以及学习过程如何通过交互循环展开。回合式任务和持续性任务之间的区别也将得到解释。最后,我们将讲解如何使用 Gymnasium 和 NumPy 等库搭建 Python 环境的实际步骤。掌握这些原理是构建能够学习最优行为的智能体的第一步。
1.1 什么是强化学习?
1.2 智能体与环境
1.3 状态、动作与奖励
1.4 策略:将状态映射到动作
1.5 强化学习工作流程:交互循环
1.6 强化学习任务类型:回合制与连续制
1.7 强化学习与其他学习类型的比较
1.8 为强化学习搭建Python环境
© 2026 ApX Machine Learning用心打造