本章为理解强化学习 (RL) 奠定基础。我们将从定义强化学习开始,并将其与其他机器学习方法进行比较。您将了解到下列核心组成部分:做出决策的智能体、智能体运行所在的环境、描述情境的状态、智能体可采取的动作,以及作为反馈收到的奖励。我们将考察智能体的行为如何由策略决定,以及学习过程如何通过交互循环展开。回合式任务和持续性任务之间的区别也将得到解释。最后,我们将讲解如何使用 Gymnasium 和 NumPy 等库搭建 Python 环境的实际步骤。掌握这些原理是构建能够学习最优行为的智能体的第一步。