章节 1: 强化学习基本原理

本章为理解强化学习 (reinforcement learning) (RL) 奠定基础。我们将从定义强化学习开始，并将其与其他机器学习 (machine learning)方法进行比较。您将了解到下列核心组成部分：做出决策的智能体、智能体运行所在的环境、描述情境的状态、智能体可采取的动作，以及作为反馈收到的奖励。

我们将考察智能体的行为如何由策略决定，以及学习过程如何通过交互循环展开。回合式任务和持续性任务之间的区别也将得到解释。最后，我们将讲解如何使用 Gymnasium 和 NumPy 等库搭建 Python 环境的实际步骤。掌握这些原理是构建能够学习最优行为的智能体的第一步。

课程章节

1.1 什么是强化学习？
1.2 智能体与环境
1.3 状态、动作与奖励
1.4 策略：将状态映射到动作
1.5 强化学习工作流程：交互循环
1.6 强化学习任务类型：回合制与连续制
1.7 强化学习与其他学习类型的比较
1.8 为强化学习搭建Python环境