在强化学习中,学习过程围绕着两个主要组成部分的互动展开:智能体和环境。可以将智能体看作学习者或决策者,而环境则是它与之互动的系统,包含智能体以外的一切。智能体:学习者与决策者智能体是我们正在训练的实体。它的目标通常是随时间推移最大化累计奖励。它感知环境的当前状况,被称为其状态,并根据此状态选择一个动作来执行。智能体的例子有:学习下棋的程序。学习在迷宫中导航的机器人。学习优化交通灯时序的算法。学习向用户推荐产品的系统。智能体根据状态选择动作的内部机制被称为其策略,我们稍后会更详细地讨论。目前,请理解智能体是核心学习组成部分。环境:智能体所处的系统环境代表智能体与之互动的一切。它接收智能体选择的动作,并通过转换到新状态并提供一个数值奖励信号来响应。环境定义了“游戏规则”或智能体在其内部运作的物理规律。根据上面的例子,相应的环境将是:棋盘、棋子和对手的走法。迷宫结构,包括墙壁和目标位置。道路网络、交通流量和车辆传感器。用户群、产品目录和用户互动历史。环境负责:呈现状态: 告知智能体当前状况。定义可用动作: 指明智能体在给定状态下可以做什么(尽管智能体选择要执行哪个动作)。计算状态转换: 根据当前状态和智能体的动作确定下一个状态。这种转换可能是确定性的(总是相同的结果)或随机的(概率性结果)。提供奖励: 向智能体发送一个标量反馈信号,指示该转换的即时期望程度。智能体与环境的互动循环强化学习的主要构成是智能体与环境之间持续的互动循环。在每个离散时间步长(表示为 $t$)上,会发生以下序列:观察: 智能体观察环境的当前状态,$S_t$。动作选择: 根据观察到的状态 $S_t$,智能体根据其策略选择一个动作 $A_t$。环境响应: 环境接收动作 $A_t$。根据 $S_t$ 和 $A_t$,环境转换到新状态 $S_{t+1}$。奖励反馈: 环境向智能体提供一个奖励信号 $R_{t+1}$,作为此次转换的反馈。学习: 智能体利用观察到的转换 ($S_t$, $A_t$, $R_{t+1}$, $S_{t+1}$) 更新其内部知识或策略,以期在未来做出更好的决策。这个循环重复进行,使智能体能够通过试错来学习,将特定状态下的动作与它们倾向于产生的奖励联系起来。digraph G { rankdir=LR; node [shape=box, style=rounded, fontname="Helvetica", fontsize=10, margin=0.2]; edge [fontname="Helvetica", fontsize=9]; Agent [label="智能体", style="rounded,filled", fillcolor="#4263eb", fontcolor="white"]; Environment [label="环境", style="rounded,filled", fillcolor="#37b24d", fontcolor="white"]; Agent -> Environment [label="动作 At"]; Environment -> Agent [label="状态 St+1, 奖励 Rt+1"]; }强化学习中基本的互动循环。智能体采取动作,环境则以新状态和奖励作为响应。定义界限设定智能体与环境之间清晰的界限很重要。该界限通常划定在智能体可以直接控制的范围边缘。例如,在机器人学中,智能体可能控制发送到机器人马达的电压,但电压如何引起运动、摩擦和传感器读数的物理原理则属于环境的一部分。智能体无法改变物理定律;它只能在环境施加的限制内选择动作。同样,奖励计算机制被认为是环境的一部分,而非智能体。智能体的目标是最大化环境产生的奖励。理解这种分离是根本所在。智能体学习一种策略,以便与环境定义的动力学和奖励结构进行最佳互动。在接下来的章节中,我们将进一步阐述这些想法,从状态、动作和奖励开始。