趋近智
在强化学习中,学习过程围绕着两个主要组成部分的互动展开:智能体和环境。可以将智能体看作学习者或决策者,而环境则是它与之互动的系统,包含智能体以外的一切。
智能体是我们正在训练的实体。它的目标通常是随时间推移最大化累计奖励。它感知环境的当前状况,被称为其状态,并根据此状态选择一个动作来执行。
智能体的例子有:
智能体根据状态选择动作的内部机制被称为其策略,我们稍后会更详细地讨论。目前,请理解智能体是核心学习组成部分。
环境代表智能体与之互动的一切。它接收智能体选择的动作,并通过转换到新状态并提供一个数值奖励信号来响应。环境定义了“游戏规则”或智能体在其内部运作的物理规律。
根据上面的例子,相应的环境将是:
环境负责:
强化学习的主要构成是智能体与环境之间持续的互动循环。在每个离散时间步长(表示为 t)上,会发生以下序列:
这个循环重复进行,使智能体能够通过试错来学习,将特定状态下的动作与它们倾向于产生的奖励联系起来。
强化学习中基本的互动循环。智能体采取动作,环境则以新状态和奖励作为响应。
设定智能体与环境之间清晰的界限很重要。该界限通常划定在智能体可以直接控制的范围边缘。例如,在机器人学中,智能体可能控制发送到机器人马达的电压,但电压如何引起运动、摩擦和传感器读数的物理原理则属于环境的一部分。智能体无法改变物理定律;它只能在环境施加的限制内选择动作。同样,奖励计算机制被认为是环境的一部分,而非智能体。智能体的目标是最大化环境产生的奖励。
理解这种分离是根本所在。智能体学习一种策略,以便与环境定义的动力学和奖励结构进行最佳互动。在接下来的章节中,我们将进一步阐述这些想法,从状态、动作和奖励开始。
这部分内容有帮助吗?
© 2026 ApX Machine Learning用心打造