趋近智
既然您已经掌握了强化学习的核心组成部分,如智能体、环境以及奖励驱动的互动循环,那么将强化学习置于更广的机器学习背景中会很有帮助。通过互动和反馈的学习与其他常见方法,如监督学习和无监督学习,有何不同?理解这些区别有助于明确强化学习为何适合特定类型的问题,特别是那些涉及顺序决策的问题。
监督学习(SL)也许是机器学习中最常见的一种形式。您通常会使用包含输入特征和对应“正确”输出标签的数据集。想象一下图像分类(输入:图像像素,标签:“猫”或“狗”)或预测房价(输入:房屋特征,标签:价格)。目标是训练一个模型,使其能够准确预测新的、未见过输入的标签。
与强化学习的主要不同之处有:
想象一下教机器人走路。监督方法可能涉及为成功行走的每一毫秒提供详细的关节角度数据(标签)。这通常是不切实际或无法获得的。强化学习方法让机器人尝试不同的移动(行动),根据其是否保持直立或摔倒(奖励/惩罚)接收反馈,并逐步通过试错学习行走策略。
无监督学习(UL)处理缺乏明确标签的数据集。目标是发现数据本身中隐藏的结构、模式或关联。常见的UL任务包括聚类(对相似数据点进行分组)、降维(在保持结构的同时压缩数据)和密度估计。
以下是强化学习的不同之处:
考虑客户细分。无监督方法可能会根据现有销售数据中的购买习惯对客户进行聚类。强化学习方法在这里不直接适用。然而,您可以使用RL来优化与客户互动的策略(例如,根据过去的响应决定接下来展示哪个促销优惠),以最大化客户生命周期价值等奖励。目标从描述数据(UL)转向做出最佳的顺序决策(RL)。
下表总结了主要区别:
不同机器学习模式在输入数据、目标、学习信号和典型任务方面的对比。
本质上,强化学习提供了一个框架,用于解决智能体必须通过与环境互动并以奖励形式接收反馈来学习做出决策序列的问题。这种互动驱动、目标导向的学习过程使其与从带标签例子中学习的监督方法以及在无标签数据中寻找结构的无监督方法明显区别开来。随着本课程的学习,您将看到状态、行动、奖励和策略等观念如何构成为应对这一独特学习挑战而设计的算法的依据。
这部分内容有帮助吗?
© 2026 ApX Machine Learning用心打造