既然您已经掌握了强化学习的核心组成部分,如智能体、环境以及奖励驱动的互动循环,那么将强化学习置于更广的机器学习背景中会很有帮助。通过互动和反馈的学习与其他常见方法,如监督学习和无监督学习,有何不同?理解这些区别有助于明确强化学习为何适合特定类型的问题,特别是那些涉及顺序决策的问题。强化学习与监督学习的比较监督学习(SL)也许是机器学习中最常见的一种形式。您通常会使用包含输入特征和对应“正确”输出标签的数据集。想象一下图像分类(输入:图像像素,标签:“猫”或“狗”)或预测房价(输入:房屋特征,标签:价格)。目标是训练一个模型,使其能够准确预测新的、未见过输入的标签。与强化学习的主要不同之处有:学习信号: 在SL中,学习信号是明确且直接的。对于每个输入,数据集都提供了真实标签。算法通过最小化其预测与这些已知正确答案之间的差异来学习。在RL中,学习信号是一个标量奖励,它通常是稀疏的(并非每次行动后都获得)和评估性的(它告诉智能体某个行动在特定情况下有多好,而不是哪个行动是正确的)。没有“监督者”在每一步提供最优行动。数据: SL依赖于预先存在的、带标签的数据集。RL通过与环境的互动生成自己的数据。智能体的行动影响它随后遇到的状态和获得的奖励。这种在线、交互式的数据生成是强化学习的根本所在。目标: SL的目标通常是泛化,即学习一个从输入到输出的映射,使其在新数据上表现良好。RL的目标是学习一个策略(选择行动的方案),以使随时间累积的奖励最大化。它是关于找到最佳行为,而不仅仅是对静态数据进行准确预测。顺序性质: 标准的SL问题通常独立处理数据点。RL本质上处理顺序数据,当前行动会影响未来的状态和奖励。延迟后果(现在的行动可能导致很久之后的奖励)在RL中居于核心地位,但在典型的SL中则不那么突出。想象一下教机器人走路。监督方法可能涉及为成功行走的每一毫秒提供详细的关节角度数据(标签)。这通常是不切实际或无法获得的。强化学习方法让机器人尝试不同的移动(行动),根据其是否保持直立或摔倒(奖励/惩罚)接收反馈,并逐步通过试错学习行走策略。强化学习与无监督学习的比较无监督学习(UL)处理缺乏明确标签的数据集。目标是发现数据本身中隐藏的结构、模式或关联。常见的UL任务包括聚类(对相似数据点进行分组)、降维(在保持结构的同时压缩数据)和密度估计。以下是强化学习的不同之处:学习信号: UL算法通常在没有外部奖励信号的情况下运行。它们从数据固有的属性和分布中学习。相比之下,RL的根本驱动力是最大化由环境提供的外部奖励信号。目标: UL旨在数据中找到固有结构或表示。RL旨在学习一种行为或策略,以实现由奖励函数定义的特定目标。RL有一个明确的目标(最大化奖励),而UL的目标通常是数据描述或表示。互动: 像SL一样,标准的UL通常在固定数据集上工作。RL涉及与环境的主动互动,智能体的选择会影响它收集的数据。考虑客户细分。无监督方法可能会根据现有销售数据中的购买习惯对客户进行聚类。强化学习方法在这里不直接适用。然而,您可以使用RL来优化与客户互动的策略(例如,根据过去的响应决定接下来展示哪个促销优惠),以最大化客户生命周期价值等奖励。目标从描述数据(UL)转向做出最佳的顺序决策(RL)。区别总结下表总结了主要区别:{ "layout": { "title": "机器学习模式对比", "xaxis": {"title": "特点", "showgrid": false, "zeroline": false}, "yaxis": {"showgrid": false, "zeroline": false, "ticks": "", "showticklabels": false}, "margin": {"l": 10, "r": 10, "t": 40, "b": 40}, "font": {"family": "Arial, sans-serif", "size": 12, "color": "#495057"} }, "data": [ { "type": "table", "header": { "values": ["<b>特点</b>", "<b>监督学习</b>", "<b>无监督学习</b>", "<b>强化学习</b>"], "align": ["left", "left", "left", "left"], "line": {"width": 1, "color": "#dee2e6"}, "fill": {"color": "#f8f9fa"}, "font": {"family": "Arial, sans-serif", "size": 13, "color": "#495057"} }, "cells": { "values": [ ["输入数据", "目标", "学习信号", "典型任务"], ["带标签数据(特征,标签)", "学习从特征到标签的映射(预测/分类)", "明确标签 / 真实值", "图像分类,回归,垃圾邮件检测"], ["无标签数据", "发现隐藏结构/模式", "固有数据属性/结构", "聚类,降维,异常检测"], ["互动数据(状态,行动,奖励,下一状态)", "学习最优策略(行为)", "标量奖励信号(评估性反馈)", "游戏,机器人控制,推荐系统"] ], "align": ["left", "left", "left", "left"], "line": {"width": 1, "color": "#dee2e6"}, "fill": {"color": ["#f8f9fa", "#ffffff", "#ffffff", "#ffffff"]}, "font": {"family": "Arial, sans-serif", "size": 12, "color": "#495057"}, "height": 30 } } ] }不同机器学习模式在输入数据、目标、学习信号和典型任务方面的对比。本质上,强化学习提供了一个框架,用于解决智能体必须通过与环境互动并以奖励形式接收反馈来学习做出决策序列的问题。这种互动驱动、目标导向的学习过程使其与从带标签例子中学习的监督方法以及在无标签数据中寻找结构的无监督方法明显区别开来。随着本课程的学习,您将看到状态、行动、奖励和策略等观念如何构成为应对这一独特学习挑战而设计的算法的依据。