正如元学习旨在改进监督或无监督任务的学习过程本身一样,元强化学习(Meta-RL)的目标是构建强化学习智能体,使其能够凭借在新任务中的最少前期接触,快速适应新颖、未曾见过的环境或任务变化。这与传统强化学习形成鲜明对比,在传统强化学习中,智能体通常需要在特定马尔可夫决策过程(MDP)中进行大量互动才能收敛到最优策略,而在面临新环境时,通常是从头开始或使用通用预训练初始化。核心设想在于借助在元训练阶段从相关强化学习任务集合中收集的经验,以习得一种调整方法或结构化的策略初始状态。这使得智能体在元测试时,能针对源自同一集合的新颖任务,快速达到优异表现。此能力在环境发生变化、任务呈现轻微差异,或在每种可能情境下获取大量经验不切实际的情形中尤其有价值,例如机器人技术或复杂的游戏模拟。元强化学习问题表述形式上,元强化学习在任务分布 $p(\mathcal{T})$ 上运作。每个任务 $\mathcal{T}i$ 通常是一个MDP,可能由其独特的状态转移动态 $P_i$ 和奖励函数 $R_i$ 来限定,同时共享状态空间 $\mathcal{S}$ 和动作空间 $\mathcal{A}$。任务 $\mathcal{T}i$ 的完整界定通常为 $(\mathcal{S}, \mathcal{A}, P_i, R_i, \gamma, \rho{0,i})$,其中 $\gamma$ 是折扣因子,$\rho{0,i}$ 是任务 $i$ 的初始状态分布。在元训练期间,目标不仅仅是为某个特定任务找到一个好的策略,而是习得一个能够实现高效适应的模型或流程(通常由元参数 $\theta$ 参数化)。具体来说,当面对一个新任务 $\mathcal{T}_j \sim p(\mathcal{T})$ 时,智能体利用来自 $\mathcal{T}_j$ 的有限交互数据(例如,少量轨迹)来调整其行为,从而得到一个已适应的策略 $\pi'_j$。元目标通常是最大化此已适应策略 $\pi'_j$ 在任务分布中实现的预期表现(例如,累积奖励):$$ \max_{\theta} \mathbb{E}_{\mathcal{T}_j \sim p(\mathcal{T})} \left[ R(\pi'_j) \right] $$此处,$R(\pi'_j)$ 表示已适应策略 $\pi'_j$ 在任务 $\mathcal{T}_j$ 中执行时的预期回报。适应过程本身形成内循环,而基于适应后表现的 $\theta$ 优化则构成外循环。主要元强化学习方法涌现出多种算法框架,与监督元学习中的分类法相呼应:基于梯度的元强化学习这些方法将MAML(第2章)等技术调整至强化学习环境。目标是为策略 $\pi_\theta$ 找出元参数 $\theta$,使得针对特定任务 $\mathcal{T}i$ 的目标执行一步或几步策略梯度,即可得到一个表现良好的已适应策略 $\pi{\theta'_i}$。内循环: 使用策略 $\pi_\theta$ 从当前任务 $\mathcal{T}_i$ 收集少量经验(例如,$K$ 条轨迹)。计算任务 $\mathcal{T}i$ 的策略梯度估计值 $\nabla{\theta} J_i(\theta)$。执行一次更新: $$ \theta'i = \theta + \alpha \nabla{\theta} J_i(\theta) $$ (或多个内循环步骤)。外循环: 使用已适应策略 $\pi_{\theta'_i}$ 从任务 $\mathcal{T}i$ 收集新经验。评估表现 $J_i(\theta'i)$。通过对内循环更新过程进行微分来更新元参数 $\theta$,通常是使用策略梯度估计器,基于跨任务批次的适应后表现: $$ \theta \leftarrow \theta + \beta \nabla{\theta} \sum{\mathcal{T}_i} J_i(\theta'_i) $$挑战包括策略梯度估计中固有的高方差,以及计算元梯度的潜在计算量,尤其是在保留二阶信息的情况下。实践中常采用FOMAML等一阶近似方法。digraph MetaRL_MAML { rankdir=LR; node [shape=box, style=rounded, fontname="sans-serif", margin=0.2, color="#adb5bd", fillcolor="#e9ecef", style="filled,rounded"]; edge [fontname="sans-serif", fontsize=10, color="#495057"]; MetaParams [label="元参数\nθ", shape=cylinder, color="#7048e8", fillcolor="#d0bfff"]; TaskDist [label="任务分布\np(T)", shape=invhouse, color="#f76707", fillcolor="#ffd8a8"]; Task_i [label="采样任务\nTi ~ p(T)", color="#f76707", fillcolor="#ffec99"]; InnerTraj [label="采样轨迹 (K) \n使用 πθ", color="#1c7ed6", fillcolor="#a5d8ff"]; InnerGrad [label="计算内梯度\n∇θ Ji(θ)", color="#1c7ed6", fillcolor="#a5d8ff"]; InnerUpdate [label="内循环更新\nθ'i = θ + α ∇θ Ji(θ)", shape=cds, color="#ae3ec9", fillcolor="#eebefa"]; AdaptedParams [label="已适应参数\nθ'i", shape=cylinder, color="#ae3ec9", fillcolor="#fcc2d7"]; OuterTraj [label="采样轨迹\n使用 πθ'i", color="#37b24d", fillcolor="#b2f2bb"]; OuterPerf [label="评估表现\nJi(θ'i)", color="#37b24d", fillcolor="#b2f2bb"]; OuterGrad [label="计算元梯度\n∇θ Σ Ji(θ'i)", color="#f03e3e", fillcolor="#ffc9c9"]; OuterUpdate [label="外循环更新\nθ ← θ + β ∇θ Σ Ji(θ'i)", shape=cds, color="#f03e3e", fillcolor="#ff8787"]; TaskDist -> Task_i; MetaParams -> InnerTraj [label=" 策略 "]; Task_i -> InnerTraj [label=" 任务 "]; InnerTraj -> InnerGrad; InnerGrad -> InnerUpdate [label=" 梯度 "]; MetaParams -> InnerUpdate [label=" 初始参数 "]; InnerUpdate -> AdaptedParams; AdaptedParams -> OuterTraj [label=" 策略 "]; Task_i -> OuterTraj [label=" 任务 "]; OuterTraj -> OuterPerf; OuterPerf -> OuterGrad [label=" 表现 "]; InnerUpdate -> OuterGrad [label=" 梯度路径 "]; // 元梯度的简化表示 OuterGrad -> OuterUpdate; OuterUpdate -> MetaParams [style=dashed, label=" 更新元参数"]; }基于梯度的元RL(MAML风格)的流程。内循环将参数适应于特定任务,而外循环则根据适应后的表现更新元参数。基于循环的元强化学习这些方法在策略或价值函数架构中采用循环神经网络(RNN),例如LSTM或GRU。核心设想是RNN的隐藏状态 $h_t$ 从迄今观察到的轨迹 $(s_0, a_0, r_0, ..., s_t)$ 中累积关于当前任务动态和奖励结构的信息。因此,策略变为上下文相关:$\pi(a_t | s_t, h_t)$。当智能体与新环境交互时,循环状态会更新,隐式地识别任务并即时调整策略行为。在元测试期间,没有明确的基于梯度的内循环适应步骤。元训练目标通常是标准RL(例如,最大化从各种任务中抽取的片段的预期回报),但循环架构被训练以有效利用其历史进行快速适应。RL^2(带有循环层的强化学习)是这一类别中的一个代表性算法。优势在于元测试时可能实现更快的适应(仅需前向传播),但元训练可能很复杂,需要在隐藏状态中习得跨越长远时间范围和多样任务的有意义表示。元强化学习特有的难题将元学习方法应用于RL会带来独特的难题:任务分布的界定: 制定一个合适的 $p(\mathcal{T})$ 很重要。任务必须足够相关以实现迁移,但也要足够多样以要求适应。这通常需要领域专业知识。样本效率: 强化学习本身就是样本密集型。元RL又增加了一层,要求在多个任务中为内循环适应和外循环元优化提供样本。提高效率,可能通过离策略方法来实现,是一个活跃的研究方向。信用分配: 时序信用分配问题(将行动与延迟奖励关联)因元学习目标而变得更加复杂。已适应策略中的早期行动如何对整体元目标有所助益?试探: 学习如何在新任务中高效试探本身就是一个元学习问题。元RL智能体可能在元训练期间习得试探策略,以加快适应。非平稳性: 在内循环适应期间(特别是在基于梯度的方法中),策略正在变化,这使得学习价值函数或模型变得复杂。应用与未来方向元RL在需要快速适应的场景中展现出前景:机器人技术: 使机器人能够基于短暂交互,快速适应新的物体操控技能或不同地形的移动步态。游戏AI: 开发能快速调整策略的智能体,以应对新对手或修改过的游戏规则。自主系统: 需要在动态变化环境或不同条件下有效运行的系统。当前研究常侧重于提高样本效率(例如,通过离策略学习、基于模型的RL集成)、发展算法、理解元RL中泛化的理论依据,以及研究多智能体元RL情景。元RL与分层RL的结合点,即元学习可能习得可复用技能或子策略之处,也是一个增长的关注点。尽管目前不如监督学习常见,但将基础模型架构作为元RL框架内的表达性策略主干使用的潜力,为未来研究提供了又一方向,尽管存在显著的可扩展性难题。