趋近智
元强化学习(Meta-RL)旨在构建强化学习智能体,使其能够凭借在新任务中的最少前期接触,快速适应新颖、未曾见过的环境或任务变化。这一方法与元学习的核心理念相符,即旨在改进监督或无监督等多种任务的学习过程本身。这与传统强化学习形成鲜明对比,在传统强化学习中,智能体通常需要在特定马尔可夫决策过程(MDP)中进行大量互动才能收敛到最优策略,而在面临新环境时,通常是从头开始或使用通用预训练初始化。
核心设想在于借助在元训练阶段从相关强化学习任务集合中收集的经验,以习得一种调整方法或结构化的策略初始状态。这使得智能体在元测试时,能针对源自同一集合的新颖任务,快速达到优异表现。此能力在环境发生变化、任务呈现轻微差异,或在每种可能情境下获取大量经验不切实际的情形中尤其有价值,例如机器人技术或复杂的游戏模拟。
形式上,元强化学习在任务分布 p(T) 上运作。每个任务 Ti 通常是一个MDP,可能由其独特的状态转移动态 Pi 和奖励函数 Ri 来限定,同时共享状态空间 S 和动作空间 A。任务 Ti 的完整界定通常为 (S,A,Pi,Ri,γ,ρ0,i),其中 γ 是折扣因子,ρ0,i 是任务 i 的初始状态分布。
在元训练期间,目标不仅仅是为某个特定任务找到一个好的策略,而是习得一个能够实现高效适应的模型或流程(通常由元参数 θ 参数化)。具体来说,当面对一个新任务 Tj∼p(T) 时,智能体利用来自 Tj 的有限交互数据(例如,少量轨迹)来调整其行为,从而得到一个已适应的策略 πj′。元目标通常是最大化此已适应策略 πj′ 在任务分布中实现的预期表现(例如,累积奖励):
θmaxETj∼p(T)[R(πj′)]此处,R(πj′) 表示已适应策略 πj′ 在任务 Tj 中执行时的预期回报。适应过程本身形成内循环,而基于适应后表现的 θ 优化则构成外循环。
涌现出多种算法框架,与监督元学习中的分类法相呼应:
这些方法将MAML(第2章)等技术调整至强化学习环境。目标是为策略 πθ 找出元参数 θ,使得针对特定任务 Ti 的目标执行一步或几步策略梯度,即可得到一个表现良好的已适应策略 πθi′。
挑战包括策略梯度估计中固有的高方差,以及计算元梯度的潜在计算量,尤其是在保留二阶信息的情况下。实践中常采用FOMAML等一阶近似方法。
基于梯度的元RL(MAML风格)的流程。内循环将参数适应于特定任务,而外循环则根据适应后的表现更新元参数。
这些方法在策略或价值函数架构中采用循环神经网络(RNN),例如LSTM或GRU。核心设想是RNN的隐藏状态 ht 从迄今观察到的轨迹 (s0,a0,r0,...,st) 中累积关于当前任务动态和奖励结构的信息。
因此,策略变为上下文相关:π(at∣st,ht)。当智能体与新环境交互时,循环状态会更新,隐式地识别任务并即时调整策略行为。在元测试期间,没有明确的基于梯度的内循环适应步骤。元训练目标通常是标准RL(例如,最大化从各种任务中抽取的片段的预期回报),但循环架构被训练以有效利用其历史进行快速适应。RL^2(带有循环层的强化学习)是这一类别中的一个代表性算法。
优势在于元测试时可能实现更快的适应(仅需前向传播),但元训练可能很复杂,需要在隐藏状态中习得跨越长远时间范围和多样任务的有意义表示。
将元学习方法应用于RL会带来独特的难题:
元RL在需要快速适应的场景中展现出前景:
当前研究常侧重于提高样本效率(例如,通过离策略学习、基于模型的RL集成)、发展算法、理解元RL中泛化的理论依据,以及研究多智能体元RL情景。元RL与分层RL的结合点,即元学习可能习得可复用技能或子策略之处,也是一个增长的关注点。尽管目前不如监督学习常见,但将基础模型架构作为元RL框架内的表达性策略主干使用的潜力,为未来研究提供了又一方向,尽管存在显著的可扩展性难题。
这部分内容有帮助吗?
© 2026 ApX Machine Learning用心打造