AlphaGo之父找到创造强化学习算法新方法：让AI自己设计-新糖宝胶囊官方网站

强化学习是近来 AI 领域最热门的话题之一，新算法也在不断涌现。

那么，问题来了：AI 能不能自己发现强大的强化学习算法呢？

近日，谷歌 DeepMind 团队在 Nature 上发表的一篇论文探索了这一可能性。并且，他们得到了非常积极的结果：机器确实能够自主发现性能达到 SOTA 的强化学习规则，并且其表现优于人工设计的规则。

标题：Discovering state-of-the-art reinforcement learning algorithms

地址：https://www.nature.com/articles/s41586-025-09761-x

值得注意的是，该团队的负责人、通讯作者是强化学习领域的引领研究者 David Silver，他也曾领导了著名的 AlphaGo 项目，常被称为「AlphaGo 之父」。截至目前，David Silver 的引用量已接近 27 万。本研究共有四位共同一作：Junhyuk Oh、Greg Farquhar、Iurii Kemaev、Dan A. Calian。

具体到方法上，该团队的思路是：在大量复杂环境中，基于大量智能体的经验积累，进行元学习（meta-learning）。这个方法能够发现智能体在更新策略与预测时所遵循的强化学习规则。

该团队还进行了大规模实验，结果发现这一「自动发现的规则」在经典的 Atari 基准测试上超越了所有现有方法，并且在若干它从未见过的高难度基准测试上也优于多种 SOTA 强化学习算法。

这一研究结果可谓意义重大。它意味着，未来实现高级 AI 所需的强化学习算法或许将不再依赖人工设计，而是能够从智能体自身的经验中自动涌现与进化。

发现方法

该团队的发现方法涉及两种类型的优化：智能体优化和元优化。智能体参数通过将其策略和预测更新至强化学习规则所产生的目标来进行优化。与此同时，强化学习规则的元参数则通过更新其目标来进行优化，以最大化智能体的累积奖励。

智能体网络

许多强化学习研究考虑的是智能体应该做出什么预测（例如，价值），以及应该使用什么损失函数来学习这些预测（例如，TD 学习）和改进策略（例如，策略梯度）。

该团队没有采用手工设计的方式，而是定义了一个没有预定义语义、富有表现力的预测空间，并通过使用元网络进行元学习，来找出智能体需要优化的内容。他们希望在保留表征现有强化学习算法中核心思想能力的同时，也支持广阔的新颖算法可能性空间。

为此，该团队让由 θ 参数化的智能体除了输出策略 π 之外，还输出两种类型的预测：一个基于观测的向量预测 y (s) 和一个基于动作的向量预测 z (s,a) ，其中 s 和 a 分别是观测和动作 (见下图)。

这些预测的形式源于「预测」与「控制」之间的根本区别。例如，价值函数通常被分为状态函数 v (s) (用于预测) 和动作函数 q (s,a) (用于控制)。强化学习中的许多其他概念，例如奖励和后继特征，也同样具有一个基于观测的版本 s↦ℝ^m 和一个基于动作的版本 s,a↦ℝ^m. 因此，这对预测 (y,z) 的函数形式足够通用，可以用来表示 RL 中的许多现有基本概念，但又不仅限于此。

除了这些有待发现的预测之外，在我们的大多数实验中，智能体还会做出具有预定义语义的预测。具体来说，智能体会产生一个动作价值函数 q (s,a) 和一个基于动作的辅助策略预测 p (s,a)。这样做是为了鼓励发现过程能更专注于通过 y 和 z 来发现新概念。

元网络

很大一部分现代强化学习规则采用了 RL 的「前向视图」。在这种视图下，RL 规则接收一个从时间步 t 到 t+n 的轨迹，并利用这些信息来更新智能体的预测或策略。它们通常会将预测或策略朝着「引导目标」更新，即朝着未来的预测值更新。

相应地，该团队的 RL 规则使用一个元网络（图 1c）作为函数，来决定智能体应将其预测和策略更新至的目标。为了在时间步 t 产生目标，该元网络会接收从时间步 t 到 t+n 的一段轨迹作为输入，这段轨迹包含了智能体的预测、策略、奖励以及回合是否终止的信息。它使用一个标准的 LSTM 来处理这些输入，当然也可以使用其他架构。

元网络的输入和输出选择保留了手工设计的 RL 规则所具备的一些理想特性：

首先，元网络可以处理任何观测信息，以及任何大小的离散动作空间。这是因为它不直接接收观测作为输入，而是通过智能体的预测间接获取信息。此外，它通过在不同动作维度间共享权重来处理特定于动作的输入和输出。因此，它可以泛化到截然不同的环境中。

其次，元网络与智能体网络的设计无关，因为它只接收智能体网络的输出。只要智能体网络能产生所需形式的输出 (π, y, z)，被发现的 RL 规则就可以泛化到任意的智能体架构或规模。

第三，由元网络定义的搜索空间包含了「引导」这一重要的算法思想。

第四，由于元网络同时处理策略和预测，它不仅可以元学习辅助任务，还可以直接使用预测来更新策略（例如，为减少方差) 提供一个基线。

最后，输出目标这种方式比输出一个标量损失函数具有更强的表达能力，因为它将 Q 学习这样的半梯度方法也纳入了搜索空间。

在继承标准 RL 算法这些特性的基础上，这个参数丰富的神经网络使得被发现的规则能够以可能高得多的效率和更精细的上下文感知方式来实现算法。

智能体优化

智能体的参数 (θ) 会被更新，以最小化其预测和策略与来自元网络的目标之间的距离。智能体的损失函数可以表示为：

其中 D (p,q) 是 p 和 q 之间的一种距离函数。团队选择 KL 散度作为距离函数，因为它足够通用，并且先前已被发现在元优化中有助于简化问题。这里的 π_θ,y_θ,z_θ 是智能体网络的输出，而 ̂π, ̂y,ẑ 是元网络的输出，每个向量都应用了 softmax 函数进行归一化。

辅助损失 L_aux 用于那些具有预定义语义的预测，即动作价值 (q) 和辅助策略预测 (p) ，具体如下：

其中 ̂q 是来自 Retrace 算法的动作价值目标，并被投影到一个 two-hot 向量 2；而 p̂=π_θ(s′) 是下一步的策略。为了与其他损失保持一致，团队同样使用 KL 散度作为距离函数 D。

元优化

该团队的目标是发现一个 RL 规则（由元参数 η 表示的元网络来代表），它能让智能体在各种训练环境中最大化奖励。这个发现目标 J (η) 及其元梯度

可以表示为：

其中

表示从一个分布中采样的环境，θ 表示由初始参数分布诱导、并在使用 RL 规则学习过程中不断演变的智能体参数。

是期望折扣奖励总和，即典型的 RL 目标。元参数 η 遵循上述方程，使用梯度上升进行优化。

为了估计元梯度，团队在一套采样的环境中实例化一个智能体集群，它们根据元网络进行学习。为了确保这种近似接近团队感兴趣的真实分布，团队使用了大量来自挑战性基准的复杂环境。这与先前的工作集中在少数简单环境上形成对比。因此，这个发现过程会面临多种多样的 RL 挑战，例如奖励的稀疏性、任务的长度，以及环境的部分可观测性或随机性。

每个智能体的参数都会被定期重置，以鼓励更新规则在有限的智能体生命周期内取得快速的学习进展。与先前关于元梯度 RL 的工作一样，元梯度项

可以通过链式法则分为两个梯度项：

和

。第一项可以被理解为对智能体更新过程的梯度，而第二项是标准 RL 目标的梯度。

为了估计第一项，该团队迭代地更新智能体多次，并通过整个更新过程进行反向传播，如图 1d 所示。为了使其易于处理，团队使用滑动窗口对 20 次智能体更新进行反向传播。最后，为了估计第二项，团队使用优势演员 - 评论家 (A2C) 方法。为了估计优势，团队训练了一个元价值函数，这是一个仅用于发现过程的价值函数。

实验结果

该团队在一套复杂的环境中，通过一个大型智能体集群实现了新发现方法。

该团队将发现的 RL 规则称为 DiscoRL。在评估中，该团队使用归一化分数的四分位均值 (IQM) 来衡量聚合性能，该基准由多个任务组成。IQM 之前已被证明是一种统计上可靠的指标。

Atari

Atari 基准是 RL 历史上研究最多的基准之一，由 57 款 Atari 2600 游戏组成。它们需要复杂的策略、规划和长期 credit 分配，这使得 AI 智能体难以精通。在过去的十年中，已有数百种 RL 算法在该基准上进行了评估，其中包括 MuZero 和 Dreamer。

为了观察直接从该基准中发现的规则能有多强大，该团队元训练 (meta-trained) 了一个 RL 规则，命名为 Disco57，并在同样的 57 款游戏上对其进行了评估（见下图 a）。

Disco57 的各个实验基准上的表现

在此评估中，该团队使用的网络架构的参数数量与 MuZero 使用的数量相当。这是一个比发现过程中使用的网络更大的网络；因此，被发现的 RL 规则必须能泛化到这种设置。Disco57 取得了 13.86 的 IQM 分数，在 Atari 基准上超越了所有现有的 RL 规则，并且其运行效率 (wall-clock efficiency) 远高于当前最先进的 MuZero（见下图）。

这表明：该团队的新方法可以从此类具有挑战性的环境中自动发现强大的 RL 规则。

泛化能力

该团队进一步研究了 Disco57 的泛化能力，方法是在一系列其在发现过程中从未接触过的留存基准上对其进行评估。

这些基准包括未曾见过的观测和动作空间、多样化的环境动态、各种奖励结构以及未曾见过的智能体网络架构。元训练的超参数仅在训练环境（即 Atari）上进行了调整，以防止该规则被隐式地针对保留基准进行优化。

在 ProcGen 基准上的结果显示，Disco57 优于所有现有的已发表方法，包括 MuZero 和 PPO，尽管它在发现期间从未与 ProcGen 环境交互过。ProcGen 由 16 个程序生成的 2D 游戏组成。

此外，Disco57 也在 Crafter 上取得了有竞争力的表现，在 Crafter 中智能体需要学习广泛的能力才能生存。Disco57 在 NetHack NeurIPS 2021 挑战赛的排行榜上获得了第 3 名，该比赛有 40 多个团队参加。

与比赛中排名靠前的提交智能体不同，Disco57 没有使用任何领域特定知识来定义子任务或进行奖励塑造 (reward shaping)。为了进行公平比较，该团队使用与 Disco57 相同的设置，通过 IMPALA 算法训练了一个智能体。IMPALA 的表现要弱得多，这表明 Disco57 发现了一种比标准方法更高效的 RL 规则。

除了环境之外，Disco57 在评估中还对一系列智能体特定设置（如网络大小、重放比例 (replay ratio) 和超参数）表现出了鲁棒性。

复杂多样的环境

为了理解复杂多样的环境对于发现过程的重要性，该团队使用额外的环境进一步扩大了元学习的规模。

具体来说，该团队使用了由 Atari、ProcGen 和 DMLab-30 基准组成的 103 个更具多样性的环境，发现了另一个规则 Disco103。该规则在 Atari 基准上表现相似，同时之前所示的每一个已见和未见的基准上都提高了分数。特别是，Disco103 在 Crafter 上达到了人类水平的表现，并在 Sokoban 上接近了 MuZero 的 SOTA 性能。

这些结果表明，用于发现的环境集越复杂、越多样化，发现的规则就越强大、越通用，即使在发现期间未曾见过的保留环境上也是如此。与 Disco57 相比，发现 Disco103 除了环境集不同之外，不需要对发现方法进行任何更改。这表明发现过程本身是稳健的、可扩展的和通用的。

为了进一步研究使用复杂环境的重要性，该团队在 57 个从先前工作 9 扩展而来的网格世界 (grid-world) 任务上运行了该团队的发现过程，使用了与 Disco57 相同的元学习设置。新规则在 Atari 基准上的表现明显更差（见下图 c）。

这验证了该团队关于直接从复杂且具有挑战性的环境中进行元学习的重要性的假设。虽然使用这样的环境至关重要，但并不需要精心策划正确的环境组合；该团队只是简单地使用了文献中流行的基准。

效率与可扩展性

为了进一步了解该团队方法的可扩展性和效率，该团队在发现过程中评估了多个 Disco57（见上图 a）。最佳规则是在每个 Atari 游戏约 6 亿步 (内发现的，这相当于在 57 个 Atari 游戏上仅进行了 3 次实验。这可以说比手动发现 RL 规则更有效率，后者通常需要执行更多的实验，此外还要花费人类研究员的时间。

此外，随着用于发现的 Atari 游戏数量的增加，DiscoRL 在未见过的 ProcGen 基准上表现得更好（见上图 b），这表明最终得到的 RL 规则随着用于发现的环境数量和多样性的增加而表现出良好的扩展性。换句话说，被发现规则的性能是数据（即环境）和计算量的函数。

发现新预测的效果

为了研究被发现的预测 (图 1b 中的 y, z) 其语义的效果，该团队通过改变智能体的输出（包含或不包含某些类型的预测）来比较不同的规则。上图 c 中的结果表明，使用价值函数可极大地改善发现过程，这突显了 RL 这一基本概念的重要性。

另一方面，上图 c 的结果也表明，在预定义预测之外发现新预测语义（ y 和 z ）的重要性。总的来说，与先前的工作相比，扩大发现的范围是至关重要的。在下一节中，该团队将提供进一步的分析，以揭示发现了哪些语义。

分析

定性分析

该团队以 Disco57 为案例，分析了被发现规则的性质（见下图）。

从定性上看，被发现的预测在诸如收到奖励或策略熵发生变化等显著事件之前会出现峰值（图 a）。

该团队还通过测量与观测的每个部分相关的梯度范数，研究了观测中的哪些特征会导致元学习的预测产生强烈反应。图 b 的结果显示，元学习的预测倾向于关注未来可能相关的物体，这与策略和价值函数所关注的地方不同。这些结果表明，DiscoRL 已经学会了在一个适度的范围内识别和预测显著事件，从而补充了诸如策略和价值函数等现有概念。

信息分析

为了证实定性分析的发现，该团队进一步研究了预测中包含哪些信息。该团队首先在 10 款 Atari 游戏上从 DiscoRL 智能体收集数据，并训练一个神经网络，使其从被发现的预测、策略或价值函数中预测该团队感兴趣的量。

图 c 中的结果显示，与策略和价值相比，被发现的预测包含更多关于即将到来的高额奖励和未来策略熵的信息。这表明，被发现的预测可能捕获了策略和价值未能很好捕获的、与任务相关的独特信息。

引导机制的涌现

该团队还发现了 DiscoRL 使用引导 (bootstrapping) 机制的证据。当元网络在未来时间步的预测输入受到扰动时，它会强烈影响当前的目标图 d）。这意味着未来的预测被用来构建当前预测的目标。

事实证明，这种引导机制和被发现的预测对于性能至关重要（图 e）。如果在计算 y 和 z 的目标时，将输入到元网络的 y 和 z 设置为零（从而阻止引导），性能会大幅下降。如果将 y 和 z 的输入设置为零以计算包括策略目标在内的所有目标，性能会进一步下降。这表明，被发现的预测被大量用于为策略更新提供信息，而不仅仅是作为辅助任务。

总结

让机器能够自己发现学习算法是人工智能中最有前途的想法之一，因为它具有开放式自我改进的潜力。

这项工作朝着机器设计的强化学习算法迈出了重要一步，这些算法在具有挑战性的环境中可以与一些最佳的人工设计算法相媲美，甚至超越它们。

该团队还表明，随着发现的规则接触到更多样化的环境，它会变得更强、更通用。这表明，未来高级人工智能的 RL 算法设计，可能会由那些能够随数据和计算资源有效扩展的机器来主导。

本文来自微信公众号 “机器之心”（ID：almosthuman2014），编辑：+0、Panda，36氪经授权发布。

发布时间：2025-10-28 17:01

上一篇:
手机放电饭煲内胆传数据更快？苹果客服回应
下一篇:
烧钱、焦虑与万亿野心：OpenAI为何要推Atlas？

AlphaGo之父找到创造强化学习算法新方法：让AI自己设计