针对这一痛点,乔治华盛顿大学和东北大学的 Sizhe Tang、Zuyuan Zhang、Mahdi Imani 和 Tian Lan 提出了 NonZero 框架,并已被 ICML 2026 接收为 Spotlight。核心思想是:不需要枚举所有联合动作,而是通过一个低维非线性预测器来引导候选动作的扩展,利用交互评分机制自动识别单智能体和双智能体层面的协调收益,从而将每步搜索的分支因子固定下来。本文提出的 NonUCT 候选规则从非线性 bandit 角度出发,具有次线性局部遗憾保证,理论上保证能够逼近图局部最优。 这篇论文值得所有关注多智能体规划、MCTS 扩展以及模型基强化学习的读者精读:它不仅给出了一套完整的框架和理论分析,还在 MatGame、SMAC 和 SMACv2 上展示了优于强基线的样本效率和最终性能。更重要的是,它提供了一个可落地的思路——用低维非线性表示 + 交互候选扩展来绕过组合爆炸,这对设计可扩展的多智能体规划算法具有直接启发。
MCTS 在合作多智能体领域中扩展性差,因为扩展时必须考虑指数级增长的联合动作集合,这严重限制了实际搜索预算下的探索。NonZero 通过在一个低维非线性表示上运行代理引导选择(surrogate-guided selection),使用交互引导的候选规则(interaction-guided proposal rule),避免直接探索完整的联合动作空间,从而保持多智能体 MCTS 的可计算性。 探索过程依赖一个交互评分(interaction score):单智能体偏差按预测增益排序,双智能体偏差则通过一种混合差异度量(mixed-difference measure)来打分。这种度量能揭示协调收益——即使当单智能体单独无法改进时也能发现潜在的协调效应。论文将候选提出(candidate proposal)形式化为关于局部偏差的 bandit 问题,并推导出 NonUCT 候选规则。该规则具有次线性局部遗憾保证,无需枚举联合动作空间即可达到近似图局部最优。 实验在 MatGame、SMAC 和 SMACv2 上进行,在匹配搜索预算下,NonZero 相对于强模型基和模型无关基线,一致地提升了样本效率和最终性能。
将 MCTS 扩展到合作多智能体规划时,核心障碍是组合动作选择问题。设共有 (n) 个智能体,每个智能体有 (d) 个候选动作,则联合动作空间大小为 (d^n)。朴素扩展会导致指数级分支因子,在实际模拟预算内迅速耗尽资源。尤其当回报存在强交互效应时,高价值结果往往需要智能体协调偏差(coordinated deviations),而未经信息引导的随机采样很难找到这些偏差。 先前的工作对这一问题进行了部分缓解,但未能彻底解决。MAZero(Liu et al., 2024)改进了模型学习和分布式规划组件,但树扩展仍然依赖于在每个节点上选择哪些联合动作,本质未摆脱 (d^n) 枚举。MALinZero(Tang et al., 2025)利用线性回报结构减少联合动作搜索,但当回报为非加性时,线性假设会遗漏需要协调的改进。价值分解方法如 VDN(Sunehag et al., 2017)和 QMIX(Rashid et al., 2020)对联合价值施加结构约束,但这些方法不支持树搜索所需的不确定性感知动作扩展(uncertainty-aware action expansion),且依然受限于分解假定的有效性。 NonZero 旨在解决这一根本矛盾:在不枚举 (d^n) 联合动作空间的前提下,让多智能体 MCTS 保持可计算性,并且能够发现那些需要协调偏差才能达到的高价值结果。论文的核心思路是:在树搜索的每个节点,先拟合一个紧凑的低维非线性预测器(low-dimensional nonlinear predictor)来估计联合动作回报,然后只评估从当前候选出发的结构化一/双智能体偏差(structured one- and two-agent deviations),通过交互评分机制决定下一步扩展哪些偏差,从而将分支因子从 (d^n) 降低到一个与 (n) 和 (d) 相关但不指数增长的常数。
NonZero 的整体架构嵌入在 MuZero 风格的模型基规划循环中。在树搜索的每个节点,执行以下三个步骤:
首先,NonZero 维护一个 低维非线性预测器(surrogate predictor)。这个预测器用于估计任意联合动作的回报。与线性假设不同,这里允许预测器具有低维非线性结构——即它用较少的参数捕捉联合动作空间的主要变化,同时保留智能体之间的交互信息。具体实现上,预测器可以是轻量级的神经网络或核方法,其输入是智能体的局部特征(如观测、隐藏状态),输出是对联合回报的估计。 预测器的训练数据来自搜索过程中对实际联合动作的模拟采样。它不要求对所有 (d^n) 动作都精确建模,而是专注于当前候选附近的局部区域,因此能够在不提升计算负担的情况下提供有用的梯度信息。
在预测器的基础上,NonZero 定义了一种 交互评分(interaction score),用于评估从当前候选动作集出发的偏差。偏差分为两类:
交互效应:即使单智能体偏差都不产生正增益(预测回报不变或下降),同时改变两个智能体可能产生正收益——这正是协调陷阱(coordination trap)的典型情况。NonZero 给那些具有较大混合差异的双智能体偏差赋予高优先级,从而主动探索此类协调机会。
候选提出(candidate proposal)本质上是决定在每次搜索中应当探索哪些偏差。NonZero 将这一步骤形式化为 关于局部偏差的非线性 bandit 问题:每个候选偏差(包括单/双智能体偏差)是一个“臂”(arm),回报是预测器给出的局部改进量。但这里与传统 bandit 不同之处在于,臂的回报之间可能存在非线性依赖(因为预测器本身是非线性的),且臂的数量远小于 (d^n)(因为只考虑结构化的偏差)。 基于这个形式化,论文推导出 NonUCT 候选规则。NonUCT 是一种乐观规则(optimistic proposal rule),它在每个节点选择具有最大上置信界(upper confidence bound)的偏差进行模拟扩展。该规则的遗憾分析假设回报预测器满足离散平滑性条件(discrete smoothness),在此条件下 NonUCT 的 局部遗憾(local regret)具有次线性上界,即随着搜索步数增加,未能找到近似图局部最优(approximate graph-local optimum)的遗憾增长不超过 (O(\sqrt{T})),并且这一界值与 (d^n) 无关。这意味着 NonZero 能够在不枚举联合动作空间的情况下,理论上保证逐渐收敛到局部最优解。 整个方法的核心优势在于:每步搜索的分支因子(候选扩展数)被固定为 (O(n \cdot d + n^2 \cdot d^2)),即仅考虑所有单智能体偏差和双智能体偏差,而不是 (d^n)。这使得 NonZero 在智能体数量增多时仍然可以保持可控的计算量。
实验在三个基准环境中进行评估:
论文对比了两种类型的基线:
所有方法在匹配的搜索预算下运行——即每步模拟的次数相同,以确保公平比较。
主要指标是 样本效率(sample efficiency)和 最终性能(final performance)。样本效率指达到特定奖励水平所需的训练步数或环境交互次数;最终性能指训练结束时的平均回报或胜率。
原文未明确说明消融分析的具体实验设计。但从方法描述中可推断,候选扩展策略(随机 vs NonUCT)、交互评分的使用(使用混合差异 vs 仅用单智能体增益)是关键的消融点。论文在实验部分提及了与随机候选扩展变体的比较,结果证实 NonUCT 规则在协调发现上优于随机扩展。
原文未明确说明局限性。但根据论文内容可推测:当前方法仅考虑单/双智能体偏差,当需要三个及以上智能体同时协调时(高阶交互效应),仍然可能遗漏;预测器的拟合质量对搜索效果有直接影响,在状态空间极大且预测器不准确时,性能可能退化;NonUCT 的遗憾分析依赖于离散平滑性假设,若实际回报不满足该假设,理论保证可能退化。