The success of generative models in language and visual generation has inspired extensive applications to generative robot planning. However, most existing works either focus on single-robot planning, or generate multi-robot trajectories in a sequential manner with iterative post-processing to resolve inter-robot conflicts. In this work, we investigate whether coordinated multi-robot trajectories, as a special spatiotemporal distribution, can be learned and generated with a generative model in a feed-forward manner. We propose Robots as Tokens (Roken), a unified diffusion transformer that directly generates multi-robot trajectories that satisfy both (individual) safety and (global) connectivity constraints. The core design of Roken is to represent each robot as a discrete token, allowing them to naturally interact with each other through self-attention, and cross-attend to map tokens for environment layouts. We further introduce several auxiliary tasks based on Bayes' theorem to provide multi-scale spatial-temporal supervision for efficient learning of the conditional distribution. In training, Roken absorbs diverse expert trajectories from different team sizes. During inference, Roken behaves as a versatile multi-robot planner that can handle single-robot planning, coordinated multi-robot trajectory generation, and conditional trajectory generation by fixing some robot tokens as conditions. Experiments in diverse cluttered environments show that Roken can generate coordinated multi-robot trajectories to perform connectivity-constrained goal navigation tasks with high success rates, outperforming the baseline method used to generate the training dataset. Roken also demonstrates good scalability after training with mixed team sizes, and shows generalization to unseen or partially observed environments, verifying its potential to learn from diverse data and perform versatile tasks.


翻译:生成模型在语言和视觉生成领域的成功,启发了其在生成式机器人规划中的广泛应用。然而,现有工作大多聚焦于单机器人规划,或以序贯方式通过迭代后处理解决机器人间冲突来生成多机器人轨迹。本文探究能否将协调多机器人轨迹这一特殊时空分布通过生成模型以前馈方式学习并生成。我们提出"机器人即Token"(Roken)方法——一种统一扩散Transformer,能直接生成同时满足(个体)安全性与(全局)连通性约束的多机器人轨迹。其核心设计是将每个机器人表征为离散Token,使其通过自注意力机制自然交互,并通过交叉注意力机制关联地图Token以感知环境布局。我们进一步基于贝叶斯定理引入若干辅助任务,为条件分布的高效学习提供多尺度时空监督。训练时,Roken可吸收不同团队规模下的多样化专家轨迹;推理时,Roken可作为通用多机器人规划器,支持单机器人规划、协调多机器人轨迹生成,以及通过固定部分机器人Token作为条件实现条件轨迹生成。在多种杂乱环境中的实验表明,Roken能生成协调多机器人轨迹,以高成功率完成连通性约束目标导航任务,性能超越用于生成训练数据集的基线方法。Roken在混合团队规模训练后展现出良好可扩展性,并具备对未见或部分观测环境的泛化能力,验证其从多样化数据中学习并执行多类任务的潜力。

0
下载
关闭预览

相关内容

机器人操作扩散模型综述
专知会员服务
21+阅读 · 2025年4月14日
生成式人工智能在机器人操作中的应用:综述
专知会员服务
29+阅读 · 2025年3月6日
面向空间机器人辅助操作的任务规划方法研究
专知会员服务
22+阅读 · 2025年2月10日
人形机器人与AI大模型之Robot+AI的Transformer之旅
专知会员服务
30+阅读 · 2024年11月7日
人形机器人深度:产业化渐行渐近,未来前景广阔
专知会员服务
39+阅读 · 2024年7月17日
这可能是「多模态机器学习」最通俗易懂的介绍
计算机视觉life
113+阅读 · 2018年12月20日
【机器人】机器人PID控制
产业智能官
10+阅读 · 2018年11月25日
赛尔原创 | 教聊天机器人进行多轮对话
哈工大SCIR
18+阅读 · 2017年9月18日
国家自然科学基金
15+阅读 · 2016年12月31日
国家自然科学基金
11+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
14+阅读 · 2015年12月31日
国家自然科学基金
50+阅读 · 2009年12月31日
VIP会员
最新内容
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
6+阅读 · 6月22日
21世纪的无人机战争
专知会员服务
4+阅读 · 6月22日
《量子技术的军事任务技术适配与利用》
专知会员服务
5+阅读 · 6月22日
美国从乌克兰无人机战争中学习经验
专知会员服务
7+阅读 · 6月21日
ICML 2026 | 面向视觉语言模型的语义鲁棒性认证
专知会员服务
5+阅读 · 6月21日
相关基金
国家自然科学基金
15+阅读 · 2016年12月31日
国家自然科学基金
11+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
14+阅读 · 2015年12月31日
国家自然科学基金
50+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员