Whole-body mobile manipulation is a fundamental capability for general-purpose robotic agents, requiring both coordinated control of the mobile base and manipulator and robust perception under dynamically changing viewpoints. However, existing approaches face two key challenges: strong coupling between base and arm actions complicates whole-body control optimization, and perceptual attention is often poorly allocated as viewpoints shift during mobile manipulation. We propose InCoM, an intent-driven perception and structured coordination framework for whole-body mobile manipulation. InCoM infers latent motion intent to dynamically reweight multi-scale perceptual features, enabling stage-adaptive allocation of perceptual attention. To support robust cross-modal perception, InCoM further incorporates a geometric-semantic structured alignment mechanism that enhances multimodal correspondence. On the control side, we design a decoupled coordinated flow matching action decoder that explicitly models coordinated base-arm action generation, alleviating optimization difficulties caused by control coupling. Without access to privileged perceptual information, InCoM outperforms state-of-the-art methods on three ManiSkill-HAB scenarios by 28.2%, 26.1%, and 23.6% in success rate, demonstrating strong effectiveness for whole-body mobile manipulation.


翻译:全身移动操作是通用机器人智能体的基本能力,既需要协调控制移动基座与机械臂,又要求在动态变化的视角下具备鲁棒的感知能力。然而,现有方法面临两大关键挑战:基座与手臂动作间的强耦合使全身控制优化复杂化;随着移动操作过程中视角变化,感知注意力的分配往往不佳。我们提出InCoM,一种面向全身移动操作的意图驱动感知与结构化协调框架。InCoM通过推断潜在运动意图来动态重加权多尺度感知特征,实现阶段自适应的感知注意力分配。为支持鲁棒的跨模态感知,InCoM进一步引入几何-语义结构化对齐机制,以增强多模态对应关系。在控制层面,我们设计了解耦协调流匹配动作解码器,显式建模协调的基座-手臂动作生成,从而缓解由控制耦合引起的优化困难。在未使用特权感知信息的条件下,InCoM在三个ManiSkill-HAB场景上的成功率分别超越现有最优方法28.2%、26.1%和23.6%,充分证明了其在全身移动操作任务中的卓越有效性。

0
下载
关闭预览

相关内容

【斯坦福博士论文】移动操作机器人的学习系统构建研究
专知会员服务
14+阅读 · 2025年11月14日
面向具身操作的视觉-语言-动作模型综述
专知会员服务
28+阅读 · 2025年8月23日
具身智能学习综述:基于物理模拟器与世界模型的方法
专知会员服务
34+阅读 · 2025年7月2日
中文版 | 集中式与分布式多智能体AI协调策略
专知会员服务
20+阅读 · 2025年5月8日
数据驱动的具身学习探索
专知会员服务
11+阅读 · 2025年2月26日
PlaNet 简介:用于强化学习的深度规划网络
谷歌开发者
13+阅读 · 2019年3月16日
【推荐】ResNet, AlexNet, VGG, Inception:各种卷积网络架构的理解
机器学习研究会
20+阅读 · 2017年12月17日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2013年12月31日
VIP会员
最新内容
《新兴技术武器化及其对全球风险的影响》
专知会员服务
7+阅读 · 4月29日
《帕兰泰尔平台介绍:信息分析平台》
专知会员服务
17+阅读 · 4月29日
智能体化世界建模:基础、能力、规律及展望
专知会员服务
11+阅读 · 4月28日
美海警海上态势感知无人系统
专知会员服务
6+阅读 · 4月28日
相关基金
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2013年12月31日
Top
微信扫码咨询专知VIP会员