InCoM: Intent-Driven Perception and Structured Coordination for Whole-Body Mobile Manipulation - 专知论文

会员服务 ·

0

操作 · 结构 · 结构化 · 鲁棒 · 耦合 ·

InCoM: Intent-Driven Perception and Structured Coordination for Whole-Body Mobile Manipulation

翻译：InCoM：面向全身移动操作的意图驱动感知与结构化协调框架

Jiahao Liu,Cui Wenbo,Haoran Li,Dongbin Zhao

from arxiv, 16 pages, 9 figures

Whole-body mobile manipulation is a fundamental capability for general-purpose robotic agents, requiring both coordinated control of the mobile base and manipulator and robust perception under dynamically changing viewpoints. However, existing approaches face two key challenges: strong coupling between base and arm actions complicates whole-body control optimization, and perceptual attention is often poorly allocated as viewpoints shift during mobile manipulation. We propose InCoM, an intent-driven perception and structured coordination framework for whole-body mobile manipulation. InCoM infers latent motion intent to dynamically reweight multi-scale perceptual features, enabling stage-adaptive allocation of perceptual attention. To support robust cross-modal perception, InCoM further incorporates a geometric-semantic structured alignment mechanism that enhances multimodal correspondence. On the control side, we design a decoupled coordinated flow matching action decoder that explicitly models coordinated base-arm action generation, alleviating optimization difficulties caused by control coupling. Without access to privileged perceptual information, InCoM outperforms state-of-the-art methods on three ManiSkill-HAB scenarios by 28.2%, 26.1%, and 23.6% in success rate, demonstrating strong effectiveness for whole-body mobile manipulation.

翻译：全身移动操作是通用机器人智能体的基本能力，既需要协调控制移动基座与机械臂，又要求在动态变化的视角下具备鲁棒的感知能力。然而，现有方法面临两大关键挑战：基座与手臂动作间的强耦合使全身控制优化复杂化；随着移动操作过程中视角变化，感知注意力的分配往往不佳。我们提出InCoM，一种面向全身移动操作的意图驱动感知与结构化协调框架。InCoM通过推断潜在运动意图来动态重加权多尺度感知特征，实现阶段自适应的感知注意力分配。为支持鲁棒的跨模态感知，InCoM进一步引入几何-语义结构化对齐机制，以增强多模态对应关系。在控制层面，我们设计了解耦协调流匹配动作解码器，显式建模协调的基座-手臂动作生成，从而缓解由控制耦合引起的优化困难。在未使用特权感知信息的条件下，InCoM在三个ManiSkill-HAB场景上的成功率分别超越现有最优方法28.2%、26.1%和23.6%，充分证明了其在全身移动操作任务中的卓越有效性。

0

相关内容

【博士论文】重新审视机器人安全性：面向真实世界自主运行的自适应与可扩展方法

【博士论文】重新审视机器人安全性：面向真实世界自主运行的自适应与可扩展方法

专知会员服务

12+阅读 · 2月25日

《面向大语言模型引导规划、赌徒驱动探索与多智能体导航的分层决策》最新180页

《面向大语言模型引导规划、赌徒驱动探索与多智能体导航的分层决策》最新180页

专知会员服务

26+阅读 · 2025年11月17日

【斯坦福博士论文】移动操作机器人的学习系统构建研究

【斯坦福博士论文】移动操作机器人的学习系统构建研究

专知会员服务

14+阅读 · 2025年11月14日

面向具身操作的视觉-语言-动作模型综述

面向具身操作的视觉-语言-动作模型综述

专知会员服务

28+阅读 · 2025年8月23日

具身智能学习综述：基于物理模拟器与世界模型的方法

具身智能学习综述：基于物理模拟器与世界模型的方法

专知会员服务

34+阅读 · 2025年7月2日

中文版 | 集中式与分布式多智能体AI协调策略

中文版 | 集中式与分布式多智能体AI协调策略

专知会员服务

20+阅读 · 2025年5月8日

多智能体协同决策研究全景透视：应用场景、研究方法、挑战与未来展望

多智能体协同决策研究全景透视：应用场景、研究方法、挑战与未来展望

专知会员服务

45+阅读 · 2025年3月20日

数据驱动的具身学习探索

数据驱动的具身学习探索

专知会员服务

11+阅读 · 2025年2月26日

《基于多智能体强化学习的异构平台数据驱动分布式共同作战图》最新论文

《基于多智能体强化学习的异构平台数据驱动分布式共同作战图》最新论文

专知会员服务

68+阅读 · 2025年2月21日

《基于多智能体强化学习的异构平台数据驱动分布式共同作战图景》

《基于多智能体强化学习的异构平台数据驱动分布式共同作战图景》

专知会员服务

89+阅读 · 2024年12月2日

《网络化传感器集成架构：未来多传感器多平台运行的赋能器》

《网络化传感器集成架构：未来多传感器多平台运行的赋能器》

专知

38+阅读 · 2023年4月11日

【ChatGPT系列报告】人工智能行业专题报告：多模态AI研究框架，17页ppt

【ChatGPT系列报告】人工智能行业专题报告：多模态AI研究框架，17页ppt

专知

23+阅读 · 2023年4月8日

推荐！【DARPA终身学习机器（L2M）】《自主系统中用于感知和行动的终身学习》美空军、宾大2022最新234页技术报告

推荐！【DARPA终身学习机器（L2M）】《自主系统中用于感知和行动的终身学习》美空军、宾大2022最新234页技术报告

专知

27+阅读 · 2022年11月24日

八千字长文深度解读，迁移学习在强化学习中的应用及最新进展

八千字长文深度解读，迁移学习在强化学习中的应用及最新进展

机器之心

13+阅读 · 2019年10月17日

机器人4.0白皮书（附下载）：云-边-端融合的机器人系统和架构

机器人4.0白皮书（附下载）：云-边-端融合的机器人系统和架构

机器人大讲堂

18+阅读 · 2019年7月5日

【泡泡图灵智库】自动驾驶中的基于立体视觉的3D语义物体和相机运动追踪（ECCV）

【泡泡图灵智库】自动驾驶中的基于立体视觉的3D语义物体和相机运动追踪（ECCV）

泡泡机器人SLAM

10+阅读 · 2019年4月18日

PlaNet 简介：用于强化学习的深度规划网络

PlaNet 简介：用于强化学习的深度规划网络

谷歌开发者

13+阅读 · 2019年3月16日

【协作机器人】人机协作机器人的核心是多传感器技术与智能控制算法、工业机器人协作应用挑战

【协作机器人】人机协作机器人的核心是多传感器技术与智能控制算法、工业机器人协作应用挑战

产业智能官

13+阅读 · 2019年1月17日

FAGAN：完全注意力机制（Full Attention）GAN，Self-attention+GAN

FAGAN：完全注意力机制（Full Attention）GAN，Self-attention+GAN

专知

32+阅读 · 2018年8月14日

【推荐】ResNet, AlexNet, VGG, Inception：各种卷积网络架构的理解

【推荐】ResNet, AlexNet, VGG, Inception：各种卷积网络架构的理解

机器学习研究会

20+阅读 · 2017年12月17日

融合人脑意图与力觉反馈的外骨骼机器人步态控制CPG模型及调节方法

国家自然科学基金

0+阅读 · 2015年12月31日

非结构环境下基于三维肢体动作理解的工业机器人交互技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

输入约束下的多智能体系统完全分布式协调控制研究

国家自然科学基金

5+阅读 · 2015年12月31日

仿人轻型机械臂人机协作模式关键技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

大功率柔顺驱动器的设计方法及能量优化和交互安全机理研究

国家自然科学基金

1+阅读 · 2015年12月31日

多旋翼空中操作机器人的一体化设计及动态运动规划

国家自然科学基金

1+阅读 · 2015年12月31日

机器灵巧手基于触滑觉信息协同的自适应力控制方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

压电智能作动器的高保真完整非线性动力学建模和高精度多通道运动协同同步控制系统一体化优化设计

国家自然科学基金

0+阅读 · 2014年12月31日

基于深度学习的特征融合在移动机器人视觉中的场景理解及研究

国家自然科学基金

12+阅读 · 2014年12月31日

基于逆向强化学习和人工智能的移动机器人自主学习方法研究

国家自然科学基金

12+阅读 · 2013年12月31日

SaPaVe: Towards Active Perception and Manipulation in Vision-Language-Action Models for Robotics

Arxiv

0+阅读 · 3月12日

PhysiFlow: Physics-Aware Humanoid Whole-Body VLA via Multi-Brain Latent Flow Matching and Robust Tracking

Arxiv

0+阅读 · 3月5日

ULTRA: Unified Multimodal Control for Autonomous Humanoid Whole-Body Loco-Manipulation

Arxiv

0+阅读 · 3月3日

I-Perceive: A Foundation Model for Active Perception with Language Instructions

Arxiv

0+阅读 · 2月28日

CLOT: Closed-Loop Global Motion Tracking for Whole-Body Humanoid Teleoperation

Arxiv

0+阅读 · 2月20日

AdaptManip: Learning Adaptive Whole-Body Object Lifting and Delivery with Online Recurrent State Estimation

Arxiv

0+阅读 · 2月16日

TriPilot-FF: Coordinated Whole-Body Teleoperation with Force Feedback

Arxiv

0+阅读 · 2月10日

TeleGate: Whole-Body Humanoid Teleoperation via Gated Expert Selection with Motion Prior

Arxiv

0+阅读 · 2月10日

InterPrior: Scaling Generative Control for Physics-Based Human-Object Interactions

Arxiv

0+阅读 · 2月5日

3D Dynamics-Aware Manipulation: Endowing Manipulation Policies with 3D Foresight

Arxiv

0+阅读 · 2月2日

VIP会员

文章信息

相关主题

最新内容

美国力量的新架构：Anduril、Palantir、SpaceX 与美国军工格局的转型

美国力量的新架构：Anduril、Palantir、SpaceX 与美国军工格局的转型

专知会员服务

2+阅读 · 今天0:51

机器人领域中的视觉-语言-动作模型：数据集、基准测试与数据引擎综述

机器人领域中的视觉-语言-动作模型：数据集、基准测试与数据引擎综述

专知会员服务

2+阅读 · 4月29日

主权智能前沿：战略霸权与算法战争代差的比较分析——第二部分

主权智能前沿：战略霸权与算法战争代差的比较分析——第二部分

专知会员服务

6+阅读 · 4月29日

万亿美元智能竞赛：OpenAI的主权崛起与数字神经系统的高风险博弈——第一部分

万亿美元智能竞赛：OpenAI的主权崛起与数字神经系统的高风险博弈——第一部分

专知会员服务

5+阅读 · 4月29日

《忠诚僚机、人工智能与认知增强：对赛博格-无人机战争的警示》

《忠诚僚机、人工智能与认知增强：对赛博格-无人机战争的警示》

专知会员服务

5+阅读 · 4月29日

《化繁为简：军事模拟器配置的对话式方法》报告

《化繁为简：军事模拟器配置的对话式方法》报告

专知会员服务

6+阅读 · 4月29日

《人机协同研究报告——衡量与预测技术流利性：知识、技能、能力及其他行为如何促成技术精通》146页

《人机协同研究报告——衡量与预测技术流利性：知识、技能、能力及其他行为如何促成技术精通》146页

专知会员服务

9+阅读 · 4月29日

《新兴技术武器化及其对全球风险的影响》

《新兴技术武器化及其对全球风险的影响》

专知会员服务

7+阅读 · 4月29日

《帕兰泰尔平台介绍：信息分析平台》

《帕兰泰尔平台介绍：信息分析平台》

专知会员服务

17+阅读 · 4月29日

Maven智能系统（MSS）如何赋能第三方解决方案：北约视角

Maven智能系统（MSS）如何赋能第三方解决方案：北约视角

专知会员服务

10+阅读 · 4月29日

【伯克利博士论文】深度解析 AI 智能体的失配问题

【伯克利博士论文】深度解析 AI 智能体的失配问题

专知会员服务

8+阅读 · 4月28日

智能体化世界建模：基础、能力、规律及展望

智能体化世界建模：基础、能力、规律及展望

专知会员服务

11+阅读 · 4月28日

MIT人机协同水下作业关键技术研究——集成适配至美国海军现役AUV

MIT人机协同水下作业关键技术研究——集成适配至美国海军现役AUV

专知会员服务

8+阅读 · 4月28日

美海警海上态势感知无人系统

美海警海上态势感知无人系统

专知会员服务

6+阅读 · 4月28日

安杜里尔Lattice平台的发展演变：美军多域自主作战的核心软件架构

安杜里尔Lattice平台的发展演变：美军多域自主作战的核心软件架构

专知会员服务

10+阅读 · 4月28日

相关VIP内容

【博士论文】重新审视机器人安全性：面向真实世界自主运行的自适应与可扩展方法

【博士论文】重新审视机器人安全性：面向真实世界自主运行的自适应与可扩展方法

专知会员服务

12+阅读 · 2月25日

《面向大语言模型引导规划、赌徒驱动探索与多智能体导航的分层决策》最新180页

《面向大语言模型引导规划、赌徒驱动探索与多智能体导航的分层决策》最新180页

专知会员服务

26+阅读 · 2025年11月17日

【斯坦福博士论文】移动操作机器人的学习系统构建研究

【斯坦福博士论文】移动操作机器人的学习系统构建研究

专知会员服务

14+阅读 · 2025年11月14日

面向具身操作的视觉-语言-动作模型综述

面向具身操作的视觉-语言-动作模型综述

专知会员服务

28+阅读 · 2025年8月23日

具身智能学习综述：基于物理模拟器与世界模型的方法

具身智能学习综述：基于物理模拟器与世界模型的方法

专知会员服务

34+阅读 · 2025年7月2日

中文版 | 集中式与分布式多智能体AI协调策略

中文版 | 集中式与分布式多智能体AI协调策略

专知会员服务

20+阅读 · 2025年5月8日

多智能体协同决策研究全景透视：应用场景、研究方法、挑战与未来展望

多智能体协同决策研究全景透视：应用场景、研究方法、挑战与未来展望

专知会员服务

45+阅读 · 2025年3月20日

数据驱动的具身学习探索

数据驱动的具身学习探索

专知会员服务

11+阅读 · 2025年2月26日

《基于多智能体强化学习的异构平台数据驱动分布式共同作战图》最新论文

《基于多智能体强化学习的异构平台数据驱动分布式共同作战图》最新论文

专知会员服务

68+阅读 · 2025年2月21日

《基于多智能体强化学习的异构平台数据驱动分布式共同作战图景》

《基于多智能体强化学习的异构平台数据驱动分布式共同作战图景》

专知会员服务

89+阅读 · 2024年12月2日

热门VIP内容

开通专知VIP会员享更多权益服务

机器人领域中的视觉-语言-动作模型：数据集、基准测试与数据引擎综述

万亿美元智能竞赛：OpenAI的主权崛起与数字神经系统的高风险博弈——第一部分

美国力量的新架构：Anduril、Palantir、SpaceX 与美国军工格局的转型

主权智能前沿：战略霸权与算法战争代差的比较分析——第二部分

相关资讯

《网络化传感器集成架构：未来多传感器多平台运行的赋能器》

《网络化传感器集成架构：未来多传感器多平台运行的赋能器》

专知

38+阅读 · 2023年4月11日

【ChatGPT系列报告】人工智能行业专题报告：多模态AI研究框架，17页ppt

【ChatGPT系列报告】人工智能行业专题报告：多模态AI研究框架，17页ppt

专知

23+阅读 · 2023年4月8日

推荐！【DARPA终身学习机器（L2M）】《自主系统中用于感知和行动的终身学习》美空军、宾大2022最新234页技术报告

推荐！【DARPA终身学习机器（L2M）】《自主系统中用于感知和行动的终身学习》美空军、宾大2022最新234页技术报告

专知

27+阅读 · 2022年11月24日

八千字长文深度解读，迁移学习在强化学习中的应用及最新进展

八千字长文深度解读，迁移学习在强化学习中的应用及最新进展

机器之心

13+阅读 · 2019年10月17日

机器人4.0白皮书（附下载）：云-边-端融合的机器人系统和架构

机器人4.0白皮书（附下载）：云-边-端融合的机器人系统和架构

机器人大讲堂

18+阅读 · 2019年7月5日

【泡泡图灵智库】自动驾驶中的基于立体视觉的3D语义物体和相机运动追踪（ECCV）

【泡泡图灵智库】自动驾驶中的基于立体视觉的3D语义物体和相机运动追踪（ECCV）

泡泡机器人SLAM

10+阅读 · 2019年4月18日

PlaNet 简介：用于强化学习的深度规划网络

PlaNet 简介：用于强化学习的深度规划网络

谷歌开发者

13+阅读 · 2019年3月16日

【协作机器人】人机协作机器人的核心是多传感器技术与智能控制算法、工业机器人协作应用挑战

【协作机器人】人机协作机器人的核心是多传感器技术与智能控制算法、工业机器人协作应用挑战

产业智能官

13+阅读 · 2019年1月17日

FAGAN：完全注意力机制（Full Attention）GAN，Self-attention+GAN

FAGAN：完全注意力机制（Full Attention）GAN，Self-attention+GAN

专知

32+阅读 · 2018年8月14日

【推荐】ResNet, AlexNet, VGG, Inception：各种卷积网络架构的理解

【推荐】ResNet, AlexNet, VGG, Inception：各种卷积网络架构的理解

机器学习研究会

20+阅读 · 2017年12月17日

相关论文

SaPaVe: Towards Active Perception and Manipulation in Vision-Language-Action Models for Robotics

Arxiv

0+阅读 · 3月12日

PhysiFlow: Physics-Aware Humanoid Whole-Body VLA via Multi-Brain Latent Flow Matching and Robust Tracking

Arxiv

0+阅读 · 3月5日

ULTRA: Unified Multimodal Control for Autonomous Humanoid Whole-Body Loco-Manipulation

Arxiv

0+阅读 · 3月3日

I-Perceive: A Foundation Model for Active Perception with Language Instructions

Arxiv

0+阅读 · 2月28日

CLOT: Closed-Loop Global Motion Tracking for Whole-Body Humanoid Teleoperation

Arxiv

0+阅读 · 2月20日

AdaptManip: Learning Adaptive Whole-Body Object Lifting and Delivery with Online Recurrent State Estimation

Arxiv

0+阅读 · 2月16日

TriPilot-FF: Coordinated Whole-Body Teleoperation with Force Feedback

Arxiv

0+阅读 · 2月10日

TeleGate: Whole-Body Humanoid Teleoperation via Gated Expert Selection with Motion Prior

Arxiv

0+阅读 · 2月10日

InterPrior: Scaling Generative Control for Physics-Based Human-Object Interactions

Arxiv

0+阅读 · 2月5日

3D Dynamics-Aware Manipulation: Endowing Manipulation Policies with 3D Foresight

Arxiv

0+阅读 · 2月2日

相关基金

融合人脑意图与力觉反馈的外骨骼机器人步态控制CPG模型及调节方法

国家自然科学基金

0+阅读 · 2015年12月31日

非结构环境下基于三维肢体动作理解的工业机器人交互技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

输入约束下的多智能体系统完全分布式协调控制研究

国家自然科学基金

5+阅读 · 2015年12月31日

仿人轻型机械臂人机协作模式关键技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

大功率柔顺驱动器的设计方法及能量优化和交互安全机理研究

国家自然科学基金

1+阅读 · 2015年12月31日

多旋翼空中操作机器人的一体化设计及动态运动规划

国家自然科学基金

1+阅读 · 2015年12月31日

机器灵巧手基于触滑觉信息协同的自适应力控制方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

压电智能作动器的高保真完整非线性动力学建模和高精度多通道运动协同同步控制系统一体化优化设计

国家自然科学基金

0+阅读 · 2014年12月31日

基于深度学习的特征融合在移动机器人视觉中的场景理解及研究

国家自然科学基金

12+阅读 · 2014年12月31日

基于逆向强化学习和人工智能的移动机器人自主学习方法研究

国家自然科学基金

12+阅读 · 2013年12月31日

微信扫码咨询专知VIP会员