StableIDM: Stabilizing Inverse Dynamics Model against Manipulator Truncation via Spatio-Temporal Refinement - 专知论文

会员服务 ·

0

精化 · 机械臂 · 动力学模型 · 稳定化 · 标注 ·

StableIDM: Stabilizing Inverse Dynamics Model against Manipulator Truncation via Spatio-Temporal Refinement

翻译：稳定化逆动力学模型：基于时空精化应对机械臂截断问题

Kerui Li,Zhe Jing,Xiaofeng Wang,Zheng Zhu,Yukun Zhou,Guan Huang,Dongze Li,Qingkai Yang,Huaibo Huang

Inverse Dynamics Models (IDMs) map visual observations to low-level action commands, serving as central components for data labeling and policy execution in embodied AI. However, their performance degrades severely under manipulator truncation, a common failure mode that makes state recovery ill-posed and leads to unstable control. We present StableIDM, a spatio-temporal framework that refines features from visual inputs to stabilize action predictions under such partial observability. StableIDM integrates three complementary components: (1) auxiliary robot-centric masking to suppress background clutter, (2) Directional Feature Aggregation (DFA) for geometry-aware spatial reasoning, which extracts anisotropic features along directions inferred from the visible arm and (3) Temporal Dynamics Refinement (TDR) to smooth and correct predictions via motion continuity. Extensive evaluations validate our approach: StableIDM improves strict action accuracy by 12.1% under severe truncation on the AgiBot benchmark, and increases average task success by 9.7% in real-robot replay. Moreover, it boosts end-to-end grasp success by 11.5% when decoding video-generated plans, and improves downstream VLA real-robot success by 17.6% when functioning as an automatic annotator. These results demonstrate that StableIDM provides a robust and scalable backbone for both policy execution and data generation in embodied artificial intelligence.

翻译：逆动力学模型将视觉观测映射为底层动作指令，是具身智能中数据标注与策略执行的核心组件。然而，当面临机械臂截断这一常见失效模式时，其性能显著下降——该问题导致状态恢复不适定并引发控制不稳定。本文提出StableIDM，一种通过精化视觉输入特征来稳定部分可观测条件下动作预测的时空框架。StableIDM集成了三个互补模块：(1)辅助式机器人中心化掩膜以抑制背景干扰，(2)方向性特征聚合用于几何感知空间推理——沿可见机械臂推断方向提取各向异性特征，(3)时间动态精化模块通过运动连续性平滑并修正预测。大量实验验证了该方法：在AgiBot基准测试中，StableIDM在严重截断场景下将严格动作准确率提升12.1%；在真实机器人复现中使平均任务成功率提升9.7%。当解码视频生成规划时，其将端到端抓取成功率提升11.5%；作为自动标注器时，使下游VLA真实机器人任务成功率提升17.6%。结果表明StableIDM为具身人工智能中的策略执行与数据生成提供了鲁棒且可扩展的基础架构。

0

相关内容

【ICML 2026】 StableVLA：无需额外数据，基于信息瓶颈的自适应鲁棒性视觉-语言-动作模型

【ICML 2026】 StableVLA：无需额外数据，基于信息瓶颈的自适应鲁棒性视觉-语言-动作模型

专知会员服务

6+阅读 · 5月19日

【斯坦福大学博士论文】学习连续体机器人控制中的主要动力学

【斯坦福大学博士论文】学习连续体机器人控制中的主要动力学

专知会员服务

16+阅读 · 2025年4月19日

非Transformer不可？最新《状态空间模型（SSM）》综述

非Transformer不可？最新《状态空间模型（SSM）》综述

专知会员服务

75+阅读 · 2024年4月16日

MILA等最新《强化学习Transformer模型》综述，详述表征学习、奖励建模、转换函数建模和策略学习等技术

MILA等最新《强化学习Transformer模型》综述，详述表征学习、奖励建模、转换函数建模和策略学习等技术

专知会员服务

61+阅读 · 2023年7月16日

21种Transformers目标检测方法！德国人工智能研究中心等最新《Transformers 2D目标检测》综述

21种Transformers目标检测方法！德国人工智能研究中心等最新《Transformers 2D目标检测》综述

专知会员服务

57+阅读 · 2023年6月9日

自动化所研发全球首个图文音三模态预训练模型，让AI更接近人类想象力！

自动化所研发全球首个图文音三模态预训练模型，让AI更接近人类想象力！

专知会员服务

35+阅读 · 2021年7月8日

【NeurIPS 2020】耶鲁大学等提出「AdaBelief」的新型优化器，速度快，训练稳，泛化强

专知会员服务

18+阅读 · 2020年10月19日

【商汤科技】可变形Transformers端到端对象检测，Deformable DETR

【商汤科技】可变形Transformers端到端对象检测，Deformable DETR

专知会员服务

33+阅读 · 2020年10月11日

【ECCV2020】通过最小化逆动力学分歧来实现从观察中模仿学习

【ECCV2020】通过最小化逆动力学分歧来实现从观察中模仿学习

专知会员服务

15+阅读 · 2020年9月6日

【Google AI新论文EfficientDet】规模化高效化的物体检测，EfficientDet: Scalable and Efficient Object Detection(附pdf)

【Google AI新论文EfficientDet】规模化高效化的物体检测，EfficientDet: Scalable and Efficient Object Detection(附pdf)

专知会员服务

27+阅读 · 2019年11月24日

推荐！《不确定性下的作战决策：推理、序贯和对抗性方法》美国空军293页博士论文，含代码

推荐！《不确定性下的作战决策：推理、序贯和对抗性方法》美国空军293页博士论文，含代码

专知

52+阅读 · 2022年11月16日

基于模型的强化学习综述

基于模型的强化学习综述

专知

42+阅读 · 2022年7月13日

【商汤科技】可变形Transformers端到端对象检测，Deformable DETR

【商汤科技】可变形Transformers端到端对象检测，Deformable DETR

专知

18+阅读 · 2020年10月11日

绝对干货！NLP预训练模型：从transformer到albert

绝对干货！NLP预训练模型：从transformer到albert

新智元

13+阅读 · 2019年11月10日

初学者系列：Attentional Factorization Machines（AFM）详解

初学者系列：Attentional Factorization Machines（AFM）详解

专知

82+阅读 · 2019年9月16日

谷歌NIPS论文Transformer模型解读：只要Attention就够了

谷歌NIPS论文Transformer模型解读：只要Attention就够了

AI100

14+阅读 · 2019年9月9日

使用强化学习训练机械臂完成人类任务

使用强化学习训练机械臂完成人类任务

AI研习社

14+阅读 · 2019年3月23日

用模型不确定性理解模型

用模型不确定性理解模型

论智

11+阅读 · 2018年9月5日

纵览轻量化卷积神经网络：SqueezeNet、MobileNet、ShuffleNet、Xception

纵览轻量化卷积神经网络：SqueezeNet、MobileNet、ShuffleNet、Xception

机器之心

11+阅读 · 2018年1月8日

模型汇总24 - 深度学习中Attention Mechanism详细介绍：原理、分类及应用

模型汇总24 - 深度学习中Attention Mechanism详细介绍：原理、分类及应用

深度学习与NLP

12+阅读 · 2017年11月30日

面向动态演化的网构软件失效机理与测评方法

国家自然科学基金

1+阅读 · 2015年12月31日

随机振动响应预测中的模型形式不确定性量化方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于偶应力/应变梯度的无铰链式微型柔顺机构构型设计理论

国家自然科学基金

0+阅读 · 2015年12月31日

仿人轻型机械臂人机协作模式关键技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

长寿命空间机械臂在轨故障诊断、容错和预测策略研究

国家自然科学基金

0+阅读 · 2015年12月31日

变工况机械动态信号瞬时耦合的理解、识别与故障预示

国家自然科学基金

2+阅读 · 2015年12月31日

含不确定性区间参数的刚柔耦合多体系统动力学建模与分析

国家自然科学基金

0+阅读 · 2014年12月31日

不确定结构可靠寿命设计的时变高精度模型和序列优化问题研究

国家自然科学基金

0+阅读 · 2014年12月31日

在多尺度系统中具有稳定性交替的空间对照结构研究

国家自然科学基金

1+阅读 · 2014年12月31日

基于逆向强化学习和人工智能的移动机器人自主学习方法研究

国家自然科学基金

12+阅读 · 2013年12月31日

RopeDreamer: A Kinematic Recurrent State Space Model for Dynamics of Flexible Deformable Linear Objects

Arxiv

0+阅读 · 4月30日

Geometric Inverse Flight Dynamics on SO(3) and Application to Tethered Fixed-Wing Aircraft

Arxiv

0+阅读 · 4月29日

Adaptive vs. Static Robot-to-Human Handover: A Study on Orientation and Approach Direction

Arxiv

0+阅读 · 4月24日

ST-$π$: Structured SpatioTemporal VLA for Robotic Manipulation

Arxiv

0+阅读 · 4月20日

Constrained Decoding for Safe Robot Navigation Foundation Models

Arxiv

0+阅读 · 4月16日

Persistent Robot World Models: Stabilizing Multi-Step Rollouts via Reinforcement Learning

Arxiv

0+阅读 · 3月26日

EVA: Aligning Video World Models with Executable Robot Actions via Inverse Dynamics Rewards

Arxiv

0+阅读 · 3月24日

Learning Actuator-Aware Spectral Submanifolds for Precise Control of Continuum Robots

Arxiv

0+阅读 · 3月24日

Direct Data-Driven Predictive Control for a Three-dimensional Cable-Driven Soft Robotic Arm

Arxiv

0+阅读 · 3月19日

EVA: Aligning Video World Models with Executable Robot Actions via Inverse Dynamics Rewards

Arxiv

0+阅读 · 3月18日

VIP会员

文章信息

相关主题

动力学模型

最新内容

美国从乌克兰无人机战争中学习经验

美国从乌克兰无人机战争中学习经验

专知会员服务

1+阅读 · 今天15:03

ICML 2026 | 面向视觉语言模型的语义鲁棒性认证

ICML 2026 | 面向视觉语言模型的语义鲁棒性认证

专知会员服务

0+阅读 · 今天14:31

综述 | 智能体电子设计自动化：从“交接有效性”重新理解Agentic EDA

综述 | 智能体电子设计自动化：从“交接有效性”重新理解Agentic EDA

专知会员服务

0+阅读 · 今天14:29

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

专知会员服务

12+阅读 · 6月20日

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

专知会员服务

4+阅读 · 6月19日

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

专知会员服务

7+阅读 · 6月19日

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

专知会员服务

6+阅读 · 6月18日

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

专知会员服务

8+阅读 · 6月18日

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

专知会员服务

11+阅读 · 6月18日

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

专知会员服务

11+阅读 · 6月18日

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

专知会员服务

7+阅读 · 6月17日

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

专知会员服务

12+阅读 · 6月17日

学习数据的几何：形状空间分析数学综述

学习数据的几何：形状空间分析数学综述

专知会员服务

8+阅读 · 6月17日

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

专知会员服务

21+阅读 · 6月17日

定向能反无人机系统最新发展动态

定向能反无人机系统最新发展动态

专知会员服务

10+阅读 · 6月17日

相关VIP内容

【ICML 2026】 StableVLA：无需额外数据，基于信息瓶颈的自适应鲁棒性视觉-语言-动作模型

【ICML 2026】 StableVLA：无需额外数据，基于信息瓶颈的自适应鲁棒性视觉-语言-动作模型

专知会员服务

6+阅读 · 5月19日

【斯坦福大学博士论文】学习连续体机器人控制中的主要动力学

【斯坦福大学博士论文】学习连续体机器人控制中的主要动力学

专知会员服务

16+阅读 · 2025年4月19日

非Transformer不可？最新《状态空间模型（SSM）》综述

非Transformer不可？最新《状态空间模型（SSM）》综述

专知会员服务

75+阅读 · 2024年4月16日

MILA等最新《强化学习Transformer模型》综述，详述表征学习、奖励建模、转换函数建模和策略学习等技术

MILA等最新《强化学习Transformer模型》综述，详述表征学习、奖励建模、转换函数建模和策略学习等技术

专知会员服务

61+阅读 · 2023年7月16日

21种Transformers目标检测方法！德国人工智能研究中心等最新《Transformers 2D目标检测》综述

21种Transformers目标检测方法！德国人工智能研究中心等最新《Transformers 2D目标检测》综述

专知会员服务

57+阅读 · 2023年6月9日

自动化所研发全球首个图文音三模态预训练模型，让AI更接近人类想象力！

自动化所研发全球首个图文音三模态预训练模型，让AI更接近人类想象力！

专知会员服务

35+阅读 · 2021年7月8日

【NeurIPS 2020】耶鲁大学等提出「AdaBelief」的新型优化器，速度快，训练稳，泛化强

专知会员服务

18+阅读 · 2020年10月19日

【商汤科技】可变形Transformers端到端对象检测，Deformable DETR

【商汤科技】可变形Transformers端到端对象检测，Deformable DETR

专知会员服务

33+阅读 · 2020年10月11日

【ECCV2020】通过最小化逆动力学分歧来实现从观察中模仿学习

【ECCV2020】通过最小化逆动力学分歧来实现从观察中模仿学习

专知会员服务

15+阅读 · 2020年9月6日

【Google AI新论文EfficientDet】规模化高效化的物体检测，EfficientDet: Scalable and Efficient Object Detection(附pdf)

【Google AI新论文EfficientDet】规模化高效化的物体检测，EfficientDet: Scalable and Efficient Object Detection(附pdf)

专知会员服务

27+阅读 · 2019年11月24日

热门VIP内容

开通专知VIP会员享更多权益服务

ICML 2026 | 面向视觉语言模型的语义鲁棒性认证

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

美国从乌克兰无人机战争中学习经验

综述 | 智能体电子设计自动化：从“交接有效性”重新理解Agentic EDA

相关资讯

推荐！《不确定性下的作战决策：推理、序贯和对抗性方法》美国空军293页博士论文，含代码

推荐！《不确定性下的作战决策：推理、序贯和对抗性方法》美国空军293页博士论文，含代码

专知

52+阅读 · 2022年11月16日

基于模型的强化学习综述

基于模型的强化学习综述

专知

42+阅读 · 2022年7月13日

【商汤科技】可变形Transformers端到端对象检测，Deformable DETR

【商汤科技】可变形Transformers端到端对象检测，Deformable DETR

专知

18+阅读 · 2020年10月11日

绝对干货！NLP预训练模型：从transformer到albert

绝对干货！NLP预训练模型：从transformer到albert

新智元

13+阅读 · 2019年11月10日

初学者系列：Attentional Factorization Machines（AFM）详解

初学者系列：Attentional Factorization Machines（AFM）详解

专知

82+阅读 · 2019年9月16日

谷歌NIPS论文Transformer模型解读：只要Attention就够了

谷歌NIPS论文Transformer模型解读：只要Attention就够了

AI100

14+阅读 · 2019年9月9日

使用强化学习训练机械臂完成人类任务

使用强化学习训练机械臂完成人类任务

AI研习社

14+阅读 · 2019年3月23日

用模型不确定性理解模型

用模型不确定性理解模型

论智

11+阅读 · 2018年9月5日

纵览轻量化卷积神经网络：SqueezeNet、MobileNet、ShuffleNet、Xception

纵览轻量化卷积神经网络：SqueezeNet、MobileNet、ShuffleNet、Xception

机器之心

11+阅读 · 2018年1月8日

模型汇总24 - 深度学习中Attention Mechanism详细介绍：原理、分类及应用

模型汇总24 - 深度学习中Attention Mechanism详细介绍：原理、分类及应用

深度学习与NLP

12+阅读 · 2017年11月30日

相关论文

RopeDreamer: A Kinematic Recurrent State Space Model for Dynamics of Flexible Deformable Linear Objects

Arxiv

0+阅读 · 4月30日

Geometric Inverse Flight Dynamics on SO(3) and Application to Tethered Fixed-Wing Aircraft

Arxiv

0+阅读 · 4月29日

Adaptive vs. Static Robot-to-Human Handover: A Study on Orientation and Approach Direction

Arxiv

0+阅读 · 4月24日

ST-$π$: Structured SpatioTemporal VLA for Robotic Manipulation

Arxiv

0+阅读 · 4月20日

Constrained Decoding for Safe Robot Navigation Foundation Models

Arxiv

0+阅读 · 4月16日

Persistent Robot World Models: Stabilizing Multi-Step Rollouts via Reinforcement Learning

Arxiv

0+阅读 · 3月26日

EVA: Aligning Video World Models with Executable Robot Actions via Inverse Dynamics Rewards

Arxiv

0+阅读 · 3月24日

Learning Actuator-Aware Spectral Submanifolds for Precise Control of Continuum Robots

Arxiv

0+阅读 · 3月24日

Direct Data-Driven Predictive Control for a Three-dimensional Cable-Driven Soft Robotic Arm

Arxiv

0+阅读 · 3月19日

EVA: Aligning Video World Models with Executable Robot Actions via Inverse Dynamics Rewards

Arxiv

0+阅读 · 3月18日

相关基金

面向动态演化的网构软件失效机理与测评方法

国家自然科学基金

1+阅读 · 2015年12月31日

随机振动响应预测中的模型形式不确定性量化方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于偶应力/应变梯度的无铰链式微型柔顺机构构型设计理论

国家自然科学基金

0+阅读 · 2015年12月31日

仿人轻型机械臂人机协作模式关键技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

长寿命空间机械臂在轨故障诊断、容错和预测策略研究

国家自然科学基金

0+阅读 · 2015年12月31日

变工况机械动态信号瞬时耦合的理解、识别与故障预示

国家自然科学基金

2+阅读 · 2015年12月31日

含不确定性区间参数的刚柔耦合多体系统动力学建模与分析

国家自然科学基金

0+阅读 · 2014年12月31日

不确定结构可靠寿命设计的时变高精度模型和序列优化问题研究

国家自然科学基金

0+阅读 · 2014年12月31日

在多尺度系统中具有稳定性交替的空间对照结构研究

国家自然科学基金

1+阅读 · 2014年12月31日

基于逆向强化学习和人工智能的移动机器人自主学习方法研究

国家自然科学基金

12+阅读 · 2013年12月31日

微信扫码咨询专知VIP会员