Mimic Intent, Not Just Trajectories - 专知论文

会员服务 ·

0

多尺度 · 结构 · 操作 · 粒度 · 泛化 ·

Mimic Intent, Not Just Trajectories

翻译：模仿意图，而非仅轨迹

Renming Huang,Chendong Zeng,Wenjing Tang,Jintian Cai,Cewu Lu,Panpan Cai

from arxiv, Under review

While imitation learning (IL) has achieved impressive success in dexterous manipulation through generative modeling and pretraining, state-of-the-art approaches like Vision-Language-Action (VLA) models still struggle with adaptation to environmental changes and skill transfer. We argue this stems from mimicking raw trajectories without understanding the underlying intent. To address this, we propose explicitly disentangling behavior intent from execution details in end-2-end IL: Mimic Intent, Not just Trajectories(MINT). We achieve this via multi-scale frequency-space tokenization, which enforces a spectral decomposition of action chunk representation. We learn action tokens with a multi-scale coarse-to-fine structure, and force the coarsest token to capture low-frequency global structure and finer tokens to encode high-frequency details. This yields an abstract Intent token that facilitates planning and transfer, and multi-scale Execution tokens that enable precise adaptation to environmental dynamics. Building on this hierarchy, our policy generates trajectories through next-scale autoregression, performing progressive intent-to-execution reasoning, thus boosting learning efficiency and generalization. Crucially, this disentanglement enables one-shot transfer of skills, by simply injecting the Intent token from a demonstration into the autoregressive generation process. Experiments on several manipulation benchmarks and on a real robot demonstrate state-of-the-art success rates, superior inference efficiency, robust generalization against disturbances, and effective one-shot transfer.

翻译：尽管模仿学习（IL）通过生成建模与预训练在灵巧操作任务中取得了显著成就，但当前最先进的方法如视觉-语言-动作（VLA）模型在适应环境变化与技能迁移方面仍面临挑战。我们认为这源于仅模仿原始轨迹而未理解其底层意图。为解决此问题，我们提出在端到端IL中显式解耦行为意图与执行细节：模仿意图，而非仅轨迹（MINT）。我们通过多尺度频域空间标记化实现这一目标，该方法强制对动作块表示进行频谱分解。我们学习具有多尺度由粗到细结构的动作标记，并强制最粗粒度的标记捕获低频全局结构，而更细粒度的标记编码高频细节。这产生了一个抽象的意图标记以促进规划与迁移，以及多尺度执行标记以实现对环境动态的精确适应。基于此层级结构，我们的策略通过下一尺度自回归生成轨迹，执行渐进式的意图到执行推理，从而提升学习效率与泛化能力。关键在于，这种解耦实现了技能的单次迁移，仅需将演示中的意图标记注入自回归生成过程。在多个操作基准测试及真实机器人上的实验表明，该方法取得了最先进的成功率、优越的推理效率、针对扰动的鲁棒泛化能力以及有效的单次迁移性能。

0

相关内容

多尺度

144页ppt《扩散模型》，Google DeepMind Sander Dieleman

144页ppt《扩散模型》，Google DeepMind Sander Dieleman

专知会员服务

51+阅读 · 2025年11月21日

深度学习时代的模仿学习：新型分类体系与最新研究进展

深度学习时代的模仿学习：新型分类体系与最新研究进展

专知会员服务

11+阅读 · 2025年11月6日

70页pdf《视觉-语言-动作模型综述：一种基于动作离散化的视角》

70页pdf《视觉-语言-动作模型综述：一种基于动作离散化的视角》

专知会员服务

21+阅读 · 2025年7月3日

视觉语言动作模型：概念、进展、应用与挑战

视觉语言动作模型：概念、进展、应用与挑战

专知会员服务

19+阅读 · 2025年5月18日

【牛津大学博士论文】组合优化和接触追踪的模仿学习，229页pdf

【牛津大学博士论文】组合优化和接触追踪的模仿学习，229页pdf

专知会员服务

28+阅读 · 2023年11月14日

南京大学&港中文联合总结: 29页中文详述《模仿学习》完整过程

南京大学&港中文联合总结: 29页中文详述《模仿学习》完整过程

专知会员服务

63+阅读 · 2022年2月3日

【ICML2021】预测观察进行模仿学习

专知会员服务

24+阅读 · 2021年7月10日

模仿学习: 进展，分类和机会

专知会员服务

48+阅读 · 2021年7月2日

最新《模仿学习(Imitation Learning》进展报告, 加州理工Yisong Yue教授，附下载

最新《模仿学习(Imitation Learning》进展报告, 加州理工Yisong Yue教授，附下载

专知会员服务

41+阅读 · 2020年12月6日

【CoRL2019最佳论文】模仿学习，A Divergence Minimization Perspective on Imitation Learning Methods

【CoRL2019最佳论文】模仿学习，A Divergence Minimization Perspective on Imitation Learning Methods

专知会员服务

24+阅读 · 2019年11月11日

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

专知

21+阅读 · 2019年11月14日

谷歌NIPS论文Transformer模型解读：只要Attention就够了

谷歌NIPS论文Transformer模型解读：只要Attention就够了

AI100

14+阅读 · 2019年9月9日

你的TextGAN调出来了么？来看看人在怎么调的

你的TextGAN调出来了么？来看看人在怎么调的

专知

85+阅读 · 2019年6月6日

【CVPR Oral】视频跟踪新思路，完全无需手工标注

【CVPR Oral】视频跟踪新思路，完全无需手工标注

新智元

19+阅读 · 2019年4月21日

深入理解BERT Transformer ，不仅仅是注意力机制

深入理解BERT Transformer ，不仅仅是注意力机制

大数据文摘

22+阅读 · 2019年3月19日

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

机器之心

15+阅读 · 2019年3月18日

这可能是「多模态机器学习」最通俗易懂的介绍

这可能是「多模态机器学习」最通俗易懂的介绍

计算机视觉life

113+阅读 · 2018年12月20日

用模型不确定性理解模型

用模型不确定性理解模型

论智

11+阅读 · 2018年9月5日

图像和文本的融合表示学习——Text2Image和Image2Text

图像和文本的融合表示学习——Text2Image和Image2Text

专知

125+阅读 · 2018年6月11日

自然语言处理中的Attention Model：是什么及为什么

自然语言处理中的Attention Model：是什么及为什么

新智元

11+阅读 · 2017年7月13日

基于时空模式的复杂行为识别方法研究

国家自然科学基金

2+阅读 · 2017年12月31日

从仿生的角度设计用于指导构建组织支架的单元细胞模块、有限元分析以及3D打印工艺路径规划

国家自然科学基金

0+阅读 · 2015年12月31日

结合知识图谱的概率话题模型研究

国家自然科学基金

10+阅读 · 2015年12月31日

人类视空间分类的神经机制

国家自然科学基金

1+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

深度学习框架下基于情境线索的视觉注意研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于螺旋理论的空间近距离相对运动建模方法与姿轨耦合控制研究

国家自然科学基金

0+阅读 · 2014年12月31日

模仿型新产品开发过程及对新产品绩效的影响机制：中、美、印的跨国研究

国家自然科学基金

0+阅读 · 2014年12月31日

行为轨迹数据高性能时空聚类及社会分析

国家自然科学基金

2+阅读 · 2014年12月31日

数据和模型混合驱动的虚拟人群行为仿真技术研究及其在军事中的应用

国家自然科学基金

10+阅读 · 2011年12月31日

Seeing Realism from Simulation: Efficient Video Transfer for Vision-Language-Action Data Augmentation

Arxiv

0+阅读 · 5月4日

Orion-Lite: Distilling LLM Reasoning into Efficient Vision-Only Driving Models

Arxiv

0+阅读 · 4月9日

Grounding Hierarchical Vision-Language-Action Models Through Explicit Language-Action Alignment

Arxiv

0+阅读 · 4月7日

UniDriveVLA: Unifying Understanding, Perception, and Action Planning for Autonomous Driving

Arxiv

0+阅读 · 4月2日

DIAL: Decoupling Intent and Action via Latent World Modeling for End-to-End VLA

Arxiv

0+阅读 · 3月31日

ACG: Action Coherence Guidance for Flow-based Vision-Language-Action models

Arxiv

0+阅读 · 3月25日

Rectify, Don't Regret: Avoiding Pitfalls of Differentiable Simulation in Trajectory Prediction

Arxiv

0+阅读 · 3月24日

Not All Features Are Created Equal: A Mechanistic Study of Vision-Language-Action Models

Arxiv

0+阅读 · 3月19日

Chain of World: World Model Thinking in Latent Motion

Arxiv

0+阅读 · 3月3日

NoRD: A Data-Efficient Vision-Language-Action Model that Drives without Reasoning

Arxiv

0+阅读 · 2月24日

VIP会员

文章信息

相关主题

最新内容

BES：让语言模型通过双向进化搜索自我改进

BES：让语言模型通过双向进化搜索自我改进

专知会员服务

0+阅读 · 44分钟前

ICML 2026 | 揭开视觉语言模型计数瓶颈：看得到，却说不出

ICML 2026 | 揭开视觉语言模型计数瓶颈：看得到，却说不出

专知会员服务

0+阅读 · 45分钟前

以色列-美国-伊朗战争中的无人机：关键要点

以色列-美国-伊朗战争中的无人机：关键要点

专知会员服务

3+阅读 · 今天14:04

美以伊战争：首次人工智能战争——军事自主性困境

美以伊战争：首次人工智能战争——军事自主性困境

专知会员服务

3+阅读 · 今天13:54

《Palantir任务保障性软件安全标准（MA-S2）》

《Palantir任务保障性软件安全标准（MA-S2）》

专知会员服务

6+阅读 · 今天13:49

《美海军利用扩展现实增强知识流动研究》300页报告

《美海军利用扩展现实增强知识流动研究》300页报告

专知会员服务

4+阅读 · 今天13:38

基于声学的无人机检测技术综述

基于声学的无人机检测技术综述

专知会员服务

5+阅读 · 今天13:37

《当代混合战争分析框架：俄乌战争经验教训》

《当代混合战争分析框架：俄乌战争经验教训》

专知会员服务

5+阅读 · 今天13:11

生成式AI基础小册子绪论解读：一条数学地基路线，178页pdf

生成式AI基础小册子绪论解读：一条数学地基路线，178页pdf

专知会员服务

10+阅读 · 5月29日

AutoScientists：自组织智能体团队驱动长期科学实验

AutoScientists：自组织智能体团队驱动长期科学实验

专知会员服务

5+阅读 · 5月29日

《阿利·伯克级驱逐舰的战损修理：桌面推演结果》报告

《阿利·伯克级驱逐舰的战损修理：桌面推演结果》报告

专知会员服务

5+阅读 · 5月29日

战略前沿人工智能的再思考（中文）

战略前沿人工智能的再思考（中文）

专知会员服务

7+阅读 · 5月29日

《量化地基防空系统间接效应的博弈论方法》

《量化地基防空系统间接效应的博弈论方法》

专知会员服务

5+阅读 · 5月29日

传感器网络：美国如何探测来自伊朗的导弹与无人机

传感器网络：美国如何探测来自伊朗的导弹与无人机

专知会员服务

6+阅读 · 5月29日

《无人机战争中的经济不对称：伊朗“沙赫德-136”对抗以色列“铁穹”防御系统的案例研究》

《无人机战争中的经济不对称：伊朗“沙赫德-136”对抗以色列“铁穹”防御系统的案例研究》

专知会员服务

8+阅读 · 5月29日

相关VIP内容

144页ppt《扩散模型》，Google DeepMind Sander Dieleman

144页ppt《扩散模型》，Google DeepMind Sander Dieleman

专知会员服务

51+阅读 · 2025年11月21日

深度学习时代的模仿学习：新型分类体系与最新研究进展

深度学习时代的模仿学习：新型分类体系与最新研究进展

专知会员服务

11+阅读 · 2025年11月6日

70页pdf《视觉-语言-动作模型综述：一种基于动作离散化的视角》

70页pdf《视觉-语言-动作模型综述：一种基于动作离散化的视角》

专知会员服务

21+阅读 · 2025年7月3日

视觉语言动作模型：概念、进展、应用与挑战

视觉语言动作模型：概念、进展、应用与挑战

专知会员服务

19+阅读 · 2025年5月18日

【牛津大学博士论文】组合优化和接触追踪的模仿学习，229页pdf

【牛津大学博士论文】组合优化和接触追踪的模仿学习，229页pdf

专知会员服务

28+阅读 · 2023年11月14日

南京大学&港中文联合总结: 29页中文详述《模仿学习》完整过程

南京大学&港中文联合总结: 29页中文详述《模仿学习》完整过程

专知会员服务

63+阅读 · 2022年2月3日

【ICML2021】预测观察进行模仿学习

专知会员服务

24+阅读 · 2021年7月10日

模仿学习: 进展，分类和机会

专知会员服务

48+阅读 · 2021年7月2日

最新《模仿学习(Imitation Learning》进展报告, 加州理工Yisong Yue教授，附下载

最新《模仿学习(Imitation Learning》进展报告, 加州理工Yisong Yue教授，附下载

专知会员服务

41+阅读 · 2020年12月6日

【CoRL2019最佳论文】模仿学习，A Divergence Minimization Perspective on Imitation Learning Methods

【CoRL2019最佳论文】模仿学习，A Divergence Minimization Perspective on Imitation Learning Methods

专知会员服务

24+阅读 · 2019年11月11日

热门VIP内容

开通专知VIP会员享更多权益服务

ICML 2026 | 揭开视觉语言模型计数瓶颈：看得到，却说不出

美以伊战争：首次人工智能战争——军事自主性困境

BES：让语言模型通过双向进化搜索自我改进

以色列-美国-伊朗战争中的无人机：关键要点

相关资讯

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

专知

21+阅读 · 2019年11月14日

谷歌NIPS论文Transformer模型解读：只要Attention就够了

谷歌NIPS论文Transformer模型解读：只要Attention就够了

AI100

14+阅读 · 2019年9月9日

你的TextGAN调出来了么？来看看人在怎么调的

你的TextGAN调出来了么？来看看人在怎么调的

专知

85+阅读 · 2019年6月6日

【CVPR Oral】视频跟踪新思路，完全无需手工标注

【CVPR Oral】视频跟踪新思路，完全无需手工标注

新智元

19+阅读 · 2019年4月21日

深入理解BERT Transformer ，不仅仅是注意力机制

深入理解BERT Transformer ，不仅仅是注意力机制

大数据文摘

22+阅读 · 2019年3月19日

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

机器之心

15+阅读 · 2019年3月18日

这可能是「多模态机器学习」最通俗易懂的介绍

这可能是「多模态机器学习」最通俗易懂的介绍

计算机视觉life

113+阅读 · 2018年12月20日

用模型不确定性理解模型

用模型不确定性理解模型

论智

11+阅读 · 2018年9月5日

图像和文本的融合表示学习——Text2Image和Image2Text

图像和文本的融合表示学习——Text2Image和Image2Text

专知

125+阅读 · 2018年6月11日

自然语言处理中的Attention Model：是什么及为什么

自然语言处理中的Attention Model：是什么及为什么

新智元

11+阅读 · 2017年7月13日

相关论文

Seeing Realism from Simulation: Efficient Video Transfer for Vision-Language-Action Data Augmentation

Arxiv

0+阅读 · 5月4日

Orion-Lite: Distilling LLM Reasoning into Efficient Vision-Only Driving Models

Arxiv

0+阅读 · 4月9日

Grounding Hierarchical Vision-Language-Action Models Through Explicit Language-Action Alignment

Arxiv

0+阅读 · 4月7日

UniDriveVLA: Unifying Understanding, Perception, and Action Planning for Autonomous Driving

Arxiv

0+阅读 · 4月2日

DIAL: Decoupling Intent and Action via Latent World Modeling for End-to-End VLA

Arxiv

0+阅读 · 3月31日

ACG: Action Coherence Guidance for Flow-based Vision-Language-Action models

Arxiv

0+阅读 · 3月25日

Rectify, Don't Regret: Avoiding Pitfalls of Differentiable Simulation in Trajectory Prediction

Arxiv

0+阅读 · 3月24日

Not All Features Are Created Equal: A Mechanistic Study of Vision-Language-Action Models

Arxiv

0+阅读 · 3月19日

Chain of World: World Model Thinking in Latent Motion

Arxiv

0+阅读 · 3月3日

NoRD: A Data-Efficient Vision-Language-Action Model that Drives without Reasoning

Arxiv

0+阅读 · 2月24日

相关基金

基于时空模式的复杂行为识别方法研究

国家自然科学基金

2+阅读 · 2017年12月31日

从仿生的角度设计用于指导构建组织支架的单元细胞模块、有限元分析以及3D打印工艺路径规划

国家自然科学基金

0+阅读 · 2015年12月31日

结合知识图谱的概率话题模型研究

国家自然科学基金

10+阅读 · 2015年12月31日

人类视空间分类的神经机制

国家自然科学基金

1+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

深度学习框架下基于情境线索的视觉注意研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于螺旋理论的空间近距离相对运动建模方法与姿轨耦合控制研究

国家自然科学基金

0+阅读 · 2014年12月31日

模仿型新产品开发过程及对新产品绩效的影响机制：中、美、印的跨国研究

国家自然科学基金

0+阅读 · 2014年12月31日

行为轨迹数据高性能时空聚类及社会分析

国家自然科学基金

2+阅读 · 2014年12月31日

数据和模型混合驱动的虚拟人群行为仿真技术研究及其在军事中的应用

国家自然科学基金

10+阅读 · 2011年12月31日

微信扫码咨询专知VIP会员