动作链：面向机器人操作的轨迹自回归建模 (Chain-of-Action: Trajectory Autoregressive Modeling for Robotic Manipulation) - 专知论文

会员服务 ·

0

结构 · 令牌 · 操作 · 回归建模 · 关键帧 ·

Chain-of-Action: Trajectory Autoregressive Modeling for Robotic Manipulation

翻译：动作链：面向机器人操作的轨迹自回归建模

Wenbo Zhang,Tianrun Hu,Hanbo Zhang,Yanyuan Qiao,Yuchu Qin,Yang Li,Jiajun Liu,Tao Kong,Lingqiao Liu,Xiao Ma

We present Chain-of-Action (CoA), a novel visuo-motor policy paradigm built upon Trajectory Autoregressive Modeling. Unlike conventional approaches that predict next step action(s) forward, CoA generates an entire trajectory by explicit backward reasoning with task-specific goals through an action-level Chain-of-Thought (CoT) process. This process is unified within a single autoregressive structure: (1) the first token corresponds to a stable keyframe action that encodes the task-specific goals; and (2) subsequent action tokens are generated autoregressively, conditioned on the initial keyframe and previously predicted actions. This backward action reasoning enforces a global-to-local structure, allowing each local action to be tightly constrained by the final goal. To further realize the action reasoning structure, CoA incorporates four complementary designs: continuous action token representation; dynamic stopping for variable-length trajectory generation; reverse temporal ensemble; and multi-token prediction to balance action chunk modeling with global structure. As a result, CoA gives strong spatial generalization capabilities while preserving the flexibility and simplicity of a visuo-motor policy. Empirically, we observe CoA achieves the state-of-the-art performance across 60 RLBench tasks and 8 real-world manipulation tasks.

翻译：本文提出动作链（CoA），一种基于轨迹自回归建模的新型视觉运动策略范式。与传统方法前向预测下一步动作不同，CoA通过动作级思维链（CoT）过程，结合任务特定目标进行显式逆向推理，生成完整轨迹。该过程统一于单一自回归结构中：（1）首个令牌对应编码任务特定目标的稳定关键帧动作；（2）后续动作令牌以初始关键帧及先前预测动作为条件进行自回归生成。这种逆向动作推理强制形成全局到局部的结构，使每个局部动作受到最终目标的严格约束。为实现该动作推理结构，CoA融合四项互补设计：连续动作令牌表征；可变长度轨迹生成的动态停止机制；逆向时序集成；以及平衡动作块建模与全局结构的多令牌预测。因此，CoA在保持视觉运动策略灵活性与简洁性的同时，展现出强大的空间泛化能力。实证研究表明，CoA在60项RLBench任务和8项真实世界操作任务中均达到最先进的性能水平。

0

相关内容

《COA-GPT 2.0：加速军事决策流程的代理式人工智能规划工具》

《COA-GPT 2.0：加速军事决策流程的代理式人工智能规划工具》

专知会员服务

54+阅读 · 2025年11月10日

《基于二元优化与图学习的多智能体行动方案自动生成》

《基于二元优化与图学习的多智能体行动方案自动生成》

专知会员服务

25+阅读 · 2025年6月26日

AI进入推理模型时代，一文带你读懂思维链

AI进入推理模型时代，一文带你读懂思维链

专知会员服务

39+阅读 · 2025年3月17日

超越思维链：大型语言模型的X链范式综述

超越思维链：大型语言模型的X链范式综述

专知会员服务

52+阅读 · 2024年4月28日

《COA-GPT：军事作战中加速行动方案（COA）制定的生成式预训练Transformer》美陆军研究实验室2024最新论文

《COA-GPT：军事作战中加速行动方案（COA）制定的生成式预训练Transformer》美陆军研究实验室2024最新论文

专知会员服务

148+阅读 · 2024年2月9日

大模型中的思维链如何理解？哈工大等最新《思维链推理研究》综述，详述思维链进展、前沿与未来

大模型中的思维链如何理解？哈工大等最新《思维链推理研究》综述，详述思维链进展、前沿与未来

专知会员服务

87+阅读 · 2023年9月30日

人机协作|《基于机器人的流程自动化》61页报告，美国国防采办大学

人机协作|《基于机器人的流程自动化》61页报告，美国国防采办大学

专知会员服务

36+阅读 · 2023年3月30日

【AI+兵棋推演】60页paper速读：美国空军兵棋推演多物网络行动路线自动分析方法，The wargame commodity course of action automated analysis method

【AI+兵棋推演】60页paper速读：美国空军兵棋推演多物网络行动路线自动分析方法，The wargame commodity course of action automated analysis method

专知会员服务

91+阅读 · 2022年3月18日

机器人运动轨迹的模仿学习综述

机器人运动轨迹的模仿学习综述

专知会员服务

45+阅读 · 2021年6月8日

斯坦福大学李飞飞组发布Action Genome:一种新的表达形式，新的数据集，以及将动作分解成时空场景图的新模型

斯坦福大学李飞飞组发布Action Genome:一种新的表达形式，新的数据集，以及将动作分解成时空场景图的新模型

专知会员服务

40+阅读 · 2020年1月12日

【论文笔记】通过自注意力网络的动态图表示学习

【论文笔记】通过自注意力网络的动态图表示学习

专知

90+阅读 · 2019年12月2日

Keras新增TextVectorization层，可直接将文本字符串作为模型输入

Keras新增TextVectorization层，可直接将文本字符串作为模型输入

专知

19+阅读 · 2019年11月22日

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

专知

21+阅读 · 2019年11月14日

百度实体链接比赛后记：行为建模和实体链接（含代码分享）

百度实体链接比赛后记：行为建模和实体链接（含代码分享）

PaperWeekly

21+阅读 · 2019年9月5日

【AutoML】自动机器学习：最近进展研究综述 AutoML：A survey of State-of-the-art

【AutoML】自动机器学习：最近进展研究综述 AutoML：A survey of State-of-the-art

产业智能官

15+阅读 · 2019年8月13日

【强化学习】用于真实机器人的高效深度强化学习算法、全面解读深度强化学习

【强化学习】用于真实机器人的高效深度强化学习算法、全面解读深度强化学习

产业智能官

16+阅读 · 2018年12月27日

目标跟踪算法分类

目标跟踪算法分类

大数据技术

13+阅读 · 2018年9月17日

【论文推荐】最新十篇目标跟踪相关论文—多帧光流跟踪、动态图学习、MV-YOLO、姿态估计、深度核相关滤波、Benchmark

【论文推荐】最新十篇目标跟踪相关论文—多帧光流跟踪、动态图学习、MV-YOLO、姿态估计、深度核相关滤波、Benchmark

专知

13+阅读 · 2018年5月26日

【论文推荐】最新六篇自动问答（QA）相关论文—复杂序列问答、注意力机制、长短时记忆、文本推理、多因素注意力、主动的问答智能体

【论文推荐】最新六篇自动问答（QA）相关论文—复杂序列问答、注意力机制、长短时记忆、文本推理、多因素注意力、主动的问答智能体

专知

18+阅读 · 2018年2月22日

【论文推荐】最新5篇目标跟踪（Object Tracking）相关论文—并行跟踪和验证、光流、自动跟踪、相关滤波集成、CFNet

【论文推荐】最新5篇目标跟踪（Object Tracking）相关论文—并行跟踪和验证、光流、自动跟踪、相关滤波集成、CFNet

专知

25+阅读 · 2018年2月6日

面向类人机器人动作规划的参数最优控制技术研究

国家自然科学基金

2+阅读 · 2015年12月31日

车联网环境下基于路段负载链估测与优化的动态交通诱导方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

未知环境中移动机器人探索式路径规划方法研究

国家自然科学基金

7+阅读 · 2015年12月31日

工业过程动态数据的多模型在线重构研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于马尔科夫链的线性系统求解问题的高效算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向主体行为网的自适应作战机理研究

国家自然科学基金

24+阅读 · 2014年12月31日

基于“数字链”系统的建筑设计与数控建造

国家自然科学基金

2+阅读 · 2014年12月31日

基于智能手机的个体活动链信息获取及挖掘方法

国家自然科学基金

1+阅读 · 2014年12月31日

基于逆向强化学习和人工智能的移动机器人自主学习方法研究

国家自然科学基金

12+阅读 · 2013年12月31日

战术数据链资源调度算法及跨层设计研究

国家自然科学基金

10+阅读 · 2012年12月31日

CoLT: Reasoning with Chain of Latent Tool Calls

Arxiv

0+阅读 · 2月4日

Accelerating Structured Chain-of-Thought in Autonomous Vehicles

Arxiv

0+阅读 · 2月2日

R-Stitch: Dynamic Trajectory Stitching for Efficient Reasoning

Arxiv

0+阅读 · 2月2日

Chain-of-thought obfuscation learned from output supervision can generalise to unseen tasks

Arxiv

0+阅读 · 1月30日

Explainable Chain-of-Thought Reasoning: An Empirical Analysis on State-Aware Reasoning Dynamics

Arxiv

0+阅读 · 1月29日

Unifying Perception and Action: A Hybrid-Modality Pipeline with Implicit Visual Chain-of-Thought for Robotic Action Generation

Arxiv

0+阅读 · 1月29日

Generative Chain of Behavior for User Trajectory Prediction

Arxiv

0+阅读 · 1月26日

Do What You Say: Steering Vision-Language-Action Models via Runtime Reasoning-Action Alignment Verification

Arxiv

0+阅读 · 1月14日

VideoAuto-R1: Video Auto Reasoning via Thinking Once, Answering Twice

Arxiv

0+阅读 · 1月8日

EntroCoT: Enhancing Chain-of-Thought via Adaptive Entropy-Guided Segmentation

Arxiv

0+阅读 · 1月7日

VIP会员

文章信息

相关主题

相关VIP内容

《COA-GPT 2.0：加速军事决策流程的代理式人工智能规划工具》

《COA-GPT 2.0：加速军事决策流程的代理式人工智能规划工具》

专知会员服务

54+阅读 · 2025年11月10日

《基于二元优化与图学习的多智能体行动方案自动生成》

《基于二元优化与图学习的多智能体行动方案自动生成》

专知会员服务

25+阅读 · 2025年6月26日

AI进入推理模型时代，一文带你读懂思维链

AI进入推理模型时代，一文带你读懂思维链

专知会员服务

39+阅读 · 2025年3月17日

超越思维链：大型语言模型的X链范式综述

超越思维链：大型语言模型的X链范式综述

专知会员服务

52+阅读 · 2024年4月28日

《COA-GPT：军事作战中加速行动方案（COA）制定的生成式预训练Transformer》美陆军研究实验室2024最新论文

《COA-GPT：军事作战中加速行动方案（COA）制定的生成式预训练Transformer》美陆军研究实验室2024最新论文

专知会员服务

148+阅读 · 2024年2月9日

大模型中的思维链如何理解？哈工大等最新《思维链推理研究》综述，详述思维链进展、前沿与未来

大模型中的思维链如何理解？哈工大等最新《思维链推理研究》综述，详述思维链进展、前沿与未来

专知会员服务

87+阅读 · 2023年9月30日

人机协作|《基于机器人的流程自动化》61页报告，美国国防采办大学

人机协作|《基于机器人的流程自动化》61页报告，美国国防采办大学

专知会员服务

36+阅读 · 2023年3月30日

【AI+兵棋推演】60页paper速读：美国空军兵棋推演多物网络行动路线自动分析方法，The wargame commodity course of action automated analysis method

【AI+兵棋推演】60页paper速读：美国空军兵棋推演多物网络行动路线自动分析方法，The wargame commodity course of action automated analysis method

专知会员服务

91+阅读 · 2022年3月18日

机器人运动轨迹的模仿学习综述

机器人运动轨迹的模仿学习综述

专知会员服务

45+阅读 · 2021年6月8日

斯坦福大学李飞飞组发布Action Genome:一种新的表达形式，新的数据集，以及将动作分解成时空场景图的新模型

斯坦福大学李飞飞组发布Action Genome:一种新的表达形式，新的数据集，以及将动作分解成时空场景图的新模型

专知会员服务

40+阅读 · 2020年1月12日

热门VIP内容

开通专知VIP会员享更多权益服务

论学习、公平性与复杂度

《整合杀伤链：一个用于边缘目标验证与战术推理的零样本框架》最新资料

2025中国人工智能学会系列白皮书⸺棋盘上的人工智能|附下载

通用智能体评估的逻辑架构

相关资讯

【论文笔记】通过自注意力网络的动态图表示学习

【论文笔记】通过自注意力网络的动态图表示学习

专知

90+阅读 · 2019年12月2日

Keras新增TextVectorization层，可直接将文本字符串作为模型输入

Keras新增TextVectorization层，可直接将文本字符串作为模型输入

专知

19+阅读 · 2019年11月22日

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

专知

21+阅读 · 2019年11月14日

百度实体链接比赛后记：行为建模和实体链接（含代码分享）

百度实体链接比赛后记：行为建模和实体链接（含代码分享）

PaperWeekly

21+阅读 · 2019年9月5日

【AutoML】自动机器学习：最近进展研究综述 AutoML：A survey of State-of-the-art

【AutoML】自动机器学习：最近进展研究综述 AutoML：A survey of State-of-the-art

产业智能官

15+阅读 · 2019年8月13日

【强化学习】用于真实机器人的高效深度强化学习算法、全面解读深度强化学习

【强化学习】用于真实机器人的高效深度强化学习算法、全面解读深度强化学习

产业智能官

16+阅读 · 2018年12月27日

目标跟踪算法分类

目标跟踪算法分类

大数据技术

13+阅读 · 2018年9月17日

【论文推荐】最新十篇目标跟踪相关论文—多帧光流跟踪、动态图学习、MV-YOLO、姿态估计、深度核相关滤波、Benchmark

【论文推荐】最新十篇目标跟踪相关论文—多帧光流跟踪、动态图学习、MV-YOLO、姿态估计、深度核相关滤波、Benchmark

专知

13+阅读 · 2018年5月26日

【论文推荐】最新六篇自动问答（QA）相关论文—复杂序列问答、注意力机制、长短时记忆、文本推理、多因素注意力、主动的问答智能体

【论文推荐】最新六篇自动问答（QA）相关论文—复杂序列问答、注意力机制、长短时记忆、文本推理、多因素注意力、主动的问答智能体

专知

18+阅读 · 2018年2月22日

【论文推荐】最新5篇目标跟踪（Object Tracking）相关论文—并行跟踪和验证、光流、自动跟踪、相关滤波集成、CFNet

【论文推荐】最新5篇目标跟踪（Object Tracking）相关论文—并行跟踪和验证、光流、自动跟踪、相关滤波集成、CFNet

专知

25+阅读 · 2018年2月6日

相关论文

CoLT: Reasoning with Chain of Latent Tool Calls

Arxiv

0+阅读 · 2月4日

Accelerating Structured Chain-of-Thought in Autonomous Vehicles

Arxiv

0+阅读 · 2月2日

R-Stitch: Dynamic Trajectory Stitching for Efficient Reasoning

Arxiv

0+阅读 · 2月2日

Chain-of-thought obfuscation learned from output supervision can generalise to unseen tasks

Arxiv

0+阅读 · 1月30日

Explainable Chain-of-Thought Reasoning: An Empirical Analysis on State-Aware Reasoning Dynamics

Arxiv

0+阅读 · 1月29日

Unifying Perception and Action: A Hybrid-Modality Pipeline with Implicit Visual Chain-of-Thought for Robotic Action Generation

Arxiv

0+阅读 · 1月29日

Generative Chain of Behavior for User Trajectory Prediction

Arxiv

0+阅读 · 1月26日

Do What You Say: Steering Vision-Language-Action Models via Runtime Reasoning-Action Alignment Verification

Arxiv

0+阅读 · 1月14日

VideoAuto-R1: Video Auto Reasoning via Thinking Once, Answering Twice

Arxiv

0+阅读 · 1月8日

EntroCoT: Enhancing Chain-of-Thought via Adaptive Entropy-Guided Segmentation

Arxiv

0+阅读 · 1月7日

相关基金

面向类人机器人动作规划的参数最优控制技术研究

国家自然科学基金

2+阅读 · 2015年12月31日

车联网环境下基于路段负载链估测与优化的动态交通诱导方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

未知环境中移动机器人探索式路径规划方法研究

国家自然科学基金

7+阅读 · 2015年12月31日

工业过程动态数据的多模型在线重构研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于马尔科夫链的线性系统求解问题的高效算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向主体行为网的自适应作战机理研究

国家自然科学基金

24+阅读 · 2014年12月31日

基于“数字链”系统的建筑设计与数控建造

国家自然科学基金

2+阅读 · 2014年12月31日

基于智能手机的个体活动链信息获取及挖掘方法

国家自然科学基金

1+阅读 · 2014年12月31日

基于逆向强化学习和人工智能的移动机器人自主学习方法研究

国家自然科学基金

12+阅读 · 2013年12月31日

战术数据链资源调度算法及跨层设计研究

国家自然科学基金

10+阅读 · 2012年12月31日

微信扫码咨询专知VIP会员