Autoregressive policies offer a compelling foundation for scalable robot learning by enabling discrete abstraction, token-level reasoning, and flexible inference. However, applying autoregressive modeling to continuous robot actions requires an effective action tokenization scheme. Existing approaches either rely on analytical discretization methods that produce prohibitively long token sequences, or learned latent tokenizers that lack structure, limiting their compatibility with next-token prediction. In this work, we identify three desiderata for action tokenization - high compression, total decodability, and a left-to-right causally ordered token space - and introduce Ordered Action Tokenization (OAT), a learned action tokenizer that satisfies all three. OAT discretizes action chunks into an ordered sequence of tokens using transformer with registers, finite scalar quantization, and ordering-inducing training mechanisms. The resulting token space aligns naturally with autoregressive generation and enables prefix-based detokenization, yielding an anytime trade-off between inference cost and action fidelity. Across more than 20 tasks spanning four simulation benchmarks and real-world settings, autoregressive policies equipped with OAT consistently outperform prior tokenization schemes and diffusion-based baselines, while offering significantly greater flexibility at inference time.


翻译:自回归策略通过实现离散抽象、标记级推理和灵活推断,为可扩展的机器人学习提供了引人注目的基础。然而,将自回归建模应用于连续机器人动作需要有效的动作标记化方案。现有方法要么依赖产生过长标记序列的解析离散化方法,要么使用缺乏结构的潜在标记器,限制了其与下一标记预测的兼容性。在本工作中,我们确定了动作标记化的三个理想特性——高压缩性、完全可解码性以及从左到右因果有序的标记空间——并引入了有序动作标记化(OAT),这是一种满足所有三个特性的学习型动作标记器。OAT利用带寄存器的Transformer、有限标量量化和有序诱导训练机制,将动作块离散化为有序的标记序列。由此产生的标记空间自然地与自回归生成对齐,并支持基于前缀的解标记化,从而在推理成本和动作保真度之间实现随时权衡。在涵盖四个仿真基准和真实世界环境的超过20个任务中,配备OAT的自回归策略始终优于先前的标记化方案和基于扩散的基线方法,同时在推理时提供了显著更高的灵活性。

0
下载
关闭预览

相关内容

【NTU博士论文】基于协作式多智能体强化学习的决策制定
【KDD2020-Tutorial】自动推荐系统,Automated Recommendation System
自动结构变分推理,Automatic structured variational inference
专知会员服务
41+阅读 · 2020年2月10日
注意力机制介绍,Attention Mechanism
专知会员服务
172+阅读 · 2019年10月13日
探索(Exploration)还是利用(Exploitation)?强化学习如何tradeoff?
深度强化学习实验室
13+阅读 · 2020年8月23日
浅谈主动学习(Active Learning)
凡人机器学习
32+阅读 · 2020年6月18日
一文读懂Attention机制
机器学习与推荐算法
63+阅读 · 2020年6月9日
深度学习中Attention Mechanism详细介绍:原理、分类及应用
深度学习与NLP
10+阅读 · 2019年2月18日
【强化学习】强化学习/增强学习/再励学习介绍
产业智能官
10+阅读 · 2018年2月23日
国家自然科学基金
42+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
23+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2013年12月31日
国家自然科学基金
23+阅读 · 2009年12月31日
Arxiv
0+阅读 · 2月11日
Arxiv
0+阅读 · 2月7日
VIP会员
相关基金
国家自然科学基金
42+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
23+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2013年12月31日
国家自然科学基金
23+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员