The high cost of collecting real-robot data has made robotic simulation a scalable platform for both evaluation and data generation. Yet most existing benchmarks concentrate on simple manipulation tasks such as pick-and-place, failing to capture the non-Markovian characteristics of real-world tasks and the complexity of articulated object interactions. To address this limitation, we present RuleSafe, a new articulated manipulation benchmark built upon a scalable LLM-aided simulation framework. RuleSafe features safes with diverse unlocking mechanisms, such as key locks, password locks, and logic locks, which require different multi-stage reasoning and manipulation strategies. These LLM-generated rules produce non-Markovian and long-horizon tasks that require temporal modeling and memory-based reasoning. We further propose VQ-Memory, a compact and structured temporal representation that uses vector-quantized variational autoencoders (VQ-VAEs) to encode past proprioceptive states into discrete latent tokens. This representation filters low-level noise while preserving high-level task-phase context, providing lightweight yet robust temporal cues that are compatible with existing Vision-Language-Action models (VLA). Extensive experiments on state-of-the-art VLA models and diffusion policies show that VQ-Memory consistently improves long-horizon planning, enhances generalization to unseen configurations, and enables more efficient manipulation with reduced computational cost. Project page: vqmemory.github.io


翻译:收集真实机器人数据的高昂成本使得机器人仿真成为评估和数据生成的可扩展平台。然而,现有的大多数基准测试集中于简单的操作任务,如抓取放置,未能捕捉现实世界任务的非马尔可夫特性以及关节物体交互的复杂性。为应对这一局限,我们提出了 RuleSafe,这是一个基于可扩展的 LLM 辅助仿真框架构建的新型关节操作基准测试。RuleSafe 具有多种解锁机制的保险箱,例如钥匙锁、密码锁和逻辑锁,这些机制需要不同的多阶段推理与操作策略。这些由 LLM 生成的规则产生了非马尔可夫和长视域的任务,需要时序建模和基于记忆的推理。我们进一步提出了 VQ-Memory,这是一种紧凑且结构化的时序表示方法,它使用向量量化变分自编码器(VQ-VAEs)将过去的本体感知状态编码为离散的潜在令牌。这种表示过滤了低层噪声,同时保留了高层任务阶段上下文,提供了轻量级且鲁棒的时序线索,并与现有的视觉-语言-动作模型(VLA)兼容。在最先进的 VLA 模型和扩散策略上进行的大量实验表明,VQ-Memory 持续改进了长视域规划,增强了对未见配置的泛化能力,并实现了计算成本更低的更高效操作。项目页面:vqmemory.github.io

0
下载
关闭预览

相关内容

大型语言模型对齐技术综述:RLHF、RLAIF、PPO、DPO 等
专知会员服务
55+阅读 · 2024年7月24日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
最新内容
美国从乌克兰无人机战争中学习经验
专知会员服务
1+阅读 · 今天15:03
ICML 2026 | 面向视觉语言模型的语义鲁棒性认证
专知会员服务
1+阅读 · 今天14:31
学习数据的几何:形状空间分析数学综述
专知会员服务
8+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
10+阅读 · 6月17日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员