Beyond Short-Horizon: VQ-Memory for Robust Long-Horizon Manipulation in Non-Markovian Simulation Benchmarks - 专知论文

会员服务 ·

0

操作 · 基准 · 鲁棒 · 时序 · 语言模型 ·

Beyond Short-Horizon: VQ-Memory for Robust Long-Horizon Manipulation in Non-Markovian Simulation Benchmarks

翻译：超越短视界：用于非马尔可夫仿真基准中鲁棒长视界操作的VQ-Memory

Wang Honghui,Jing Zhi,Ao Jicong,Song Shiji,Li Xuelong,Huang Gao,Bai Chenjia

from arxiv, 9 pages

The high cost of collecting real-robot data has made robotic simulation a scalable platform for both evaluation and data generation. Yet most existing benchmarks concentrate on simple manipulation tasks such as pick-and-place, failing to capture the non-Markovian characteristics of real-world tasks and the complexity of articulated object interactions. To address this limitation, we present RuleSafe, a new articulated manipulation benchmark built upon a scalable LLM-aided simulation framework. RuleSafe features safes with diverse unlocking mechanisms, such as key locks, password locks, and logic locks, which require different multi-stage reasoning and manipulation strategies. These LLM-generated rules produce non-Markovian and long-horizon tasks that require temporal modeling and memory-based reasoning. We further propose VQ-Memory, a compact and structured temporal representation that uses vector-quantized variational autoencoders (VQ-VAEs) to encode past proprioceptive states into discrete latent tokens. This representation filters low-level noise while preserving high-level task-phase context, providing lightweight yet robust temporal cues that are compatible with existing Vision-Language-Action models (VLA). Extensive experiments on state-of-the-art VLA models and diffusion policies show that VQ-Memory consistently improves long-horizon planning, enhances generalization to unseen configurations, and enables more efficient manipulation with reduced computational cost. Project page: vqmemory.github.io

翻译：收集真实机器人数据的高昂成本使得机器人仿真成为评估和数据生成的可扩展平台。然而，现有的大多数基准测试集中于简单的操作任务，如抓取放置，未能捕捉现实世界任务的非马尔可夫特性以及铰接物体交互的复杂性。为应对这一局限，我们提出了RuleSafe——一个基于可扩展大语言模型辅助仿真框架构建的新型铰接操作基准。RuleSafe包含具有多样化解锁机制（如钥匙锁、密码锁和逻辑锁）的保险箱，这些机制需要不同的多阶段推理与操作策略。这些由大语言模型生成的规则产生了需要时序建模和基于记忆推理的非马尔可夫长视界任务。我们进一步提出VQ-Memory，一种紧凑且结构化的时序表征方法，它利用向量量化变分自编码器将过去的本体感知状态编码为离散的潜在标记。该表征能过滤底层噪声，同时保留高层任务阶段上下文，为现有视觉-语言-动作模型提供轻量级且鲁棒的时序线索。在先进视觉-语言-动作模型和扩散策略上的大量实验表明，VQ-Memory能持续提升长视界规划能力，增强对未见配置的泛化性能，并以更低计算成本实现更高效的操作。项目页面：vqmemory.github.io

0

相关内容

【NeurIPS2025】VideoLucy：用于长视频理解的深度记忆回溯机制

【NeurIPS2025】VideoLucy：用于长视频理解的深度记忆回溯机制

专知会员服务

9+阅读 · 2025年10月15日

面向机器人操作的基于大型视觉‑语言模型（VLM）的视觉‑语言‑动作（VLA）模型综述

面向机器人操作的基于大型视觉‑语言模型（VLM）的视觉‑语言‑动作（VLA）模型综述

专知会员服务

34+阅读 · 2025年8月19日

ICCV 2025 | 超越π0，无界智慧提出A0，首个空间可供性感知的通用操作模型

ICCV 2025 | 超越π0，无界智慧提出A0，首个空间可供性感知的通用操作模型

专知会员服务

6+阅读 · 2025年7月1日

大型语言模型对齐技术综述：RLHF、RLAIF、PPO、DPO 等

大型语言模型对齐技术综述：RLHF、RLAIF、PPO、DPO 等

专知会员服务

55+阅读 · 2024年7月24日

【MIT博士论文】高效的鲁棒性和可解释性在学习和数据驱动决策中的应用

【MIT博士论文】高效的鲁棒性和可解释性在学习和数据驱动决策中的应用

专知会员服务

48+阅读 · 2024年7月21日

【MIT博士论文】鲁棒几何感知的数据关联算法与表示，176页pdf

【MIT博士论文】鲁棒几何感知的数据关联算法与表示，176页pdf

专知会员服务

31+阅读 · 2024年2月3日

《用于海军计算机视觉应用的鲁棒机器学习》2023最新95页论文

《用于海军计算机视觉应用的鲁棒机器学习》2023最新95页论文

专知会员服务

53+阅读 · 2023年9月4日

【CMU博士论文】深度神经网络鲁棒训练与评估方法，101页pdf

【CMU博士论文】深度神经网络鲁棒训练与评估方法，101页pdf

专知会员服务

47+阅读 · 2023年6月18日

【MIT博士论文】机器学习模型鲁棒性的探索、改进与验证，208页pdf

【MIT博士论文】机器学习模型鲁棒性的探索、改进与验证，208页pdf

专知会员服务

47+阅读 · 2023年4月2日

【ICML2020投稿论文-CMU-DeepMind-Google】用于评估跨语言泛化的大规模多语言多任务基准

【ICML2020投稿论文-CMU-DeepMind-Google】用于评估跨语言泛化的大规模多语言多任务基准

专知会员服务

14+阅读 · 2020年3月27日

【干货书】MLOps是什么？MLOps实战：操作机器学习模型，461页pdf

【干货书】MLOps是什么？MLOps实战：操作机器学习模型，461页pdf

专知

15+阅读 · 2022年2月16日

【泡泡图灵智库】RelocNet：一种通过连续度量学习实现相机重定位的神经网络框架

【泡泡图灵智库】RelocNet：一种通过连续度量学习实现相机重定位的神经网络框架

泡泡机器人SLAM

14+阅读 · 2019年9月5日

【泡泡图灵智库】PL-VIO：使用点和线特征的紧耦合单目视觉惯性里程计

【泡泡图灵智库】PL-VIO：使用点和线特征的紧耦合单目视觉惯性里程计

泡泡机器人SLAM

54+阅读 · 2019年7月9日

【泡泡一分钟】GOMSF——基于多传感器融合的图优化无人机鲁棒位姿估计方法

【泡泡一分钟】GOMSF——基于多传感器融合的图优化无人机鲁棒位姿估计方法

泡泡机器人SLAM

25+阅读 · 2019年7月2日

《小样本学习(Few-shot learning)》最新41页综述论文，来自港科大和第四范式

《小样本学习(Few-shot learning)》最新41页综述论文，来自港科大和第四范式

专知

363+阅读 · 2019年4月12日

【泡泡图灵智库】Complex-YOLO：一个用于实时点云3D目标检测的欧拉区域提议网络（arXiv）

【泡泡图灵智库】Complex-YOLO：一个用于实时点云3D目标检测的欧拉区域提议网络（arXiv）

泡泡机器人SLAM

20+阅读 · 2018年12月27日

【泡泡图灵智库】VINS-Mono：一种鲁棒多功能的单目视觉惯性状态估计器

【泡泡图灵智库】VINS-Mono：一种鲁棒多功能的单目视觉惯性状态估计器

泡泡机器人SLAM

19+阅读 · 2018年12月23日

【泡泡一分钟】Trifo-VIO：使用点和线的稳健且高效的双目视觉惯导里程计

【泡泡一分钟】Trifo-VIO：使用点和线的稳健且高效的双目视觉惯导里程计

泡泡机器人SLAM

13+阅读 · 2018年12月20日

【泡泡图灵智库】直接法视觉SLAM的光照变化鲁棒性（ICRA-33）

【泡泡图灵智库】直接法视觉SLAM的光照变化鲁棒性（ICRA-33）

泡泡机器人SLAM

24+阅读 · 2018年9月18日

【泡泡一分钟】终极SLAM？结合事件相机、RGB和IMU用于高动态、高速场景的鲁棒视觉SLAM

【泡泡一分钟】终极SLAM？结合事件相机、RGB和IMU用于高动态、高速场景的鲁棒视觉SLAM

泡泡机器人SLAM

15+阅读 · 2018年4月2日

基于随机不可靠量测的事件触发多传感器系统融合估计方法研究

国家自然科学基金

3+阅读 · 2017年12月31日

空间近场完全非合作目标鲁棒相对位姿确定方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

带有随机干扰的非齐次马尔科夫跳变系统的鲁棒滤波研究

国家自然科学基金

0+阅读 · 2015年12月31日

视觉识别中的实用鲁棒回归技术研究

国家自然科学基金

3+阅读 · 2015年12月31日

2D/3D视觉信息融合仿生SLAM关键问题研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于特征学习的空间非合作目标单目视觉位姿测量研究

国家自然科学基金

2+阅读 · 2015年12月31日

面向可穿戴设备的压缩感知关键技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

机器灵巧手基于触滑觉信息协同的自适应力控制方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

局部可视环境中基于视觉和触觉感知的灵巧手精细操作的方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

SHVC质量可伸缩视频编码的快速算法研究

国家自然科学基金

1+阅读 · 2014年12月31日

Beyond Short-Horizon: VQ-Memory for Robust Long-Horizon Manipulation in Non-Markovian Simulation Benchmarks

Arxiv

0+阅读 · 3月18日

MolmoB0T: Large-Scale Simulation Enables Zero-Shot Manipulation

Arxiv

0+阅读 · 3月17日

MuxGel: Simultaneous Dual-Modal Visuo-Tactile Sensing via Spatially Multiplexing and Deep Reconstruction

Arxiv

0+阅读 · 3月10日

Beyond the Markovian Assumption: Robust Optimization via Fractional Weyl Integrals in Imbalanced Data

Arxiv

0+阅读 · 3月9日

PLAICraft: Large-Scale Time-Aligned Vision-Speech-Action Dataset for Embodied AI

Arxiv

0+阅读 · 2月18日

DexEvolve: Evolutionary Optimization for Robust and Diverse Dexterous Grasp Synthesis

Arxiv

0+阅读 · 2月16日

Beyond Imitation: Reinforcement Learning-Based Sim-Real Co-Training for VLA Models

Arxiv

0+阅读 · 2月16日

DexImit: Learning Bimanual Dexterous Manipulation from Monocular Human Videos

Arxiv

0+阅读 · 2月10日

Beyond Correctness: Learning Robust Reasoning via Transfer

Arxiv

0+阅读 · 2月9日

LIBERO-X: Robustness Litmus for Vision-Language-Action Models

Arxiv

0+阅读 · 2月6日

VIP会员

文章信息

相关主题

最新内容

ACL 2026 综述：从事后解释到内生解释，大模型内生可解释性的前沿进展

ACL 2026 综述：从事后解释到内生解释，大模型内生可解释性的前沿进展

专知会员服务

1+阅读 · 今天14:31

【斯坦福博士论文】驾驭上下文内记忆与学习的质量—效率权衡

【斯坦福博士论文】驾驭上下文内记忆与学习的质量—效率权衡

专知会员服务

0+阅读 · 今天14:29

面向具身智能与机器人仿真的三维生成：综述

面向具身智能与机器人仿真的三维生成：综述

专知会员服务

0+阅读 · 今天14:22

《未来打击作战中有人-无人协同的扩展杀伤链分析》130页

《未来打击作战中有人-无人协同的扩展杀伤链分析》130页

专知会员服务

11+阅读 · 今天6:39

《人工智能在全球军事与武器工业中的应用、方法论与影响》

《人工智能在全球军事与武器工业中的应用、方法论与影响》

专知会员服务

4+阅读 · 今天6:36

《“史诗怒火”行动中美军平台的战略协同：基于开源数据的网络分析》200页报告

《“史诗怒火”行动中美军平台的战略协同：基于开源数据的网络分析》200页报告

专知会员服务

8+阅读 · 今天6:28

美国力量的新架构：Anduril、Palantir、SpaceX 与美国军工格局的转型

美国力量的新架构：Anduril、Palantir、SpaceX 与美国军工格局的转型

专知会员服务

6+阅读 · 今天0:51

机器人领域中的视觉-语言-动作模型：数据集、基准测试与数据引擎综述

机器人领域中的视觉-语言-动作模型：数据集、基准测试与数据引擎综述

专知会员服务

4+阅读 · 4月29日

主权智能前沿：战略霸权与算法战争代差的比较分析——第二部分

主权智能前沿：战略霸权与算法战争代差的比较分析——第二部分

专知会员服务

7+阅读 · 4月29日

万亿美元智能竞赛：OpenAI的主权崛起与数字神经系统的高风险博弈——第一部分

万亿美元智能竞赛：OpenAI的主权崛起与数字神经系统的高风险博弈——第一部分

专知会员服务

6+阅读 · 4月29日

《忠诚僚机、人工智能与认知增强：对赛博格-无人机战争的警示》

《忠诚僚机、人工智能与认知增强：对赛博格-无人机战争的警示》

专知会员服务

6+阅读 · 4月29日

《化繁为简：军事模拟器配置的对话式方法》报告

《化繁为简：军事模拟器配置的对话式方法》报告

专知会员服务

11+阅读 · 4月29日

《人机协同研究报告——衡量与预测技术流利性：知识、技能、能力及其他行为如何促成技术精通》146页

《人机协同研究报告——衡量与预测技术流利性：知识、技能、能力及其他行为如何促成技术精通》146页

专知会员服务

12+阅读 · 4月29日

《新兴技术武器化及其对全球风险的影响》

《新兴技术武器化及其对全球风险的影响》

专知会员服务

8+阅读 · 4月29日

《帕兰泰尔平台介绍：信息分析平台》

《帕兰泰尔平台介绍：信息分析平台》

专知会员服务

21+阅读 · 4月29日

相关VIP内容

【NeurIPS2025】VideoLucy：用于长视频理解的深度记忆回溯机制

【NeurIPS2025】VideoLucy：用于长视频理解的深度记忆回溯机制

专知会员服务

9+阅读 · 2025年10月15日

面向机器人操作的基于大型视觉‑语言模型（VLM）的视觉‑语言‑动作（VLA）模型综述

面向机器人操作的基于大型视觉‑语言模型（VLM）的视觉‑语言‑动作（VLA）模型综述

专知会员服务

34+阅读 · 2025年8月19日

ICCV 2025 | 超越π0，无界智慧提出A0，首个空间可供性感知的通用操作模型

ICCV 2025 | 超越π0，无界智慧提出A0，首个空间可供性感知的通用操作模型

专知会员服务

6+阅读 · 2025年7月1日

大型语言模型对齐技术综述：RLHF、RLAIF、PPO、DPO 等

大型语言模型对齐技术综述：RLHF、RLAIF、PPO、DPO 等

专知会员服务

55+阅读 · 2024年7月24日

【MIT博士论文】高效的鲁棒性和可解释性在学习和数据驱动决策中的应用

【MIT博士论文】高效的鲁棒性和可解释性在学习和数据驱动决策中的应用

专知会员服务

48+阅读 · 2024年7月21日

【MIT博士论文】鲁棒几何感知的数据关联算法与表示，176页pdf

【MIT博士论文】鲁棒几何感知的数据关联算法与表示，176页pdf

专知会员服务

31+阅读 · 2024年2月3日

《用于海军计算机视觉应用的鲁棒机器学习》2023最新95页论文

《用于海军计算机视觉应用的鲁棒机器学习》2023最新95页论文

专知会员服务

53+阅读 · 2023年9月4日

【CMU博士论文】深度神经网络鲁棒训练与评估方法，101页pdf

【CMU博士论文】深度神经网络鲁棒训练与评估方法，101页pdf

专知会员服务

47+阅读 · 2023年6月18日

【MIT博士论文】机器学习模型鲁棒性的探索、改进与验证，208页pdf

【MIT博士论文】机器学习模型鲁棒性的探索、改进与验证，208页pdf

专知会员服务

47+阅读 · 2023年4月2日

【ICML2020投稿论文-CMU-DeepMind-Google】用于评估跨语言泛化的大规模多语言多任务基准

【ICML2020投稿论文-CMU-DeepMind-Google】用于评估跨语言泛化的大规模多语言多任务基准

专知会员服务

14+阅读 · 2020年3月27日

热门VIP内容

开通专知VIP会员享更多权益服务

【斯坦福博士论文】驾驭上下文内记忆与学习的质量—效率权衡

《未来打击作战中有人-无人协同的扩展杀伤链分析》130页

ACL 2026 综述：从事后解释到内生解释，大模型内生可解释性的前沿进展

面向具身智能与机器人仿真的三维生成：综述

相关资讯

【干货书】MLOps是什么？MLOps实战：操作机器学习模型，461页pdf

【干货书】MLOps是什么？MLOps实战：操作机器学习模型，461页pdf

专知

15+阅读 · 2022年2月16日

【泡泡图灵智库】RelocNet：一种通过连续度量学习实现相机重定位的神经网络框架

【泡泡图灵智库】RelocNet：一种通过连续度量学习实现相机重定位的神经网络框架

泡泡机器人SLAM

14+阅读 · 2019年9月5日

【泡泡图灵智库】PL-VIO：使用点和线特征的紧耦合单目视觉惯性里程计

【泡泡图灵智库】PL-VIO：使用点和线特征的紧耦合单目视觉惯性里程计

泡泡机器人SLAM

54+阅读 · 2019年7月9日

【泡泡一分钟】GOMSF——基于多传感器融合的图优化无人机鲁棒位姿估计方法

【泡泡一分钟】GOMSF——基于多传感器融合的图优化无人机鲁棒位姿估计方法

泡泡机器人SLAM

25+阅读 · 2019年7月2日

《小样本学习(Few-shot learning)》最新41页综述论文，来自港科大和第四范式

《小样本学习(Few-shot learning)》最新41页综述论文，来自港科大和第四范式

专知

363+阅读 · 2019年4月12日

【泡泡图灵智库】Complex-YOLO：一个用于实时点云3D目标检测的欧拉区域提议网络（arXiv）

【泡泡图灵智库】Complex-YOLO：一个用于实时点云3D目标检测的欧拉区域提议网络（arXiv）

泡泡机器人SLAM

20+阅读 · 2018年12月27日

【泡泡图灵智库】VINS-Mono：一种鲁棒多功能的单目视觉惯性状态估计器

【泡泡图灵智库】VINS-Mono：一种鲁棒多功能的单目视觉惯性状态估计器

泡泡机器人SLAM

19+阅读 · 2018年12月23日

【泡泡一分钟】Trifo-VIO：使用点和线的稳健且高效的双目视觉惯导里程计

【泡泡一分钟】Trifo-VIO：使用点和线的稳健且高效的双目视觉惯导里程计

泡泡机器人SLAM

13+阅读 · 2018年12月20日

【泡泡图灵智库】直接法视觉SLAM的光照变化鲁棒性（ICRA-33）

【泡泡图灵智库】直接法视觉SLAM的光照变化鲁棒性（ICRA-33）

泡泡机器人SLAM

24+阅读 · 2018年9月18日

【泡泡一分钟】终极SLAM？结合事件相机、RGB和IMU用于高动态、高速场景的鲁棒视觉SLAM

【泡泡一分钟】终极SLAM？结合事件相机、RGB和IMU用于高动态、高速场景的鲁棒视觉SLAM

泡泡机器人SLAM

15+阅读 · 2018年4月2日

相关论文

Beyond Short-Horizon: VQ-Memory for Robust Long-Horizon Manipulation in Non-Markovian Simulation Benchmarks

Arxiv

0+阅读 · 3月18日

MolmoB0T: Large-Scale Simulation Enables Zero-Shot Manipulation

Arxiv

0+阅读 · 3月17日

MuxGel: Simultaneous Dual-Modal Visuo-Tactile Sensing via Spatially Multiplexing and Deep Reconstruction

Arxiv

0+阅读 · 3月10日

Beyond the Markovian Assumption: Robust Optimization via Fractional Weyl Integrals in Imbalanced Data

Arxiv

0+阅读 · 3月9日

PLAICraft: Large-Scale Time-Aligned Vision-Speech-Action Dataset for Embodied AI

Arxiv

0+阅读 · 2月18日

DexEvolve: Evolutionary Optimization for Robust and Diverse Dexterous Grasp Synthesis

Arxiv

0+阅读 · 2月16日

Beyond Imitation: Reinforcement Learning-Based Sim-Real Co-Training for VLA Models

Arxiv

0+阅读 · 2月16日

DexImit: Learning Bimanual Dexterous Manipulation from Monocular Human Videos

Arxiv

0+阅读 · 2月10日

Beyond Correctness: Learning Robust Reasoning via Transfer

Arxiv

0+阅读 · 2月9日

LIBERO-X: Robustness Litmus for Vision-Language-Action Models

Arxiv

0+阅读 · 2月6日

相关基金

基于随机不可靠量测的事件触发多传感器系统融合估计方法研究

国家自然科学基金

3+阅读 · 2017年12月31日

空间近场完全非合作目标鲁棒相对位姿确定方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

带有随机干扰的非齐次马尔科夫跳变系统的鲁棒滤波研究

国家自然科学基金

0+阅读 · 2015年12月31日

视觉识别中的实用鲁棒回归技术研究

国家自然科学基金

3+阅读 · 2015年12月31日

2D/3D视觉信息融合仿生SLAM关键问题研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于特征学习的空间非合作目标单目视觉位姿测量研究

国家自然科学基金

2+阅读 · 2015年12月31日

面向可穿戴设备的压缩感知关键技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

机器灵巧手基于触滑觉信息协同的自适应力控制方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

局部可视环境中基于视觉和触觉感知的灵巧手精细操作的方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

SHVC质量可伸缩视频编码的快速算法研究

国家自然科学基金

1+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员