Beyond Short-Horizon: VQ-Memory for Robust Long-Horizon Manipulation in Non-Markovian Simulation Benchmarks - 专知论文

会员服务 ·

0

操作 · 基准 · 基准测试 · 鲁棒 · 时序 ·

Beyond Short-Horizon: VQ-Memory for Robust Long-Horizon Manipulation in Non-Markovian Simulation Benchmarks

翻译：超越短视域：VQ-Memory 在非马尔可夫仿真基准测试中实现鲁棒的长视域操作

Honghui Wang,Zhi Jing,Jicong Ao,Shiji Song,Xuelong Li,Gao Huang,Chenjia Bai

from arxiv, 9 pages

The high cost of collecting real-robot data has made robotic simulation a scalable platform for both evaluation and data generation. Yet most existing benchmarks concentrate on simple manipulation tasks such as pick-and-place, failing to capture the non-Markovian characteristics of real-world tasks and the complexity of articulated object interactions. To address this limitation, we present RuleSafe, a new articulated manipulation benchmark built upon a scalable LLM-aided simulation framework. RuleSafe features safes with diverse unlocking mechanisms, such as key locks, password locks, and logic locks, which require different multi-stage reasoning and manipulation strategies. These LLM-generated rules produce non-Markovian and long-horizon tasks that require temporal modeling and memory-based reasoning. We further propose VQ-Memory, a compact and structured temporal representation that uses vector-quantized variational autoencoders (VQ-VAEs) to encode past proprioceptive states into discrete latent tokens. This representation filters low-level noise while preserving high-level task-phase context, providing lightweight yet robust temporal cues that are compatible with existing Vision-Language-Action models (VLA). Extensive experiments on state-of-the-art VLA models and diffusion policies show that VQ-Memory consistently improves long-horizon planning, enhances generalization to unseen configurations, and enables more efficient manipulation with reduced computational cost. Project page: vqmemory.github.io

翻译：收集真实机器人数据的高昂成本使得机器人仿真成为评估和数据生成的可扩展平台。然而，现有的大多数基准测试集中于简单的操作任务，如抓取放置，未能捕捉现实世界任务的非马尔可夫特性以及关节物体交互的复杂性。为应对这一局限，我们提出了 RuleSafe，这是一个基于可扩展的 LLM 辅助仿真框架构建的新型关节操作基准测试。RuleSafe 具有多种解锁机制的保险箱，例如钥匙锁、密码锁和逻辑锁，这些机制需要不同的多阶段推理与操作策略。这些由 LLM 生成的规则产生了非马尔可夫和长视域的任务，需要时序建模和基于记忆的推理。我们进一步提出了 VQ-Memory，这是一种紧凑且结构化的时序表示方法，它使用向量量化变分自编码器（VQ-VAEs）将过去的本体感知状态编码为离散的潜在令牌。这种表示过滤了低层噪声，同时保留了高层任务阶段上下文，提供了轻量级且鲁棒的时序线索，并与现有的视觉-语言-动作模型（VLA）兼容。在最先进的 VLA 模型和扩散策略上进行的大量实验表明，VQ-Memory 持续改进了长视域规划，增强了对未见配置的泛化能力，并实现了计算成本更低的更高效操作。项目页面：vqmemory.github.io

0

相关内容

【ICML 2026】面向视野外操作的VLA空间记忆框架SOMA

【ICML 2026】面向视野外操作的VLA空间记忆框架SOMA

专知会员服务

8+阅读 · 5月22日

【ICML 2026】 StableVLA：无需额外数据，基于信息瓶颈的自适应鲁棒性视觉-语言-动作模型

【ICML 2026】 StableVLA：无需额外数据，基于信息瓶颈的自适应鲁棒性视觉-语言-动作模型

专知会员服务

6+阅读 · 5月19日

【ICML 2026】用测试时训练线性化视觉Transformer：T⁵ 实现 Softmax 注意力到线性复杂度的快速转换

【ICML 2026】用测试时训练线性化视觉Transformer：T⁵ 实现 Softmax 注意力到线性复杂度的快速转换

专知会员服务

5+阅读 · 5月5日

面向机器人操作的基于大型视觉‑语言模型（VLM）的视觉‑语言‑动作（VLA）模型综述

面向机器人操作的基于大型视觉‑语言模型（VLM）的视觉‑语言‑动作（VLA）模型综述

专知会员服务

34+阅读 · 2025年8月19日

【ICLR2025】无噪声自我运动与噪声视频三维重建的可扩展基准测试与鲁棒学习

【ICLR2025】无噪声自我运动与噪声视频三维重建的可扩展基准测试与鲁棒学习

专知会员服务

8+阅读 · 2025年1月27日

大型语言模型对齐技术综述：RLHF、RLAIF、PPO、DPO 等

大型语言模型对齐技术综述：RLHF、RLAIF、PPO、DPO 等

专知会员服务

55+阅读 · 2024年7月24日

【MIT博士论文】高效的鲁棒性和可解释性在学习和数据驱动决策中的应用

【MIT博士论文】高效的鲁棒性和可解释性在学习和数据驱动决策中的应用

专知会员服务

48+阅读 · 2024年7月21日

【MIT博士论文】鲁棒几何感知的数据关联算法与表示，176页pdf

【MIT博士论文】鲁棒几何感知的数据关联算法与表示，176页pdf

专知会员服务

31+阅读 · 2024年2月3日

【CMU博士论文】深度神经网络鲁棒训练与评估方法，101页pdf

【CMU博士论文】深度神经网络鲁棒训练与评估方法，101页pdf

专知会员服务

47+阅读 · 2023年6月18日

【ICML2020投稿论文-CMU-DeepMind-Google】用于评估跨语言泛化的大规模多语言多任务基准

【ICML2020投稿论文-CMU-DeepMind-Google】用于评估跨语言泛化的大规模多语言多任务基准

专知会员服务

14+阅读 · 2020年3月27日

《基于多智能体深度强化学习的空战模拟智能体协作》瑞典林雪平大学

《基于多智能体深度强化学习的空战模拟智能体协作》瑞典林雪平大学

专知

66+阅读 · 2022年8月25日

【干货书】MLOps是什么？MLOps实战：操作机器学习模型，461页pdf

【干货书】MLOps是什么？MLOps实战：操作机器学习模型，461页pdf

专知

15+阅读 · 2022年2月16日

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

专知

12+阅读 · 2020年2月12日

【泡泡一分钟】GOMSF——基于多传感器融合的图优化无人机鲁棒位姿估计方法

【泡泡一分钟】GOMSF——基于多传感器融合的图优化无人机鲁棒位姿估计方法

泡泡机器人SLAM

25+阅读 · 2019年7月2日

【泡泡读者来搞】ROS、Simulink、Carsim的互联与规划、控制算法的验证

【泡泡读者来搞】ROS、Simulink、Carsim的互联与规划、控制算法的验证

泡泡机器人SLAM

17+阅读 · 2019年5月1日

《小样本学习(Few-shot learning)》最新41页综述论文，来自港科大和第四范式

《小样本学习(Few-shot learning)》最新41页综述论文，来自港科大和第四范式

专知

363+阅读 · 2019年4月12日

YOLOv3目标检测有了TensorFlow实现，可用自己的数据来训练

YOLOv3目标检测有了TensorFlow实现，可用自己的数据来训练

量子位

19+阅读 · 2019年1月12日

【泡泡图灵智库】Complex-YOLO：一个用于实时点云3D目标检测的欧拉区域提议网络（arXiv）

【泡泡图灵智库】Complex-YOLO：一个用于实时点云3D目标检测的欧拉区域提议网络（arXiv）

泡泡机器人SLAM

20+阅读 · 2018年12月27日

【泡泡图灵智库】VINS-Mono：一种鲁棒多功能的单目视觉惯性状态估计器

【泡泡图灵智库】VINS-Mono：一种鲁棒多功能的单目视觉惯性状态估计器

泡泡机器人SLAM

19+阅读 · 2018年12月23日

如何用机器学习精准辨别“背景”和“目标”

如何用机器学习精准辨别“背景”和“目标”

论智

10+阅读 · 2018年10月22日

基于随机不可靠量测的事件触发多传感器系统融合估计方法研究

国家自然科学基金

3+阅读 · 2017年12月31日

空间近场完全非合作目标鲁棒相对位姿确定方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

带有随机干扰的非齐次马尔科夫跳变系统的鲁棒滤波研究

国家自然科学基金

0+阅读 · 2015年12月31日

视觉识别中的实用鲁棒回归技术研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于特征学习的空间非合作目标单目视觉位姿测量研究

国家自然科学基金

2+阅读 · 2015年12月31日

面向可穿戴设备的压缩感知关键技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于机器视觉的索缆六自由度位移测量方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

机器灵巧手基于触滑觉信息协同的自适应力控制方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

局部可视环境中基于视觉和触觉感知的灵巧手精细操作的方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

一种低功耗高压缩率测试图形生成方法的实现与应用研究

国家自然科学基金

0+阅读 · 2014年12月31日

Value-Guided Iterative Refinement and the DIQ-H Benchmark for Evaluating VLM Robustness

Arxiv

0+阅读 · 4月29日

Robust Deepfake Detection: Mitigating Spatial Attention Drift via Calibrated Complementary Ensembles

Arxiv

0+阅读 · 4月28日

SuperGrasp: Single-View Object Grasping via Superquadric Similarity Matching, Evaluation, and Refinement

Arxiv

0+阅读 · 4月15日

Point Bridge: 3D Representations for Cross Domain Policy Learning

Arxiv

0+阅读 · 3月25日

V-Dreamer: Automating Robotic Simulation and Trajectory Synthesis via Video Generation Priors

Arxiv

0+阅读 · 3月19日

MolmoB0T: Large-Scale Simulation Enables Zero-Shot Manipulation

Arxiv

0+阅读 · 3月17日

RobotArena $\infty$: Scalable Robot Benchmarking via Real-to-Sim Translation

Arxiv

0+阅读 · 3月13日

MuxGel: Simultaneous Dual-Modal Visuo-Tactile Sensing via Spatially Multiplexing and Deep Reconstruction

Arxiv

0+阅读 · 3月10日

Beyond Short-Horizon: VQ-Memory for Robust Long-Horizon Manipulation in Non-Markovian Simulation Benchmarks

Arxiv

0+阅读 · 3月10日

Beyond the Markovian Assumption: Robust Optimization via Fractional Weyl Integrals in Imbalanced Data

Arxiv

0+阅读 · 3月9日

VIP会员

文章信息

相关主题

最新内容

美国从乌克兰无人机战争中学习经验

美国从乌克兰无人机战争中学习经验

专知会员服务

1+阅读 · 今天15:03

ICML 2026 | 面向视觉语言模型的语义鲁棒性认证

ICML 2026 | 面向视觉语言模型的语义鲁棒性认证

专知会员服务

1+阅读 · 今天14:31

综述 | 智能体电子设计自动化：从“交接有效性”重新理解Agentic EDA

综述 | 智能体电子设计自动化：从“交接有效性”重新理解Agentic EDA

专知会员服务

0+阅读 · 今天14:29

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

专知会员服务

12+阅读 · 6月20日

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

专知会员服务

4+阅读 · 6月19日

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

专知会员服务

7+阅读 · 6月19日

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

专知会员服务

6+阅读 · 6月18日

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

专知会员服务

8+阅读 · 6月18日

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

专知会员服务

11+阅读 · 6月18日

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

专知会员服务

11+阅读 · 6月18日

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

专知会员服务

7+阅读 · 6月17日

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

专知会员服务

12+阅读 · 6月17日

学习数据的几何：形状空间分析数学综述

学习数据的几何：形状空间分析数学综述

专知会员服务

8+阅读 · 6月17日

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

专知会员服务

21+阅读 · 6月17日

定向能反无人机系统最新发展动态

定向能反无人机系统最新发展动态

专知会员服务

10+阅读 · 6月17日

相关VIP内容

【ICML 2026】面向视野外操作的VLA空间记忆框架SOMA

【ICML 2026】面向视野外操作的VLA空间记忆框架SOMA

专知会员服务

8+阅读 · 5月22日

【ICML 2026】 StableVLA：无需额外数据，基于信息瓶颈的自适应鲁棒性视觉-语言-动作模型

【ICML 2026】 StableVLA：无需额外数据，基于信息瓶颈的自适应鲁棒性视觉-语言-动作模型

专知会员服务

6+阅读 · 5月19日

【ICML 2026】用测试时训练线性化视觉Transformer：T⁵ 实现 Softmax 注意力到线性复杂度的快速转换

【ICML 2026】用测试时训练线性化视觉Transformer：T⁵ 实现 Softmax 注意力到线性复杂度的快速转换

专知会员服务

5+阅读 · 5月5日

面向机器人操作的基于大型视觉‑语言模型（VLM）的视觉‑语言‑动作（VLA）模型综述

面向机器人操作的基于大型视觉‑语言模型（VLM）的视觉‑语言‑动作（VLA）模型综述

专知会员服务

34+阅读 · 2025年8月19日

【ICLR2025】无噪声自我运动与噪声视频三维重建的可扩展基准测试与鲁棒学习

【ICLR2025】无噪声自我运动与噪声视频三维重建的可扩展基准测试与鲁棒学习

专知会员服务

8+阅读 · 2025年1月27日

大型语言模型对齐技术综述：RLHF、RLAIF、PPO、DPO 等

大型语言模型对齐技术综述：RLHF、RLAIF、PPO、DPO 等

专知会员服务

55+阅读 · 2024年7月24日

【MIT博士论文】高效的鲁棒性和可解释性在学习和数据驱动决策中的应用

【MIT博士论文】高效的鲁棒性和可解释性在学习和数据驱动决策中的应用

专知会员服务

48+阅读 · 2024年7月21日

【MIT博士论文】鲁棒几何感知的数据关联算法与表示，176页pdf

【MIT博士论文】鲁棒几何感知的数据关联算法与表示，176页pdf

专知会员服务

31+阅读 · 2024年2月3日

【CMU博士论文】深度神经网络鲁棒训练与评估方法，101页pdf

【CMU博士论文】深度神经网络鲁棒训练与评估方法，101页pdf

专知会员服务

47+阅读 · 2023年6月18日

【ICML2020投稿论文-CMU-DeepMind-Google】用于评估跨语言泛化的大规模多语言多任务基准

【ICML2020投稿论文-CMU-DeepMind-Google】用于评估跨语言泛化的大规模多语言多任务基准

专知会员服务

14+阅读 · 2020年3月27日

热门VIP内容

开通专知VIP会员享更多权益服务

ICML 2026 | 面向视觉语言模型的语义鲁棒性认证

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

美国从乌克兰无人机战争中学习经验

综述 | 智能体电子设计自动化：从“交接有效性”重新理解Agentic EDA

相关资讯

《基于多智能体深度强化学习的空战模拟智能体协作》瑞典林雪平大学

《基于多智能体深度强化学习的空战模拟智能体协作》瑞典林雪平大学

专知

66+阅读 · 2022年8月25日

【干货书】MLOps是什么？MLOps实战：操作机器学习模型，461页pdf

【干货书】MLOps是什么？MLOps实战：操作机器学习模型，461页pdf

专知

15+阅读 · 2022年2月16日

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

专知

12+阅读 · 2020年2月12日

【泡泡一分钟】GOMSF——基于多传感器融合的图优化无人机鲁棒位姿估计方法

【泡泡一分钟】GOMSF——基于多传感器融合的图优化无人机鲁棒位姿估计方法

泡泡机器人SLAM

25+阅读 · 2019年7月2日

【泡泡读者来搞】ROS、Simulink、Carsim的互联与规划、控制算法的验证

【泡泡读者来搞】ROS、Simulink、Carsim的互联与规划、控制算法的验证

泡泡机器人SLAM

17+阅读 · 2019年5月1日

《小样本学习(Few-shot learning)》最新41页综述论文，来自港科大和第四范式

《小样本学习(Few-shot learning)》最新41页综述论文，来自港科大和第四范式

专知

363+阅读 · 2019年4月12日

YOLOv3目标检测有了TensorFlow实现，可用自己的数据来训练

YOLOv3目标检测有了TensorFlow实现，可用自己的数据来训练

量子位

19+阅读 · 2019年1月12日

【泡泡图灵智库】Complex-YOLO：一个用于实时点云3D目标检测的欧拉区域提议网络（arXiv）

【泡泡图灵智库】Complex-YOLO：一个用于实时点云3D目标检测的欧拉区域提议网络（arXiv）

泡泡机器人SLAM

20+阅读 · 2018年12月27日

【泡泡图灵智库】VINS-Mono：一种鲁棒多功能的单目视觉惯性状态估计器

【泡泡图灵智库】VINS-Mono：一种鲁棒多功能的单目视觉惯性状态估计器

泡泡机器人SLAM

19+阅读 · 2018年12月23日

如何用机器学习精准辨别“背景”和“目标”

如何用机器学习精准辨别“背景”和“目标”

论智

10+阅读 · 2018年10月22日

相关论文

Value-Guided Iterative Refinement and the DIQ-H Benchmark for Evaluating VLM Robustness

Arxiv

0+阅读 · 4月29日

Robust Deepfake Detection: Mitigating Spatial Attention Drift via Calibrated Complementary Ensembles

Arxiv

0+阅读 · 4月28日

SuperGrasp: Single-View Object Grasping via Superquadric Similarity Matching, Evaluation, and Refinement

Arxiv

0+阅读 · 4月15日

Point Bridge: 3D Representations for Cross Domain Policy Learning

Arxiv

0+阅读 · 3月25日

V-Dreamer: Automating Robotic Simulation and Trajectory Synthesis via Video Generation Priors

Arxiv

0+阅读 · 3月19日

MolmoB0T: Large-Scale Simulation Enables Zero-Shot Manipulation

Arxiv

0+阅读 · 3月17日

RobotArena $\infty$: Scalable Robot Benchmarking via Real-to-Sim Translation

Arxiv

0+阅读 · 3月13日

MuxGel: Simultaneous Dual-Modal Visuo-Tactile Sensing via Spatially Multiplexing and Deep Reconstruction

Arxiv

0+阅读 · 3月10日

Beyond Short-Horizon: VQ-Memory for Robust Long-Horizon Manipulation in Non-Markovian Simulation Benchmarks

Arxiv

0+阅读 · 3月10日

Beyond the Markovian Assumption: Robust Optimization via Fractional Weyl Integrals in Imbalanced Data

Arxiv

0+阅读 · 3月9日

相关基金

基于随机不可靠量测的事件触发多传感器系统融合估计方法研究

国家自然科学基金

3+阅读 · 2017年12月31日

空间近场完全非合作目标鲁棒相对位姿确定方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

带有随机干扰的非齐次马尔科夫跳变系统的鲁棒滤波研究

国家自然科学基金

0+阅读 · 2015年12月31日

视觉识别中的实用鲁棒回归技术研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于特征学习的空间非合作目标单目视觉位姿测量研究

国家自然科学基金

2+阅读 · 2015年12月31日

面向可穿戴设备的压缩感知关键技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于机器视觉的索缆六自由度位移测量方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

机器灵巧手基于触滑觉信息协同的自适应力控制方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

局部可视环境中基于视觉和触觉感知的灵巧手精细操作的方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

一种低功耗高压缩率测试图形生成方法的实现与应用研究

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员