Contact-rich manipulation requires world models to reason over complex contact dynamics from multimodal sensory observations. However, it remains unclear which representation properties fundamentally support stable long-horizon planning in contact-rich settings. In this paper, we present ContactWorld, a benchmark and systematic empirical study of vision-tactile world models spanning 12 contact-rich manipulation tasks, including insertion, disassembly, screwing, and exploratory interaction. Across extensive experiments, we find that representations that are both spatially structured and temporally continuous consistently achieve the strongest planning performance. In particular, point-cloud observations improve average planning success rates from 20.7% with wrist-view observations and 22.0% with front-view observations to 32.1%. We further find that the effectiveness of tactile sensing depends critically on cross-modal representation compatibility rather than modality scaling alone. Combining point-cloud observations with tactile force-field representations, which preserve richer spatial structure and interaction dynamics, further improves performance to 36.1%, yielding the strongest overall planning performance across all evaluated tasks. Moreover, tactile sensing becomes increasingly important under long-horizon planning objectives, where compounding prediction errors and contact uncertainty accumulate over time. Together, these findings highlight the importance of representation structure, multimodal compatibility, and long-horizon robustness in vision-tactile world models for contact-rich robotic manipulation.


翻译:[translated abstract in Chinese] 密集接触操作要求世界模型能够基于多模态感知观测推理复杂的接触动力学。然而,当前尚不明确何种表征属性从根本上支撑了密集接触场景下稳定的长时域规划。本文提出ContactWorld基准测试与系统性实证研究,涵盖12项密集接触操作任务(包括插入、拆卸、旋拧及探索性交互)。通过大规模实验发现,兼具空间结构性与时间连续性的表征能稳定实现最优规划性能。具体而言,点云观测将平均规划成功率从腕部视角观测的20.7%及前向视角观测的22.0%提升至32.1%。进一步研究表明,触觉感知的有效性关键取决于跨模态表征兼容性而非单纯模态规模扩展。将点云观测与保留更丰富空间结构与交互动力学的触觉力场表征相结合,性能进一步提升至36.1%,在所有评估任务中取得最优规划表现。此外,在长时域规划目标下——此时复合预测误差与接触不确定性随时间累积——触觉感知的重要性愈发显著。这些发现共同强调了适用于密集接触机器人操作的世界模型中表征结构、多模态兼容性与长时域鲁棒性的关键作用。

0
下载
关闭预览

相关内容

从看见到认知世界:视觉世界模型综述
专知会员服务
15+阅读 · 5月17日
【博士论文】弥合多模态基础模型与世界模型之间的鸿沟
从二维到三维认知:通用世界模型简要综述
专知会员服务
30+阅读 · 2025年6月26日
自动驾驶的世界模型综述
专知会员服务
47+阅读 · 2025年1月22日
专知会员服务
34+阅读 · 2021年10月11日
【深度语义匹配模型】原理篇二:交互篇
AINLP
16+阅读 · 2020年5月18日
论文浅尝 | Global Relation Embedding for Relation Extraction
开放知识图谱
12+阅读 · 2019年3月3日
深度学习中Attention Mechanism详细介绍:原理、分类及应用
深度学习与NLP
10+阅读 · 2019年2月18日
交互设计理论:视觉感知、认知摩擦、认知负荷和情境认知
人人都是产品经理
20+阅读 · 2018年5月10日
Relation Networks for Object Detection 论文笔记
统计学习与视觉计算组
16+阅读 · 2018年4月18日
综述——隐私保护集合交集计算技术研究
计算机研究与发展
22+阅读 · 2017年10月24日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
4+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
7+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
4+阅读 · 6月17日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员