ContactWorld: What Matters in Vision-Tactile World Models for Contact-Rich Manipulation - 专知论文

会员服务 ·

0

操作 · 模态 · 时域 · 结构 · 世界模型 ·

ContactWorld: What Matters in Vision-Tactile World Models for Contact-Rich Manipulation

翻译：[translated title in Chinese] ContactWorld：触觉-视觉世界模型中影响密集接触操作的关键因素

Zhiyuan Zhang,Pokuang Zhou,Kaidi Zhang,Adeesh Desai,Temitope Amosa,Davood Soleymanzadeh,Jiuzhou Lei,Minghui Zheng,Yu She

from arxiv, 32 pages, 12 figures, supplementary material included

Contact-rich manipulation requires world models to reason over complex contact dynamics from multimodal sensory observations. However, it remains unclear which representation properties fundamentally support stable long-horizon planning in contact-rich settings. In this paper, we present ContactWorld, a benchmark and systematic empirical study of vision-tactile world models spanning 12 contact-rich manipulation tasks, including insertion, disassembly, screwing, and exploratory interaction. Across extensive experiments, we find that representations that are both spatially structured and temporally continuous consistently achieve the strongest planning performance. In particular, point-cloud observations improve average planning success rates from 20.7% with wrist-view observations and 22.0% with front-view observations to 32.1%. We further find that the effectiveness of tactile sensing depends critically on cross-modal representation compatibility rather than modality scaling alone. Combining point-cloud observations with tactile force-field representations, which preserve richer spatial structure and interaction dynamics, further improves performance to 36.1%, yielding the strongest overall planning performance across all evaluated tasks. Moreover, tactile sensing becomes increasingly important under long-horizon planning objectives, where compounding prediction errors and contact uncertainty accumulate over time. Together, these findings highlight the importance of representation structure, multimodal compatibility, and long-horizon robustness in vision-tactile world models for contact-rich robotic manipulation.

翻译：[translated abstract in Chinese] 密集接触操作要求世界模型能够基于多模态感知观测推理复杂的接触动力学。然而，当前尚不明确何种表征属性从根本上支撑了密集接触场景下稳定的长时域规划。本文提出ContactWorld基准测试与系统性实证研究，涵盖12项密集接触操作任务（包括插入、拆卸、旋拧及探索性交互）。通过大规模实验发现，兼具空间结构性与时间连续性的表征能稳定实现最优规划性能。具体而言，点云观测将平均规划成功率从腕部视角观测的20.7%及前向视角观测的22.0%提升至32.1%。进一步研究表明，触觉感知的有效性关键取决于跨模态表征兼容性而非单纯模态规模扩展。将点云观测与保留更丰富空间结构与交互动力学的触觉力场表征相结合，性能进一步提升至36.1%，在所有评估任务中取得最优规划表现。此外，在长时域规划目标下——此时复合预测误差与接触不确定性随时间累积——触觉感知的重要性愈发显著。这些发现共同强调了适用于密集接触机器人操作的世界模型中表征结构、多模态兼容性与长时域鲁棒性的关键作用。

0

相关内容

综述 | 机器人操作世界模型：预测、行动接口与学习生命周期

综述 | 机器人操作世界模型：预测、行动接口与学习生命周期

专知会员服务

11+阅读 · 6月3日

【综述】世界模型：架构、方法、推理与应用全景

【综述】世界模型：架构、方法、推理与应用全景

专知会员服务

34+阅读 · 6月2日

从看见到认知世界：视觉世界模型综述

从看见到认知世界：视觉世界模型综述

专知会员服务

17+阅读 · 5月17日

【博士论文】弥合多模态基础模型与世界模型之间的鸿沟

【博士论文】弥合多模态基础模型与世界模型之间的鸿沟

专知会员服务

33+阅读 · 2025年10月9日

从二维到三维认知：通用世界模型简要综述

从二维到三维认知：通用世界模型简要综述

专知会员服务

31+阅读 · 2025年6月26日

自动驾驶的世界模型综述

自动驾驶的世界模型综述

专知会员服务

48+阅读 · 2025年1月22日

最新！《信息技术系统间远程通信和信息交换时间敏感网络与用于过程控制的对象连接与嵌入统一架构融合信息模型映射》国家标准意见稿发布

最新！《信息技术系统间远程通信和信息交换时间敏感网络与用于过程控制的对象连接与嵌入统一架构融合信息模型映射》国家标准意见稿发布

专知会员服务

23+阅读 · 2022年3月28日

动态手势理解与交互综述

专知会员服务

34+阅读 · 2021年10月11日

【WSDM2020】微软上海交大，基于双侧邻域协作关系建模的顺序推荐，Sequential Recommendation with Dual Side Neighbor-based Collaborative Relation Modeling（附pdf）

专知会员服务

23+阅读 · 2019年11月23日

Aspect-Oriented Syntax Network for Aspect-Based Sentiment Analysis，中山大学数据科学与计算机学院权小军教授，第八届全国社会媒体处理大会SMP2019

Aspect-Oriented Syntax Network for Aspect-Based Sentiment Analysis，中山大学数据科学与计算机学院权小军教授，第八届全国社会媒体处理大会SMP2019

专知会员服务

19+阅读 · 2019年10月22日

【深度语义匹配模型】原理篇二：交互篇

【深度语义匹配模型】原理篇二：交互篇

AINLP

16+阅读 · 2020年5月18日

【泡泡点云时空】跟踪与三角测量中一种通过兴趣点网络进行多视图2D/3D刚性配准的方法

【泡泡点云时空】跟踪与三角测量中一种通过兴趣点网络进行多视图2D/3D刚性配准的方法

泡泡机器人SLAM

17+阅读 · 2019年7月8日

论文浅尝 | Global Relation Embedding for Relation Extraction

论文浅尝 | Global Relation Embedding for Relation Extraction

开放知识图谱

12+阅读 · 2019年3月3日

深度学习中Attention Mechanism详细介绍：原理、分类及应用

深度学习中Attention Mechanism详细介绍：原理、分类及应用

深度学习与NLP

10+阅读 · 2019年2月18日

交互设计理论：视觉感知、认知摩擦、认知负荷和情境认知

交互设计理论：视觉感知、认知摩擦、认知负荷和情境认知

人人都是产品经理

20+阅读 · 2018年5月10日

Relation Networks for Object Detection 论文笔记

Relation Networks for Object Detection 论文笔记

统计学习与视觉计算组

16+阅读 · 2018年4月18日

深度 | 级联MobileNet-V2实现人脸关键点检测（附训练源码）

深度 | 级联MobileNet-V2实现人脸关键点检测（附训练源码）

机器之心

15+阅读 · 2018年3月11日

【论文推荐】最新5篇自动问答相关论文——多关系自动问答、知识图谱联合实体和关系、生物医学问题、维基百科语料数据、多句式旅游推荐

【论文推荐】最新5篇自动问答相关论文——多关系自动问答、知识图谱联合实体和关系、生物医学问题、维基百科语料数据、多句式旅游推荐

专知

23+阅读 · 2018年1月17日

模型汇总24 - 深度学习中Attention Mechanism详细介绍：原理、分类及应用

模型汇总24 - 深度学习中Attention Mechanism详细介绍：原理、分类及应用

深度学习与NLP

12+阅读 · 2017年11月30日

综述——隐私保护集合交集计算技术研究

综述——隐私保护集合交集计算技术研究

计算机研究与发展

22+阅读 · 2017年10月24日

随机图和随机环境中的接触过程、选举模型、排他过程

国家自然科学基金

0+阅读 · 2015年12月31日

基于生物力学的经导管介入手术触觉传感器接触机理与设计研究

国家自然科学基金

0+阅读 · 2015年12月31日

稀疏性多维联合优化在线视觉跟踪方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

局部可视环境中基于视觉和触觉感知的灵巧手精细操作的方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

移动与可穿戴计算中Eyes-Free交互界面研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于深度信息和显著计算的手势交互技术研究及应用

国家自然科学基金

1+阅读 · 2014年12月31日

表面活性剂的界面传递行为研究

国家自然科学基金

0+阅读 · 2014年12月31日

企业多层次信息技术匹配及其对敏捷性的影响机理

国家自然科学基金

0+阅读 · 2014年12月31日

碰撞接触中的尺度缩放效应

国家自然科学基金

0+阅读 · 2014年12月31日

城市群空间交互情景分析与多尺度协同模拟

国家自然科学基金

0+阅读 · 2014年12月31日

TouchThinker: Scaling Tactile Commonsense Reasoning to the Open World with Large-scale Data and Action-aware Representation

Arxiv

0+阅读 · 6月23日

IMPACT: An Implicit Active-Set Augmented Lagrangian for Fast Contact-Implicit Trajectory Optimization

Arxiv

0+阅读 · 6月20日

ActWorld: From Explorable to Interactive World Model via Action-Aware Memory

Arxiv

0+阅读 · 6月16日

OmniVTLA: Vision-Tactile-Language-Action Models with Semantic-Aligned Tactile Sensing

Arxiv

0+阅读 · 6月15日

GeoTLM: Geometry-aware Tactile-Language Models for Contact Motion Orientation Reasoning of Dynamic Objects

Arxiv

0+阅读 · 6月14日

FAWAM: Force-Aware World Action Models for Closed-Loop Contact-Rich Manipulation

Arxiv

0+阅读 · 6月12日

TacForeSight: Force-Guided Tactile World Model for Contact-Rich Manipulation

Arxiv

0+阅读 · 6月9日

Dream-Tac: A Unified Tactile World Action Model for Contact-Rich Robot Manipulation

Arxiv

0+阅读 · 6月7日

Speculating the Impacts of Mediated Social Touch Technology

Arxiv

0+阅读 · 6月3日

Constructing Contact and Connectivity Matrices for Infectious Disease Modelling

Arxiv

0+阅读 · 5月28日

VIP会员

文章信息

相关主题

最新内容

从采集到决策：美军视角下的战术情报范式重构

从采集到决策：美军视角下的战术情报范式重构

专知会员服务

4+阅读 · 8月2日

乌克兰“德尔塔”系统揭示无人机、数据与领导力如何重塑现代安全格局

乌克兰“德尔塔”系统揭示无人机、数据与领导力如何重塑现代安全格局

专知会员服务

1+阅读 · 8月2日

大规模作战中的参谋流程：作为联合兵种作战组成部分的目标锁定

大规模作战中的参谋流程：作为联合兵种作战组成部分的目标锁定

专知会员服务

5+阅读 · 8月2日

《北约概念开发与实验（CD&E）手册：概念开发者工具箱》100页手册

《北约概念开发与实验（CD&E）手册：概念开发者工具箱》100页手册

专知会员服务

6+阅读 · 8月2日

《履带式无人地面战车技术发展现状》

《履带式无人地面战车技术发展现状》

专知会员服务

2+阅读 · 8月2日

《美国空军B-2“幽灵”隐身轰炸机系统工程案例研究》117页

《美国空军B-2“幽灵”隐身轰炸机系统工程案例研究》117页

专知会员服务

6+阅读 · 8月1日

隐身技术前沿综述：物理机理、工程实践与战略展望

隐身技术前沿综述：物理机理、工程实践与战略展望

专知会员服务

4+阅读 · 8月1日

《多变海洋环境下无人水面艇与自主水下机器人对接的最优路径规划》

《多变海洋环境下无人水面艇与自主水下机器人对接的最优路径规划》

专知会员服务

4+阅读 · 8月1日

《以机反机：基于无人机载麦克风的空中周界入侵检测》

《以机反机：基于无人机载麦克风的空中周界入侵检测》

专知会员服务

4+阅读 · 8月1日

《无人机脆弱性利用：网络空间力量的新域》

《无人机脆弱性利用：网络空间力量的新域》

专知会员服务

2+阅读 · 8月1日

美空军如何将人工智能从战场部署至后方机关

美空军如何将人工智能从战场部署至后方机关

专知会员服务

11+阅读 · 7月31日

《美战争部指令文件：网络空间效应与使能能力测试评估》

《美战争部指令文件：网络空间效应与使能能力测试评估》

专知会员服务

8+阅读 · 7月31日

《史诗怒火行动：多域前瞻评估》49页报告

《史诗怒火行动：多域前瞻评估》49页报告

专知会员服务

8+阅读 · 7月31日

《英国防部：未来空战系统数字化战略》33页

《英国防部：未来空战系统数字化战略》33页

专知会员服务

5+阅读 · 7月31日

《面向自主飞行网络的智能体人工智能架构》

《面向自主飞行网络的智能体人工智能架构》

专知会员服务

8+阅读 · 7月31日

相关VIP内容

综述 | 机器人操作世界模型：预测、行动接口与学习生命周期

综述 | 机器人操作世界模型：预测、行动接口与学习生命周期

专知会员服务

11+阅读 · 6月3日

【综述】世界模型：架构、方法、推理与应用全景

【综述】世界模型：架构、方法、推理与应用全景

专知会员服务

34+阅读 · 6月2日

从看见到认知世界：视觉世界模型综述

从看见到认知世界：视觉世界模型综述

专知会员服务

17+阅读 · 5月17日

【博士论文】弥合多模态基础模型与世界模型之间的鸿沟

【博士论文】弥合多模态基础模型与世界模型之间的鸿沟

专知会员服务

33+阅读 · 2025年10月9日

从二维到三维认知：通用世界模型简要综述

从二维到三维认知：通用世界模型简要综述

专知会员服务

31+阅读 · 2025年6月26日

自动驾驶的世界模型综述

自动驾驶的世界模型综述

专知会员服务

48+阅读 · 2025年1月22日

最新！《信息技术系统间远程通信和信息交换时间敏感网络与用于过程控制的对象连接与嵌入统一架构融合信息模型映射》国家标准意见稿发布

最新！《信息技术系统间远程通信和信息交换时间敏感网络与用于过程控制的对象连接与嵌入统一架构融合信息模型映射》国家标准意见稿发布

专知会员服务

23+阅读 · 2022年3月28日

动态手势理解与交互综述

专知会员服务

34+阅读 · 2021年10月11日

【WSDM2020】微软上海交大，基于双侧邻域协作关系建模的顺序推荐，Sequential Recommendation with Dual Side Neighbor-based Collaborative Relation Modeling（附pdf）

专知会员服务

23+阅读 · 2019年11月23日

Aspect-Oriented Syntax Network for Aspect-Based Sentiment Analysis，中山大学数据科学与计算机学院权小军教授，第八届全国社会媒体处理大会SMP2019

Aspect-Oriented Syntax Network for Aspect-Based Sentiment Analysis，中山大学数据科学与计算机学院权小军教授，第八届全国社会媒体处理大会SMP2019

专知会员服务

19+阅读 · 2019年10月22日

热门VIP内容

开通专知VIP会员享更多权益服务

乌克兰“德尔塔”系统揭示无人机、数据与领导力如何重塑现代安全格局

《北约概念开发与实验（CD&E）手册：概念开发者工具箱》100页手册

从采集到决策：美军视角下的战术情报范式重构

大规模作战中的参谋流程：作为联合兵种作战组成部分的目标锁定

相关资讯

【深度语义匹配模型】原理篇二：交互篇

【深度语义匹配模型】原理篇二：交互篇

AINLP

16+阅读 · 2020年5月18日

【泡泡点云时空】跟踪与三角测量中一种通过兴趣点网络进行多视图2D/3D刚性配准的方法

【泡泡点云时空】跟踪与三角测量中一种通过兴趣点网络进行多视图2D/3D刚性配准的方法

泡泡机器人SLAM

17+阅读 · 2019年7月8日

论文浅尝 | Global Relation Embedding for Relation Extraction

论文浅尝 | Global Relation Embedding for Relation Extraction

开放知识图谱

12+阅读 · 2019年3月3日

深度学习中Attention Mechanism详细介绍：原理、分类及应用

深度学习中Attention Mechanism详细介绍：原理、分类及应用

深度学习与NLP

10+阅读 · 2019年2月18日

交互设计理论：视觉感知、认知摩擦、认知负荷和情境认知

交互设计理论：视觉感知、认知摩擦、认知负荷和情境认知

人人都是产品经理

20+阅读 · 2018年5月10日

Relation Networks for Object Detection 论文笔记

Relation Networks for Object Detection 论文笔记

统计学习与视觉计算组

16+阅读 · 2018年4月18日

深度 | 级联MobileNet-V2实现人脸关键点检测（附训练源码）

深度 | 级联MobileNet-V2实现人脸关键点检测（附训练源码）

机器之心

15+阅读 · 2018年3月11日

【论文推荐】最新5篇自动问答相关论文——多关系自动问答、知识图谱联合实体和关系、生物医学问题、维基百科语料数据、多句式旅游推荐

【论文推荐】最新5篇自动问答相关论文——多关系自动问答、知识图谱联合实体和关系、生物医学问题、维基百科语料数据、多句式旅游推荐

专知

23+阅读 · 2018年1月17日

模型汇总24 - 深度学习中Attention Mechanism详细介绍：原理、分类及应用

模型汇总24 - 深度学习中Attention Mechanism详细介绍：原理、分类及应用

深度学习与NLP

12+阅读 · 2017年11月30日

综述——隐私保护集合交集计算技术研究

综述——隐私保护集合交集计算技术研究

计算机研究与发展

22+阅读 · 2017年10月24日

相关论文

TouchThinker: Scaling Tactile Commonsense Reasoning to the Open World with Large-scale Data and Action-aware Representation

Arxiv

0+阅读 · 6月23日

IMPACT: An Implicit Active-Set Augmented Lagrangian for Fast Contact-Implicit Trajectory Optimization

Arxiv

0+阅读 · 6月20日

ActWorld: From Explorable to Interactive World Model via Action-Aware Memory

Arxiv

0+阅读 · 6月16日

OmniVTLA: Vision-Tactile-Language-Action Models with Semantic-Aligned Tactile Sensing

Arxiv

0+阅读 · 6月15日

GeoTLM: Geometry-aware Tactile-Language Models for Contact Motion Orientation Reasoning of Dynamic Objects

Arxiv

0+阅读 · 6月14日

FAWAM: Force-Aware World Action Models for Closed-Loop Contact-Rich Manipulation

Arxiv

0+阅读 · 6月12日

TacForeSight: Force-Guided Tactile World Model for Contact-Rich Manipulation

Arxiv

0+阅读 · 6月9日

Dream-Tac: A Unified Tactile World Action Model for Contact-Rich Robot Manipulation

Arxiv

0+阅读 · 6月7日

Speculating the Impacts of Mediated Social Touch Technology

Arxiv

0+阅读 · 6月3日

Constructing Contact and Connectivity Matrices for Infectious Disease Modelling

Arxiv

0+阅读 · 5月28日

相关基金

随机图和随机环境中的接触过程、选举模型、排他过程

国家自然科学基金

0+阅读 · 2015年12月31日

基于生物力学的经导管介入手术触觉传感器接触机理与设计研究

国家自然科学基金

0+阅读 · 2015年12月31日

稀疏性多维联合优化在线视觉跟踪方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

局部可视环境中基于视觉和触觉感知的灵巧手精细操作的方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

移动与可穿戴计算中Eyes-Free交互界面研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于深度信息和显著计算的手势交互技术研究及应用

国家自然科学基金

1+阅读 · 2014年12月31日

表面活性剂的界面传递行为研究

国家自然科学基金

0+阅读 · 2014年12月31日

企业多层次信息技术匹配及其对敏捷性的影响机理

国家自然科学基金

0+阅读 · 2014年12月31日

碰撞接触中的尺度缩放效应

国家自然科学基金

0+阅读 · 2014年12月31日

城市群空间交互情景分析与多尺度协同模拟

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员