视觉触觉世界模型 (Visuo-Tactile World Models) - 专知论文

会员服务 ·

0

世界模型 · 机器人 · 触觉感知 · 交互 · 遮挡 ·

Visuo-Tactile World Models

翻译：视觉触觉世界模型

Carolina Higuera,Sergio Arnaud,Byron Boots,Mustafa Mukadam,Francois Robert Hogan,Franziska Meier

from arxiv, Preprint

We introduce multi-task Visuo-Tactile World Models (VT-WM), which capture the physics of contact through touch reasoning. By complementing vision with tactile sensing, VT-WM better understands robot-object interactions in contact-rich tasks, avoiding common failure modes of vision-only models under occlusion or ambiguous contact states, such as objects disappearing, teleporting, or moving in ways that violate basic physics. Trained across a set of contact-rich manipulation tasks, VT-WM improves physical fidelity in imagination, achieving 33% better performance at maintaining object permanence and 29% better compliance with the laws of motion in autoregressive rollouts. Moreover, experiments show that grounding in contact dynamics also translates to planning. In zero-shot real-robot experiments, VT-WM achieves up to 35% higher success rates, with the largest gains in multi-step, contact-rich tasks. Finally, VT-WM demonstrates significant downstream versatility, effectively adapting its learned contact dynamics to a novel task and achieving reliable planning success with only a limited set of demonstrations.

翻译：我们提出了多任务视觉触觉世界模型（VT-WM），该模型通过触觉推理捕捉接触物理。通过将触觉感知与视觉互补，VT-WM能更好地理解接触密集型任务中的机器人-物体交互，避免了纯视觉模型在遮挡或接触状态模糊时常见的失效模式，例如物体消失、瞬移或以违反基础物理学的方式运动。在一系列接触密集型操作任务上进行训练后，VT-WM提升了想象过程中的物理保真度，在自回归推演中，物体恒存性维持性能提高了33%，运动定律符合度提高了29%。此外，实验表明，基于接触动力学的建模也转化为规划能力的提升。在零样本真实机器人实验中，VT-WM实现了高达35%的成功率提升，其中在多步骤、接触密集型任务中收益最大。最后，VT-WM展现出显著的下游任务泛化能力，能有效地将其学习到的接触动力学适应到新任务中，并仅通过少量演示即可实现可靠的规划成功。

0

相关内容

世界模型

【博士论文】弥合多模态基础模型与世界模型之间的鸿沟

【博士论文】弥合多模态基础模型与世界模型之间的鸿沟

专知会员服务

29+阅读 · 2025年10月9日

视觉语言建模遇见遥感：模型、数据集与前景展望

视觉语言建模遇见遥感：模型、数据集与前景展望

专知会员服务

17+阅读 · 2025年5月21日

大规模视觉-语言模型的基准、评估、应用与挑战

大规模视觉-语言模型的基准、评估、应用与挑战

专知会员服务

18+阅读 · 2025年2月10日

世界模型：安全性视角

世界模型：安全性视角

专知会员服务

40+阅读 · 2024年11月17日

《面向视觉语言地理基础模型》综述

《面向视觉语言地理基础模型》综述

专知会员服务

47+阅读 · 2024年6月15日

【CVPR2024】"ViTamin：在视觉-语言时代设计可扩展的视觉模型"

【CVPR2024】"ViTamin：在视觉-语言时代设计可扩展的视觉模型"

专知会员服务

28+阅读 · 2024年4月4日

【NeurIPS2023】大型语言模型是视觉推理协调器

【NeurIPS2023】大型语言模型是视觉推理协调器

专知会员服务

30+阅读 · 2023年10月24日

【大模型最新论文】测量和改进视觉语言模型中的思维链推理

【大模型最新论文】测量和改进视觉语言模型中的思维链推理

专知会员服务

54+阅读 · 2023年9月13日

MBZ大学等最新《视觉基础模型》综述，详述视觉大模型技术进展

MBZ大学等最新《视觉基础模型》综述，详述视觉大模型技术进展

专知会员服务

75+阅读 · 2023年8月1日

【剑桥大学博士论文】面向计算机视觉的神经世界模型，211页pdf

【剑桥大学博士论文】面向计算机视觉的神经世界模型，211页pdf

专知会员服务

63+阅读 · 2023年2月5日

超50篇论文串联起从VQA到多模态预训练大模型的前世今生—Part 1

超50篇论文串联起从VQA到多模态预训练大模型的前世今生—Part 1

PaperWeekly

16+阅读 · 2022年4月29日

文本+视觉，多篇 Visual/Video BERT 论文介绍

文本+视觉，多篇 Visual/Video BERT 论文介绍

AI科技评论

22+阅读 · 2019年8月30日

NLP+CV《桥接视觉与语言的研究综述》，带你全面了解视觉+语言最新应用和方法

NLP+CV《桥接视觉与语言的研究综述》，带你全面了解视觉+语言最新应用和方法

中国人工智能学会

27+阅读 · 2019年7月24日

基于关系网络的视觉建模：有望替代卷积神经网络

基于关系网络的视觉建模：有望替代卷积神经网络

微软研究院AI头条

10+阅读 · 2019年7月12日

计算机视觉方向简介 | 视觉惯性里程计(VIO)

计算机视觉方向简介 | 视觉惯性里程计(VIO)

计算机视觉life

64+阅读 · 2019年6月16日

【泡泡图灵智库】VITAMIN-E:极密集特征点的视觉跟踪和建图（CVPR）

【泡泡图灵智库】VITAMIN-E:极密集特征点的视觉跟踪和建图（CVPR）

泡泡机器人SLAM

10+阅读 · 2019年6月14日

这可能是「多模态机器学习」最通俗易懂的介绍

这可能是「多模态机器学习」最通俗易懂的介绍

计算机视觉life

113+阅读 · 2018年12月20日

【论文推荐】最新五篇视觉问答相关论文—深度学习评价、交互注意融合、VizWiz、引导注意力、

【论文推荐】最新五篇视觉问答相关论文—深度学习评价、交互注意融合、VizWiz、引导注意力、

专知

10+阅读 · 2018年6月8日

【论文推荐】最新6篇视觉问答（VQA）相关论文—目标推理、深度循环模型、可解释性、数据可视化、Triplet学习、基准

【论文推荐】最新6篇视觉问答（VQA）相关论文—目标推理、深度循环模型、可解释性、数据可视化、Triplet学习、基准

专知

15+阅读 · 2018年2月3日

视觉里程计：起源、优势、对比、应用

视觉里程计：起源、优势、对比、应用

计算机视觉life

18+阅读 · 2017年7月17日

无力传感器策略和可逆向驱动机构并用提高手术机器人触觉感知性能的新方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

视觉媒体的结构感知处理与分析模型研究

国家自然科学基金

1+阅读 · 2015年12月31日

新视觉模型下非完整移动机器人同时镇定和跟踪控制研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于MEMS加速度传感器的智能终端手势识别及三维交互模型

国家自然科学基金

6+阅读 · 2015年12月31日

自由视点三维视频中纹理-深度图像联合建模及应用

国家自然科学基金

0+阅读 · 2015年12月31日

稀疏性多维联合优化在线视觉跟踪方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

局部可视环境中基于视觉和触觉感知的灵巧手精细操作的方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

形状先验和数据驱动的高分辨遥感影像目标提取

国家自然科学基金

3+阅读 · 2014年12月31日

超光谱、全偏振、立体形貌的多模态成像研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于深度学习的特征融合在移动机器人视觉中的场景理解及研究

国家自然科学基金

12+阅读 · 2014年12月31日

Learning to Feel the Future: DreamTacVLA for Contact-Rich Manipulation

Arxiv

0+阅读 · 2月12日

ViTaS: Visual Tactile Soft Fusion Contrastive Learning for Visuomotor Learning

Arxiv

0+阅读 · 2月12日

ContactGaussian-WM: Learning Physics-Grounded World Model from Videos

Arxiv

0+阅读 · 2月11日

UniVTAC: A Unified Simulation Platform for Visuo-Tactile Manipulation Data Generation, Learning, and Benchmarking

Arxiv

0+阅读 · 2月10日

AnyTouch 2: General Optical Tactile Representation Learning For Dynamic Tactile Perception

Arxiv

0+阅读 · 2月10日

Tactile-Force Alignment in Vision-Language-Action Models for Force-aware Manipulation

Arxiv

0+阅读 · 1月28日

TouchGuide: Inference-Time Steering of Visuomotor Policies via Touch Guidance

Arxiv

0+阅读 · 1月28日

Coding the Visual World: From Image to Simulation Using Vision Language Models

Arxiv

0+阅读 · 1月26日

Active Cross-Modal Visuo-Tactile Perception of Deformable Linear Objects

Arxiv

0+阅读 · 1月20日

Collaborative Representation Learning for Alignment of Tactile, Language, and Vision Modalities

Arxiv

0+阅读 · 1月16日

VIP会员

文章信息

相关主题

相关VIP内容

【博士论文】弥合多模态基础模型与世界模型之间的鸿沟

【博士论文】弥合多模态基础模型与世界模型之间的鸿沟

专知会员服务

29+阅读 · 2025年10月9日

视觉语言建模遇见遥感：模型、数据集与前景展望

视觉语言建模遇见遥感：模型、数据集与前景展望

专知会员服务

17+阅读 · 2025年5月21日

大规模视觉-语言模型的基准、评估、应用与挑战

大规模视觉-语言模型的基准、评估、应用与挑战

专知会员服务

18+阅读 · 2025年2月10日

世界模型：安全性视角

世界模型：安全性视角

专知会员服务

40+阅读 · 2024年11月17日

《面向视觉语言地理基础模型》综述

《面向视觉语言地理基础模型》综述

专知会员服务

47+阅读 · 2024年6月15日

【CVPR2024】"ViTamin：在视觉-语言时代设计可扩展的视觉模型"

【CVPR2024】"ViTamin：在视觉-语言时代设计可扩展的视觉模型"

专知会员服务

28+阅读 · 2024年4月4日

【NeurIPS2023】大型语言模型是视觉推理协调器

【NeurIPS2023】大型语言模型是视觉推理协调器

专知会员服务

30+阅读 · 2023年10月24日

【大模型最新论文】测量和改进视觉语言模型中的思维链推理

【大模型最新论文】测量和改进视觉语言模型中的思维链推理

专知会员服务

54+阅读 · 2023年9月13日

MBZ大学等最新《视觉基础模型》综述，详述视觉大模型技术进展

MBZ大学等最新《视觉基础模型》综述，详述视觉大模型技术进展

专知会员服务

75+阅读 · 2023年8月1日

【剑桥大学博士论文】面向计算机视觉的神经世界模型，211页pdf

【剑桥大学博士论文】面向计算机视觉的神经世界模型，211页pdf

专知会员服务

63+阅读 · 2023年2月5日

热门VIP内容

开通专知VIP会员享更多权益服务

《可信人工智能赋能系统的支柱》

《从经典神经网络到不确定性下的拓扑神经网络：军事应用》2026最新40页报告

人工智能赋能边缘与自主系统：美陆军现代化进程聚焦威胁探测与战术边缘情报

《人工智能：对战略与力量的影响》slides

相关资讯

超50篇论文串联起从VQA到多模态预训练大模型的前世今生—Part 1

超50篇论文串联起从VQA到多模态预训练大模型的前世今生—Part 1

PaperWeekly

16+阅读 · 2022年4月29日

文本+视觉，多篇 Visual/Video BERT 论文介绍

文本+视觉，多篇 Visual/Video BERT 论文介绍

AI科技评论

22+阅读 · 2019年8月30日

NLP+CV《桥接视觉与语言的研究综述》，带你全面了解视觉+语言最新应用和方法

NLP+CV《桥接视觉与语言的研究综述》，带你全面了解视觉+语言最新应用和方法

中国人工智能学会

27+阅读 · 2019年7月24日

基于关系网络的视觉建模：有望替代卷积神经网络

基于关系网络的视觉建模：有望替代卷积神经网络

微软研究院AI头条

10+阅读 · 2019年7月12日

计算机视觉方向简介 | 视觉惯性里程计(VIO)

计算机视觉方向简介 | 视觉惯性里程计(VIO)

计算机视觉life

64+阅读 · 2019年6月16日

【泡泡图灵智库】VITAMIN-E:极密集特征点的视觉跟踪和建图（CVPR）

【泡泡图灵智库】VITAMIN-E:极密集特征点的视觉跟踪和建图（CVPR）

泡泡机器人SLAM

10+阅读 · 2019年6月14日

这可能是「多模态机器学习」最通俗易懂的介绍

这可能是「多模态机器学习」最通俗易懂的介绍

计算机视觉life

113+阅读 · 2018年12月20日

【论文推荐】最新五篇视觉问答相关论文—深度学习评价、交互注意融合、VizWiz、引导注意力、

【论文推荐】最新五篇视觉问答相关论文—深度学习评价、交互注意融合、VizWiz、引导注意力、

专知

10+阅读 · 2018年6月8日

【论文推荐】最新6篇视觉问答（VQA）相关论文—目标推理、深度循环模型、可解释性、数据可视化、Triplet学习、基准

【论文推荐】最新6篇视觉问答（VQA）相关论文—目标推理、深度循环模型、可解释性、数据可视化、Triplet学习、基准

专知

15+阅读 · 2018年2月3日

视觉里程计：起源、优势、对比、应用

视觉里程计：起源、优势、对比、应用

计算机视觉life

18+阅读 · 2017年7月17日

相关论文

Learning to Feel the Future: DreamTacVLA for Contact-Rich Manipulation

Arxiv

0+阅读 · 2月12日

ViTaS: Visual Tactile Soft Fusion Contrastive Learning for Visuomotor Learning

Arxiv

0+阅读 · 2月12日

ContactGaussian-WM: Learning Physics-Grounded World Model from Videos

Arxiv

0+阅读 · 2月11日

UniVTAC: A Unified Simulation Platform for Visuo-Tactile Manipulation Data Generation, Learning, and Benchmarking

Arxiv

0+阅读 · 2月10日

AnyTouch 2: General Optical Tactile Representation Learning For Dynamic Tactile Perception

Arxiv

0+阅读 · 2月10日

Tactile-Force Alignment in Vision-Language-Action Models for Force-aware Manipulation

Arxiv

0+阅读 · 1月28日

TouchGuide: Inference-Time Steering of Visuomotor Policies via Touch Guidance

Arxiv

0+阅读 · 1月28日

Coding the Visual World: From Image to Simulation Using Vision Language Models

Arxiv

0+阅读 · 1月26日

Active Cross-Modal Visuo-Tactile Perception of Deformable Linear Objects

Arxiv

0+阅读 · 1月20日

Collaborative Representation Learning for Alignment of Tactile, Language, and Vision Modalities

Arxiv

0+阅读 · 1月16日

相关基金

无力传感器策略和可逆向驱动机构并用提高手术机器人触觉感知性能的新方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

视觉媒体的结构感知处理与分析模型研究

国家自然科学基金

1+阅读 · 2015年12月31日

新视觉模型下非完整移动机器人同时镇定和跟踪控制研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于MEMS加速度传感器的智能终端手势识别及三维交互模型

国家自然科学基金

6+阅读 · 2015年12月31日

自由视点三维视频中纹理-深度图像联合建模及应用

国家自然科学基金

0+阅读 · 2015年12月31日

稀疏性多维联合优化在线视觉跟踪方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

局部可视环境中基于视觉和触觉感知的灵巧手精细操作的方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

形状先验和数据驱动的高分辨遥感影像目标提取

国家自然科学基金

3+阅读 · 2014年12月31日

超光谱、全偏振、立体形貌的多模态成像研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于深度学习的特征融合在移动机器人视觉中的场景理解及研究

国家自然科学基金

12+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员