TouchGuide: Inference-Time Steering of Visuomotor Policies via Touch Guidance - 专知论文

会员服务 ·

0

策略推理 · 融合 · 操作 · 多模 · 模态 ·

TouchGuide: Inference-Time Steering of Visuomotor Policies via Touch Guidance

翻译：TouchGuide：基于触觉引导的视觉运动策略推理时调控

Zhemeng Zhang,Jiahua Ma,Xincheng Yang,Xin Wen,Yuzhi Zhang,Boyan Li,Yiran Qin,Jin Liu,Can Zhao,Li Kang,Haoqin Hong,Zhenfei Yin,Philip Torr,Hao Su,Ruimao Zhang,Daolin Ma

Fine-grained and contact-rich manipulation remain challenging for robots, largely due to the underutilization of tactile feedback. To address this, we introduce TouchGuide, a novel cross-policy visuo-tactile fusion paradigm that fuses modalities within a low-dimensional action space. Specifically, TouchGuide operates in two stages to guide a pre-trained diffusion or flow-matching visuomotor policy at inference time. First, the policy produces a coarse, visually-plausible action using only visual inputs during early sampling. Second, a task-specific Contact Physical Model (CPM) provides tactile guidance to steer and refine the action, ensuring it aligns with realistic physical contact conditions. Trained through contrastive learning on limited expert demonstrations, the CPM provides a tactile-informed feasibility score to steer the sampling process toward refined actions that satisfy physical contact constraints. Furthermore, to facilitate TouchGuide training with high-quality and cost-effective data, we introduce TacUMI, a data collection system. TacUMI achieves a favorable trade-off between precision and affordability; by leveraging rigid fingertips, it obtains direct tactile feedback, thereby enabling the collection of reliable tactile data. Extensive experiments on five challenging contact-rich tasks, such as shoe lacing and chip handover, show that TouchGuide consistently and significantly outperforms state-of-the-art visuo-tactile policies.

翻译：精细且接触丰富的操作对机器人而言仍具挑战性，主要原因在于触觉反馈未被充分利用。为解决此问题，我们提出TouchGuide，一种新颖的跨策略视觉-触觉融合范式，其在低维动作空间内融合多模态信息。具体而言，TouchGuide在推理时通过两个阶段引导预训练的扩散或流匹配视觉运动策略。首先，在早期采样阶段，策略仅利用视觉输入生成粗略且视觉合理的动作。其次，一个任务特定的接触物理模型（CPM）提供触觉引导以调控和细化该动作，确保其符合真实的物理接触条件。CPM通过在有限专家演示上进行对比学习训练，提供一个触觉感知的可行性评分，从而引导采样过程朝向满足物理接触约束的精细化动作。此外，为促进使用高质量且成本效益高的数据进行TouchGuide训练，我们引入了TacUMI数据采集系统。TacUMI在精度与成本之间实现了有利的权衡；通过利用刚性指尖获取直接触觉反馈，从而能够收集可靠的触觉数据。在鞋带系缚和芯片交接等五个具有挑战性的接触密集型任务上进行的大量实验表明，TouchGuide始终且显著优于最先进的视觉-触觉策略。

0

相关内容

策略推理

在回答之前先解释：组合视觉推理综述

在回答之前先解释：组合视觉推理综述

专知会员服务

15+阅读 · 2025年8月27日

面向具身操作的视觉-语言-动作模型综述

面向具身操作的视觉-语言-动作模型综述

专知会员服务

28+阅读 · 2025年8月23日

【伯克利博士论文】用于机器人操作的多模态感知：融合视觉、语言与触觉

【伯克利博士论文】用于机器人操作的多模态感知：融合视觉、语言与触觉

专知会员服务

22+阅读 · 2025年5月30日

【ICML2025】《引入推理于视觉：通过模型融合理解感知与推理》

【ICML2025】《引入推理于视觉：通过模型融合理解感知与推理》

专知会员服务

17+阅读 · 2025年5月12日

【CMU博士论文】机器人学习中的触觉感知：从开发到部署

【CMU博士论文】机器人学习中的触觉感知：从开发到部署

专知会员服务

24+阅读 · 2024年9月9日

黑匣子被打开了！能玩的Transformer可视化解释工具，本地运行GPT-2、还可实时推理

黑匣子被打开了！能玩的Transformer可视化解释工具，本地运行GPT-2、还可实时推理

专知会员服务

36+阅读 · 2024年8月11日

【NeurIPS2023】大型语言模型是视觉推理协调器

【NeurIPS2023】大型语言模型是视觉推理协调器

专知会员服务

30+阅读 · 2023年10月24日

【ICML2022】CtrlFormer: 通过Transformer学习视觉控制的可迁移状态表示

【ICML2022】CtrlFormer: 通过Transformer学习视觉控制的可迁移状态表示

专知会员服务

16+阅读 · 2022年6月21日

【CMU-Paloma Sodhi博士论文】因子图的学习和推理与触觉感知的应用，Learning and Inference in Factor Graphs with Applications to Tactile Perception

【CMU-Paloma Sodhi博士论文】因子图的学习和推理与触觉感知的应用，Learning and Inference in Factor Graphs with Applications to Tactile Perception

专知会员服务

24+阅读 · 2022年3月10日

【博士论文】视觉语言交互中的视觉推理研究

【博士论文】视觉语言交互中的视觉推理研究

专知会员服务

65+阅读 · 2021年12月1日

注意力机制 | 图卷积多跳注意力机制 | Direct multi-hop Attention based GNN

注意力机制 | 图卷积多跳注意力机制 | Direct multi-hop Attention based GNN

AINLP

22+阅读 · 2020年11月29日

【ACMMM2020-北航】KBGN:用于视觉对话中自适应视觉-文本推理的知识桥图网络

【ACMMM2020-北航】KBGN:用于视觉对话中自适应视觉-文本推理的知识桥图网络

专知

10+阅读 · 2020年8月12日

NLP+CV《桥接视觉与语言的研究综述》，带你全面了解视觉+语言最新应用和方法

NLP+CV《桥接视觉与语言的研究综述》，带你全面了解视觉+语言最新应用和方法

中国人工智能学会

27+阅读 · 2019年7月24日

【泡泡点云时空】跟踪与三角测量中一种通过兴趣点网络进行多视图2D/3D刚性配准的方法

【泡泡点云时空】跟踪与三角测量中一种通过兴趣点网络进行多视图2D/3D刚性配准的方法

泡泡机器人SLAM

17+阅读 · 2019年7月8日

【泡泡图灵智库】VITAMIN-E:极密集特征点的视觉跟踪和建图（CVPR）

【泡泡图灵智库】VITAMIN-E:极密集特征点的视觉跟踪和建图（CVPR）

泡泡机器人SLAM

10+阅读 · 2019年6月14日

【泡泡图灵智库】自动驾驶中的基于立体视觉的3D语义物体和相机运动追踪（ECCV）

【泡泡图灵智库】自动驾驶中的基于立体视觉的3D语义物体和相机运动追踪（ECCV）

泡泡机器人SLAM

10+阅读 · 2019年4月18日

【泡泡图灵智库】密集相关的自监督视觉描述学习（RAL）

【泡泡图灵智库】密集相关的自监督视觉描述学习（RAL）

泡泡机器人SLAM

11+阅读 · 2018年10月6日

DeepMind 牛津大学《视觉注意力机制》，提高视觉推理能力（PPT下载）

DeepMind 牛津大学《视觉注意力机制》，提高视觉推理能力（PPT下载）

专知

13+阅读 · 2018年9月25日

【泡泡一分钟】Grad-CAM（加权梯度类激活映射）：可视化解释基于梯度定位的深度网络（ICCV2017-60）

【泡泡一分钟】Grad-CAM（加权梯度类激活映射）：可视化解释基于梯度定位的深度网络（ICCV2017-60）

泡泡机器人SLAM

47+阅读 · 2018年8月1日

【团队新作】连续情感识别，精准捕捉你的小情绪！

【团队新作】连续情感识别，精准捕捉你的小情绪！

中国科学院自动化研究所

16+阅读 · 2018年4月17日

融合人脑意图与力觉反馈的外骨骼机器人步态控制CPG模型及调节方法

国家自然科学基金

0+阅读 · 2015年12月31日

无力传感器策略和可逆向驱动机构并用提高手术机器人触觉感知性能的新方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

多用途载人航天器时间触发系统的容错和柔性调度方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

新视觉模型下非完整移动机器人同时镇定和跟踪控制研究

国家自然科学基金

0+阅读 · 2015年12月31日

人体行为识别的时空耦合随机图模型及其高效推理算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于生物力学的经导管介入手术触觉传感器接触机理与设计研究

国家自然科学基金

0+阅读 · 2015年12月31日

机器灵巧手基于触滑觉信息协同的自适应力控制方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

局部可视环境中基于视觉和触觉感知的灵巧手精细操作的方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于深度信息和显著计算的手势交互技术研究及应用

国家自然科学基金

1+阅读 · 2014年12月31日

基于深度学习的特征融合在移动机器人视觉中的场景理解及研究

国家自然科学基金

12+阅读 · 2014年12月31日

TwinTrack: Bridging Vision and Contact Physics for Real-Time Tracking of Unknown Objects in Contact-Rich Scenes

TwinTrack: Bridging Vision and Contact Physics for Real-Time Tracking of Unknown Objects in Contact-Rich Scenes

Arxiv

0+阅读 · 3月18日

Grasp, Slide, Roll: Comparative Analysis of Contact Modes for Tactile-Based Shape Reconstruction

Arxiv

0+阅读 · 2月26日

TouchGuide: Inference-Time Steering of Visuomotor Policies via Touch Guidance

Arxiv

0+阅读 · 2月24日

TouchFusion: Multimodal Wristband Sensing for Ubiquitous Touch Interactions

Arxiv

0+阅读 · 2月16日

Symmetry-Aware Fusion of Vision and Tactile Sensing via Bilateral Force Priors for Robotic Manipulation

Arxiv

0+阅读 · 2月14日

TactAlign: Human-to-Robot Policy Transfer via Tactile Alignment

Arxiv

0+阅读 · 2月14日

ViTaS: Visual Tactile Soft Fusion Contrastive Learning for Visuomotor Learning

Arxiv

0+阅读 · 2月12日

Vi-TacMan: Articulated Object Manipulation via Vision and Touch

Arxiv

0+阅读 · 2月12日

AnyTouch 2: General Optical Tactile Representation Learning For Dynamic Tactile Perception

Arxiv

0+阅读 · 2月10日

TouchScribe: Augmenting Non-Visual Hand-Object Interactions with Automated Live Visual Descriptions

Arxiv

0+阅读 · 2月8日

VIP会员

文章信息

相关主题

最新内容

速度优先于谨慎：NSPM-11意味着什么（将人工智能融入美国国防和情报行动最全面的声明）

速度优先于谨慎：NSPM-11意味着什么（将人工智能融入美国国防和情报行动最全面的声明）

专知会员服务

1+阅读 · 今天16:15

《基于深度强化学习的反无人机技术研究》178页

《基于深度强化学习的反无人机技术研究》178页

专知会员服务

1+阅读 · 今天16:06

技术突破与战略优势竞争：美军人工智能技术运用阶段分析

技术突破与战略优势竞争：美军人工智能技术运用阶段分析

专知会员服务

1+阅读 · 今天15:54

“史诗怒火”行动与“AI中心战”模式的浮现

“史诗怒火”行动与“AI中心战”模式的浮现

专知会员服务

1+阅读 · 今天15:31

【CVPR2026教程】扩散模型的解析理解

【CVPR2026教程】扩散模型的解析理解

专知会员服务

0+阅读 · 今天14:49

【CVPR2026教程】从感知到模拟：多模态推理中世界模型的涌现

【CVPR2026教程】从感知到模拟：多模态推理中世界模型的涌现

专知会员服务

0+阅读 · 今天14:40

马赛克战：俄乌战场透析

马赛克战：俄乌战场透析

专知会员服务

13+阅读 · 今天4:12

《利用人工智能增强军事决策》

《利用人工智能增强军事决策》

专知会员服务

4+阅读 · 今天4:09

《自动机器学习在军事数据耕耘法中的应用》

《自动机器学习在军事数据耕耘法中的应用》

专知会员服务

6+阅读 · 今天4:02

为何指挥所生存能力要求范式转变

为何指挥所生存能力要求范式转变

专知会员服务

5+阅读 · 今天3:54

打造“新蛛网”模式与高科技动员

打造“新蛛网”模式与高科技动员

专知会员服务

4+阅读 · 今天3:33

“蛛网”行动一周年：远程无人机战争

“蛛网”行动一周年：远程无人机战争

专知会员服务

3+阅读 · 今天3:23

加沙、乌克兰和伊朗冲突：人工智能如何改变冲突

加沙、乌克兰和伊朗冲突：人工智能如何改变冲突

专知会员服务

3+阅读 · 今天3:15

为何“第一次人工智能战争（美以伊冲突）”仍是人类主导的斗争

为何“第一次人工智能战争（美以伊冲突）”仍是人类主导的斗争

专知会员服务

3+阅读 · 今天3:09

【剑桥博士论文】智能体-环境协同优化

【剑桥博士论文】智能体-环境协同优化

专知会员服务

7+阅读 · 6月9日

相关VIP内容

在回答之前先解释：组合视觉推理综述

在回答之前先解释：组合视觉推理综述

专知会员服务

15+阅读 · 2025年8月27日

面向具身操作的视觉-语言-动作模型综述

面向具身操作的视觉-语言-动作模型综述

专知会员服务

28+阅读 · 2025年8月23日

【伯克利博士论文】用于机器人操作的多模态感知：融合视觉、语言与触觉

【伯克利博士论文】用于机器人操作的多模态感知：融合视觉、语言与触觉

专知会员服务

22+阅读 · 2025年5月30日

【ICML2025】《引入推理于视觉：通过模型融合理解感知与推理》

【ICML2025】《引入推理于视觉：通过模型融合理解感知与推理》

专知会员服务

17+阅读 · 2025年5月12日

【CMU博士论文】机器人学习中的触觉感知：从开发到部署

【CMU博士论文】机器人学习中的触觉感知：从开发到部署

专知会员服务

24+阅读 · 2024年9月9日

黑匣子被打开了！能玩的Transformer可视化解释工具，本地运行GPT-2、还可实时推理

黑匣子被打开了！能玩的Transformer可视化解释工具，本地运行GPT-2、还可实时推理

专知会员服务

36+阅读 · 2024年8月11日

【NeurIPS2023】大型语言模型是视觉推理协调器

【NeurIPS2023】大型语言模型是视觉推理协调器

专知会员服务

30+阅读 · 2023年10月24日

【ICML2022】CtrlFormer: 通过Transformer学习视觉控制的可迁移状态表示

【ICML2022】CtrlFormer: 通过Transformer学习视觉控制的可迁移状态表示

专知会员服务

16+阅读 · 2022年6月21日

【CMU-Paloma Sodhi博士论文】因子图的学习和推理与触觉感知的应用，Learning and Inference in Factor Graphs with Applications to Tactile Perception

【CMU-Paloma Sodhi博士论文】因子图的学习和推理与触觉感知的应用，Learning and Inference in Factor Graphs with Applications to Tactile Perception

专知会员服务

24+阅读 · 2022年3月10日

【博士论文】视觉语言交互中的视觉推理研究

【博士论文】视觉语言交互中的视觉推理研究

专知会员服务

65+阅读 · 2021年12月1日

热门VIP内容

开通专知VIP会员享更多权益服务

《基于深度强化学习的反无人机技术研究》178页

“史诗怒火”行动与“AI中心战”模式的浮现

速度优先于谨慎：NSPM-11意味着什么（将人工智能融入美国国防和情报行动最全面的声明）

技术突破与战略优势竞争：美军人工智能技术运用阶段分析

相关资讯

注意力机制 | 图卷积多跳注意力机制 | Direct multi-hop Attention based GNN

注意力机制 | 图卷积多跳注意力机制 | Direct multi-hop Attention based GNN

AINLP

22+阅读 · 2020年11月29日

【ACMMM2020-北航】KBGN:用于视觉对话中自适应视觉-文本推理的知识桥图网络

【ACMMM2020-北航】KBGN:用于视觉对话中自适应视觉-文本推理的知识桥图网络

专知

10+阅读 · 2020年8月12日

NLP+CV《桥接视觉与语言的研究综述》，带你全面了解视觉+语言最新应用和方法

NLP+CV《桥接视觉与语言的研究综述》，带你全面了解视觉+语言最新应用和方法

中国人工智能学会

27+阅读 · 2019年7月24日

【泡泡点云时空】跟踪与三角测量中一种通过兴趣点网络进行多视图2D/3D刚性配准的方法

【泡泡点云时空】跟踪与三角测量中一种通过兴趣点网络进行多视图2D/3D刚性配准的方法

泡泡机器人SLAM

17+阅读 · 2019年7月8日

【泡泡图灵智库】VITAMIN-E:极密集特征点的视觉跟踪和建图（CVPR）

【泡泡图灵智库】VITAMIN-E:极密集特征点的视觉跟踪和建图（CVPR）

泡泡机器人SLAM

10+阅读 · 2019年6月14日

【泡泡图灵智库】自动驾驶中的基于立体视觉的3D语义物体和相机运动追踪（ECCV）

【泡泡图灵智库】自动驾驶中的基于立体视觉的3D语义物体和相机运动追踪（ECCV）

泡泡机器人SLAM

10+阅读 · 2019年4月18日

【泡泡图灵智库】密集相关的自监督视觉描述学习（RAL）

【泡泡图灵智库】密集相关的自监督视觉描述学习（RAL）

泡泡机器人SLAM

11+阅读 · 2018年10月6日

DeepMind 牛津大学《视觉注意力机制》，提高视觉推理能力（PPT下载）

DeepMind 牛津大学《视觉注意力机制》，提高视觉推理能力（PPT下载）

专知

13+阅读 · 2018年9月25日

【泡泡一分钟】Grad-CAM（加权梯度类激活映射）：可视化解释基于梯度定位的深度网络（ICCV2017-60）

【泡泡一分钟】Grad-CAM（加权梯度类激活映射）：可视化解释基于梯度定位的深度网络（ICCV2017-60）

泡泡机器人SLAM

47+阅读 · 2018年8月1日

【团队新作】连续情感识别，精准捕捉你的小情绪！

【团队新作】连续情感识别，精准捕捉你的小情绪！

中国科学院自动化研究所

16+阅读 · 2018年4月17日

相关论文

TwinTrack: Bridging Vision and Contact Physics for Real-Time Tracking of Unknown Objects in Contact-Rich Scenes

TwinTrack: Bridging Vision and Contact Physics for Real-Time Tracking of Unknown Objects in Contact-Rich Scenes

Arxiv

0+阅读 · 3月18日

Grasp, Slide, Roll: Comparative Analysis of Contact Modes for Tactile-Based Shape Reconstruction

Arxiv

0+阅读 · 2月26日

TouchGuide: Inference-Time Steering of Visuomotor Policies via Touch Guidance

Arxiv

0+阅读 · 2月24日

TouchFusion: Multimodal Wristband Sensing for Ubiquitous Touch Interactions

Arxiv

0+阅读 · 2月16日

Symmetry-Aware Fusion of Vision and Tactile Sensing via Bilateral Force Priors for Robotic Manipulation

Arxiv

0+阅读 · 2月14日

TactAlign: Human-to-Robot Policy Transfer via Tactile Alignment

Arxiv

0+阅读 · 2月14日

ViTaS: Visual Tactile Soft Fusion Contrastive Learning for Visuomotor Learning

Arxiv

0+阅读 · 2月12日

Vi-TacMan: Articulated Object Manipulation via Vision and Touch

Arxiv

0+阅读 · 2月12日

AnyTouch 2: General Optical Tactile Representation Learning For Dynamic Tactile Perception

Arxiv

0+阅读 · 2月10日

TouchScribe: Augmenting Non-Visual Hand-Object Interactions with Automated Live Visual Descriptions

Arxiv

0+阅读 · 2月8日

相关基金

融合人脑意图与力觉反馈的外骨骼机器人步态控制CPG模型及调节方法

国家自然科学基金

0+阅读 · 2015年12月31日

无力传感器策略和可逆向驱动机构并用提高手术机器人触觉感知性能的新方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

多用途载人航天器时间触发系统的容错和柔性调度方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

新视觉模型下非完整移动机器人同时镇定和跟踪控制研究

国家自然科学基金

0+阅读 · 2015年12月31日

人体行为识别的时空耦合随机图模型及其高效推理算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于生物力学的经导管介入手术触觉传感器接触机理与设计研究

国家自然科学基金

0+阅读 · 2015年12月31日

机器灵巧手基于触滑觉信息协同的自适应力控制方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

局部可视环境中基于视觉和触觉感知的灵巧手精细操作的方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于深度信息和显著计算的手势交互技术研究及应用

国家自然科学基金

1+阅读 · 2014年12月31日

基于深度学习的特征融合在移动机器人视觉中的场景理解及研究

国家自然科学基金

12+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员