Vi-TacMan：通过视觉与触觉操作铰接物体 (Vi-TacMan: Articulated Object Manipulation via Vision and Touch) - 专知论文

会员服务 ·

0

操作 · 视觉识别系统 · 鲁棒 · 系统 · 触觉控制 ·

Vi-TacMan: Articulated Object Manipulation via Vision and Touch

翻译：Vi-TacMan：通过视觉与触觉操作铰接物体

Leiyao Cui,Zihang Zhao,Sirui Xie,Wenhuan Zhang,Zhi Han,Yixin Zhu

from arxiv, ICRA 2026

Autonomous manipulation of articulated objects remains a fundamental challenge for robots in human environments. Vision-based methods can infer hidden kinematics but can yield imprecise estimates on unfamiliar objects. Tactile approaches achieve robust control through contact feedback but require accurate initialization. This suggests a natural synergy: vision for global guidance, touch for local precision. Yet no framework systematically exploits this complementarity for generalized articulated manipulation. Here we present Vi-TacMan, which uses vision to propose grasps and coarse directions that seed a tactile controller for precise execution. By incorporating surface normals as geometric priors and modeling directions via von Mises-Fisher distributions, our approach achieves significant gains over baselines (all p<0.0001). Critically, manipulation succeeds without explicit kinematic models -- the tactile controller refines coarse visual estimates through real-time contact regulation. Tests on more than 50,000 simulated and diverse real-world objects confirm robust cross-category generalization. This work establishes that coarse visual cues suffice for reliable manipulation when coupled with tactile feedback, offering a scalable paradigm for autonomous systems in unstructured environments.

翻译：在人类环境中，机器人对铰接物体的自主操作仍是一项根本性挑战。基于视觉的方法可以推断隐藏的运动学特性，但在陌生物体上可能产生不精确的估计。触觉方法通过接触反馈实现鲁棒控制，但需要精确的初始化。这揭示了一种自然的协同作用：视觉提供全局引导，触觉实现局部精度。然而，目前尚无框架能系统性地利用这种互补性实现广义的铰接物体操作。本文提出Vi-TacMan，它利用视觉提出抓取位置和粗略方向，以此为种子驱动触觉控制器进行精确执行。通过引入表面法线作为几何先验，并利用冯·米塞斯-费希尔分布对方向进行建模，我们的方法相较于基线取得了显著提升（所有p<0.0001）。关键的是，操作成功无需显式的运动学模型——触觉控制器通过实时接触调节来优化粗略的视觉估计。在超过50,000个模拟及多样化真实物体上的测试证实了其跨类别的鲁棒泛化能力。本研究表明，当粗略的视觉线索与触觉反馈相结合时，足以实现可靠的操作，这为无结构环境中的自主系统提供了一种可扩展的范式。

0

相关内容

面向具身操作的视觉-语言-动作模型综述

面向具身操作的视觉-语言-动作模型综述

专知会员服务

28+阅读 · 2025年8月23日

面向机器人操作的基于大型视觉‑语言模型（VLM）的视觉‑语言‑动作（VLA）模型综述

面向机器人操作的基于大型视觉‑语言模型（VLM）的视觉‑语言‑动作（VLA）模型综述

专知会员服务

34+阅读 · 2025年8月19日

【伯克利博士论文】用于机器人操作的多模态感知：融合视觉、语言与触觉

【伯克利博士论文】用于机器人操作的多模态感知：融合视觉、语言与触觉

专知会员服务

22+阅读 · 2025年5月30日

【CMU博士论文】机器人学习中的触觉感知：从开发到部署

【CMU博士论文】机器人学习中的触觉感知：从开发到部署

专知会员服务

24+阅读 · 2024年9月9日

【斯坦福博士论文】生成模型的视觉与行为

【斯坦福博士论文】生成模型的视觉与行为

专知会员服务

33+阅读 · 2024年7月11日

【CMU博士论文】鲁棒机器人操作的结构化先验学习，302页pdf

【CMU博士论文】鲁棒机器人操作的结构化先验学习，302页pdf

专知会员服务

25+阅读 · 2022年12月4日

Transformers如何用于遥感？阿联酋MBZUAI最新《Transformers遥感处理》综述，涵盖60+种ViT遥感方法

Transformers如何用于遥感？阿联酋MBZUAI最新《Transformers遥感处理》综述，涵盖60+种ViT遥感方法

专知会员服务

58+阅读 · 2022年9月6日

Transformer如何用于3D视觉？阿联酋MBZUAI最新《3D视觉Transformers处理》综述，涵盖100+种方法

Transformer如何用于3D视觉？阿联酋MBZUAI最新《3D视觉Transformers处理》综述，涵盖100+种方法

专知会员服务

39+阅读 · 2022年8月9日

《视觉Transformer》最新简明综述，概述视觉Transformers 的不同架构设计和训练技巧

《视觉Transformer》最新简明综述，概述视觉Transformers 的不同架构设计和训练技巧

专知会员服务

67+阅读 · 2022年7月8日

【CMU-Paloma Sodhi博士论文】因子图的学习和推理与触觉感知的应用，Learning and Inference in Factor Graphs with Applications to Tactile Perception

【CMU-Paloma Sodhi博士论文】因子图的学习和推理与触觉感知的应用，Learning and Inference in Factor Graphs with Applications to Tactile Perception

专知会员服务

24+阅读 · 2022年3月10日

【斯坦福博士论文】将深度学习机器人学习扩展到广泛的现实世界数据，176页pdf

【斯坦福博士论文】将深度学习机器人学习扩展到广泛的现实世界数据，176页pdf

专知

12+阅读 · 2023年4月4日

推荐！【DARPA终身学习机器（L2M）】《自主系统中用于感知和行动的终身学习》美空军、宾大2022最新234页技术报告

推荐！【DARPA终身学习机器（L2M）】《自主系统中用于感知和行动的终身学习》美空军、宾大2022最新234页技术报告

专知

26+阅读 · 2022年11月24日

【ACMMM2020-北航】KBGN:用于视觉对话中自适应视觉-文本推理的知识桥图网络

【ACMMM2020-北航】KBGN:用于视觉对话中自适应视觉-文本推理的知识桥图网络

专知

10+阅读 · 2020年8月12日

NLP+CV《桥接视觉与语言的研究综述》，带你全面了解视觉+语言最新应用和方法

NLP+CV《桥接视觉与语言的研究综述》，带你全面了解视觉+语言最新应用和方法

中国人工智能学会

27+阅读 · 2019年7月24日

【协作机器人】人机协作机器人的核心是多传感器技术与智能控制算法、工业机器人协作应用挑战

【协作机器人】人机协作机器人的核心是多传感器技术与智能控制算法、工业机器人协作应用挑战

产业智能官

13+阅读 · 2019年1月17日

【机器视觉】机器视觉全面解析

【机器视觉】机器视觉全面解析

产业智能官

12+阅读 · 2018年11月12日

【紫冬分享】移动机器人视觉里程计综述

【紫冬分享】移动机器人视觉里程计综述

中国科学院自动化研究所

12+阅读 · 2018年10月31日

交互设计理论：视觉感知、认知摩擦、认知负荷和情境认知

交互设计理论：视觉感知、认知摩擦、认知负荷和情境认知

人人都是产品经理

20+阅读 · 2018年5月10日

报名 | 让机器读懂你的意图——人体姿态估计入门

报名 | 让机器读懂你的意图——人体姿态估计入门

人工智能头条

10+阅读 · 2017年9月19日

【分析】图像分类、目标检测、图像分割、图像生成……一文「计算机视觉」全分析

【分析】图像分类、目标检测、图像分割、图像生成……一文「计算机视觉」全分析

GAN生成式对抗网络

23+阅读 · 2017年9月14日

三维空间基于角度测量的多机器人系统协同定位与编队控制

国家自然科学基金

11+阅读 · 2015年12月31日

无力传感器策略和可逆向驱动机构并用提高手术机器人触觉感知性能的新方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于增强现实的主从遥操作手术机器人系统中的力反馈问题研究

国家自然科学基金

2+阅读 · 2015年12月31日

非结构环境下基于三维肢体动作理解的工业机器人交互技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

新视觉模型下非完整移动机器人同时镇定和跟踪控制研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向智能机器人柔性装配系统自主控制的主动视觉感知技术研究

国家自然科学基金

2+阅读 · 2015年12月31日

机器灵巧手基于触滑觉信息协同的自适应力控制方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

局部可视环境中基于视觉和触觉感知的灵巧手精细操作的方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于深度信息和显著计算的手势交互技术研究及应用

国家自然科学基金

1+阅读 · 2014年12月31日

基于深度学习的特征融合在移动机器人视觉中的场景理解及研究

国家自然科学基金

12+阅读 · 2014年12月31日

Learning Part-Aware Dense 3D Feature Field for Generalizable Articulated Object Manipulation

Arxiv

0+阅读 · 2月15日

Symmetry-Aware Fusion of Vision and Tactile Sensing via Bilateral Force Priors for Robotic Manipulation

Arxiv

0+阅读 · 2月14日

TactAlign: Human-to-Robot Policy Transfer via Tactile Alignment

Arxiv

0+阅读 · 2月14日

ViTaS: Visual Tactile Soft Fusion Contrastive Learning for Visuomotor Learning

Arxiv

0+阅读 · 2月12日

UniVTAC: A Unified Simulation Platform for Visuo-Tactile Manipulation Data Generation, Learning, and Benchmarking

Arxiv

0+阅读 · 2月10日

AnyTouch 2: General Optical Tactile Representation Learning For Dynamic Tactile Perception

Arxiv

0+阅读 · 2月10日

TouchScribe: Augmenting Non-Visual Hand-Object Interactions with Automated Live Visual Descriptions

Arxiv

0+阅读 · 2月8日

TaF-VLA: Tactile-Force Alignment in Vision-Language-Action Models for Force-aware Manipulation

Arxiv

0+阅读 · 1月30日

Tactile-Force Alignment in Vision-Language-Action Models for Force-aware Manipulation

Arxiv

0+阅读 · 1月28日

TouchGuide: Inference-Time Steering of Visuomotor Policies via Touch Guidance

Arxiv

0+阅读 · 1月28日

VIP会员

文章信息

相关主题

视觉识别系统

相关VIP内容

面向具身操作的视觉-语言-动作模型综述

面向具身操作的视觉-语言-动作模型综述

专知会员服务

28+阅读 · 2025年8月23日

面向机器人操作的基于大型视觉‑语言模型（VLM）的视觉‑语言‑动作（VLA）模型综述

面向机器人操作的基于大型视觉‑语言模型（VLM）的视觉‑语言‑动作（VLA）模型综述

专知会员服务

34+阅读 · 2025年8月19日

【伯克利博士论文】用于机器人操作的多模态感知：融合视觉、语言与触觉

【伯克利博士论文】用于机器人操作的多模态感知：融合视觉、语言与触觉

专知会员服务

22+阅读 · 2025年5月30日

【CMU博士论文】机器人学习中的触觉感知：从开发到部署

【CMU博士论文】机器人学习中的触觉感知：从开发到部署

专知会员服务

24+阅读 · 2024年9月9日

【斯坦福博士论文】生成模型的视觉与行为

【斯坦福博士论文】生成模型的视觉与行为

专知会员服务

33+阅读 · 2024年7月11日

【CMU博士论文】鲁棒机器人操作的结构化先验学习，302页pdf

【CMU博士论文】鲁棒机器人操作的结构化先验学习，302页pdf

专知会员服务

25+阅读 · 2022年12月4日

Transformers如何用于遥感？阿联酋MBZUAI最新《Transformers遥感处理》综述，涵盖60+种ViT遥感方法

Transformers如何用于遥感？阿联酋MBZUAI最新《Transformers遥感处理》综述，涵盖60+种ViT遥感方法

专知会员服务

58+阅读 · 2022年9月6日

Transformer如何用于3D视觉？阿联酋MBZUAI最新《3D视觉Transformers处理》综述，涵盖100+种方法

Transformer如何用于3D视觉？阿联酋MBZUAI最新《3D视觉Transformers处理》综述，涵盖100+种方法

专知会员服务

39+阅读 · 2022年8月9日

《视觉Transformer》最新简明综述，概述视觉Transformers 的不同架构设计和训练技巧

《视觉Transformer》最新简明综述，概述视觉Transformers 的不同架构设计和训练技巧

专知会员服务

67+阅读 · 2022年7月8日

【CMU-Paloma Sodhi博士论文】因子图的学习和推理与触觉感知的应用，Learning and Inference in Factor Graphs with Applications to Tactile Perception

【CMU-Paloma Sodhi博士论文】因子图的学习和推理与触觉感知的应用，Learning and Inference in Factor Graphs with Applications to Tactile Perception

专知会员服务

24+阅读 · 2022年3月10日

热门VIP内容

开通专知VIP会员享更多权益服务

【CMU博士论文】基于自适应表征的高效视觉建模

《多域作战中融合网络、电子战与动能机动》

AI智能体时代大模型安全风险与攻防新挑战

迈向个性化大语言模型驱动的智能体：基础、评估与未来方向

相关资讯

【斯坦福博士论文】将深度学习机器人学习扩展到广泛的现实世界数据，176页pdf

【斯坦福博士论文】将深度学习机器人学习扩展到广泛的现实世界数据，176页pdf

专知

12+阅读 · 2023年4月4日

推荐！【DARPA终身学习机器（L2M）】《自主系统中用于感知和行动的终身学习》美空军、宾大2022最新234页技术报告

推荐！【DARPA终身学习机器（L2M）】《自主系统中用于感知和行动的终身学习》美空军、宾大2022最新234页技术报告

专知

26+阅读 · 2022年11月24日

【ACMMM2020-北航】KBGN:用于视觉对话中自适应视觉-文本推理的知识桥图网络

【ACMMM2020-北航】KBGN:用于视觉对话中自适应视觉-文本推理的知识桥图网络

专知

10+阅读 · 2020年8月12日

NLP+CV《桥接视觉与语言的研究综述》，带你全面了解视觉+语言最新应用和方法

NLP+CV《桥接视觉与语言的研究综述》，带你全面了解视觉+语言最新应用和方法

中国人工智能学会

27+阅读 · 2019年7月24日

【协作机器人】人机协作机器人的核心是多传感器技术与智能控制算法、工业机器人协作应用挑战

【协作机器人】人机协作机器人的核心是多传感器技术与智能控制算法、工业机器人协作应用挑战

产业智能官

13+阅读 · 2019年1月17日

【机器视觉】机器视觉全面解析

【机器视觉】机器视觉全面解析

产业智能官

12+阅读 · 2018年11月12日

【紫冬分享】移动机器人视觉里程计综述

【紫冬分享】移动机器人视觉里程计综述

中国科学院自动化研究所

12+阅读 · 2018年10月31日

交互设计理论：视觉感知、认知摩擦、认知负荷和情境认知

交互设计理论：视觉感知、认知摩擦、认知负荷和情境认知

人人都是产品经理

20+阅读 · 2018年5月10日

报名 | 让机器读懂你的意图——人体姿态估计入门

报名 | 让机器读懂你的意图——人体姿态估计入门

人工智能头条

10+阅读 · 2017年9月19日

【分析】图像分类、目标检测、图像分割、图像生成……一文「计算机视觉」全分析

【分析】图像分类、目标检测、图像分割、图像生成……一文「计算机视觉」全分析

GAN生成式对抗网络

23+阅读 · 2017年9月14日

相关论文

Learning Part-Aware Dense 3D Feature Field for Generalizable Articulated Object Manipulation

Arxiv

0+阅读 · 2月15日

Symmetry-Aware Fusion of Vision and Tactile Sensing via Bilateral Force Priors for Robotic Manipulation

Arxiv

0+阅读 · 2月14日

TactAlign: Human-to-Robot Policy Transfer via Tactile Alignment

Arxiv

0+阅读 · 2月14日

ViTaS: Visual Tactile Soft Fusion Contrastive Learning for Visuomotor Learning

Arxiv

0+阅读 · 2月12日

UniVTAC: A Unified Simulation Platform for Visuo-Tactile Manipulation Data Generation, Learning, and Benchmarking

Arxiv

0+阅读 · 2月10日

AnyTouch 2: General Optical Tactile Representation Learning For Dynamic Tactile Perception

Arxiv

0+阅读 · 2月10日

TouchScribe: Augmenting Non-Visual Hand-Object Interactions with Automated Live Visual Descriptions

Arxiv

0+阅读 · 2月8日

TaF-VLA: Tactile-Force Alignment in Vision-Language-Action Models for Force-aware Manipulation

Arxiv

0+阅读 · 1月30日

Tactile-Force Alignment in Vision-Language-Action Models for Force-aware Manipulation

Arxiv

0+阅读 · 1月28日

TouchGuide: Inference-Time Steering of Visuomotor Policies via Touch Guidance

Arxiv

0+阅读 · 1月28日

相关基金

三维空间基于角度测量的多机器人系统协同定位与编队控制

国家自然科学基金

11+阅读 · 2015年12月31日

无力传感器策略和可逆向驱动机构并用提高手术机器人触觉感知性能的新方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于增强现实的主从遥操作手术机器人系统中的力反馈问题研究

国家自然科学基金

2+阅读 · 2015年12月31日

非结构环境下基于三维肢体动作理解的工业机器人交互技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

新视觉模型下非完整移动机器人同时镇定和跟踪控制研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向智能机器人柔性装配系统自主控制的主动视觉感知技术研究

国家自然科学基金

2+阅读 · 2015年12月31日

机器灵巧手基于触滑觉信息协同的自适应力控制方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

局部可视环境中基于视觉和触觉感知的灵巧手精细操作的方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于深度信息和显著计算的手势交互技术研究及应用

国家自然科学基金

1+阅读 · 2014年12月31日

基于深度学习的特征融合在移动机器人视觉中的场景理解及研究

国家自然科学基金

12+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员