Contact-rich manipulation tasks, such as wiping and assembly, require accurate perception of contact forces, friction changes, and state transitions that cannot be reliably inferred from vision alone. Despite growing interest in visuo-tactile manipulation, progress is constrained by two persistent limitations: existing datasets are small in scale and narrow in task coverage, and current methods treat tactile signals as passive observations rather than using them to model contact dynamics or enable closed-loop control explicitly. In this paper, we present \textbf{OmniViTac}, a large-scale visuo-tactile-action dataset comprising $21{,}000+$ trajectories across $86$ tasks and $100+$ objects, organized into six physics-grounded interaction patterns. Building on this dataset, we propose \textbf{OmniVTA}, a world-model-based visuo-tactile manipulation framework that integrates four tightly coupled modules: a self-supervised tactile encoder, a two-stream visuo-tactile world model for predicting short-horizon contact evolution, a contact-aware fusion policy for action generation, and a 60Hz reflexive controller that corrects deviations between predicted and observed tactile signals in a closed loop. Real-robot experiments across all six interaction categories show that OmniVTA outperforms existing methods and generalizes well to unseen objects and geometric configurations, confirming the value of combining predictive contact modeling with high-frequency tactile feedback for contact-rich manipulation. All data, models, and code will be made publicly available on the project website at https://mrsecant.github.io/OmniVTA.


翻译:高接触性操作任务(如擦拭和装配)需要精确感知接触力、摩擦变化及状态转换,这些信息无法仅通过视觉可靠推断。尽管触觉-视觉操作研究日益受到关注,但其进展受限于两个持续存在的瓶颈:现有数据集规模小且任务覆盖面窄,当前方法将触觉信号视为被动观测而非用于显式建模接触动力学或实现闭环控制。本文提出大规模触觉-视觉-动作数据集\textbf{OmniViTac},包含涵盖86个任务和100余种物体的21,000余条轨迹,并按六种基于物理的交互模式进行组织。基于该数据集,我们提出基于世界模型的触觉-视觉操作框架\textbf{OmniVTA},它集成四个紧密耦合的模块:自监督触觉编码器、用于预测短时域接触演化的双流触觉-视觉世界模型、用于动作生成的接触感知融合策略,以及以60Hz频率闭环修正预测触觉信号与观测信号偏差的反射式控制器。在全部六类交互模式场景上的真实机器人实验表明,OmniVTA性能优于现有方法,且对未见物体和几何构型表现出良好泛化能力,验证了将预测性接触建模与高频触觉反馈相结合对高接触性操作的重要价值。所有数据、模型和代码将在项目网站(https://mrsecant.github.io/OmniVTA)公开。

0
下载
关闭预览

相关内容

【综述】 机器人学习中的世界模型:全面综述
专知会员服务
20+阅读 · 5月4日
计算机视觉方向简介 | 视觉惯性里程计(VIO)
计算机视觉life
64+阅读 · 2019年6月16日
【机器视觉】机器视觉全面解析
产业智能官
12+阅读 · 2018年11月12日
交互设计理论:视觉感知、认知摩擦、认知负荷和情境认知
人人都是产品经理
20+阅读 · 2018年5月10日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
VIP会员
最新内容
美国从乌克兰无人机战争中学习经验
专知会员服务
7+阅读 · 6月21日
ICML 2026 | 面向视觉语言模型的语义鲁棒性认证
专知会员服务
5+阅读 · 6月21日
学习数据的几何:形状空间分析数学综述
专知会员服务
10+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
12+阅读 · 6月17日
相关VIP内容
【综述】 机器人学习中的世界模型:全面综述
专知会员服务
20+阅读 · 5月4日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员