Robotic manipulation has seen rapid progress with vision-language-action (VLA) policies. However, visuo-tactile perception is critical for contact-rich manipulation, as tasks such as insertion are difficult to complete robustly using vision alone. At the same time, acquiring large-scale and reliable tactile data in the physical world remains costly and challenging, and the lack of a unified evaluation platform further limits policy learning and systematic analysis. To address these challenges, we propose UniVTAC, a simulation-based visuo-tactile data synthesis platform that supports three commonly used visuo-tactile sensors and enables scalable and controllable generation of informative contact interactions. Based on this platform, we introduce the UniVTAC Encoder, a visuo-tactile encoder trained on large-scale simulation-synthesized data with designed supervisory signals, providing tactile-centric visuo-tactile representations for downstream manipulation tasks. In addition, we present the UniVTAC Benchmark, which consists of eight representative visuo-tactile manipulation tasks for evaluating tactile-driven policies. Experimental results show that integrating the UniVTAC Encoder improves average success rates by 17.1% on the UniVTAC Benchmark, while real-world robotic experiments further demonstrate a 25% improvement in task success. Our webpage is available at https://univtac.github.io/.


翻译:机器人操作在视觉-语言-动作(VLA)策略的推动下取得了快速进展。然而,视觉-触觉感知对于接触丰富的操作任务至关重要,因为诸如插入等任务仅依靠视觉难以鲁棒地完成。与此同时,在物理世界中获取大规模可靠的触觉数据仍然成本高昂且充满挑战,而统一评估平台的缺失进一步限制了策略学习和系统分析。为应对这些挑战,我们提出了UniVTAC,一个基于仿真的视觉-触觉数据合成平台,支持三种常用视觉-触觉传感器,并能实现信息丰富的接触交互的可扩展与可控生成。基于此平台,我们引入了UniVTAC编码器,这是一个通过大规模仿真合成数据并配合设计的监督信号训练而成的视觉-触觉编码器,为下游操作任务提供以触觉为中心的视觉-触觉表征。此外,我们提出了UniVTAC基准测试,包含八项具有代表性的视觉-触觉操作任务,用于评估触觉驱动的策略。实验结果表明,集成UniVTAC编码器可将UniVTAC基准测试的平均成功率提升17.1%,而真实世界机器人实验进一步证明了任务成功率有25%的提升。我们的项目网页地址为:https://univtac.github.io/。

0
下载
关闭预览

相关内容

视觉-语言-动作模型解析:从模块构成到里程碑与挑战
专知会员服务
17+阅读 · 2025年12月17日
面向具身操作的高效视觉–语言–动作模型:系统综述
专知会员服务
24+阅读 · 2025年10月22日
视觉-语言-动作(VLA)模型的前世今生
专知会员服务
20+阅读 · 2025年8月29日
视觉语言动作模型:概念、进展、应用与挑战
专知会员服务
19+阅读 · 2025年5月18日
VILA-U:一个融合视觉理解与生成的统一基础模型
专知会员服务
21+阅读 · 2024年9月9日
仿生感存算一体视觉系统:仿生机制、设计原理及其应用
专知会员服务
30+阅读 · 2023年11月30日
【机器视觉】机器视觉全面解析
产业智能官
12+阅读 · 2018年11月12日
视觉里程计:起源、优势、对比、应用
计算机视觉life
18+阅读 · 2017年7月17日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员