Precision assembly requires sub-millimeter corrections in contact-rich "last-millimeter" regions where visual feedback fails due to occlusion from the end-effector and workpiece. We present ReTac-ACT (Reconstruction-enhanced Tactile ACT), a vision-tactile imitation learning policy that addresses this challenge through three synergistic mechanisms: (i) bidirectional cross-attention enabling reciprocal visuo-tactile feature enhancement before fusion, (ii) a proprioception-conditioned gating network that dynamically elevates tactile reliance when visual occlusion occurs, and (iii) a tactile reconstruction objective enforcing learning of manipulation-relevant contact information rather than generic visual textures. Evaluated on the standardized NIST Assembly Task Board M1 benchmark, ReTac-ACT achieves 90% peg-in-hole success, substantially outperforming vision-only and generalist baseline methods, and maintains 80% success at industrial-grade 0.1mm clearance. Ablation studies validate that each architectural component is indispensable. The ReTac-ACT codebase and a vision-tactile demonstration dataset covering various clearance levels with both visual and tactile features will be released to support reproducible research.


翻译:精密装配需要在接触密集的"最后一毫米"区域内进行亚毫米级校正,而该区域因末端执行器与工件的遮挡导致视觉反馈失效。本文提出ReTac-ACT(重建增强型触觉ACT),这是一种视觉-触觉模仿学习策略,通过三种协同机制应对该挑战:(i)双向交叉注意力机制,在融合前实现视觉与触觉特征的相互增强;(ii)本体感知条件门控网络,在视觉遮挡发生时动态提升对触觉信息的依赖;(iii)触觉重建目标,强制学习与操作相关的接触信息而非通用视觉纹理。在标准化的NIST装配任务板M1基准测试中,ReTac-ACT实现了90%的轴孔装配成功率,显著优于纯视觉及通用基线方法,并在工业级0.1毫米间隙条件下保持80%的成功率。消融实验验证了每个架构组件均不可或缺。我们将发布ReTac-ACT代码库及涵盖多间隙等级的视觉-触觉演示数据集(包含视觉与触觉特征),以支持可重复研究。

0
下载
关闭预览

相关内容

《视觉Transformers自监督学习机制综述》
专知会员服务
29+阅读 · 2024年9月2日
【CVPR2024】学习视觉Transformer的相关结构
专知会员服务
27+阅读 · 2024年4月8日
【CVPR2023】BiFormer:基于双层路由注意力的视觉Transformer
专知会员服务
35+阅读 · 2023年3月20日
专知会员服务
65+阅读 · 2021年4月11日
【Tutorial】计算机视觉中的Transformer,98页ppt
专知
21+阅读 · 2021年10月25日
三维重建 3D reconstruction 有哪些实用算法?
极市平台
13+阅读 · 2020年2月23日
用Attention玩转CV,一文总览自注意力语义分割进展
多图带你读懂 Transformers 的工作原理
AI研习社
10+阅读 · 2019年3月18日
STRCF for Visual Object Tracking
统计学习与视觉计算组
15+阅读 · 2018年5月29日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
VIP会员
最新内容
BES:让语言模型通过双向进化搜索自我改进
专知会员服务
1+阅读 · 5月30日
以色列-美国-伊朗战争中的无人机:关键要点
专知会员服务
3+阅读 · 5月30日
《Palantir任务保障性软件安全标准(MA-S2)》
专知会员服务
8+阅读 · 5月30日
基于声学的无人机检测技术综述
专知会员服务
5+阅读 · 5月30日
《当代混合战争分析框架:俄乌战争经验教训》
战略前沿人工智能的再思考(中文)
专知会员服务
7+阅读 · 5月29日
《量化地基防空系统间接效应的博弈论方法》
专知会员服务
5+阅读 · 5月29日
相关VIP内容
相关基金
Top
微信扫码咨询专知VIP会员