Visuomotor policies often leverage large pre-trained Vision Transformers (ViTs) for their powerful generalization capabilities. However, their significant data requirements present a major challenge in the data-scarce context of most robotic learning settings, where compact CNNs with strong inductive biases can be more easily optimized. To address this trade-off, we introduce X-Distill, a simple yet highly effective method that synergizes the strengths of both architectures. Our approach involves an offline, cross-architecture knowledge distillation, transferring the rich visual representations of a large, frozen DINOv2 teacher to a compact ResNet-18 student on the general-purpose ImageNet dataset. This distilled encoder, now endowed with powerful visual priors, is then jointly fine-tuned with a diffusion policy head on the target manipulation tasks. Extensive experiments on $34$ simulated benchmarks and $5$ challenging real-world tasks demonstrate that our method consistently outperforms policies equipped with from-scratch ResNet or fine-tuned DINOv2 encoders. Notably, X-Distill also surpasses 3D encoders that utilize privileged point cloud observations or much larger Vision-Language Models. Our work highlights the efficacy of a simple, well-founded distillation strategy for achieving state-of-the-art performance in data-efficient robotic manipulation.


翻译:视觉运动策略通常利用大型预训练视觉Transformer(ViT)的强大泛化能力。然而,其巨大的数据需求在大多数机器人学习场景(数据稀缺)中构成了主要挑战,而具有强归纳偏置的紧凑CNN在此类场景中更容易优化。为解决这一权衡问题,我们提出了X-Distill,一种简单而高效的方法,能协同发挥两种架构的优势。我们的方法采用离线、跨架构的知识蒸馏,在通用ImageNet数据集上将大型冻结DINOv2教师的丰富视觉表征迁移至紧凑的ResNet-18学生模型。该蒸馏编码器由此获得强大的视觉先验,随后与扩散策略头在目标操作任务上联合微调。在$34$个模拟基准和$5$项具有挑战性的真实世界任务上进行的大量实验表明,我们的方法始终优于配备从头训练ResNet或微调DINOv2编码器的策略。值得注意的是,X-Distill也超越了利用特权点云观测或更大规模视觉语言模型的3D编码器。我们的工作凸显了一种简单、理论基础扎实的蒸馏策略在数据高效的机器人操作中实现最先进性能的有效性。

0
下载
关闭预览

相关内容

面向视觉的强化学习综述
专知会员服务
21+阅读 · 2025年8月12日
深度学习与计算机视觉任务应用综述
深度学习与NLP
51+阅读 · 2018年12月18日
国家自然科学基金
42+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
23+阅读 · 2009年12月31日
VIP会员
相关基金
国家自然科学基金
42+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
23+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员