Self-supervised monocular depth estimation has been widely studied recently. Most of the work has focused on improving performance on benchmark datasets, such as KITTI, but has offered a few experiments on generalization performance. In this paper, we investigate the backbone networks (e.g. CNNs, Transformers, and CNN-Transformer hybrid models) toward the generalization of monocular depth estimation. We first evaluate state-of-the-art models on diverse public datasets, which have never been seen during the network training. Next, we investigate the effects of texture-biased and shape-biased representations using the various texture-shifted datasets that we generated. We observe that Transformers exhibit a strong shape bias and CNNs do a strong texture-bias. We also find that shape-biased models show better generalization performance for monocular depth estimation compared to texture-biased models. Based on these observations, we newly design a CNN-Transformer hybrid network with a multi-level adaptive feature fusion module, called MonoFormer. The design intuition behind MonoFormer is to increase shape bias by employing Transformers while compensating for the weak locality bias of Transformers by adaptively fusing multi-level representations. Extensive experiments show that the proposed method achieves state-of-the-art performance with various public datasets. Our method also shows the best generalization ability among the competitive methods.


翻译:自监督单目深度估计近年来得到了广泛研究。多数工作聚焦于在基准数据集(如KITTI)上提升性能,但关于泛化能力的实验却相对有限。本文研究了多种骨干网络(例如CNN、Transformer及CNN-Transformer混合模型)对单目深度估计泛化能力的影响。首先,我们在网络训练中从未见过的多个公开数据集上评估了当前最先进的模型。随后,利用我们生成的各类纹理偏移数据集,探讨了纹理偏好表征与形状偏好表征的影响。我们观察到Transformer具有显著的形状偏好,而CNN则呈现强烈的纹理偏好。同时发现,相较于纹理偏好模型,形状偏好模型在单目深度估计中展现出更优的泛化性能。基于上述发现,我们设计了一种新型CNN-Transformer混合网络,并引入多层级自适应特征融合模块,命名为MonoFormer。该网络的设计思路是通过引入Transformer增强形状偏好,同时利用自适应融合多层级表征弥补Transformer在局部性偏好上的不足。大量实验表明,所提方法在多个公开数据集上达到了最优性能,并在各类竞争方法中展现出最强的泛化能力。

0
下载
关闭预览

相关内容

【AAAI2023】FoPro:少样本引导的鲁棒维布监督原型学习
专知会员服务
15+阅读 · 2022年12月3日
【KDD2022】自监督超图Transformer推荐系统
专知会员服务
34+阅读 · 2022年8月1日
专知会员服务
26+阅读 · 2021年1月21日
【NeurIPS 2019 Apple成果汇总】《Apple at NeurIPS 2019》
专知会员服务
11+阅读 · 2019年12月6日
GNN 新基准!Long Range Graph Benchmark
图与推荐
0+阅读 · 2022年10月18日
浅聊对比学习(Contrastive Learning)第一弹
PaperWeekly
1+阅读 · 2022年6月10日
Hierarchically Structured Meta-learning
CreateAMind
27+阅读 · 2019年5月22日
深度自进化聚类:Deep Self-Evolution Clustering
我爱读PAMI
15+阅读 · 2019年4月13日
【泡泡图灵智库】密集相关的自监督视觉描述学习(RAL)
泡泡机器人SLAM
11+阅读 · 2018年10月6日
【SIGIR2018】五篇对抗训练文章
专知
12+阅读 · 2018年7月9日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2008年12月31日
国家自然科学基金
0+阅读 · 2008年12月31日
Arxiv
0+阅读 · 2023年5月7日
Arxiv
0+阅读 · 2023年5月5日
Arxiv
14+阅读 · 2022年5月6日
Arxiv
25+阅读 · 2021年3月20日
Arxiv
24+阅读 · 2021年3月4日
Arxiv
15+阅读 · 2020年12月17日
Arxiv
11+阅读 · 2020年12月2日
VIP会员
最新内容
ICML 2026 | SARDI:扩散语言模型的自增强检索
专知会员服务
4+阅读 · 6月6日
《国防领域安全采用大语言模型的战略蓝图》
专知会员服务
7+阅读 · 6月6日
ICML 2026 | 演化选择的因果建模
专知会员服务
7+阅读 · 6月5日
综述|学习式3D表征最新进展与趋势
专知会员服务
7+阅读 · 6月5日
人工智能重塑威慑:算法优势的兴起
专知会员服务
8+阅读 · 6月5日
AgentOps综述:智能体系统运维框架
专知会员服务
17+阅读 · 6月4日
《美陆军最新条令:兵力防护》
专知会员服务
14+阅读 · 6月4日
相关论文
Arxiv
0+阅读 · 2023年5月7日
Arxiv
0+阅读 · 2023年5月5日
Arxiv
14+阅读 · 2022年5月6日
Arxiv
25+阅读 · 2021年3月20日
Arxiv
24+阅读 · 2021年3月4日
Arxiv
15+阅读 · 2020年12月17日
Arxiv
11+阅读 · 2020年12月2日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2008年12月31日
国家自然科学基金
0+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员