Relative-depth foundation models transfer well, yet monocular metric depth remains ill-posed due to unidentifiable global scale and heightened domain-shift sensitivity. Under a frozen-backbone calibration setting, we recover metric depth via an image-specific affine transform in inverse depth and train only lightweight calibration heads while keeping the relative-depth backbone and the CLIP text encoder fixed. Since captions provide coarse but noisy scale cues that vary with phrasing and missing objects, we use language to predict an uncertainty-aware envelope that bounds feasible calibration parameters in an unconstrained space, rather than committing to a text-only point estimate. We then use pooled multi-scale frozen visual features to select an image-specific calibration within this envelope. During training, a closed-form least-squares oracle in inverse depth provides per-image supervision for learning the envelope and the selected calibration. Experiments on NYUv2 and KITTI improve in-domain accuracy, while zero-shot transfer to SUN-RGBD and DDAD demonstrates improved robustness over strong language-only baselines.


翻译:相对深度基础模型具有良好的迁移能力,但单目度量深度问题由于全局尺度不可辨识以及对领域偏移的高度敏感性,仍然是一个不适定问题。在冻结骨干网络的校准设置下,我们通过逆深度空间中的图像特定仿射变换来恢复度量深度,并且仅训练轻量级的校准头,同时保持相对深度骨干网络和CLIP文本编码器固定。由于图像描述提供了粗略但带有噪声的尺度线索,这些线索会随措辞和缺失物体而变化,我们使用语言来预测一个不确定性感知的包络,该包络在无约束空间中界定可行的校准参数,而不是依赖于纯文本的点估计。然后,我们利用池化的多尺度冻结视觉特征,在该包络内选择一个图像特定的校准。在训练期间,逆深度空间中的闭式最小二乘最优解为学习包络和所选校准提供了逐图像的监督。在NYUv2和KITTI数据集上的实验表明,领域内精度得到提升;同时,在SUN-RGBD和DDAD数据集上的零样本迁移实验,证明了该方法相较于强语言基线的鲁棒性有所改进。

0
下载
关闭预览

相关内容

UTC: 用于视觉对话的任务间对比学习的统一Transformer
专知会员服务
14+阅读 · 2022年5月4日
【ICML2021】因果匹配领域泛化
专知
12+阅读 · 2021年8月12日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员