Monocular height estimation provides an efficient and cost-effective solution for three-dimensional perception in remote sensing. However, training deep neural networks for this task demands abundant annotated data, while high-quality labels are scarce and typically available only in developed regions, which limits model generalization and constrains their applicability at large scales. This work addresses the problem by leveraging imperfect labels from out-of-domain regions to train pixel-wise height estimation networks, which may be incomplete, inexact, or inaccurate compared to high-quality annotations. We introduce an ensemble-based pipeline compatible with any monocular height estimation network, featuring architecture and loss functions specifically designed to leverage information in noisy labels through weak supervision, utilizing balanced soft losses and ordinal constraints. Experiments on two datasets -- DFC23 (0.5--1 m) and GBH (3 m) -- show that our method achieves more consistent cross-domain performance, reducing average RMSE by up to 22.94% on DFC23 and 18.62% on GBH compared with baselines. Ablation studies confirm the contribution of each design component.


翻译:单目高度估计为遥感领域的三维感知提供了一种高效且成本低廉的解决方案。然而,为训练深度神经网络完成此任务需要大量标注数据,而高质量标签稀缺且通常仅在发达地区可用,这限制了模型的泛化能力,并制约了其大规模应用。本研究通过利用来自域外区域的不完美标签来训练像素级高度估计网络,以解决此问题;这些标签相较于高质量标注可能不完整、不精确或不准确。我们提出了一种与任何单目高度估计网络兼容的集成式流程,其架构和损失函数专门设计为通过弱监督利用噪声标签中的信息,采用了平衡软损失和序数约束。在两个数据集——DFC23(0.5–1 米)和 GBH(3 米)上的实验表明,相较于基线方法,我们的方法实现了更一致的跨域性能,在 DFC23 上将平均 RMSE 降低了高达 22.94%,在 GBH 上降低了 18.62%。消融研究证实了每个设计组件的贡献。

0
下载
关闭预览

相关内容

【CVPR 2021】变换器跟踪TransT: Transformer Tracking
专知会员服务
22+阅读 · 2021年4月20日
AAAI 2022 | ProtGNN:自解释图神经网络
专知
10+阅读 · 2022年2月28日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
VIP会员
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
Top
微信扫码咨询专知VIP会员