Depth from Defocus (DfD) is the task of estimating a dense metric depth map from a focus stack. Unlike previous works overfitting to a certain dataset, this paper focuses on the challenging and practical setting of zero-shot generalization. We first propose a new real-world DfD benchmark ZEDD, which contains 8.3x more scenes and significantly higher quality images and ground-truth depth maps compared to previous benchmarks. We also design a novel network architecture named FOSSA. FOSSA is a Transformer-based architecture with novel designs tailored to the DfD task. The key contribution is a stack attention layer with a focus distance embedding, allowing efficient information exchange across the focus stack. Finally, we develop a new training data pipeline allowing us to utilize existing large-scale RGBD datasets to generate synthetic focus stacks. Experiment results on ZEDD and other benchmarks show a significant improvement over the baselines, reducing errors by up to 55.7%. The ZEDD benchmark is released at https://zedd.cs.princeton.edu. The code and checkpoints are released at https://github.com/princeton-vl/FOSSA.


翻译:离焦深度估计(DfD)旨在从焦点堆栈中估计密集度量深度图。与先前在特定数据集上过拟合的工作不同,本文聚焦于零样本泛化这一具有挑战性且实用的场景。我们首先提出了一个新的真实世界DfD基准ZEDD,与先前基准相比,其场景数量增加了8.3倍,且图像和真实深度图的质量显著更高。我们还设计了一种名为FOSSA的新型网络架构。FOSSA是基于Transformer的架构,针对DfD任务设计了新颖的结构。关键贡献在于引入带有焦点距离嵌入的堆栈注意力层,使得焦点堆栈间的信息交换更加高效。最后,我们开发了一种新的训练数据流水线,能够利用现有的大规模RGBD数据集生成合成焦点堆栈。在ZEDD及其他基准上的实验结果表明,相较于基线方法,误差最多降低了55.7%。ZEDD基准已在https://zedd.cs.princeton.edu发布。代码和模型权重已公开于https://github.com/princeton-vl/FOSSA。

0
下载
关闭预览

相关内容

迈向深度基础模型:基于视觉的深度估计最新趋势
专知会员服务
23+阅读 · 2025年7月16日
【CVPR2023】零样本模型诊断
专知会员服务
32+阅读 · 2023年3月29日
【博士论文】基于深度学习的单目场景深度估计方法研究
专知会员服务
52+阅读 · 2021年5月15日
专知会员服务
39+阅读 · 2021年3月29日
零样本图像识别综述论文
专知
22+阅读 · 2020年4月4日
Zero-Shot Learning相关资源大列表
专知
52+阅读 · 2019年1月1日
最新|深度离散哈希算法,可用于图像检索!
全球人工智能
14+阅读 · 2017年12月15日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
0+阅读 · 4月2日
Arxiv
0+阅读 · 2月20日
VIP会员
最新内容
BES:让语言模型通过双向进化搜索自我改进
专知会员服务
0+阅读 · 19分钟前
以色列-美国-伊朗战争中的无人机:关键要点
专知会员服务
3+阅读 · 今天14:04
《Palantir任务保障性软件安全标准(MA-S2)》
专知会员服务
6+阅读 · 今天13:49
基于声学的无人机检测技术综述
专知会员服务
5+阅读 · 今天13:37
《当代混合战争分析框架:俄乌战争经验教训》
专知会员服务
5+阅读 · 今天13:11
战略前沿人工智能的再思考(中文)
专知会员服务
7+阅读 · 5月29日
《量化地基防空系统间接效应的博弈论方法》
专知会员服务
5+阅读 · 5月29日
相关基金
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员