Reliable depth estimation under real optical conditions remains a core challenge for camera vision in systems such as autonomous robotics and augmented reality. Despite recent progress in depth estimation and depth-of-field rendering, research remains constrained by the lack of large-scale, high-fidelity, real stereo DSLR datasets, limiting real-world generalization and evaluation of models trained on synthetic data as shown extensively in literature. We present the first high-resolution (5472$\times$3648px) stereo DSLR dataset with 18000 images, systematically varying focal length and aperture across complex real scenes and capturing the optical realism and complexity of professional camera systems. For 9 scenes with varying scene complexity, lighting and background, images are captured with two identical camera assemblies at 10 focal lengths (28-70mm) and 5 apertures (f/2.8-f/22), spanning 50 optical configurations in 2000 images per scene. This full-range optics coverage enables controlled analysis of geometric and optical effects for monocular and stereo depth estimation, shallow depth-of-field rendering, deblurring, 3D scene reconstruction and novel view synthesis. Each focal configuration has a dedicated calibration image set, supporting evaluation of classical and learning based methods for intrinsic and extrinsic calibration. The dataset features challenging visual elements such as multi-scale optical illusions, reflective surfaces, mirrors, transparent glass walls, fine-grained details, and natural / artificial ambient light variations. This work attempts to bridge the realism gap between synthetic training data and real camera optics, and demonstrates challenges with the current state-of-the-art monocular, stereo depth and depth-of-field methods. We release the dataset, calibration files, and evaluation code to support reproducible research on real-world optical generalization.


翻译:摘要:在实际光学条件下实现可靠的深度估计,仍是自主机器人及增强现实等系统中摄像机视觉的核心挑战。尽管近年来深度估计与景深渲染技术取得进展,但受限于缺乏大规模、高保真度的真实立体单反相机数据集,现有研究难以验证基于合成数据训练的模型在真实场景中的泛化能力(文献已广泛证实此局限)。我们提出首个高分辨率(5472×3648像素)立体单反相机数据集,包含18000张图像,系统性改变复杂真实场景中的焦距与光圈参数,捕捉专业相机系统的光学真实性与复杂性。覆盖9个场景(场景复杂度、光照及背景各异),通过两套相同相机组件在不同焦距(28-70mm共10档)与光圈(f/2.8-f/22共5档)下采集图像,每个场景涵盖50种光学配置(每场景2000张图像)。这种全域光学覆盖支持对单目/立体深度估计、浅景深渲染、去模糊、三维场景重建及新视角合成中的几何与光学效应进行可控分析。每种焦距配置均配有专用标定图像集,支持对经典及基于学习的标定方法(内参/外参)进行评估。数据集包含多尺度视错觉、反射表面、镜面、透明玻璃幕墙、精细纹理及自然/人工环境光变化等挑战性视觉元素。本研究旨在弥合合成训练数据与真实相机光学之间的现实性鸿沟,并揭示当前主流单目深度估计、立体深度估计及景深方法面临的挑战。我们公开数据集、标定文件及评估代码,以支持可复现的真实环境光学泛化研究。

0
下载
关闭预览

相关内容

数据集,又称为资料集、数据集合或资料集合,是一种由数据所组成的集合。
Data set(或dataset)是一个数据的集合,通常以表格形式出现。每一列代表一个特定变量。每一行都对应于某一成员的数据集的问题。它列出的价值观为每一个变量,如身高和体重的一个物体或价值的随机数。每个数值被称为数据资料。对应于行数,该数据集的数据可能包括一个或多个成员。
迈向深度基础模型:基于视觉的深度估计最新趋势
专知会员服务
23+阅读 · 2025年7月16日
光学遥感图像目标检测数据集综述
专知会员服务
31+阅读 · 2024年3月29日
基于无标签视频数据的深度预测学习方法综述
专知会员服务
35+阅读 · 2022年5月16日
【博士论文】多视光场光线空间几何模型研究
专知会员服务
24+阅读 · 2021年12月6日
最新《 深度学习时代的低光图像增强》综述论文,
专知会员服务
38+阅读 · 2021年4月30日
多模态预训练模型简述
专知会员服务
115+阅读 · 2021年4月27日
深度学习时代的图模型,清华发文综述图网络
GAN生成式对抗网络
13+阅读 · 2018年12月23日
虚拟kitti数据集
CreateAMind
12+阅读 · 2017年10月14日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
17+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
8+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
10+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
6+阅读 · 6月17日
相关VIP内容
迈向深度基础模型:基于视觉的深度估计最新趋势
专知会员服务
23+阅读 · 2025年7月16日
光学遥感图像目标检测数据集综述
专知会员服务
31+阅读 · 2024年3月29日
基于无标签视频数据的深度预测学习方法综述
专知会员服务
35+阅读 · 2022年5月16日
【博士论文】多视光场光线空间几何模型研究
专知会员服务
24+阅读 · 2021年12月6日
最新《 深度学习时代的低光图像增强》综述论文,
专知会员服务
38+阅读 · 2021年4月30日
多模态预训练模型简述
专知会员服务
115+阅读 · 2021年4月27日
相关基金
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
17+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员