Monocular novel-view synthesis has long required multi-view image pairs for supervision, limiting training data scale and diversity. We argue it is not necessary: one view is enough. We present OVIE, trained entirely on unpaired internet images. We leverage a monocular depth estimator as a geometric scaffold at training time: we lift a source image into 3D, apply a sampled camera transformation, and project to obtain a pseudo-target view. To handle disocclusions, we introduce a masked training formulation that restricts geometric, perceptual, and textural losses to valid regions, enabling training on 30 million uncurated images. At inference, OVIE is geometry-free, requiring no depth estimator or 3D representation. Trained exclusively on in-the-wild images, OVIE outperforms prior methods in a zero-shot setting, while being 600x faster than the second-best baseline. Code and models are publicly available at https://github.com/AdrienRR/ovie.


翻译:单目新视角合成长期依赖多视图图像对进行监督,这限制了训练数据的规模与多样性。我们认为这并非必要:一视足矣。我们提出OVIE模型,完全基于非配对的互联网图像进行训练。在训练阶段,我们利用单目深度估计器作为几何支撑:将源图像提升至三维空间,施加采样的相机变换,并通过投影获取伪目标视角。为解决遮挡问题,我们引入掩膜训练框架,将几何、感知与纹理损失限制在有效区域内,从而实现在3000万张未经筛选的图像上进行训练。推理时,OVIE无需深度估计器或三维表示,完全摆脱几何依赖。仅使用野外图像训练的OVIE,在零样本设置下超越先前方法,且速度比次优基线快600倍。代码与模型已开源至https://github.com/AdrienRR/ovie。

0
下载
关闭预览

相关内容

视觉识别系统出自“头脑风暴”一词。所谓头脑风暴(Brain-storming)系统是运用系统的、统一的视觉符号系统。视觉识别是静态的识别符号具体化、视觉化的传达形式,项目最多,层面最广,效果更直接。视觉识别系统属于CIS中的VI,用完整、体系的视觉传达体系,将企业理念、文化特质、服务内容、企业规范等抽象语意转换为具体符号的概念,塑造出独特的企业形象。视觉识别系统分为基本要素系统和应用要素系统两方面。基本要素系统主要包括:企业名称、企业标志、标准字、标准色、象征图案、宣传口语、市场行销报告书等。应用系统主要包括:办公事务用品、生产设备、建筑环境、产品包装、广告媒体、交通工具、衣着制服、旗帜、招牌、标识牌、橱窗、陈列展示等。视觉识别(VI)在CI系统大众所接受,据有主导的地位。
视觉语言多模态预训练综述
专知会员服务
122+阅读 · 2022年7月11日
【博士论文】基于深度学习的单目场景深度估计方法研究
计算机视觉方向简介 | 多视角立体视觉MVS
计算机视觉life
15+阅读 · 2019年10月10日
计算机视觉方向简介 | 三维重建技术概述
计算机视觉life
26+阅读 · 2019年6月13日
计算机视觉方向简介 | 基于单目视觉的三维重建算法
计算机视觉life
32+阅读 · 2019年4月9日
深度相机原理揭秘--双目立体视觉
计算机视觉life
10+阅读 · 2017年11月7日
国家自然科学基金
5+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
最新内容
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
1+阅读 · 今天15:00
21世纪的无人机战争
专知会员服务
2+阅读 · 今天14:05
《量子技术的军事任务技术适配与利用》
专知会员服务
2+阅读 · 今天13:51
美国从乌克兰无人机战争中学习经验
专知会员服务
7+阅读 · 6月21日
ICML 2026 | 面向视觉语言模型的语义鲁棒性认证
专知会员服务
5+阅读 · 6月21日
相关VIP内容
视觉语言多模态预训练综述
专知会员服务
122+阅读 · 2022年7月11日
【博士论文】基于深度学习的单目场景深度估计方法研究
相关基金
国家自然科学基金
5+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员