Inferring the structure of 3D scenes from 2D observations is a fundamental challenge in computer vision. Recently popularized approaches based on neural scene representations have achieved tremendous impact and have been applied across a variety of applications. One of the major remaining challenges in this space is training a single model which can provide latent representations which effectively generalize beyond a single scene. Scene Representation Transformer (SRT) has shown promise in this direction, but scaling it to a larger set of diverse scenes is challenging and necessitates accurately posed ground truth data. To address this problem, we propose RUST (Really Unposed Scene representation Transformer), a pose-free approach to novel view synthesis trained on RGB images alone. Our main insight is that one can train a Pose Encoder that peeks at the target image and learns a latent pose embedding which is used by the decoder for view synthesis. We perform an empirical investigation into the learned latent pose structure and show that it allows meaningful test-time camera transformations and accurate explicit pose readouts. Perhaps surprisingly, RUST achieves similar quality as methods which have access to perfect camera pose, thereby unlocking the potential for large-scale training of amortized neural scene representations.


翻译:从二维观测推断三维场景结构是计算机视觉中的一项基础挑战。近期流行的基于神经场景表征的方法已产生巨大影响,并被应用于多种场景。该领域尚存的主要难题之一是训练一个能提供有效泛化至单场景之外的隐式表征的单一模型。场景表征变换器(SRT)在此方向上展现出潜力,但将其扩展到更大规模、更多样化的场景集仍具挑战性,且需要精确的位姿标注数据。为解决此问题,我们提出RUST(真实未定位场景表征变换器),一种仅基于RGB图像训练、无需位姿信息的新型视图合成方法。我们的核心洞察在于:可训练一个观察目标图像并学习隐式位姿嵌入的位姿编码器,该嵌入由解码器用于视图合成。我们对所学隐式位姿结构进行实证研究,表明其支持有意义的测试阶段相机变换和准确的显式位姿读取。令人意外的是,RUST可实现与具有完美相机位姿方法相当的质量,从而为放大训练摊销神经场景表征释放了潜力。

0
下载
关闭预览

相关内容

【CVPR2023】高保真自由可控的说话头视频生成
专知会员服务
21+阅读 · 2023年4月22日
100+篇《自监督学习(Self-Supervised Learning)》论文最新合集
专知会员服务
167+阅读 · 2020年3月18日
专知会员服务
54+阅读 · 2019年12月22日
[综述]深度学习下的场景文本检测与识别
专知会员服务
78+阅读 · 2019年10月10日
GNN 新基准!Long Range Graph Benchmark
图与推荐
0+阅读 · 2022年10月18日
Hierarchically Structured Meta-learning
CreateAMind
27+阅读 · 2019年5月22日
逆强化学习-学习人先验的动机
CreateAMind
16+阅读 · 2019年1月18日
无监督元学习表示学习
CreateAMind
27+阅读 · 2019年1月4日
Unsupervised Learning via Meta-Learning
CreateAMind
44+阅读 · 2019年1月3日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
vae 相关论文 表示学习 1
CreateAMind
12+阅读 · 2018年9月6日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Arxiv
15+阅读 · 2022年10月27日
Arxiv
26+阅读 · 2022年1月3日
Arxiv
16+阅读 · 2021年3月2日
VIP会员
最新内容
俄乌战场地面机器人如何改写战争规则
专知会员服务
6+阅读 · 6月14日
《无人水面艇文献综述与结构设计》135页
专知会员服务
11+阅读 · 6月13日
乌克兰战场背后的新武器
专知会员服务
8+阅读 · 6月12日
基于博弈论的陆军人机协同(长文报告)
专知会员服务
13+阅读 · 6月12日
相关VIP内容
【CVPR2023】高保真自由可控的说话头视频生成
专知会员服务
21+阅读 · 2023年4月22日
100+篇《自监督学习(Self-Supervised Learning)》论文最新合集
专知会员服务
167+阅读 · 2020年3月18日
专知会员服务
54+阅读 · 2019年12月22日
[综述]深度学习下的场景文本检测与识别
专知会员服务
78+阅读 · 2019年10月10日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员