We study the 3D-aware image attribute editing problem in this paper, which has wide applications in practice. Recent methods solved the problem by training a shared encoder to map images into a 3D generator's latent space or by per-image latent code optimization and then edited images in the latent space. Despite their promising results near the input view, they still suffer from the 3D inconsistency of produced images at large camera poses and imprecise image attribute editing, like affecting unspecified attributes during editing. For more efficient image inversion, we train a shared encoder for all images. To alleviate 3D inconsistency at large camera poses, we propose two novel methods, an alternating training scheme and a multi-view identity loss, to maintain 3D consistency and subject identity. As for imprecise image editing, we attribute the problem to the gap between the latent space of real images and that of generated images. We compare the latent space and inversion manifold of GAN models and demonstrate that editing in the inversion manifold can achieve better results in both quantitative and qualitative evaluations. Extensive experiments show that our method produces more 3D consistent images and achieves more precise image editing than previous work. Source code and pretrained models can be found on our project page: https://mybabyyh.github.io/Preim3D/


翻译:本文研究三维感知的图像属性编辑问题,该问题在实践中具有广泛的应用。近期方法通过训练共享编码器将图像映射到三维生成器的潜在空间,或通过逐张图像潜在码优化并在潜在空间中进行编辑来解决该问题。尽管这些方法在输入视角附近取得了令人鼓舞的结果,但在大相机位姿下生成的图像仍存在三维不一致性,且编辑过程中会因不精确的图像属性编辑(如影响未指定的属性)而受到局限。为实现更高效的图像反演,我们为所有图像训练了一个共享编码器。为了缓解大相机位姿下的三维不一致性,我们提出了两种新颖方法:交替训练方案和多视角身份损失,以维持三维一致性和主体身份。针对不精确的图像编辑问题,我们将其归因于真实图像潜在空间与生成图像潜在空间之间的差距。我们对比了GAN模型的潜在空间与反演流形,并证明在反演流形中进行编辑能够在定量和定性评估中取得更优结果。大量实验表明,与先前工作相比,我们的方法能生成三维一致性更强的图像并实现更精确的图像编辑。源代码与预训练模型可在项目主页获取:https://mybabyyh.github.io/Preim3D/

0
下载
关闭预览

相关内容

CVPR 2022 | 点云分割的对比边界学习
专知会员服务
16+阅读 · 2022年4月30日
专知会员服务
16+阅读 · 2021年5月13日
CVPR 2021 论文盘点-人脸识别篇
CVer
2+阅读 · 2022年5月25日
CVPR 2020 论文大盘点-图像增强与图像恢复篇
计算机视觉life
36+阅读 · 2020年7月10日
CVPR 2019 | 34篇 CVPR 2019 论文实现代码
AI科技评论
21+阅读 · 2019年6月23日
Hierarchically Structured Meta-learning
CreateAMind
27+阅读 · 2019年5月22日
逆强化学习-学习人先验的动机
CreateAMind
16+阅读 · 2019年1月18日
大神 一年100篇论文
CreateAMind
15+阅读 · 2018年12月31日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
MoCoGAN 分解运动和内容的视频生成
CreateAMind
18+阅读 · 2017年10月21日
Generative Adversarial Text to Image Synthesis论文解读
统计学习与视觉计算组
13+阅读 · 2017年6月9日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Arxiv
0+阅读 · 2023年6月5日
VIP会员
最新内容
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
2+阅读 · 6月22日
21世纪的无人机战争
专知会员服务
3+阅读 · 6月22日
《量子技术的军事任务技术适配与利用》
专知会员服务
3+阅读 · 6月22日
美国从乌克兰无人机战争中学习经验
专知会员服务
7+阅读 · 6月21日
ICML 2026 | 面向视觉语言模型的语义鲁棒性认证
专知会员服务
5+阅读 · 6月21日
相关VIP内容
CVPR 2022 | 点云分割的对比边界学习
专知会员服务
16+阅读 · 2022年4月30日
专知会员服务
16+阅读 · 2021年5月13日
相关资讯
CVPR 2021 论文盘点-人脸识别篇
CVer
2+阅读 · 2022年5月25日
CVPR 2020 论文大盘点-图像增强与图像恢复篇
计算机视觉life
36+阅读 · 2020年7月10日
CVPR 2019 | 34篇 CVPR 2019 论文实现代码
AI科技评论
21+阅读 · 2019年6月23日
Hierarchically Structured Meta-learning
CreateAMind
27+阅读 · 2019年5月22日
逆强化学习-学习人先验的动机
CreateAMind
16+阅读 · 2019年1月18日
大神 一年100篇论文
CreateAMind
15+阅读 · 2018年12月31日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
MoCoGAN 分解运动和内容的视频生成
CreateAMind
18+阅读 · 2017年10月21日
Generative Adversarial Text to Image Synthesis论文解读
统计学习与视觉计算组
13+阅读 · 2017年6月9日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员