Generative models have advanced significantly in realistic image synthesis, with diffusion models excelling in quality and stability. Recent multi-view diffusion models improve 3D-aware street view generation, but they struggle to produce place-aware and background-consistent urban scenes from text, BEV maps, and object bounding boxes. This limits their effectiveness in generating realistic samples for place recognition tasks. To address these challenges, we propose DiffPlace, a novel framework that introduces a place-ID controller to enable place-controllable multi-view image generation. The place-ID controller employs linear projection, perceiver transformer, and contrastive learning to map place-ID embeddings into a fixed CLIP space, allowing the model to synthesize images with consistent background buildings while flexibly modifying foreground objects and weather conditions. Extensive experiments, including quantitative comparisons and augmented training evaluations, demonstrate that DiffPlace outperforms existing methods in both generation quality and training support for visual place recognition. Our results highlight the potential of generative models in enhancing scene-level and place-aware synthesis, providing a valuable approach for improving place recognition in autonomous driving


翻译:生成模型在真实感图像合成方面取得了显著进展,其中扩散模型在生成质量和稳定性方面表现优异。近期的多视角扩散模型改善了3D感知的街景生成,但它们难以从文本、BEV地图和物体边界框生成具有地点感知和背景一致的城市场景。这限制了它们在为地点识别任务生成真实样本方面的有效性。为解决这些挑战,我们提出了DiffPlace,一个新颖的框架,通过引入地点ID控制器来实现地点可控的多视角图像生成。该地点ID控制器采用线性投影、感知器Transformer和对比学习,将地点ID嵌入映射到固定的CLIP空间,使模型能够合成具有一致背景建筑物的图像,同时灵活修改前景物体和天气条件。大量实验,包括定量比较和增强训练评估,表明DiffPlace在生成质量和视觉地点识别的训练支持方面均优于现有方法。我们的结果凸显了生成模型在增强场景级和地点感知合成方面的潜力,为提升自动驾驶中的地点识别提供了一种有价值的方法。

0
下载
关闭预览

相关内容

用于语言生成的离散扩散模型
专知会员服务
12+阅读 · 2025年7月10日
三维场景生成:综述
专知会员服务
21+阅读 · 2025年5月9日
《基于扩散模型的条件图像生成》综述
专知会员服务
44+阅读 · 2024年10月1日
低层视觉中的扩散模型:综述
专知会员服务
22+阅读 · 2024年6月18日
【CVPR2024】ViewDiff: 3D一致的图像生成与文本到图像模型
专知会员服务
30+阅读 · 2024年3月10日
【NeurIPS 2022】扩散模型的深度平衡方法
专知会员服务
40+阅读 · 2022年11月5日
【学界】 李飞飞学生最新论文:利用场景图生成图像
GAN生成式对抗网络
15+阅读 · 2018年4月9日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
最新内容
《美陆军条例:陆军指挥政策(2026版)》
专知会员服务
7+阅读 · 今天8:10
《军用自主人工智能系统的治理与安全》
专知会员服务
5+阅读 · 今天8:02
《系统簇式多域作战规划范畴论框架》
专知会员服务
9+阅读 · 4月20日
高效视频扩散模型:进展与挑战
专知会员服务
4+阅读 · 4月20日
乌克兰前线的五项创新
专知会员服务
8+阅读 · 4月20日
 军事通信系统与设备的技术演进综述
专知会员服务
7+阅读 · 4月20日
《北约标准:医疗评估手册》174页
专知会员服务
6+阅读 · 4月20日
相关VIP内容
用于语言生成的离散扩散模型
专知会员服务
12+阅读 · 2025年7月10日
三维场景生成:综述
专知会员服务
21+阅读 · 2025年5月9日
《基于扩散模型的条件图像生成》综述
专知会员服务
44+阅读 · 2024年10月1日
低层视觉中的扩散模型:综述
专知会员服务
22+阅读 · 2024年6月18日
【CVPR2024】ViewDiff: 3D一致的图像生成与文本到图像模型
专知会员服务
30+阅读 · 2024年3月10日
【NeurIPS 2022】扩散模型的深度平衡方法
专知会员服务
40+阅读 · 2022年11月5日
相关资讯
【学界】 李飞飞学生最新论文:利用场景图生成图像
GAN生成式对抗网络
15+阅读 · 2018年4月9日
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员