What if a world simulation model could render not an imagined environment but a city that actually exists? Prior generative world models synthesize visually plausible yet artificial environments by imagining all content. We present Seoul World Model (SWM), a city-scale world model grounded in the real city of Seoul. SWM anchors autoregressive video generation through retrieval-augmented conditioning on nearby street-view images. However, this design introduces several challenges, including temporal misalignment between retrieved references and the dynamic target scene, limited trajectory diversity and data sparsity from vehicle-mounted captures at sparse intervals. We address these challenges through cross-temporal pairing, a large-scale synthetic dataset enabling diverse camera trajectories, and a view interpolation pipeline that synthesizes coherent training videos from sparse street-view images. We further introduce a Virtual Lookahead Sink to stabilize long-horizon generation by continuously re-grounding each chunk to a retrieved image at a future location. We evaluate SWM against recent video world models across three cities: Seoul, Busan, and Ann Arbor. SWM outperforms existing methods in generating spatially faithful, temporally consistent, long-horizon videos grounded in actual urban environments over trajectories reaching hundreds of meters, while supporting diverse camera movements and text-prompted scenario variations.


翻译:如果世界仿真模型能够渲染的不是虚构环境,而是真实存在的城市,将会如何?现有的生成式世界模型通过想象所有内容来合成视觉上合理但人工构造的环境。本文提出首尔世界模型(SWM),这是一个以真实首尔市为基础构建的城市尺度世界模型。SWM通过检索增强的邻近街景图像条件化机制,为自回归视频生成提供空间锚点。然而,这种设计带来了若干挑战:包括检索参考帧与动态目标场景之间的时序错位、车载间隔采集导致的轨迹多样性受限及数据稀疏性问题。我们通过跨时序配对技术、支持多样化相机轨迹的大规模合成数据集,以及从稀疏街景图像生成连贯训练视频的视角插值流程来解决这些挑战。进一步引入虚拟前瞻汇点机制,通过将每个生成片段持续重锚定至未来位置的检索图像,从而稳定长时程生成过程。我们在首尔、釜山和安娜堡三个城市中,将SWM与近期视频世界模型进行对比评估。SWM在生成空间保真、时序连贯、基于真实城市环境的长时程视频(轨迹长度达数百米)方面优于现有方法,同时支持多样化的相机运动与文本提示的场景变体。

0
下载
关闭预览

相关内容

从看见到认知世界:视觉世界模型综述
专知会员服务
12+阅读 · 5月17日
【博士论文】弥合多模态基础模型与世界模型之间的鸿沟
从二维到三维认知:通用世界模型简要综述
专知会员服务
30+阅读 · 2025年6月26日
【MIT博士论文】通过神经物理构建世界模型
专知会员服务
36+阅读 · 2025年4月3日
模拟真实世界:多模态生成模型的统一综述
专知会员服务
34+阅读 · 2025年3月7日
自动驾驶的世界模型综述
专知会员服务
46+阅读 · 2025年1月22日
世界模型:安全性视角
专知会员服务
43+阅读 · 2024年11月17日
【斯坦福博士论文】基础模型真实世界应用,178页pdf
专知会员服务
78+阅读 · 2023年6月15日
基于虚拟现实环境的深度学习模型构建
MOOC
24+阅读 · 2019年9月28日
基于模型系统的系统设计
科技导报
10+阅读 · 2019年4月25日
概率图模型体系:HMM、MEMM、CRF
机器学习研究会
30+阅读 · 2018年2月10日
国家自然科学基金
13+阅读 · 2017年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
0+阅读 · 3月2日
VIP会员
最新内容
以色列-美国-伊朗战争中的无人机:关键要点
专知会员服务
2+阅读 · 今天14:04
《Palantir任务保障性软件安全标准(MA-S2)》
专知会员服务
6+阅读 · 今天13:49
基于声学的无人机检测技术综述
专知会员服务
5+阅读 · 今天13:37
《当代混合战争分析框架:俄乌战争经验教训》
专知会员服务
5+阅读 · 今天13:11
战略前沿人工智能的再思考(中文)
专知会员服务
7+阅读 · 5月29日
《量化地基防空系统间接效应的博弈论方法》
专知会员服务
5+阅读 · 5月29日
“史诗怒火行动”中美军损失的作战飞机
专知会员服务
6+阅读 · 5月29日
ICML 2026 | 理解上下文持续学习中的泛化与遗忘
专知会员服务
5+阅读 · 5月28日
相关VIP内容
从看见到认知世界:视觉世界模型综述
专知会员服务
12+阅读 · 5月17日
【博士论文】弥合多模态基础模型与世界模型之间的鸿沟
从二维到三维认知:通用世界模型简要综述
专知会员服务
30+阅读 · 2025年6月26日
【MIT博士论文】通过神经物理构建世界模型
专知会员服务
36+阅读 · 2025年4月3日
模拟真实世界:多模态生成模型的统一综述
专知会员服务
34+阅读 · 2025年3月7日
自动驾驶的世界模型综述
专知会员服务
46+阅读 · 2025年1月22日
世界模型:安全性视角
专知会员服务
43+阅读 · 2024年11月17日
【斯坦福博士论文】基础模型真实世界应用,178页pdf
专知会员服务
78+阅读 · 2023年6月15日
相关基金
国家自然科学基金
13+阅读 · 2017年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员