We introduce ScenarioControl, the first vision-language control mechanism for learned driving scenario generation. Given a text prompt or an input image, Scenario-Control synthesizes diverse, realistic 3D scenario rollouts - including map, 3D boxes of reactive actors over time, pedestrians, driving infrastructure, and ego camera observations. The method generates scenes in a vectorized latent space that represents road structure and dynamic agents jointly. To connect multimodal control with sparse vectorized scene elements, we propose a cross-global control mechanism that integrates crossattention with a lightweight global-context branch, enabling fine-grained control over road layout and traffic conditions while preserving realism. The method produces temporally consistent scenario rollouts from the perspectives different actors in the scene, supporting long-horizon continuation of driving scenarios. To facilitate training and evaluation, we release a dataset with text annotations aligned to vectorized map structures. Extensive experiments validate that the control adherence and fidelity of ScenarioControl compare favorable to all tested methods across all experiments. Project webpage: https://light.princeton.edu/ScenarioControl


翻译:我们提出ScenarioControl,这是首个用于学习型驾驶场景生成的视觉-语言控制机制。给定文本提示或输入图像,ScenarioControl可合成多样且逼真的3D场景推演——包括地图、随时间变化的反应式智能体3D框、行人、驾驶基础设施及自车摄像头观测。该方法在表示道路结构与动态智能体的矢量化潜在空间中生成场景。为连接多模态控制与稀疏矢量化场景元素,我们提出一种跨全局控制机制,将交叉注意力与轻量级全局上下文分支相结合,在保持真实性的同时实现对道路布局和交通状况的精细控制。该方法可从场景中不同智能体的视角生成时间一致的场景推演,支持驾驶场景的长时程延续。为促进训练与评估,我们发布了带有与矢量化地图结构对齐的文本标注的数据集。大量实验验证表明,ScenarioControl的控制遵循度与逼真度在所有实验中均优于所有被测方法。项目网页:https://light.princeton.edu/ScenarioControl

0
下载
关闭预览

相关内容

《大语言模型辅助生成军事训练场景》
专知会员服务
43+阅读 · 2025年11月13日
面向视觉的强化学习综述
专知会员服务
21+阅读 · 2025年8月12日
生成式人工智能在可视化中的应用:现状与未来方向
专知会员服务
42+阅读 · 2024年6月8日
【学界】 李飞飞学生最新论文:利用场景图生成图像
GAN生成式对抗网络
15+阅读 · 2018年4月9日
视觉里程计:起源、优势、对比、应用
计算机视觉life
18+阅读 · 2017年7月17日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
VIP会员
最新内容
美国从乌克兰无人机战争中学习经验
专知会员服务
7+阅读 · 6月21日
ICML 2026 | 面向视觉语言模型的语义鲁棒性认证
专知会员服务
5+阅读 · 6月21日
学习数据的几何:形状空间分析数学综述
专知会员服务
10+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
12+阅读 · 6月17日
相关VIP内容
《大语言模型辅助生成军事训练场景》
专知会员服务
43+阅读 · 2025年11月13日
面向视觉的强化学习综述
专知会员服务
21+阅读 · 2025年8月12日
生成式人工智能在可视化中的应用:现状与未来方向
专知会员服务
42+阅读 · 2024年6月8日
相关资讯
【学界】 李飞飞学生最新论文:利用场景图生成图像
GAN生成式对抗网络
15+阅读 · 2018年4月9日
视觉里程计:起源、优势、对比、应用
计算机视觉life
18+阅读 · 2017年7月17日
相关基金
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员