Generative world models for autonomous driving face two unresolved tensions: heterogeneous control injection, where free-form language, HD-maps, trajectories, and camera poses reside in incompatible representational spaces, and post-hoc cross-view fusion, where per-camera latents fail to encode global 3-D geometry. We trace both to a single root cause: the absence of a shared symbolic interlingua aligning language, geometry, and pixels at the latent-token level. We present DRIVE-CHOREO, an LLM-choreographed multi-agent world model that recasts controllable multi-view video generation as latent choreography. Three Qwen2.5-VL agents - a Director parsing user intent into a structured WorldScript, a Cartographer grounding it into spatially-anchored layout tokens, and an Auditor feeding cross-view critiques back as auxiliary supervision - jointly author a single position-aware token sequence. This sequence is co-compressed with the multi-view video via a view-time permutation that enforces inter-camera geometry within the convolutional receptive field of a 3-D VAE. On nuScenes, DRIVE-CHOREO sets new state-of-the-art multi-view consistency and BEV mAP (21.6) with competitive FVD (45.7); a detector trained purely on our synthetic data gains +2.4 NDS on the real validation split, validating downstream utility.


翻译:自动驾驶生成式世界模型面临两个未解决的核心张力:异构控制注入(自由形式语言、高精地图、轨迹与相机位姿容纳于不兼容的表示空间)与后验式跨视角融合(单视角编码潜在变量无法编码全局三维几何)。我们将两者归因于同一根本原因:在潜在令牌层面缺乏对齐语言、几何与像素的共享符号中间语。本文提出DRIVE-CHOREO——一种由LLM编排的多智能体世界模型,将可控多视角视频生成重构为潜在编排任务。三个Qwen2.5-VL智能体(解析用户意图至结构化WorldScript的导演智能体、将意图具象化为空间锚定布局令牌的地图制作者智能体、以及将跨视角批评反馈为辅助监督的审核智能体)共同撰写单一位置感知令牌序列。该序列通过视图-时间置换与多视角视频联合压缩,在3D VAE卷积感受野内强制施加跨相机几何约束。在nuScenes数据集上,DRIVE-CHOREO以竞争性FVD(45.7)刷新多视角一致性与BEV mAP(21.6)新纪录;完全基于合成数据训练的检测器在真实验证集上获得+2.4 NDS增益,验证了下游实用性。

0
下载
关闭预览

相关内容

LLMs与生成式智能体模拟:复杂系统研究的新范式
专知会员服务
28+阅读 · 2025年6月15日
自动驾驶的世界模型综述
专知会员服务
47+阅读 · 2025年1月22日
立体匹配技术简介
计算机视觉life
28+阅读 · 2019年4月22日
基于车路协同的群体智能协同
智能交通技术
10+阅读 · 2019年1月23日
深度学习时代的图模型,清华发文综述图网络
GAN生成式对抗网络
13+阅读 · 2018年12月23日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
21+阅读 · 2013年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
4+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
7+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
4+阅读 · 6月17日
相关基金
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
21+阅读 · 2013年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员