Graph Visual Question Answering (GVQA) for autonomous driving organizes reasoning into ordered stages, namely Perception, Prediction, and Planning, where planning decisions should remain consistent with the model's own perception. We present a comparative study of cross-stage context passing on DriveLM-nuScenes using two complementary mechanisms. The explicit variant evaluates three prompt-based conditioning strategies on a domain-adapted 4B VLM (Mini-InternVL2-4B-DA-DriveLM) without additional training, reducing NLI contradiction by up to 42.6% and establishing a strong zero-training baseline. The implicit variant introduces gated context projectors, which extract a hidden-state vector from one stage and inject a normalized, gated projection into the next stage's input embeddings. These projectors are jointly trained with stage-specific QLoRA adapters on a general-purpose 8B VLM (InternVL3-8B-Instruct) while updating only approximately 0.5% of parameters. The implicit variant achieves a statistically significant 34% reduction in planning-stage NLI contradiction (bootstrap 95% CIs, p < 0.05) and increases cross-stage entailment by 50%, evaluated with a multilingual NLI classifier to account for mixed-language outputs. Planning language quality also improves (CIDEr +30.3%), but lexical overlap and structural consistency degrade due to the absence of driving-domain pretraining. Since the two variants use different base models, we present them as complementary case studies: explicit context passing provides a strong training-free baseline for surface consistency, while implicit gated projection delivers significant planning-stage semantic gains, suggesting domain adaptation as a plausible next ingredient for full-spectrum improvement.


翻译:图视觉问答(GVQA)在自动驾驶中将推理组织为有序阶段,即感知、预测与规划,其中规划决策需与模型自身的感知保持一致。本文通过两种互补机制,对DriveLM-nuScenes数据集中的跨阶段上下文传递进行了比较研究。显式变体在领域适配的4B视觉语言模型(Mini-InternVL2-4B-DA-DriveLM)上评估了三种基于提示的条件化策略,无需额外训练即可将自然语言推理矛盾率降低至多42.6%,建立了强大的无训练基线。隐式变体引入门控上下文投影器,从某一阶段提取隐藏状态向量,并将归一化门控投影注入下一阶段的输入嵌入。这些投影器与各阶段的专用QLoRA适配器在通用型8B视觉语言模型(InternVL3-8B-Instruct)上联合训练,仅更新约0.5%的参数。隐式变体实现了规划阶段自然语言推理矛盾的统计显著降低34%(Bootstrap 95%置信区间,p<0.05),并通过多语言NLI分类器评估(以处理混合语言输出),使跨阶段蕴含关系提升50%。规划语言质量亦有提升(CIDEr +30.3%),但因缺乏驾驶领域预训练,词汇重叠与结构一致性指标出现下降。由于两种变体采用不同的基础模型,本文将其作为互补案例研究:显式上下文传递为表层一致性提供了无需训练的强大基线,而隐式门控投影在规划阶段实现了显著的语义增益,表明领域适配可能成为实现全谱系改进的下一个关键要素。

0
下载
关闭预览

相关内容

自动驾驶轨迹规划中的基础模型:进展综述与开放挑战
专知会员服务
14+阅读 · 2025年12月2日
专知会员服务
63+阅读 · 2021年3月12日
自动驾驶车辆定位技术概述|厚势汽车
厚势
10+阅读 · 2019年5月16日
自动驾驶汽车技术路线简介
智能交通技术
15+阅读 · 2019年4月25日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
55+阅读 · 2011年12月31日
VIP会员
最新内容
ICML 2026 | CFPO:用反事实策略优化提升多模态推理
专知会员服务
1+阅读 · 今天14:45
综述 | 世界动作模型:少做梦,多行动
专知会员服务
1+阅读 · 今天14:43
美以伊冲突:无人机与人工智能的运用
专知会员服务
3+阅读 · 今天14:31
《特种部队在透明战场中的生存力》最新报告
专知会员服务
2+阅读 · 今天14:11
《人工智能生成的零日漏洞:对未来作战的影响》
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
8+阅读 · 6月22日
21世纪的无人机战争
专知会员服务
4+阅读 · 6月22日
《量子技术的军事任务技术适配与利用》
专知会员服务
5+阅读 · 6月22日
相关基金
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
55+阅读 · 2011年12月31日
Top
微信扫码咨询专知VIP会员