Knowledge-based visual question answering (KB-VQA) lets vision-language systems answer questions that exceed their parametric knowledge by conditioning a reader on passages retrieved from a Wikipedia-scale knowledge base. In pure-text long-context LLMs, retrieved-context use follows the U-shaped "lost-in-the-middle" effect of Liu et al. (2024): information at the start and end of context is used, the middle is lost. Whether this transfers to deployed multimodal KB-VQA is open. To close this gap, we design the first controlled probe of reader-side position dependence in multimodal KB-VQA: a gold-position protocol in which only the gold passage's prompt slot varies within question. We run it on three open-source 7B/8B VLM readers and two KB-VQA benchmarks at k up to 20. The shape flips from U to primacy: gold-at-first beats gold-at-last by 16 to 26 points on every reader-by-benchmark cell, an effect we call "Lost at the End". Three targeted ablations narrow the cause: a text-only control shows the multimodal setting amplifies an already-present text-mode primacy 2.2 to 4.5 times, and image-position and distractor-shuffle ablations together pin the locus to prompt slot 0 of the instruction-tuned reader. On a frozen reader, three retrieval-side fixes (MMR, oracle reranking, rank-based reordering) all leave the gap intact (no separable improvement). Our findings indicate that recall@k is the wrong metric for deployed KB-VQA and that closing the gap requires reader-side intervention; we release our protocol as a controlled instrument for evaluating such interventions.


翻译:基于知识的视觉问答(KB-VQA)通过让阅读器从维基百科规模的知识库中检索的段落中获取信息,使视觉-语言系统能够回答超出其参数知识范围的问题。在纯文本长上下文的大语言模型中,检索上下文的使用遵循Liu等人(2024年)提出的U形“迷失于中间”效应:上下文开头和结尾的信息被利用,而中间部分被丢失。这种效应是否会转移到部署的多模态KB-VQA中尚不清楚。为弥补这一空白,我们设计了首个对多模态KB-VQA中阅读器侧位置依赖性的受控探查:一种黄金位置协议,其中只有黄金段落的提示槽在问题内变化。我们在三个开源7B/8B视觉-语言模型阅读器和两个KB-VQA基准测试上进行了实验,k值最高达20。形状从U形翻转为首因效应:在每一个阅读器-基准测试组合中,黄金位于开头比位于结尾表现高出16到26个点,我们将这种效应称为“迷失于末尾”。三项针对性消融实验缩小了原因范围:纯文本对照显示,多模态设置将已存在的文本模式首因效应放大了2.2到4.5倍;图像位置和干扰项洗牌消融实验共同将定位点锁定在指令调优阅读器的提示槽0。在冻结的阅读器上,三种检索侧改进方法(MMR、预言机重排序、基于排名的重排序)均未缩小差距(无显著改善)。我们的发现表明,recall@k是部署的KB-VQA中的错误指标,且缩小差距需要阅读器侧干预;我们发布协议作为评估此类干预的受控工具。

0
下载
关闭预览

相关内容

面向知识库问答的问句语义解析研究综述
专知会员服务
33+阅读 · 2022年12月11日
【2022新书】视觉问答 (VQA):从理论到应用
专知会员服务
63+阅读 · 2022年5月24日
[ACM MM 2021]结合文字识别结果的鲁棒和精确文本视觉问答
专知会员服务
16+阅读 · 2021年11月14日
专知会员服务
73+阅读 · 2021年10月6日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
18+阅读 · 2017年12月31日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
VIP会员
最新内容
综述 | 世界动作模型:少做梦,多行动
专知会员服务
0+阅读 · 4分钟前
美以伊冲突:无人机与人工智能的运用
专知会员服务
1+阅读 · 16分钟前
《特种部队在透明战场中的生存力》最新报告
专知会员服务
1+阅读 · 36分钟前
《人工智能生成的零日漏洞:对未来作战的影响》
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
8+阅读 · 6月22日
21世纪的无人机战争
专知会员服务
4+阅读 · 6月22日
《量子技术的军事任务技术适配与利用》
专知会员服务
5+阅读 · 6月22日
美国从乌克兰无人机战争中学习经验
专知会员服务
7+阅读 · 6月21日
相关资讯
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
18+阅读 · 2017年12月31日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员