Iterative Retrieval-Augmented Generation (iRAG) has emerged as a powerful paradigm for answering complex multi-hop questions by progressively retrieving and reasoning over external documents. However, current systems predominantly operate on parsed text, which creates two critical bottlenecks: (1) \textit{Coarse-grained attribution}, where users are burdened with manually locating evidence within lengthy documents based on vague text-level citations; and (2) \textit{Visual semantic loss}, where the conversion of visually rich documents (e.g., slides, PDFs with charts) into text discards spatial logic and layout cues essential for reasoning. To bridge this gap, we present \textbf{Chain of Evidence (CoE)}, a retriever-agnostic visual attribution framework that leverages Vision-Language Models to reason directly over screenshots of retrieved document candidates. CoE eliminates format-specific parsing and outputs precise bounding boxes, visualizing the complete reasoning chain within the retrieved candidate set. We evaluate CoE on two distinct benchmarks: \textbf{Wiki-CoE}, a large-scale dataset of structured web pages derived from 2WikiMultiHopQA, and \textbf{SlideVQA}, a challenging dataset of presentation slides featuring complex diagrams and free-form layouts. Experiments demonstrate that fine-tuned Qwen3-VL-8B-Instruct achieves robust performance, significantly outperforming text-based baselines in scenarios requiring visual layout understanding, while establishing a retriever-agnostic solution for pixel-level interpretable iRAG. Our code is available at https://github.com/PeiYangLiu/CoE.git.


翻译:迭代检索增强生成(iRAG)已成为通过逐步检索并推理外部文档来回答复杂多跳问题的强大范式。然而,当前系统主要依赖解析后的文本运行,导致两个关键瓶颈:(1)粗粒度归因,用户需根据模糊的文本级引用手动在冗长文档中定位证据;(2)视觉语义损失,将富含视觉信息的文档(如幻灯片、含图表PDF)转换为文本时,会丢失对推理至关重要的空间逻辑与布局线索。为解决此问题,我们提出**证据链(CoE)**,一种与检索器无关的视觉归因框架,利用视觉语言模型直接对检索到的候选文档屏幕截图进行推理。CoE无需针对特定格式的解析,直接输出精确边界框,可视化检索候选集中完整的推理链。我们在两个不同基准上评估CoE:**Wiki-CoE**——基于2WikiMultiHopQA的大规模结构化网页数据集,以及**SlideVQA**——包含复杂图表与自由版式的演示幻灯片挑战数据集。实验表明,微调后的Qwen3-VL-8B-Instruct模型表现出稳健性能,在需要视觉布局理解的场景中显著优于基于文本的基线方法,同时为像素级可解释iRAG提供了与检索器无关的解决方案。我们的代码开源地址为https://github.com/PeiYangLiu/CoE.git。

0
下载
关闭预览

相关内容

检索增强生成(RAG)技术,261页slides
专知会员服务
42+阅读 · 2025年10月16日
多模态检索增强生成综述
专知会员服务
40+阅读 · 2025年4月15日
视觉中的检索增强生成与理解:综述与新展望
专知会员服务
24+阅读 · 2025年4月6日
多模态检索增强生成的综合综述
专知会员服务
44+阅读 · 2025年2月17日
迈向可信的检索增强生成:大语言模型综述
专知会员服务
30+阅读 · 2025年2月12日
图增强生成(GraphRAG)
专知会员服务
35+阅读 · 2025年1月4日
图检索增强生成研究进展
专知会员服务
38+阅读 · 2024年11月5日
检索增强生成系统中的可信度:综述
专知会员服务
44+阅读 · 2024年9月18日
【WWW2024】元认知检索-增强大型语言模型
专知会员服务
50+阅读 · 2024年2月26日
用深度学习揭示数据的因果关系
专知
28+阅读 · 2019年5月18日
国家自然科学基金
3+阅读 · 2017年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
8+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
10+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
6+阅读 · 6月17日
相关VIP内容
检索增强生成(RAG)技术,261页slides
专知会员服务
42+阅读 · 2025年10月16日
多模态检索增强生成综述
专知会员服务
40+阅读 · 2025年4月15日
视觉中的检索增强生成与理解:综述与新展望
专知会员服务
24+阅读 · 2025年4月6日
多模态检索增强生成的综合综述
专知会员服务
44+阅读 · 2025年2月17日
迈向可信的检索增强生成:大语言模型综述
专知会员服务
30+阅读 · 2025年2月12日
图增强生成(GraphRAG)
专知会员服务
35+阅读 · 2025年1月4日
图检索增强生成研究进展
专知会员服务
38+阅读 · 2024年11月5日
检索增强生成系统中的可信度:综述
专知会员服务
44+阅读 · 2024年9月18日
【WWW2024】元认知检索-增强大型语言模型
专知会员服务
50+阅读 · 2024年2月26日
相关资讯
用深度学习揭示数据的因果关系
专知
28+阅读 · 2019年5月18日
相关基金
国家自然科学基金
3+阅读 · 2017年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员