Retrieving evidence pages from visually rich long documents is a key challenge in document question answering. Existing page-level visual retrievers operate under an independent matching paradigm: each page is scored in isolation based on query-page similarity. This paradigm can under-rank evidence pages whose signals are localized in fine-grained chunks or depend on document-internal associations. We propose EviProp, a retrieval method that recovers such pages via seeded relevance diffusion. EviProp models each document as a multimodal Chunk-Page graph with hierarchical, sequential, and similarity links. Given a query, it combines dense visual page priors with sparse chunk seeds, then runs Personalized PageRank to diffuse relevance over the graph. Experiments on MMLongBench-Doc and LongDocURL show consistent gains in evidence-page retrieval over independent visual retrieval and text-visual fusion baselines. Downstream QA results further show that improved retrieval translates into better answer accuracy, with negligible online retrieval overhead. Our code is released at https://github.com/Flyecnu/EviProp.


翻译:从视觉丰富的长文档中检索证据页是文档问答中的关键挑战。现有的页面级视觉检索器在独立匹配范式下运行:每页基于查询-页面相似性独立评分。这种范式可能将信号集中在细粒度块或依赖文档内部关联的证据页排名降低。我们提出EviProp,一种通过种子相关性扩散恢复此类页面的检索方法。EviProp将每个文档建模为具有层次、序列和相似性链接的多模态块-页图。给定查询,它结合密集的视觉页面先验与稀疏的块种子,然后运行个性化PageRank在图上扩散相关性。在MMLongBench-Doc和LongDocURL上的实验表明,与独立视觉检索和文本-视觉融合基线相比,在证据页检索上取得一致提升。下游QA结果进一步显示,改进的检索转化为更好的答案准确性,且在线检索开销可忽略不计。我们的代码发布于https://github.com/Flyecnu/EviProp。

0
下载
关闭预览

相关内容

PLM 与 LLM 时代的长文档检索综述
专知会员服务
17+阅读 · 2025年9月21日
【WWW2021】基于图层次相关性匹配信号的Ad-hoc 检索
专知会员服务
14+阅读 · 2021年2月25日
【Google】多模态Transformer视频检索,Multi-modal Transformer
专知会员服务
103+阅读 · 2020年7月22日
论文浅尝 | 知识图谱相关实体搜索
开放知识图谱
14+阅读 · 2018年12月18日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
23+阅读 · 2016年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
VIP会员
最新内容
《量子技术的军事任务技术适配与利用》
专知会员服务
0+阅读 · 7分钟前
美国从乌克兰无人机战争中学习经验
专知会员服务
7+阅读 · 6月21日
ICML 2026 | 面向视觉语言模型的语义鲁棒性认证
专知会员服务
5+阅读 · 6月21日
学习数据的几何:形状空间分析数学综述
专知会员服务
10+阅读 · 6月17日
相关资讯
论文浅尝 | 知识图谱相关实体搜索
开放知识图谱
14+阅读 · 2018年12月18日
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
23+阅读 · 2016年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员