Information Retrieval (IR) methods aim to identify documents relevant to a query, which have been widely applied in various natural language tasks. However, existing approaches typically consider only the textual content within documents, overlooking the fact that documents can contain multiple modalities, including images and tables. Also, they often segment each long document into multiple discrete passages for embedding, which prevents them from capturing the overall document context and interactions between paragraphs. To address these two challenges, we propose a method that holistically embeds documents interleaved with multiple modalities by leveraging the capability of recent vision-language models that enable the processing and integration of text, images, and tables into a unified format and representation. Moreover, to mitigate the information loss from segmenting documents into passages, instead of representing and retrieving passages individually, we further merge the representations of segmented passages into one single document representation, while we additionally introduce a reranking strategy to decouple and identify the relevant passage within the document if necessary. Then, through extensive experiments on diverse IR scenarios considering both the textual and multimodal queries, we show that our approach substantially outperforms relevant baselines, thanks to the consideration of the multimodal information within documents.


翻译:信息检索(Information Retrieval, IR)方法旨在识别与查询相关的文档,已广泛应用于各类自然语言处理任务中。然而,现有方法通常仅考虑文档中的文本内容,忽略了文档可能包含图像、表格等多种模态信息。此外,这些方法通常将长文档分割为多个离散段落进行嵌入,导致无法捕捉文档的整体语境及段落间的交互关系。为应对这两项挑战,本文提出一种方法,借助近期视觉-语言模型能够处理并整合文本、图像及表格为统一格式与表示的能力,对包含多模态信息的交错文档进行整体嵌入。同时,为缓解文档分割造成的信息损失,我们不再对分割后的段落进行独立表示与检索,而是将分段后的段落表示融合为单一文档表示;此外,我们还引入重排序策略,在必要时对文档中的相关段落进行解耦与定位。通过在涵盖文本与多模态查询的多种信息检索场景中进行大量实验,我们证明:得益于对文档内多模态信息的充分考虑,本方法显著优于相关基线模型。

0
下载
关闭预览

相关内容

【博士论文】用于化学结构抽取的多模态文档理解
专知会员服务
9+阅读 · 2025年10月12日
PLM 与 LLM 时代的长文档检索综述
专知会员服务
17+阅读 · 2025年9月21日
多模态复合编辑与检索综述
专知会员服务
25+阅读 · 2024年9月14日
人大最新《从匹配到生成:生成式信息检索》综述
专知会员服务
30+阅读 · 2024年4月25日
【干货书】神经信息检索,50页pdf
专知会员服务
25+阅读 · 2022年7月29日
【Google】多模态Transformer视频检索,Multi-modal Transformer
专知会员服务
103+阅读 · 2020年7月22日
【SIGIR2020】学习词项区分性,Learning Term Discrimination
专知会员服务
16+阅读 · 2020年4月28日
【CVPR2021】跨模态检索的概率嵌入
专知
17+阅读 · 2021年3月2日
论文报告 | Graph-based Neural Multi-Document Summarization
科技创新与创业
15+阅读 · 2017年12月15日
TextInfoExp:自然语言处理相关实验(基于sougou数据集)
全球人工智能
12+阅读 · 2017年11月12日
基于图片内容的深度学习图片检索(一)
七月在线实验室
20+阅读 · 2017年10月1日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2014年12月31日
VIP会员
相关VIP内容
【博士论文】用于化学结构抽取的多模态文档理解
专知会员服务
9+阅读 · 2025年10月12日
PLM 与 LLM 时代的长文档检索综述
专知会员服务
17+阅读 · 2025年9月21日
多模态复合编辑与检索综述
专知会员服务
25+阅读 · 2024年9月14日
人大最新《从匹配到生成:生成式信息检索》综述
专知会员服务
30+阅读 · 2024年4月25日
【干货书】神经信息检索,50页pdf
专知会员服务
25+阅读 · 2022年7月29日
【Google】多模态Transformer视频检索,Multi-modal Transformer
专知会员服务
103+阅读 · 2020年7月22日
【SIGIR2020】学习词项区分性,Learning Term Discrimination
专知会员服务
16+阅读 · 2020年4月28日
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员