Existing scientific document retrieval (SDR) methods primarily rely on document-centric representations learned from inter-document relationships for document-document (doc-doc) retrieval. However, the rise of LLMs and RAG has shifted SDR toward question-driven retrieval, where documents are retrieved in response to natural-language questions (q-doc). This change has led to systematic mismatches between document-centric models and question-driven retrieval, including (1) input granularity (long documents vs. short questions), (2) semantic focus (scientific discourse structure vs. specific question intent), and (3) training signals (citation-based similarity vs. question-oriented relevance). To this end, we propose UniFAR, a Unified Facet-Aware Retrieval framework to jointly support doc-doc and q-doc SDR within a single architecture. UniFAR reconciles granularity differences through adaptive multi-granularity aggregation, aligns document structure with question intent via learnable facet anchors, and unifies doc-doc and q-doc supervision through joint training. Experimental results show that UniFAR consistently outperforms prior methods across multiple retrieval tasks and base models, confirming its effectiveness and generality.


翻译:现有的科学文献检索方法主要依赖于从文献间关系中学到的以文献为中心的表示,用于文献-文献检索。然而,随着大语言模型和检索增强生成的兴起,科学文献检索正转向问题驱动的检索范式,即根据自然语言问题检索相关文献。这一转变导致了以文献为中心的模型与问题驱动检索之间存在系统性不匹配,具体包括:(1)输入粒度(长文献 vs. 短问题),(2)语义焦点(科学论述结构 vs. 具体问题意图),以及(3)训练信号(基于引用的相似性 vs. 面向问题的相关性)。为此,我们提出了UniFAR,一个统一的分面感知检索框架,旨在单一架构内联合支持文献-文献和问题-文献两种科学文献检索任务。UniFAR通过自适应多粒度聚合协调粒度差异,利用可学习的分面锚点对齐文献结构与问题意图,并通过联合训练统一文献-文献与问题-文献的监督信号。实验结果表明,UniFAR在多种检索任务和基础模型上均持续优于现有方法,验证了其有效性和通用性。

0
下载
关闭预览

相关内容

文献是历史,前人的思想拍扁了,截掉边角封装成册留给后人瞻仰、浸没、对比、质疑、修改乃至推翻丢入尘埃。文献检索就是获取前人思想的过程,有道,有术,有技。此一话题将以此为核心。
【知乎】超越Lexical:用于文本搜索引擎的语义检索框架
专知会员服务
22+阅读 · 2020年8月28日
麻省理工学院给研究生的文献阅读方法,简单高效!
清华大学研究生教育
18+阅读 · 2019年9月8日
推荐系统资源(文献、工具、框架)整理
专知
18+阅读 · 2019年2月4日
干货|当深度学习遇见自动文本摘要,seq2seq+attention
机器学习算法与Python学习
10+阅读 · 2018年5月28日
如何用人工智能帮你找论文?
AI100
10+阅读 · 2018年2月21日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
13+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
13+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2014年12月31日
国家自然科学基金
27+阅读 · 2014年12月31日
VIP会员
最新内容
《系统簇式多域作战规划范畴论框架》
专知会员服务
2+阅读 · 今天14:54
高效视频扩散模型:进展与挑战
专知会员服务
0+阅读 · 今天13:34
乌克兰前线的五项创新
专知会员服务
6+阅读 · 今天6:14
 军事通信系统与设备的技术演进综述
专知会员服务
4+阅读 · 今天5:59
《北约标准:医疗评估手册》174页
专知会员服务
4+阅读 · 今天5:51
《提升生成模型的安全性与保障》博士论文
专知会员服务
4+阅读 · 今天5:47
美国当前高超音速导弹发展概述
专知会员服务
4+阅读 · 4月19日
无人机蜂群建模与仿真方法
专知会员服务
13+阅读 · 4月19日
相关VIP内容
【知乎】超越Lexical:用于文本搜索引擎的语义检索框架
专知会员服务
22+阅读 · 2020年8月28日
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
13+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
13+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2014年12月31日
国家自然科学基金
27+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员