Rethinking Literature Search Evaluation: Deep Research Helps, and Human Citation Lists Are Not a Ground Truth - 专知论文

会员服务 ·

0

文献检索 · 搜索 · 参考文献 · 排序 · 模型评估 ·

Rethinking Literature Search Evaluation: Deep Research Helps, and Human Citation Lists Are Not a Ground Truth

翻译：重新思考文献检索评估：深度搜索有所助益，但人工引用列表并非金标准

Gaurav Sahu,Laurent Charlin,Christopher Pal

We study large-scale literature search from two complementary angles: improving the retrieval pipeline, and stress-testing the human reference list as an evaluation target. First, we implement a Deep Research pipeline that processes the full query paper and expands the retrieved results breadth-first along their bibliographies, and show that it substantially outperforms vanilla API-only search, raising recall on RollingEval-Jun25 (a 250-paper literature-search benchmark) from below 20% to above 80%. Second, we use a neutral LLM-as-a-judge to determine if human references are sound ground truth for the task. We find significant limitations: only 51% of human citations are judged moderately relevant or higher, against 86--88% for the strongest AI-based re-rankers. We study this gap on the OpenAlex co-authorship graph, finding that humans are 2.5x more likely than the best AI re-rankers to cite a direct collaborator. Together, our results argue against single-axis literature-search evaluation: recall, topical-relevance scoring, ranked-list diversity, and a co-authorship-distance diagnostic each measure complementary properties of citation quality and should be reported jointly.

翻译：我们从两个互补的角度研究大规模文献检索：改进检索流程，以及对作为评估目标的人工参考文献列表进行压力测试。首先，我们实现了一个深度搜索流程，该流程处理全文查询论文，并沿其参考文献广度优先地扩展检索结果。实验表明，该方法显著优于仅依赖API的原始搜索，将RollingEval-Jun25（一个包含250篇论文的文献检索基准）上的召回率从低于20%提升至高于80%。其次，我们采用中立的LLM作为评判者，以确定人工参考文献是否为该任务的可靠金标准。结果发现存在显著局限性：仅51%的人工引文被评为“中等相关”或更高，而最强AI重排序器的这一比例为86-88%。我们在OpenAlex合著关系图上研究了这一差距，发现与最强的AI重排序器相比，人工引用直接合作者的可能性高出2.5倍。综合来看，我们的结果反对单一维度的文献检索评估：召回率、主题相关性评分、排序列表多样性以及合著距离诊断，各自衡量引用质量的不同方面，应联合报告。

0

相关内容

文献检索

文献是历史，前人的思想拍扁了，截掉边角封装成册留给后人瞻仰、浸没、对比、质疑、修改乃至推翻丢入尘埃。文献检索就是获取前人思想的过程，有道，有术，有技。此一话题将以此为核心。

大模型如何重塑检索？人大最新《大型语言模型在信息检索中的应用》综述，26页pdf详述大模型+检索技术

大模型如何重塑检索？人大最新《大型语言模型在信息检索中的应用》综述，26页pdf详述大模型+检索技术

专知会员服务

94+阅读 · 2023年8月16日

新加坡国立大学最新「大规模深度学习优化」综述论文，带你全面了解最新深度学习准确率和效率的优化方法

新加坡国立大学最新「大规模深度学习优化」综述论文，带你全面了解最新深度学习准确率和效率的优化方法

专知会员服务

54+阅读 · 2021年11月19日

中科院计算所发布首篇「面向第一阶段检索的语义检索模型」综述论文，43页pdf242篇文献

中科院计算所发布首篇「面向第一阶段检索的语义检索模型」综述论文，43页pdf242篇文献

专知会员服务

25+阅读 · 2021年10月3日

强化学习如何用于推荐？新南威尔士首篇《深度强化学习推荐系统》综述论文，32页pdf135篇参考文献

强化学习如何用于推荐？新南威尔士首篇《深度强化学习推荐系统》综述论文，32页pdf135篇参考文献

专知会员服务

36+阅读 · 2021年9月9日

深度学习搜索，Exploring Deep Learning for Search

深度学习搜索，Exploring Deep Learning for Search

专知会员服务

61+阅读 · 2020年5月9日

【论文推荐】自然语言处理与查询扩展综述，Natural Language Processing and Query Expansion

【论文推荐】自然语言处理与查询扩展综述，Natural Language Processing and Query Expansion

专知会员服务

44+阅读 · 2020年5月3日

深度学习自然语言处理综述论文，Natural Language Processing Advancements By Deep Learning: A Survey

深度学习自然语言处理综述论文，Natural Language Processing Advancements By Deep Learning: A Survey

专知会员服务

80+阅读 · 2020年3月5日

【新书】深度学习搜索，Deep Learning for Search，附327页pdf

【新书】深度学习搜索，Deep Learning for Search，附327页pdf

专知会员服务

214+阅读 · 2020年1月13日

最新49页《深度学习异常检测综述》论文，带你全面了解深度学习异常检测方法

最新49页《深度学习异常检测综述》论文，带你全面了解深度学习异常检测方法

专知会员服务

218+阅读 · 2019年10月18日

【LinkedIn报告】深度自然语言处理的搜索系统，211页pdf

【LinkedIn报告】深度自然语言处理的搜索系统，211页pdf

专知会员服务

109+阅读 · 2019年6月21日

【新书】深度学习搜索，Deep Learning for Search，327页pdf

【新书】深度学习搜索，Deep Learning for Search，327页pdf

专知

85+阅读 · 2020年1月19日

【资源】图深度学习文献列表

【资源】图深度学习文献列表

专知

42+阅读 · 2019年11月6日

最新最权威《深度学习显著目标检测综述》论文代码数据发布，带你全面了解显著目标检测方法

最新最权威《深度学习显著目标检测综述》论文代码数据发布，带你全面了解显著目标检测方法

专知

79+阅读 · 2019年4月24日

最新49页《深度学习异常检测综述》论文，带你全面了解深度学习异常检测方法

最新49页《深度学习异常检测综述》论文，带你全面了解深度学习异常检测方法

专知

137+阅读 · 2019年1月14日

【200+论文】深度强化学习、对话系统、文本生成、文本摘要、阅读理解等文献列表

【200+论文】深度强化学习、对话系统、文本生成、文本摘要、阅读理解等文献列表

专知

16+阅读 · 2019年1月14日

干货|36页最新深度学习综述论文：算法、技术、应用，181篇参考文献

干货|36页最新深度学习综述论文：算法、技术、应用，181篇参考文献

专知

27+阅读 · 2018年10月14日

36页最新《深度学习在推荐系统上的应用》综述论文，209篇参考论文

36页最新《深度学习在推荐系统上的应用》综述论文，209篇参考论文

专知

24+阅读 · 2018年9月6日

【论文推荐】最新八篇推荐系统相关论文—可解释推荐、上下文感知推荐系统、异构知识库嵌入、深度强化学习、移动推荐系统

【论文推荐】最新八篇推荐系统相关论文—可解释推荐、上下文感知推荐系统、异构知识库嵌入、深度强化学习、移动推荐系统

专知

17+阅读 · 2018年6月16日

如何用人工智能帮你找论文？

如何用人工智能帮你找论文？

AI100

10+阅读 · 2018年2月21日

计算机视觉经典论文荟萃，深度学习方法占领9大方向，建议收藏

计算机视觉经典论文荟萃，深度学习方法占领9大方向，建议收藏

专知

20+阅读 · 2017年12月19日

语义Web知识库补全关键技术研究

国家自然科学基金

18+阅读 · 2017年12月31日

基于多源异构不确定数据的高效用信息挖掘的研究

国家自然科学基金

4+阅读 · 2015年12月31日

推荐系统的信息核挖掘及其应用研究

国家自然科学基金

8+阅读 · 2015年12月31日

基于关键词的大规模链接数据搜索技术研究

国家自然科学基金

7+阅读 · 2015年12月31日

大数据环境下基于社交网络的图像搜索技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于空间认知常识的定性地理信息检索研究

国家自然科学基金

2+阅读 · 2014年12月31日

基于概率图的文本检索模型及算法研究

国家自然科学基金

2+阅读 · 2014年12月31日

基于深度学习的三维模型检索技术

国家自然科学基金

13+阅读 · 2014年12月31日

面向词汇功能的学术文本语义识别与知识图谱构建

国家自然科学基金

5+阅读 · 2014年12月31日

基于深度学习的机器译文质量估计方法研究

国家自然科学基金

3+阅读 · 2014年12月31日

Revisiting Text Ranking in Deep Research

Arxiv

0+阅读 · 6月19日

Rerank Before You Reason: Analyzing Reranking Tradeoffs through Effective Token Cost in Deep Search Agents

Arxiv

0+阅读 · 6月1日

SciNet: Evaluating AI Agents in Relation-Aware Scientific Literature Retrieval

Arxiv

0+阅读 · 5月22日

Is Grep All You Need? How Agent Harnesses Reshape Agentic Search

Arxiv

0+阅读 · 5月14日

Useful for Exploration, Risky for Precision: Evaluating AI Tools in Academic Research

Arxiv

0+阅读 · 5月12日

Personalized Deep Research: A User-Centric Framework, Dataset, and Hybrid Evaluation for Knowledge Discovery

Arxiv

0+阅读 · 5月11日

Useful for Exploration, Risky for Precision: Evaluating AI Tools in Academic Research

Arxiv

0+阅读 · 5月11日

H-MAPS: Hierarchical Memory-Augmented Proactive Search Assistant for Scientific Literature

Arxiv

0+阅读 · 5月11日

Cited but Not Verified: Parsing and Evaluating Source Attribution in LLM Deep Research Agents

Arxiv

0+阅读 · 5月7日

Cross-Modal Retrieval: A Systematic Review of Methods and Future Directions

Arxiv

15+阅读 · 2023年8月28日

VIP会员

文章信息

相关主题

最新内容

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

专知会员服务

1+阅读 · 25分钟前

综述 | 世界动作模型：少做梦，多行动

综述 | 世界动作模型：少做梦，多行动

专知会员服务

1+阅读 · 27分钟前

美以伊冲突：无人机与人工智能的运用

美以伊冲突：无人机与人工智能的运用

专知会员服务

2+阅读 · 39分钟前

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

专知会员服务

3+阅读 · 50分钟前

《特种部队在透明战场中的生存力》最新报告

《特种部队在透明战场中的生存力》最新报告

专知会员服务

2+阅读 · 59分钟前

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

专知会员服务

2+阅读 · 今天14:07

《人工智能生成的零日漏洞：对未来作战的影响》

《人工智能生成的零日漏洞：对未来作战的影响》

专知会员服务

3+阅读 · 今天14:03

《理解伙伴国在防务能力选择中的偏好：探索美国解决方案的替代选择》美智库200页报告

《理解伙伴国在防务能力选择中的偏好：探索美国解决方案的替代选择》美智库200页报告

专知会员服务

2+阅读 · 今天13:59

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

专知会员服务

5+阅读 · 6月22日

综述 | 3D场景图：开放挑战与未来方向

综述 | 3D场景图：开放挑战与未来方向

专知会员服务

8+阅读 · 6月22日

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

专知会员服务

7+阅读 · 6月22日

21世纪的无人机战争

21世纪的无人机战争

专知会员服务

4+阅读 · 6月22日

《伊朗与以色列-美国热战及其对数字技术的影响》

《伊朗与以色列-美国热战及其对数字技术的影响》

专知会员服务

5+阅读 · 6月22日

《量子技术的军事任务技术适配与利用》

《量子技术的军事任务技术适配与利用》

专知会员服务

5+阅读 · 6月22日

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

专知会员服务

8+阅读 · 6月22日

相关VIP内容

大模型如何重塑检索？人大最新《大型语言模型在信息检索中的应用》综述，26页pdf详述大模型+检索技术

大模型如何重塑检索？人大最新《大型语言模型在信息检索中的应用》综述，26页pdf详述大模型+检索技术

专知会员服务

94+阅读 · 2023年8月16日

新加坡国立大学最新「大规模深度学习优化」综述论文，带你全面了解最新深度学习准确率和效率的优化方法

新加坡国立大学最新「大规模深度学习优化」综述论文，带你全面了解最新深度学习准确率和效率的优化方法

专知会员服务

54+阅读 · 2021年11月19日

中科院计算所发布首篇「面向第一阶段检索的语义检索模型」综述论文，43页pdf242篇文献

中科院计算所发布首篇「面向第一阶段检索的语义检索模型」综述论文，43页pdf242篇文献

专知会员服务

25+阅读 · 2021年10月3日

强化学习如何用于推荐？新南威尔士首篇《深度强化学习推荐系统》综述论文，32页pdf135篇参考文献

强化学习如何用于推荐？新南威尔士首篇《深度强化学习推荐系统》综述论文，32页pdf135篇参考文献

专知会员服务

36+阅读 · 2021年9月9日

深度学习搜索，Exploring Deep Learning for Search

深度学习搜索，Exploring Deep Learning for Search

专知会员服务

61+阅读 · 2020年5月9日

【论文推荐】自然语言处理与查询扩展综述，Natural Language Processing and Query Expansion

【论文推荐】自然语言处理与查询扩展综述，Natural Language Processing and Query Expansion

专知会员服务

44+阅读 · 2020年5月3日

深度学习自然语言处理综述论文，Natural Language Processing Advancements By Deep Learning: A Survey

深度学习自然语言处理综述论文，Natural Language Processing Advancements By Deep Learning: A Survey

专知会员服务

80+阅读 · 2020年3月5日

【新书】深度学习搜索，Deep Learning for Search，附327页pdf

【新书】深度学习搜索，Deep Learning for Search，附327页pdf

专知会员服务

214+阅读 · 2020年1月13日

最新49页《深度学习异常检测综述》论文，带你全面了解深度学习异常检测方法

最新49页《深度学习异常检测综述》论文，带你全面了解深度学习异常检测方法

专知会员服务

218+阅读 · 2019年10月18日

【LinkedIn报告】深度自然语言处理的搜索系统，211页pdf

【LinkedIn报告】深度自然语言处理的搜索系统，211页pdf

专知会员服务

109+阅读 · 2019年6月21日

热门VIP内容

开通专知VIP会员享更多权益服务

综述 | 世界动作模型：少做梦，多行动

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

美以伊冲突：无人机与人工智能的运用

相关资讯

【新书】深度学习搜索，Deep Learning for Search，327页pdf

【新书】深度学习搜索，Deep Learning for Search，327页pdf

专知

85+阅读 · 2020年1月19日

【资源】图深度学习文献列表

【资源】图深度学习文献列表

专知

42+阅读 · 2019年11月6日

最新最权威《深度学习显著目标检测综述》论文代码数据发布，带你全面了解显著目标检测方法

最新最权威《深度学习显著目标检测综述》论文代码数据发布，带你全面了解显著目标检测方法

专知

79+阅读 · 2019年4月24日

最新49页《深度学习异常检测综述》论文，带你全面了解深度学习异常检测方法

最新49页《深度学习异常检测综述》论文，带你全面了解深度学习异常检测方法

专知

137+阅读 · 2019年1月14日

【200+论文】深度强化学习、对话系统、文本生成、文本摘要、阅读理解等文献列表

【200+论文】深度强化学习、对话系统、文本生成、文本摘要、阅读理解等文献列表

专知

16+阅读 · 2019年1月14日

干货|36页最新深度学习综述论文：算法、技术、应用，181篇参考文献

干货|36页最新深度学习综述论文：算法、技术、应用，181篇参考文献

专知

27+阅读 · 2018年10月14日

36页最新《深度学习在推荐系统上的应用》综述论文，209篇参考论文

36页最新《深度学习在推荐系统上的应用》综述论文，209篇参考论文

专知

24+阅读 · 2018年9月6日

【论文推荐】最新八篇推荐系统相关论文—可解释推荐、上下文感知推荐系统、异构知识库嵌入、深度强化学习、移动推荐系统

【论文推荐】最新八篇推荐系统相关论文—可解释推荐、上下文感知推荐系统、异构知识库嵌入、深度强化学习、移动推荐系统

专知

17+阅读 · 2018年6月16日

如何用人工智能帮你找论文？

如何用人工智能帮你找论文？

AI100

10+阅读 · 2018年2月21日

计算机视觉经典论文荟萃，深度学习方法占领9大方向，建议收藏

计算机视觉经典论文荟萃，深度学习方法占领9大方向，建议收藏

专知

20+阅读 · 2017年12月19日

相关论文

Revisiting Text Ranking in Deep Research

Arxiv

0+阅读 · 6月19日

Rerank Before You Reason: Analyzing Reranking Tradeoffs through Effective Token Cost in Deep Search Agents

Arxiv

0+阅读 · 6月1日

SciNet: Evaluating AI Agents in Relation-Aware Scientific Literature Retrieval

Arxiv

0+阅读 · 5月22日

Is Grep All You Need? How Agent Harnesses Reshape Agentic Search

Arxiv

0+阅读 · 5月14日

Useful for Exploration, Risky for Precision: Evaluating AI Tools in Academic Research

Arxiv

0+阅读 · 5月12日

Personalized Deep Research: A User-Centric Framework, Dataset, and Hybrid Evaluation for Knowledge Discovery

Arxiv

0+阅读 · 5月11日

Useful for Exploration, Risky for Precision: Evaluating AI Tools in Academic Research

Arxiv

0+阅读 · 5月11日

H-MAPS: Hierarchical Memory-Augmented Proactive Search Assistant for Scientific Literature

Arxiv

0+阅读 · 5月11日

Cited but Not Verified: Parsing and Evaluating Source Attribution in LLM Deep Research Agents

Arxiv

0+阅读 · 5月7日

Cross-Modal Retrieval: A Systematic Review of Methods and Future Directions

Arxiv

15+阅读 · 2023年8月28日

相关基金

语义Web知识库补全关键技术研究

国家自然科学基金

18+阅读 · 2017年12月31日

基于多源异构不确定数据的高效用信息挖掘的研究

国家自然科学基金

4+阅读 · 2015年12月31日

推荐系统的信息核挖掘及其应用研究

国家自然科学基金

8+阅读 · 2015年12月31日

基于关键词的大规模链接数据搜索技术研究

国家自然科学基金

7+阅读 · 2015年12月31日

大数据环境下基于社交网络的图像搜索技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于空间认知常识的定性地理信息检索研究

国家自然科学基金

2+阅读 · 2014年12月31日

基于概率图的文本检索模型及算法研究

国家自然科学基金

2+阅读 · 2014年12月31日

基于深度学习的三维模型检索技术

国家自然科学基金

13+阅读 · 2014年12月31日

面向词汇功能的学术文本语义识别与知识图谱构建

国家自然科学基金

5+阅读 · 2014年12月31日

基于深度学习的机器译文质量估计方法研究

国家自然科学基金

3+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员