The LLM Effect on IR Benchmarks: A Meta-Analysis of Effectiveness, Baselines, and Contamination - 专知论文

会员服务 ·

0

基准 · AI · 基准测试 · 污染 · 分析 ·

The LLM Effect on IR Benchmarks: A Meta-Analysis of Effectiveness, Baselines, and Contamination

翻译：AI对IR基准测试的影响：效能、基准线及数据污染的元分析

Moritz Staudinger,Wojciech Kusa,Allan Hanbury

from arxiv, Accepted at SIGIR 2026

Benchmark collections have long enabled controlled comparison and cumulative progress in Information Retrieval (IR). However, prior meta-analyses have shown that reported effectiveness gains often fail to accumulate, in part due to the use of weak or outdated baselines. While large language models are increasingly used in retrieval pipelines, their impact on established IR benchmarks has not been systematically analyzed. In this study, we analyze 143 publications reporting results on the TREC Robust04 collection and the TREC Deep Learning 2020 (DL20) passage retrieval benchmark to examine longitudinal trends in retrieval effectiveness and baseline strength. We observe what we term an \emph{LLM effect}: recent systems incorporating LLM components achieve 8.8\% higher nDCG@10 on DL20 compared to the best result from TREC 2020 and approximately 20\% higher on Robust04 since 2023. However, adapting a data contamination detection approach to reranking reveals measurable contamination in both benchmarks. While excluding contaminated topics reduces effectiveness, confidence intervals remain wide, making it difficult to determine whether the LLM effect reflects genuine methodological advances or memorization from pretraining data.

翻译：基准测试集合长期以来在信息检索（IR）领域实现了受控比较与累积性进展。然而，先前的元分析表明，报告中的效能提升往往难以累积，部分原因在于使用了薄弱或过时的基准线。尽管大型语言模型在检索流程中的应用日益广泛，但其对现有IR基准测试的系统性影响尚未得到分析。本研究分析了143篇在TREC Robust04集合与TREC深度学习2020（DL20）段落检索基准上报告结果的论文，以探究检索效能与基准线强度的长期趋势。我们观察到所谓的“AI效应”：与TREC 2020最佳结果相比，近期集成AI组件的系统在DL20上的nDCG@10提升了8.8%，而自2023年起在Robust04上的提升幅度约为20%。然而，将数据污染检测方法适用于重排序后，发现两个基准测试均存在可测量的污染。尽管排除受污染主题会降低效能，但置信区间仍然较宽，难以判断AI效应究竟反映了真正的方法论进步，还是源于预训练数据的记忆。

0

相关内容

LLM/智能体作为数据分析师：综述

LLM/智能体作为数据分析师：综述

专知会员服务

38+阅读 · 2025年9月30日

AI 开发生命周期：大规模语言模型（LLMs）带来的变化学习

AI 开发生命周期：大规模语言模型（LLMs）带来的变化学习

专知会员服务

34+阅读 · 2024年10月7日

《美国防部对人工智能和 LLM 编写评估因素的信心与偏见》2024最新275页论文

《美国防部对人工智能和 LLM 编写评估因素的信心与偏见》2024最新275页论文

专知会员服务

63+阅读 · 2024年3月4日

GPT-4等大模型懂因果么？ Meta等最新《大型语言模型能从相关性中推断因果关系吗》17种LLM表现一般，GPT-4也不行

GPT-4等大模型懂因果么？ Meta等最新《大型语言模型能从相关性中推断因果关系吗》17种LLM表现一般，GPT-4也不行

专知会员服务

60+阅读 · 2023年6月12日

【CMU博士论文】基于机器学习的预测: 准确性、可解释性和效率，161页pdf

【CMU博士论文】基于机器学习的预测: 准确性、可解释性和效率，161页pdf

专知会员服务

71+阅读 · 2023年6月8日

【Facebook】人工智能基准(Benchmarking)测试再思考，55页ppt

【Facebook】人工智能基准(Benchmarking)测试再思考，55页ppt

专知会员服务

31+阅读 · 2020年12月20日

【ICML2020投稿论文-CMU-DeepMind-Google】用于评估跨语言泛化的大规模多语言多任务基准

【ICML2020投稿论文-CMU-DeepMind-Google】用于评估跨语言泛化的大规模多语言多任务基准

专知会员服务

14+阅读 · 2020年3月27日

【Open AI】利用过程生成对强化学习进行基准测试（Leveraging Procedural Generation to Benchmark Reinforcement Learning）

【Open AI】利用过程生成对强化学习进行基准测试（Leveraging Procedural Generation to Benchmark Reinforcement Learning）

专知会员服务

10+阅读 · 2019年12月3日

【Google AI新论文EfficientDet】规模化高效化的物体检测，EfficientDet: Scalable and Efficient Object Detection(附pdf)

【Google AI新论文EfficientDet】规模化高效化的物体检测，EfficientDet: Scalable and Efficient Object Detection(附pdf)

专知会员服务

27+阅读 · 2019年11月24日

【Facebook AI】对抗性NLI:自然语言理解的新基准，Adversarial NLI: A New Benchmark for Natural Language Understanding

【Facebook AI】对抗性NLI:自然语言理解的新基准，Adversarial NLI: A New Benchmark for Natural Language Understanding

专知会员服务

11+阅读 · 2019年11月2日

基于深度元学习的因果推断新方法

基于深度元学习的因果推断新方法

图与推荐

12+阅读 · 2020年7月21日

【Uber AI新论文】持续元学习，Learning to Continually Learn

【Uber AI新论文】持续元学习，Learning to Continually Learn

专知

19+阅读 · 2020年2月27日

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

专知

12+阅读 · 2020年2月12日

近期必读的八篇【Meta-Learning（元学习）】相关论文和代码

近期必读的八篇【Meta-Learning（元学习）】相关论文和代码

专知

134+阅读 · 2019年9月15日

用深度学习揭示数据的因果关系

用深度学习揭示数据的因果关系

专知

28+阅读 · 2019年5月18日

北大、清华、微软联合提出RepPoints，比边界框更好用的目标检测方法

北大、清华、微软联合提出RepPoints，比边界框更好用的目标检测方法

全球人工智能

13+阅读 · 2019年4月30日

最新最权威《深度学习显著目标检测综述》论文代码数据发布，带你全面了解显著目标检测方法

最新最权威《深度学习显著目标检测综述》论文代码数据发布，带你全面了解显著目标检测方法

专知

79+阅读 · 2019年4月24日

【干货分享】AIOps之根因分析

【干货分享】AIOps之根因分析

腾讯大讲堂

11+阅读 · 2018年4月10日

【机器学习基本理论】详解最大似然估计（MLE）、最大后验概率估计（MAP），以及贝叶斯公式的理解

【机器学习基本理论】详解最大似然估计（MLE）、最大后验概率估计（MAP），以及贝叶斯公式的理解

机器学习研究会

19+阅读 · 2018年3月11日

【论文】所见所想所真，对抗学习GAN提升跨模态检索效果！阿里巴巴AI Labs等团队最新工作

【论文】所见所想所真，对抗学习GAN提升跨模态检索效果！阿里巴巴AI Labs等团队最新工作

专知

12+阅读 · 2017年12月21日

面向动态演化的网构软件失效机理与测评方法

国家自然科学基金

1+阅读 · 2015年12月31日

基于故障注入和指标模型的工业无线传感器网络可靠性测试与评估方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

大规模MIMO检测的理论性能分析和算法设计

国家自然科学基金

0+阅读 · 2015年12月31日

网状meta分析实效性评价方法及其广义线性混合效应模型的构建与应用研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于文本模式的海量电能质量数据自动分析技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

测量误差数据下约束线性模型的有偏估计及变量选择研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于示能性视角的信息系统有效使用研究：维度、影响因素和形成机制

国家自然科学基金

0+阅读 · 2014年12月31日

新型统计模型在精神疾病的基因、脑影像和行为数据整合中的应用

国家自然科学基金

0+阅读 · 2014年12月31日

基于大数据分析的输变电设备状态评估基础理论与方法

国家自然科学基金

1+阅读 · 2014年12月31日

考虑关联特性和兼容性准则的电能质量深度分析诊断与影响后果评估研究

国家自然科学基金

0+阅读 · 2014年12月31日

Towards Real-World Validity in Generative AI Benchmarks: Understanding and Designing Domain-Centered Evaluations for Journalism Practitioners

Arxiv

0+阅读 · 4月28日

Knowledge without Wisdom: Measuring Misalignment between LLMs and Intended Impact

Arxiv

0+阅读 · 4月20日

Are LLM-Based Retrievers Worth Their Cost? An Empirical Study of Efficiency, Robustness, and Reasoning Overhead

Arxiv

0+阅读 · 4月4日

The Price of Progress: Price Performance and the Future of AI

Arxiv

0+阅读 · 3月23日

WirelessBench: A Tolerance-Aware LLM Agent Benchmark for Wireless Network Intelligence

Arxiv

0+阅读 · 3月22日

Towards Real-World Validity in Generative AI Benchmarks: Understanding and Designing Domain-Centered Evaluations for Journalism Practitioners

Arxiv

0+阅读 · 3月20日

PAI: Fast, Accurate, and Full Benchmark Performance Projection with AI

Arxiv

0+阅读 · 3月18日

AI Application Benchmarking: Power-Aware Performance Analysis for Vision and Language Models

Arxiv

0+阅读 · 3月17日

Evaluating Financial Intelligence in Large Language Models: Benchmarking SuperInvesting AI with LLM Engines

Arxiv

0+阅读 · 3月9日

DARE-bench: Evaluating Modeling and Instruction Fidelity of LLMs in Data Science

Arxiv

0+阅读 · 2月27日

VIP会员

文章信息

相关主题

最新内容

《移动旅级战斗队转型中的支援单元指挥控制挑战》

《移动旅级战斗队转型中的支援单元指挥控制挑战》

专知会员服务

6+阅读 · 5月27日

ICML2026 | 重新思考顺序知识编辑中的正则化

ICML2026 | 重新思考顺序知识编辑中的正则化

专知会员服务

1+阅读 · 5月27日

《用于兵力发展选项优先排序的成本效益模型》

《用于兵力发展选项优先排序的成本效益模型》

专知会员服务

6+阅读 · 5月27日

可信智能体AI综述：安全、鲁棒性、隐私与系统安全

可信智能体AI综述：安全、鲁棒性、隐私与系统安全

专知会员服务

2+阅读 · 5月27日

美军战场新倡议——国防自主作战群（DAWG）：五角大楼的540亿美元自主作战豪赌

美军战场新倡议——国防自主作战群（DAWG）：五角大楼的540亿美元自主作战豪赌

专知会员服务

4+阅读 · 5月27日

ICML2026 | LAVL：离线目标条件强化学习中的潜在表示对齐

ICML2026 | LAVL：离线目标条件强化学习中的潜在表示对齐

专知会员服务

5+阅读 · 5月26日

AutoResearch AI综述：迈向AI驱动的科学发现自动化

AutoResearch AI综述：迈向AI驱动的科学发现自动化

专知会员服务

6+阅读 · 5月26日

《Palantir边缘人工智能》手册

《Palantir边缘人工智能》手册

专知会员服务

20+阅读 · 5月26日

人工智能与现代战争：2026年美以对伊打击如何重构杀伤链

人工智能与现代战争：2026年美以对伊打击如何重构杀伤链

专知会员服务

11+阅读 · 5月26日

《运用人工智能及其他经验：瑞典制定2045年后战役级多域作战探索性概念的实践》

《运用人工智能及其他经验：瑞典制定2045年后战役级多域作战探索性概念的实践》

专知会员服务

8+阅读 · 5月26日

多层次反无人机战略：改革政策、提升公众意识并纳入防空体系（万字长文）

多层次反无人机战略：改革政策、提升公众意识并纳入防空体系（万字长文）

专知会员服务

11+阅读 · 5月26日

《基于非声学传感器的贝叶斯搜索研究》总结报告

《基于非声学传感器的贝叶斯搜索研究》总结报告

专知会员服务

5+阅读 · 5月26日

美军“国防自主作战群”（DAWG）概念解析

美军“国防自主作战群”（DAWG）概念解析

专知会员服务

3+阅读 · 5月26日

“史诗怒火”行动中的无人机与反无人机作战

“史诗怒火”行动中的无人机与反无人机作战

专知会员服务

16+阅读 · 5月25日

《北约城市作战高级训练技术（UCATT）实况模拟标准2》176页报告

《北约城市作战高级训练技术（UCATT）实况模拟标准2》176页报告

专知会员服务

6+阅读 · 5月25日

相关VIP内容

LLM/智能体作为数据分析师：综述

LLM/智能体作为数据分析师：综述

专知会员服务

38+阅读 · 2025年9月30日

AI 开发生命周期：大规模语言模型（LLMs）带来的变化学习

AI 开发生命周期：大规模语言模型（LLMs）带来的变化学习

专知会员服务

34+阅读 · 2024年10月7日

《美国防部对人工智能和 LLM 编写评估因素的信心与偏见》2024最新275页论文

《美国防部对人工智能和 LLM 编写评估因素的信心与偏见》2024最新275页论文

专知会员服务

63+阅读 · 2024年3月4日

GPT-4等大模型懂因果么？ Meta等最新《大型语言模型能从相关性中推断因果关系吗》17种LLM表现一般，GPT-4也不行

GPT-4等大模型懂因果么？ Meta等最新《大型语言模型能从相关性中推断因果关系吗》17种LLM表现一般，GPT-4也不行

专知会员服务

60+阅读 · 2023年6月12日

【CMU博士论文】基于机器学习的预测: 准确性、可解释性和效率，161页pdf

【CMU博士论文】基于机器学习的预测: 准确性、可解释性和效率，161页pdf

专知会员服务

71+阅读 · 2023年6月8日

【Facebook】人工智能基准(Benchmarking)测试再思考，55页ppt

【Facebook】人工智能基准(Benchmarking)测试再思考，55页ppt

专知会员服务

31+阅读 · 2020年12月20日

【ICML2020投稿论文-CMU-DeepMind-Google】用于评估跨语言泛化的大规模多语言多任务基准

【ICML2020投稿论文-CMU-DeepMind-Google】用于评估跨语言泛化的大规模多语言多任务基准

专知会员服务

14+阅读 · 2020年3月27日

【Open AI】利用过程生成对强化学习进行基准测试（Leveraging Procedural Generation to Benchmark Reinforcement Learning）

【Open AI】利用过程生成对强化学习进行基准测试（Leveraging Procedural Generation to Benchmark Reinforcement Learning）

专知会员服务

10+阅读 · 2019年12月3日

【Google AI新论文EfficientDet】规模化高效化的物体检测，EfficientDet: Scalable and Efficient Object Detection(附pdf)

【Google AI新论文EfficientDet】规模化高效化的物体检测，EfficientDet: Scalable and Efficient Object Detection(附pdf)

专知会员服务

27+阅读 · 2019年11月24日

【Facebook AI】对抗性NLI:自然语言理解的新基准，Adversarial NLI: A New Benchmark for Natural Language Understanding

【Facebook AI】对抗性NLI:自然语言理解的新基准，Adversarial NLI: A New Benchmark for Natural Language Understanding

专知会员服务

11+阅读 · 2019年11月2日

热门VIP内容

开通专知VIP会员享更多权益服务

ICML2026 | 重新思考顺序知识编辑中的正则化

可信智能体AI综述：安全、鲁棒性、隐私与系统安全

《移动旅级战斗队转型中的支援单元指挥控制挑战》

《用于兵力发展选项优先排序的成本效益模型》

相关资讯

基于深度元学习的因果推断新方法

基于深度元学习的因果推断新方法

图与推荐

12+阅读 · 2020年7月21日

【Uber AI新论文】持续元学习，Learning to Continually Learn

【Uber AI新论文】持续元学习，Learning to Continually Learn

专知

19+阅读 · 2020年2月27日

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

专知

12+阅读 · 2020年2月12日

近期必读的八篇【Meta-Learning（元学习）】相关论文和代码

近期必读的八篇【Meta-Learning（元学习）】相关论文和代码

专知

134+阅读 · 2019年9月15日

用深度学习揭示数据的因果关系

用深度学习揭示数据的因果关系

专知

28+阅读 · 2019年5月18日

北大、清华、微软联合提出RepPoints，比边界框更好用的目标检测方法

北大、清华、微软联合提出RepPoints，比边界框更好用的目标检测方法

全球人工智能

13+阅读 · 2019年4月30日

最新最权威《深度学习显著目标检测综述》论文代码数据发布，带你全面了解显著目标检测方法

最新最权威《深度学习显著目标检测综述》论文代码数据发布，带你全面了解显著目标检测方法

专知

79+阅读 · 2019年4月24日

【干货分享】AIOps之根因分析

【干货分享】AIOps之根因分析

腾讯大讲堂

11+阅读 · 2018年4月10日

【机器学习基本理论】详解最大似然估计（MLE）、最大后验概率估计（MAP），以及贝叶斯公式的理解

【机器学习基本理论】详解最大似然估计（MLE）、最大后验概率估计（MAP），以及贝叶斯公式的理解

机器学习研究会

19+阅读 · 2018年3月11日

【论文】所见所想所真，对抗学习GAN提升跨模态检索效果！阿里巴巴AI Labs等团队最新工作

【论文】所见所想所真，对抗学习GAN提升跨模态检索效果！阿里巴巴AI Labs等团队最新工作

专知

12+阅读 · 2017年12月21日

相关论文

Towards Real-World Validity in Generative AI Benchmarks: Understanding and Designing Domain-Centered Evaluations for Journalism Practitioners

Arxiv

0+阅读 · 4月28日

Knowledge without Wisdom: Measuring Misalignment between LLMs and Intended Impact

Arxiv

0+阅读 · 4月20日

Are LLM-Based Retrievers Worth Their Cost? An Empirical Study of Efficiency, Robustness, and Reasoning Overhead

Arxiv

0+阅读 · 4月4日

The Price of Progress: Price Performance and the Future of AI

Arxiv

0+阅读 · 3月23日

WirelessBench: A Tolerance-Aware LLM Agent Benchmark for Wireless Network Intelligence

Arxiv

0+阅读 · 3月22日

Towards Real-World Validity in Generative AI Benchmarks: Understanding and Designing Domain-Centered Evaluations for Journalism Practitioners

Arxiv

0+阅读 · 3月20日

PAI: Fast, Accurate, and Full Benchmark Performance Projection with AI

Arxiv

0+阅读 · 3月18日

AI Application Benchmarking: Power-Aware Performance Analysis for Vision and Language Models

Arxiv

0+阅读 · 3月17日

Evaluating Financial Intelligence in Large Language Models: Benchmarking SuperInvesting AI with LLM Engines

Arxiv

0+阅读 · 3月9日

DARE-bench: Evaluating Modeling and Instruction Fidelity of LLMs in Data Science

Arxiv

0+阅读 · 2月27日

相关基金

面向动态演化的网构软件失效机理与测评方法

国家自然科学基金

1+阅读 · 2015年12月31日

基于故障注入和指标模型的工业无线传感器网络可靠性测试与评估方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

大规模MIMO检测的理论性能分析和算法设计

国家自然科学基金

0+阅读 · 2015年12月31日

网状meta分析实效性评价方法及其广义线性混合效应模型的构建与应用研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于文本模式的海量电能质量数据自动分析技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

测量误差数据下约束线性模型的有偏估计及变量选择研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于示能性视角的信息系统有效使用研究：维度、影响因素和形成机制

国家自然科学基金

0+阅读 · 2014年12月31日

新型统计模型在精神疾病的基因、脑影像和行为数据整合中的应用

国家自然科学基金

0+阅读 · 2014年12月31日

基于大数据分析的输变电设备状态评估基础理论与方法

国家自然科学基金

1+阅读 · 2014年12月31日

考虑关联特性和兼容性准则的电能质量深度分析诊断与影响后果评估研究

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员