Information retrieval (IR) evaluation remains challenging due to incomplete IR benchmark datasets that contain unlabeled relevant chunks. While LLMs and LLM-human hybrid strategies reduce costly human effort, they remain prone to LLM overconfidence and ineffective AI-to-human escalation. To address this, we propose DREAM, a multi-round debate-based relevance assessment framework with LLM agents, built on opposing initial stances and iterative reciprocal critique. Through our agreement-based debate, it yields more accurate labeling for certain cases and more reliable AI-to-human escalation for uncertain ones, achieving 95.2% labeling accuracy with only 3.5% human involvement. Using DREAM, we build BRIDGE, a refined benchmark that mitigates evaluation bias and enables fairer retriever comparison by uncovering 29,824 missing relevant chunks. We then re-benchmark IR systems and extend evaluation to RAG, showing that unaddressed holes not only distort retriever rankings but also drive retrieval-generation misalignment. The relevance assessment framework is available at https: //github.com/DISL-Lab/DREAM-ICLR-26; and the BRIDGE dataset is available at https://github.com/DISL-Lab/BRIDGE-Benchmark.


翻译:信息检索(IR)评估仍面临挑战,主要源于IR基准数据集的不完整性,其中包含大量未标注的相关文本块。尽管大语言模型(LLM)及LLM-人混合策略能够减少高昂的人工标注成本,但它们仍易受LLM过度自信问题的影响,且AI到人的任务升级机制往往效率不足。为解决这些问题,我们提出了DREAM,一个基于多轮辩论的相关性评估框架,该框架利用LLM智能体,建立在对立初始立场与迭代式相互批判的基础上。通过基于共识的辩论过程,DREAM能够对确定案例产生更准确的标注,并对不确定案例实现更可靠的AI到人任务升级,仅需3.5%的人工介入即可达到95.2%的标注准确率。利用DREAM,我们构建了BRIDGE——一个经过优化的基准数据集,通过补全29,824个缺失的相关文本块,有效缓解了评估偏差,实现了更公平的检索器性能比较。基于此,我们对现有IR系统进行了重新评估,并将评估范围扩展至检索增强生成(RAG)系统,结果表明:未被处理的标注缺失不仅会扭曲检索器的性能排名,还会导致检索与生成阶段之间的错位。相关性评估框架已发布于https://github.com/DISL-Lab/DREAM-ICLR-26;BRIDGE数据集已发布于https://github.com/DISL-Lab/BRIDGE-Benchmark。

0
下载
关闭预览

相关内容

智能体评判者(Agent-as-a-Judge)研究综述
专知会员服务
37+阅读 · 1月9日
大语言模型智能体的评估与基准:综述
专知会员服务
49+阅读 · 2025年7月31日
智能体检索增强生成:关于智能体RAG的综述
专知会员服务
92+阅读 · 2025年1月21日
大型语言模型对齐技术综述:RLHF、RLAIF、PPO、DPO 等
专知会员服务
55+阅读 · 2024年7月24日
「基于通信的多智能体强化学习」 进展综述
论文笔记 | How NOT To Evaluate Your Dialogue System
科技创新与创业
13+阅读 · 2017年12月23日
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
18+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
36+阅读 · 2008年12月31日
VIP会员
最新内容
《无人机革命:来自俄乌战场的启示》(报告)
专知会员服务
2+阅读 · 44分钟前
《实现联合作战能力所需的技术》58页报告
专知会员服务
1+阅读 · 今天6:30
以色列运用人工智能优化空袭警报系统
专知会员服务
0+阅读 · 今天6:20
以色列在多条战线部署AI智能体
专知会员服务
1+阅读 · 今天6:12
2025年大语言模型进展报告
专知会员服务
13+阅读 · 4月25日
多智能体协作机制
专知会员服务
12+阅读 · 4月25日
非对称优势:美海军开发低成本反无人机技术
专知会员服务
9+阅读 · 4月25日
《美战争部小企业创新研究(SBIR)计划》
专知会员服务
8+阅读 · 4月25日
《军事模拟:将军事条令与目标融入AI智能体》
专知会员服务
12+阅读 · 4月25日
【NTU博士论文】3D人体动作生成
专知会员服务
9+阅读 · 4月24日
相关基金
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
18+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
36+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员