Deep Research Agents (DRAs) have demonstrated remarkable capabilities in autonomous information retrieval and report generation, showing great potential to assist humans in complex research tasks. Current evaluation frameworks primarily rely on LLM-generated references or LLM-derived evaluation dimensions. While these approaches offer scalability, they often lack the reliability of expert-verified content and struggle to provide objective, fine-grained assessments of critical dimensions. To bridge this gap, we introduce Wiki Live Challenge (WLC), a live benchmark that leverages the newest Wikipedia Good Articles (GAs) as expert-level references. Wikipedia's strict standards for neutrality, comprehensiveness, and verifiability serve as a great challenge for DRAs, with GAs representing the pinnacle of which. We curate a dataset of 100 recent Good Articles and propose Wiki Eval, a comprehensive evaluation framework comprising a fine-grained evaluation method with 39 criteria for writing quality and rigorous metrics for factual verifiability. Extensive experiments on various DRA systems demonstrate a significant gap between current DRAs and human expert-level Wikipedia articles, validating the effectiveness of WLC in advancing agent research. We release our benchmark at https://github.com/WangShao2000/Wiki_Live_Challenge


翻译:深度研究智能体(DRAs)在自主信息检索与报告生成方面展现出卓越能力,显示出协助人类完成复杂研究任务的巨大潜力。现有评估框架主要依赖大语言模型生成的参考文本或衍生的评估维度。虽然这些方法具有可扩展性,但往往缺乏专家验证内容的可靠性,且难以对关键维度提供客观、细粒度的评估。为弥补这一不足,我们提出维基实时挑战(WLC)——一个以最新维基百科优质条目(GAs)作为专家级参考的动态基准。维基百科对中立性、全面性和可验证性的严格标准对DRAs构成重大挑战,而优质条目正是这些标准的典范。我们构建了包含100篇近期优质条目的数据集,并提出维基评估(Wiki Eval)框架,该框架包含针对写作质量的39项细粒度评估标准,以及针对事实可验证性的严格度量指标。通过对多种DRA系统的大量实验,我们发现当前DRAs与人类专家级维基百科文章之间存在显著差距,验证了WLC在推进智能体研究方面的有效性。本基准已发布于 https://github.com/WangShao2000/Wiki_Live_Challenge

0
下载
关闭预览

相关内容

维基百科( Wikipedia.org)是一个基于 Wiki 技术的全球性多语言百科全书协作项目,同时也是一部在网际网络上呈现的网络百科全书网站,其目标及宗旨是为全人类提供自由的百科全书。目前 Alexa 全球网站排名第六。
智能体评判者(Agent-as-a-Judge)研究综述
专知会员服务
37+阅读 · 1月9日
多智能体深度强化学习研究进展
专知会员服务
76+阅读 · 2024年7月17日
Deep Learning(深度学习)各种资料网址
数据挖掘入门与实战
11+阅读 · 2017年10月31日
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
50+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
13+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
20+阅读 · 2013年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
VIP会员
相关基金
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
50+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
13+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
20+阅读 · 2013年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员