Deep Research Agents (DRAs) have demonstrated remarkable capabilities in autonomous information retrieval and report generation, showing great potential to assist humans in complex research tasks. Current evaluation frameworks primarily rely on LLM-generated references or LLM-derived evaluation dimensions. While these approaches offer scalability, they often lack the reliability of expert-verified content and struggle to provide objective, fine-grained assessments of critical dimensions. To bridge this gap, we introduce Wiki Live Challenge (WLC), a live benchmark that leverages the newest Wikipedia Good Articles (GAs) as expert-level references. Wikipedia's strict standards for neutrality, comprehensiveness, and verifiability serve as a great challenge for DRAs, with GAs representing the pinnacle of which. We curate a dataset of 100 recent Good Articles and propose Wiki Eval, a comprehensive evaluation framework comprising a fine-grained evaluation method with 39 criteria for writing quality and rigorous metrics for factual verifiability. Extensive experiments on various DRA systems demonstrate a significant gap between current DRAs and human expert-level Wikipedia articles, validating the effectiveness of WLC in advancing agent research. We release our benchmark at https://github.com/WangShao2000/Wiki_Live_Challenge


翻译:深度研究智能体(DRAs)在自主信息检索与报告生成方面展现出卓越能力,显示出协助人类完成复杂研究任务的巨大潜力。现有评估框架主要依赖大语言模型生成的参考内容或衍生的评估维度。尽管这些方法具备可扩展性,但其常缺乏专家验证内容的可靠性,且难以对关键维度提供客观、细粒度的评估。为弥补这一差距,我们推出Wiki Live Challenge(WLC)——一个以最新维基百科优质条目(GAs)作为专家级参考的动态基准。维基百科在中立性、全面性与可验证性方面的严格标准对DRAs构成巨大挑战,而优质条目正是这些标准的顶峰体现。我们构建了包含100篇近期优质条目的数据集,并提出Wiki Eval综合评估框架,该框架包含针对写作质量的39项细粒度评估标准,以及面向事实可验证性的严谨度量指标。通过对多种DRA系统的大量实验,我们发现当前DRAs与人类专家级维基百科文章之间存在显著差距,验证了WLC在推进智能体研究方面的有效性。本基准已发布于 https://github.com/WangShao2000/Wiki_Live_Challenge

0
下载
关闭预览

相关内容

Wiki ,中文名为“围纪”(注:不是“维基”,这是“维基媒体基金会”的注冊商标),是一种在网络上开放且可供多人协同创作的超文本系统,由沃德·坎宁安于 1995 年首先开发。沃德·坎宁安将 Wiki 定义为「一种允许一群用户利用简单的描述来创建和连接一组网页的社会计算系统」。
多智能体深度强化学习研究进展
专知会员服务
76+阅读 · 2024年7月17日
【知识图谱】知识图谱+人工智能=新型网络信息体系
产业智能官
14+阅读 · 2018年11月18日
Deep Learning(深度学习)各种资料网址
数据挖掘入门与实战
11+阅读 · 2017年10月31日
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
50+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
13+阅读 · 2014年12月31日
国家自然科学基金
20+阅读 · 2013年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
VIP会员
相关VIP内容
多智能体深度强化学习研究进展
专知会员服务
76+阅读 · 2024年7月17日
相关基金
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
50+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
13+阅读 · 2014年12月31日
国家自然科学基金
20+阅读 · 2013年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员