Recent advances have showcased the extraordinary capabilities of Large Language Model (LLM) agents in tackling web-based information-seeking tasks. However, existing efforts mainly focus on single-fact retrieval and rely on outcome-only verification, thereby limiting their scalability in realistic knowledge-intensive scenarios that involve long-horizon web tasks requiring large-scale retrieval and synthesis of information from diverse sources. In this work, we introduce VeriWeb, a novel verifiable long-chain web benchmark designed to facilitate the evaluation and development of web agents within realistic web environments. Our benchmark emphasizes two critical dimensions: (1) long-chain complexity, encompassing both breadth- and depth-oriented search tasks to assess how effectively web agents ensure comprehensive information coverage and consistent context tracking in multi-hop reasoning; and (2) subtask-level verifiability, where tasks are decomposed into a sequence of interdependent verifiable subtasks. This structure enables diverse exploration strategies within each subtask, while ensuring that each subtask-level answer remains unchanged and verifiable. The benchmark consists of 302 tasks across five real-world domains, each with a complete trajectory demonstration, annotated by human experts. Extensive experiments on VeriWeb using various agents powered by different foundation models reveal significant performance gaps in handling long-horizon web tasks, highlighting the need for more powerful agentic information-seeking capabilities.


翻译:近期研究展示了大型语言模型(LLM)智能体在处理网络信息检索任务方面的卓越能力。然而,现有工作主要集中于单事实检索,且依赖结果导向的验证方式,这限制了其在现实知识密集型场景中的可扩展性——此类场景通常涉及需要从多源进行大规模信息检索与整合的长视野网络任务。本研究提出VeriWeb,一种新颖的可验证长链网络基准,旨在促进现实网络环境中网络智能体的评估与开发。该基准强调两个关键维度:(1)长链复杂性:涵盖广度导向与深度导向的搜索任务,以评估网络智能体在多跳推理中确保信息覆盖全面性与上下文追踪一致性的能力;(2)子任务级可验证性:将任务分解为一系列相互依赖的可验证子任务。该结构支持在每个子任务内采用多样化探索策略,同时确保每个子任务层级的答案保持恒定且可验证。本基准包含五个现实领域的302项任务,每项任务均配备由专家标注的完整轨迹演示。基于不同基础模型驱动的多种智能体在VeriWeb上进行的广泛实验表明,现有方法在处理长视野网络任务时存在显著性能差距,凸显了对更强大智能信息检索能力的需求。

0
下载
关闭预览

相关内容

探究检索增强下的大模型知识边界
专知会员服务
56+阅读 · 2023年7月25日
PlaNet 简介:用于强化学习的深度规划网络
谷歌开发者
13+阅读 · 2019年3月16日
【知识图谱】知识图谱+人工智能=新型网络信息体系
产业智能官
14+阅读 · 2018年11月18日
讲透RCNN, Fast-RCNN, Faster-RCNN,将CNN用于目标检测
数据挖掘入门与实战
18+阅读 · 2018年4月20日
国家自然科学基金
2+阅读 · 2017年12月31日
国家自然科学基金
18+阅读 · 2017年12月31日
国家自然科学基金
13+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Arxiv
0+阅读 · 2月24日
VIP会员
相关基金
国家自然科学基金
2+阅读 · 2017年12月31日
国家自然科学基金
18+阅读 · 2017年12月31日
国家自然科学基金
13+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员