Deep research agents powered by Large Language Models (LLMs) can perform multi-step reasoning, web exploration, and long-form report generation. However, most existing systems operate in an autonomous manner, assuming fully specified user intent and evaluating only final outputs. In practice, research goals are often underspecified and evolve during exploration, making sustained interaction essential for robust alignment. Despite its importance, interaction remains largely invisible to existing deep research benchmarks, which neither model dynamic user feedback nor quantify its costs. We introduce IDRBench, the first benchmark for systematically evaluating interactive deep research. IDRBench combines a modular multi-agent research framework with on-demand interaction, a scalable reference-grounded user simulator, and an interaction-aware evaluation suite that jointly measures interaction benefits (quality and alignment) and costs (turns and tokens). Experiments across seven state-of-the-art LLMs show that interaction consistently improves research quality and robustness, often outweighing differences in model capacity, while revealing substantial trade-offs in interaction efficiency.


翻译:基于大型语言模型(LLM)驱动的深度研究智能体能够执行多步推理、网络探索和长篇幅报告生成。然而,现有系统大多以自主方式运行,其假设用户意图已完全明确,且仅评估最终输出。在实际研究中,研究目标往往初始定义不完整,并在探索过程中动态演变,这使得持续交互对于实现稳健的任务对齐至关重要。尽管交互具有重要性,现有深度研究基准却普遍忽视了交互机制——既未建模动态用户反馈,也未量化其成本。本文提出首个用于系统评估交互式深度研究的基准IDRBench。该基准整合了模块化的多智能体研究框架与按需交互机制、可扩展的基于参考的模拟用户系统,以及兼顾交互效益(质量与对齐度)与成本(交互轮次与令牌数)的交互感知评估套件。在七种前沿LLM上的实验表明:交互能持续提升研究质量与鲁棒性,其增益往往超越模型能力差异带来的影响,同时也揭示了交互效率方面存在的显著权衡。

0
下载
关闭预览

相关内容

【AAAI2025】TimeDP:通过领域提示学习生成多领域时间序列
【KDD2024】HiGPT:异构图语言模型
专知会员服务
19+阅读 · 2024年7月9日
【WSDM2024】DiffKG:面向推荐的知识图谱扩散模型
专知会员服务
28+阅读 · 2024年1月17日
【CVPR2023】NS3D:3D对象和关系的神经符号Grounding
专知会员服务
22+阅读 · 2023年3月26日
LibRec 每周算法:LDA主题模型
LibRec智能推荐
29+阅读 · 2017年12月4日
国家自然科学基金
18+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
VIP会员
相关VIP内容
【AAAI2025】TimeDP:通过领域提示学习生成多领域时间序列
【KDD2024】HiGPT:异构图语言模型
专知会员服务
19+阅读 · 2024年7月9日
【WSDM2024】DiffKG:面向推荐的知识图谱扩散模型
专知会员服务
28+阅读 · 2024年1月17日
【CVPR2023】NS3D:3D对象和关系的神经符号Grounding
专知会员服务
22+阅读 · 2023年3月26日
相关基金
国家自然科学基金
18+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
Top
微信扫码咨询专知VIP会员