超越单次撰写：深度研究代理在多轮报告修订中的不可靠性 (Beyond Single-shot Writing: Deep Research Agents are Unreliable at Multi-turn Report Revision) - 专知论文

会员服务 ·

0

报告 · 深度研究 · 不可靠性 · 磁流变材料 · 基准 ·

Beyond Single-shot Writing: Deep Research Agents are Unreliable at Multi-turn Report Revision

翻译：超越单次撰写：深度研究代理在多轮报告修订中的不可靠性

Bingsen Chen,Boyan Li,Ping Nie,Yuyu Zhang,Xi Ye,Chen Zhao

Existing benchmarks for Deep Research Agents (DRAs) treat report generation as a single-shot writing task, which fundamentally diverges from how human researchers iteratively draft and revise reports via self-reflection or peer feedback. Whether DRAs can reliably revise reports with user feedback remains unexplored. We introduce Mr Dre, an evaluation suite that establishes multi-turn report revision as a new evaluation axis for DRAs. Mr Dre consists of (1) a unified long-form report evaluation protocol spanning comprehensiveness, factuality, and presentation, and (2) a human-verified feedback simulation pipeline for multi-turn revision. Our analysis of five diverse DRAs reveals a critical limitation: while agents can address most user feedback, they also regress on 16-27% of previously covered content and citation quality. Over multiple revision turns, even the best-performing agents leave significant headroom, as they continue to disrupt content outside the feedback's scope and fail to preserve earlier edits. We further show that these issues are not easily resolvable through inference-time fixes such as prompt engineering and a dedicated sub-agent for report revision.

翻译：现有深度研究代理（DRA）的基准测试将报告生成视为单次撰写任务，这从根本上偏离了人类研究者通过自我反思或同行反馈迭代起草和修订报告的方式。DRA能否可靠地根据用户反馈修订报告仍未被探索。我们引入了Mr Dre评估套件，它将多轮报告修订确立为DRA的一个新评估维度。Mr Dre包含（1）一个统一的、涵盖全面性、事实性和呈现性的长篇报告评估协议，以及（2）一个用于多轮修订的人工验证反馈模拟流程。我们对五个不同DRA的分析揭示了一个关键局限：虽然代理能够处理大部分用户反馈，但它们也会在16-27%先前已涵盖的内容和引用质量上出现倒退。经过多轮修订，即使表现最佳的代理也留下了显著的改进空间，因为它们持续干扰反馈范围之外的内容，并且无法保留先前的编辑。我们进一步表明，这些问题不易通过推理时修复（如提示工程和专门的报告修订子代理）来解决。

0

相关内容

多维度对特定行业主题进行系统性分析、概括与总结。

DeepSeek突然更新R1论文：暴增64页，能公开的全公开了

DeepSeek突然更新R1论文：暴增64页，能公开的全公开了

专知会员服务

21+阅读 · 1月8日

Deep Research（深度研究）：系统性综述

Deep Research（深度研究）：系统性综述

专知会员服务

50+阅读 · 2025年12月3日

最新新Agent综述！76页327篇论文梳理，北交大桑基韬教授团队发布《迈向模型原生智能体式人工智能的范式转变综述》

最新新Agent综述！76页327篇论文梳理，北交大桑基韬教授团队发布《迈向模型原生智能体式人工智能的范式转变综述》

专知会员服务

37+阅读 · 2025年10月17日

《可解释深度强化学习综述》

《可解释深度强化学习综述》

专知会员服务

40+阅读 · 2025年2月12日

深度模型如何可信？牛津大学博士论文《具有硬逻辑约束的深度学习》，158页pdf

深度模型如何可信？牛津大学博士论文《具有硬逻辑约束的深度学习》，158页pdf

专知会员服务

43+阅读 · 2022年10月14日

多Agent深度强化学习综述(中文版)，21页pdf

专知会员服务

118+阅读 · 2021年1月1日

最新《深度持续学习》综述论文，32页pdf

最新《深度持续学习》综述论文，32页pdf

专知会员服务

183+阅读 · 2020年9月7日

【论文推荐】深度学习中的异常实例检测:综述，Anomalous Instance Detection in Deep Learning: A Survey

【论文推荐】深度学习中的异常实例检测:综述，Anomalous Instance Detection in Deep Learning: A Survey

专知会员服务

97+阅读 · 2020年3月17日

【论文推荐中科院自动化所】视频游戏中深度强化学习的研究综述，A Survey of Deep Reinforcement Learning in Video

【论文推荐中科院自动化所】视频游戏中深度强化学习的研究综述，A Survey of Deep Reinforcement Learning in Video

专知会员服务

48+阅读 · 2019年12月24日

最新49页《深度学习异常检测综述》论文，带你全面了解深度学习异常检测方法

最新49页《深度学习异常检测综述》论文，带你全面了解深度学习异常检测方法

专知会员服务

218+阅读 · 2019年10月18日

深度学习可解释性研究进展

深度学习可解释性研究进展

专知

19+阅读 · 2020年6月26日

如何构建「可信任的深度学习」？美国三院院士UCLA数学泰斗Stanley Osher教授这44页ppt为你讲述

如何构建「可信任的深度学习」？美国三院院士UCLA数学泰斗Stanley Osher教授这44页ppt为你讲述

专知

13+阅读 · 2020年3月14日

最新最权威《深度学习显著目标检测综述》论文代码数据发布，带你全面了解显著目标检测方法

最新最权威《深度学习显著目标检测综述》论文代码数据发布，带你全面了解显著目标检测方法

专知

79+阅读 · 2019年4月24日

语义鸿沟、异构鸿沟、数据缺失，多模态技术如何跨过这些坎？

语义鸿沟、异构鸿沟、数据缺失，多模态技术如何跨过这些坎？

AI前线

15+阅读 · 2019年3月21日

关于深度多任务学习的 3 点经验

关于深度多任务学习的 3 点经验

机器学习算法与Python学习

17+阅读 · 2019年2月18日

最新49页《深度学习异常检测综述》论文，带你全面了解深度学习异常检测方法

最新49页《深度学习异常检测综述》论文，带你全面了解深度学习异常检测方法

专知

137+阅读 · 2019年1月14日

打开人工智能黑箱:看最新16篇可解释深度学习文章，带您了解增强AI透明性

打开人工智能黑箱:看最新16篇可解释深度学习文章，带您了解增强AI透明性

专知

144+阅读 · 2019年1月13日

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

新智元

12+阅读 · 2018年7月13日

读书报告 | Deep Learning for Extreme Multi-label Text Classification

读书报告 | Deep Learning for Extreme Multi-label Text Classification

科技创新与创业

48+阅读 · 2018年1月10日

论文笔记 | How NOT To Evaluate Your Dialogue System

论文笔记 | How NOT To Evaluate Your Dialogue System

科技创新与创业

13+阅读 · 2017年12月23日

面向跨领域异构数据的患者相似性学习方法及应用

国家自然科学基金

23+阅读 · 2016年12月31日

面向Bug报告的软件故障重现方法研究

国家自然科学基金

4+阅读 · 2015年12月31日

多标签降维中的多重代价敏感学习问题研究

国家自然科学基金

2+阅读 · 2015年12月31日

非确定型Web服务流程重组的可靠性验证技术

国家自然科学基金

1+阅读 · 2015年12月31日

基于云计算平台的下一代测序数据错误修正算法研究与实现

国家自然科学基金

2+阅读 · 2015年12月31日

面向健康管理数据的关联型知识深度挖掘方法研究

国家自然科学基金

12+阅读 · 2015年12月31日

面向任务成功性的可修系统重要度分析及优化

国家自然科学基金

0+阅读 · 2014年12月31日

隐写模糊安全性测度及其优化嵌入算法研究

国家自然科学基金

0+阅读 · 2014年12月31日

复杂生产环境下的随机客户订单调度问题研究

国家自然科学基金

0+阅读 · 2014年12月31日

面向人与Agent混合的多团队协作仿真训练方法研究

国家自然科学基金

19+阅读 · 2012年12月31日

From Fluent to Verifiable: Claim-Level Auditability for Deep Research Agents

Arxiv

0+阅读 · 2月14日

AgentCPM-Report: Interleaving Drafting and Deepening for Open-Ended Deep Research

Arxiv

0+阅读 · 2月6日

DEEPMED: Building a Medical DeepResearch Agent via Multi-hop Med-Search Data and Turn-Controlled Agentic Training & Inference

Arxiv

0+阅读 · 2月4日

IntentRL: Training Proactive User-intent Agents for Open-ended Deep Research via Reinforcement Learning

Arxiv

0+阅读 · 2月3日

DEER: A Benchmark for Evaluating Deep Research Agents on Expert Report Generation

Arxiv

0+阅读 · 2月3日

Wiki Live Challenge: Challenging Deep Research Agents with Expert-Level Wikipedia Articles

Arxiv

0+阅读 · 2月3日

Wiki Live Challenge: Challenging Deep Research Agents with Expert-Level Wikipedia Articles

Arxiv

0+阅读 · 2月2日

Why Your Deep Research Agent Fails? On Hallucination Evaluation in Full Research Trajectory

Arxiv

0+阅读 · 1月30日

Beyond Retrieval: A Modular Benchmark for Academic Deep Research Agents

Arxiv

0+阅读 · 1月30日

DEER: A Benchmark for Evaluating Deep Research Agents on Expert Report Generation

Arxiv

0+阅读 · 1月16日

VIP会员

文章信息

相关主题

磁流变材料

相关VIP内容

DeepSeek突然更新R1论文：暴增64页，能公开的全公开了

DeepSeek突然更新R1论文：暴增64页，能公开的全公开了

专知会员服务

21+阅读 · 1月8日

Deep Research（深度研究）：系统性综述

Deep Research（深度研究）：系统性综述

专知会员服务

50+阅读 · 2025年12月3日

最新新Agent综述！76页327篇论文梳理，北交大桑基韬教授团队发布《迈向模型原生智能体式人工智能的范式转变综述》

最新新Agent综述！76页327篇论文梳理，北交大桑基韬教授团队发布《迈向模型原生智能体式人工智能的范式转变综述》

专知会员服务

37+阅读 · 2025年10月17日

《可解释深度强化学习综述》

《可解释深度强化学习综述》

专知会员服务

40+阅读 · 2025年2月12日

深度模型如何可信？牛津大学博士论文《具有硬逻辑约束的深度学习》，158页pdf

深度模型如何可信？牛津大学博士论文《具有硬逻辑约束的深度学习》，158页pdf

专知会员服务

43+阅读 · 2022年10月14日

多Agent深度强化学习综述(中文版)，21页pdf

专知会员服务

118+阅读 · 2021年1月1日

最新《深度持续学习》综述论文，32页pdf

最新《深度持续学习》综述论文，32页pdf

专知会员服务

183+阅读 · 2020年9月7日

【论文推荐】深度学习中的异常实例检测:综述，Anomalous Instance Detection in Deep Learning: A Survey

【论文推荐】深度学习中的异常实例检测:综述，Anomalous Instance Detection in Deep Learning: A Survey

专知会员服务

97+阅读 · 2020年3月17日

【论文推荐中科院自动化所】视频游戏中深度强化学习的研究综述，A Survey of Deep Reinforcement Learning in Video

【论文推荐中科院自动化所】视频游戏中深度强化学习的研究综述，A Survey of Deep Reinforcement Learning in Video

专知会员服务

48+阅读 · 2019年12月24日

最新49页《深度学习异常检测综述》论文，带你全面了解深度学习异常检测方法

最新49页《深度学习异常检测综述》论文，带你全面了解深度学习异常检测方法

专知会员服务

218+阅读 · 2019年10月18日

热门VIP内容

开通专知VIP会员享更多权益服务

《无人机与战争：被忽视的环境影响及无人机保护潜力》

俄罗斯规划未来无人机驱动军队

《整合杀伤链：一个用于边缘目标验证与战术推理的零样本框架》最新资料

《人工智能、武器与影响力：前沿模型在模拟核危机中展现复杂推理》2026最新46页报告

相关资讯

深度学习可解释性研究进展

深度学习可解释性研究进展

专知

19+阅读 · 2020年6月26日

如何构建「可信任的深度学习」？美国三院院士UCLA数学泰斗Stanley Osher教授这44页ppt为你讲述

如何构建「可信任的深度学习」？美国三院院士UCLA数学泰斗Stanley Osher教授这44页ppt为你讲述

专知

13+阅读 · 2020年3月14日

最新最权威《深度学习显著目标检测综述》论文代码数据发布，带你全面了解显著目标检测方法

最新最权威《深度学习显著目标检测综述》论文代码数据发布，带你全面了解显著目标检测方法

专知

79+阅读 · 2019年4月24日

语义鸿沟、异构鸿沟、数据缺失，多模态技术如何跨过这些坎？

语义鸿沟、异构鸿沟、数据缺失，多模态技术如何跨过这些坎？

AI前线

15+阅读 · 2019年3月21日

关于深度多任务学习的 3 点经验

关于深度多任务学习的 3 点经验

机器学习算法与Python学习

17+阅读 · 2019年2月18日

最新49页《深度学习异常检测综述》论文，带你全面了解深度学习异常检测方法

最新49页《深度学习异常检测综述》论文，带你全面了解深度学习异常检测方法

专知

137+阅读 · 2019年1月14日

打开人工智能黑箱:看最新16篇可解释深度学习文章，带您了解增强AI透明性

打开人工智能黑箱:看最新16篇可解释深度学习文章，带您了解增强AI透明性

专知

144+阅读 · 2019年1月13日

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

新智元

12+阅读 · 2018年7月13日

读书报告 | Deep Learning for Extreme Multi-label Text Classification

读书报告 | Deep Learning for Extreme Multi-label Text Classification

科技创新与创业

48+阅读 · 2018年1月10日

论文笔记 | How NOT To Evaluate Your Dialogue System

论文笔记 | How NOT To Evaluate Your Dialogue System

科技创新与创业

13+阅读 · 2017年12月23日

相关论文

From Fluent to Verifiable: Claim-Level Auditability for Deep Research Agents

Arxiv

0+阅读 · 2月14日

AgentCPM-Report: Interleaving Drafting and Deepening for Open-Ended Deep Research

Arxiv

0+阅读 · 2月6日

DEEPMED: Building a Medical DeepResearch Agent via Multi-hop Med-Search Data and Turn-Controlled Agentic Training & Inference

Arxiv

0+阅读 · 2月4日

IntentRL: Training Proactive User-intent Agents for Open-ended Deep Research via Reinforcement Learning

Arxiv

0+阅读 · 2月3日

DEER: A Benchmark for Evaluating Deep Research Agents on Expert Report Generation

Arxiv

0+阅读 · 2月3日

Wiki Live Challenge: Challenging Deep Research Agents with Expert-Level Wikipedia Articles

Arxiv

0+阅读 · 2月3日

Wiki Live Challenge: Challenging Deep Research Agents with Expert-Level Wikipedia Articles

Arxiv

0+阅读 · 2月2日

Why Your Deep Research Agent Fails? On Hallucination Evaluation in Full Research Trajectory

Arxiv

0+阅读 · 1月30日

Beyond Retrieval: A Modular Benchmark for Academic Deep Research Agents

Arxiv

0+阅读 · 1月30日

DEER: A Benchmark for Evaluating Deep Research Agents on Expert Report Generation

Arxiv

0+阅读 · 1月16日

相关基金

面向跨领域异构数据的患者相似性学习方法及应用

国家自然科学基金

23+阅读 · 2016年12月31日

面向Bug报告的软件故障重现方法研究

国家自然科学基金

4+阅读 · 2015年12月31日

多标签降维中的多重代价敏感学习问题研究

国家自然科学基金

2+阅读 · 2015年12月31日

非确定型Web服务流程重组的可靠性验证技术

国家自然科学基金

1+阅读 · 2015年12月31日

基于云计算平台的下一代测序数据错误修正算法研究与实现

国家自然科学基金

2+阅读 · 2015年12月31日

面向健康管理数据的关联型知识深度挖掘方法研究

国家自然科学基金

12+阅读 · 2015年12月31日

面向任务成功性的可修系统重要度分析及优化

国家自然科学基金

0+阅读 · 2014年12月31日

隐写模糊安全性测度及其优化嵌入算法研究

国家自然科学基金

0+阅读 · 2014年12月31日

复杂生产环境下的随机客户订单调度问题研究

国家自然科学基金

0+阅读 · 2014年12月31日

面向人与Agent混合的多团队协作仿真训练方法研究

国家自然科学基金

19+阅读 · 2012年12月31日

微信扫码咨询专知VIP会员