A deep research agent produces a fluent scientific report in minutes; a careful reader then tries to verify the main claims and discovers the real cost is not reading, but tracing: which sentence is supported by which passage, what was ignored, and where evidence conflicts. We argue that as research generation becomes cheap, auditability becomes the bottleneck, and the dominant risk shifts from isolated factual errors to scientifically styled outputs whose claim-evidence links are weak, missing, or misleading. This perspective proposes claim-level auditability as a first-class design and evaluation target for deep research agents, distills recurring long-horizon failure modes (objective drift, transient constraints, and unverifiable inference), and introduces the Auditable Autonomous Research (AAR) standard, a compact measurement framework that makes auditability testable via provenance coverage, provenance soundness, contradiction transparency, and audit effort. We then argue for semantic provenance with protocolized validation: persistent, queryable provenance graphs that encode claim--evidence relations (including conflicts) and integrate continuous validation during synthesis rather than after publication, with practical instrumentation patterns to support deployment at scale.


翻译:深度研究代理能在数分钟内生成流畅的科学报告;而细心的读者随后试图验证其主要声明时,却发现真正的成本不在于阅读,而在于溯源:哪些句子由哪些段落支撑、哪些内容被忽略、证据在何处存在矛盾。我们认为,随着研究生成变得廉价,可审计性正成为瓶颈,主导风险已从孤立的事实错误转向科学风格输出中声明-证据链的薄弱、缺失或误导性关联。本文提出将声明级可审计性作为深度研究代理的一流设计与评估目标,提炼出常见的长期失效模式(目标漂移、瞬态约束与不可验证推理),并引入可审计自主研究标准——一个通过溯源覆盖率、溯源可靠性、矛盾透明度与审计工作量实现可测试审计的紧凑测量框架。我们进而主张采用协议化验证的语义溯源:构建持久化、可查询的溯源图以编码声明-证据关系(含冲突),在合成过程中而非发表后集成持续验证,并提供支持规模化部署的实用化检测模式。

0
下载
关闭预览

相关内容

Deep Research(深度研究):系统性综述
专知会员服务
50+阅读 · 2025年12月3日
【2023新书】深度学习中的可解释性,486页pdf
专知会员服务
155+阅读 · 2023年5月12日
专知会员服务
223+阅读 · 2020年8月1日
深度学习可解释性研究进展
专知会员服务
103+阅读 · 2020年6月26日
深度学习模型可解释性的研究进展
专知
26+阅读 · 2020年8月1日
深度学习可解释性研究进展
专知
19+阅读 · 2020年6月26日
深度学习在推荐系统上的应用
架构文摘
13+阅读 · 2018年2月22日
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
VIP会员
最新内容
《低数据领域军事目标检测模型研究》
专知会员服务
0+阅读 · 4分钟前
【CMU博士论文】物理世界的视觉感知与深度理解
伊朗战争停火期间美军关键弹药状况分析
专知会员服务
8+阅读 · 4月22日
电子战革命:塑造战场的十年突破(2015–2025)
人工智能即服务与未来战争(印度视角)
专知会员服务
4+阅读 · 4月22日
《美国战争部2027财年军事人员预算》
专知会员服务
2+阅读 · 4月22日
伊朗战争中的电子战
专知会员服务
5+阅读 · 4月22日
大语言模型平台在国防情报应用中的对比
专知会员服务
9+阅读 · 4月22日
相关基金
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员