Deep research frameworks have shown promising capabilities in synthesizing comprehensive reports from web sources. While deep research possesses significant potential to address complex issues through planning and research cycles, existing frameworks are deficient in sufficient evaluation procedures and stage-specific protections. They typically treat evaluation as exact match accuracy of question-answering, but overlook crucial aspects of report quality such as credibility, coherence, breadth, depth, and safety. This oversight may result in hazardous or malicious sources being integrated into the final report. To address this, we introduce DeepResearchGuard, a framework featuring four-stage safeguards with open-domain evaluation, and DRSafeBench, a novel stage-wise safety benchmark. Evaluating across GPT-4o, o4-mini, Gemini-2.5-flash, DeepSeek-v3, GPT-5, DeepResearchGuard improves defense success rates by 16.53% while reducing over-refusal to 6%. Through extensive experiments, we show that DRSafeBench enables comprehensive open-domain evaluation and stage-aware defenses that effectively block harmful content propagation, while systematically improving report quality without excessive over-refusal rates.


翻译:深度研究框架在从网络资源合成综合性报告方面展现出显著潜力。尽管深度研究通过规划与研究循环具备解决复杂问题的巨大潜力,但现有框架缺乏充分的评估流程和阶段特异性保护措施。它们通常将评估简化为问答的精确匹配准确率,却忽视了报告质量的关键维度,如可信度、连贯性、广度、深度与安全性。这种疏忽可能导致危险或恶意来源被整合进最终报告。为此,我们提出DeepResearchGuard框架,该框架具备四阶段防护机制与开放域评估功能,并构建了新型分阶段安全基准DRSafeBench。通过对GPT-4o、o4-mini、Gemini-2.5-flash、DeepSeek-v3、GPT-5等模型的评估,DeepResearchGuard将防御成功率提升16.53%,同时将过度拒绝率降至6%。大量实验表明,DRSafeBench能够实现全面的开放域评估和阶段感知防御,有效阻断有害内容传播,并在不过度提升拒绝率的前提下系统性地提升报告质量。

0
下载
关闭预览

相关内容

开放域是只有部分边界被定义或者其边界超出数据空间的几何区域,开放区域一般针对几何图形的边界不重要或者是无限的情况,例如,开放的直线、开放的平面和开放的空间,把这些开放形状描述为抽象的类。
面向深度学习的后门攻击及防御研究综述
专知会员服务
12+阅读 · 2025年7月4日
DeepSeek模型在中文语境下的安全性评估
专知会员服务
26+阅读 · 2025年2月21日
深度强化学习的攻防与安全性分析综述
专知会员服务
27+阅读 · 2022年1月16日
最新《深度持续学习》综述论文,32页pdf
专知会员服务
88+阅读 · 2020年9月6日
深度学习研究及军事应用综述
专知
29+阅读 · 2022年7月7日
基于深度学习的数据融合方法研究综述
专知
37+阅读 · 2020年12月10日
深度学习模型可解释性的研究进展
专知
26+阅读 · 2020年8月1日
深度学习可解释性研究进展
专知
19+阅读 · 2020年6月26日
【学界】DeepMind论文:深度压缩感知,新框架提升GAN性能
GAN生成式对抗网络
14+阅读 · 2019年5月23日
深度学习应用于网络空间安全所面临的十大问题与机遇
计算机研究与发展
22+阅读 · 2018年6月7日
国家自然科学基金
1+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
19+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
1+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
19+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员