Deep Research with Open-Domain Evaluation and Multi-Stage Guardrails for Safety - 专知论文

会员服务 ·

0

开放域 · 深度研究 · 报告 · 多阶 · 合成 ·

Deep Research with Open-Domain Evaluation and Multi-Stage Guardrails for Safety

翻译：深度研究框架的开放域评估与多阶段安全防护机制

Wei-Chieh Huang,Henry Peng Zou,Yaozu Wu,Dongyuan Li,Yankai Chen,Weizhi Zhang,Yangning Li,Angelo Zangari,Jizhou Guo,Chunyu Miao,Liancheng Fang,Langzhou He,Yinghui Li,Renhe Jiang,Philip S. Yu

Deep research frameworks have shown promising capabilities in synthesizing comprehensive reports from web sources. While deep research possesses significant potential to address complex issues through planning and research cycles, existing frameworks are deficient in sufficient evaluation procedures and stage-specific protections. They typically treat evaluation as exact match accuracy of question-answering, but overlook crucial aspects of report quality such as credibility, coherence, breadth, depth, and safety. This oversight may result in hazardous or malicious sources being integrated into the final report. To address this, we introduce DeepResearchGuard, a framework featuring four-stage safeguards with open-domain evaluation, and DRSafeBench, a novel stage-wise safety benchmark. Evaluating across GPT-4o, o4-mini, Gemini-2.5-flash, DeepSeek-v3, GPT-5, DeepResearchGuard improves defense success rates by 16.53% while reducing over-refusal to 6%. Through extensive experiments, we show that DRSafeBench enables comprehensive open-domain evaluation and stage-aware defenses that effectively block harmful content propagation, while systematically improving report quality without excessive over-refusal rates.

翻译：深度研究框架在从网络资源合成综合性报告方面展现出显著潜力。尽管深度研究通过规划与研究循环具备解决复杂问题的巨大潜力，但现有框架缺乏充分的评估流程和阶段特异性保护措施。它们通常将评估简化为问答的精确匹配准确率，却忽视了报告质量的关键维度，如可信度、连贯性、广度、深度与安全性。这种疏忽可能导致危险或恶意来源被整合进最终报告。为此，我们提出DeepResearchGuard框架，该框架具备四阶段防护机制与开放域评估功能，并构建了新型分阶段安全基准DRSafeBench。通过对GPT-4o、o4-mini、Gemini-2.5-flash、DeepSeek-v3、GPT-5等模型的评估，DeepResearchGuard将防御成功率提升16.53%，同时将过度拒绝率降至6%。大量实验表明，DRSafeBench能够实现全面的开放域评估和阶段感知防御，有效阻断有害内容传播，并在不过度提升拒绝率的前提下系统性地提升报告质量。

0

相关内容

开放域

开放域是只有部分边界被定义或者其边界超出数据空间的几何区域，开放区域一般针对几何图形的边界不重要或者是无限的情况，例如，开放的直线、开放的平面和开放的空间，把这些开放形状描述为抽象的类。

面向深度学习的后门攻击及防御研究综述

面向深度学习的后门攻击及防御研究综述

专知会员服务

12+阅读 · 2025年7月4日

DeepSeek模型在中文语境下的安全性评估

DeepSeek模型在中文语境下的安全性评估

专知会员服务

26+阅读 · 2025年2月21日

《针对网络安全中的预测和排名问题构建知识图谱和基于图谱的深度学习研究》2023最新17页报告

《针对网络安全中的预测和排名问题构建知识图谱和基于图谱的深度学习研究》2023最新17页报告

专知会员服务

31+阅读 · 2023年11月30日

【2023新书】网络安全中的对抗性深度学习:攻击分类，防御机制和学习理论

【2023新书】网络安全中的对抗性深度学习:攻击分类，防御机制和学习理论

专知会员服务

52+阅读 · 2023年3月16日

《打开黑盒：深度学习理论》最新报告，普林斯顿Sanjeev Arora教授，附ppt

《打开黑盒：深度学习理论》最新报告，普林斯顿Sanjeev Arora教授，附ppt

专知会员服务

74+阅读 · 2022年11月11日

《即时战略游戏和工业应用的安全深度强化学习》2022最新博士论文

《即时战略游戏和工业应用的安全深度强化学习》2022最新博士论文

专知会员服务

50+阅读 · 2022年9月2日

深度强化学习的攻防与安全性分析综述

深度强化学习的攻防与安全性分析综述

专知会员服务

27+阅读 · 2022年1月16日

最新《深度持续学习》综述论文，32页pdf

最新《深度持续学习》综述论文，32页pdf

专知会员服务

88+阅读 · 2020年9月6日

中科院信工所发布《深度学习系统的隐私与安全》综述论文，187篇文献总结

中科院信工所发布《深度学习系统的隐私与安全》综述论文，187篇文献总结

专知会员服务

103+阅读 · 2019年12月5日

【CCF优秀博士学位论文奖-2019】面向多种学习任务的深度生成模型，清华大学李崇轩

【CCF优秀博士学位论文奖-2019】面向多种学习任务的深度生成模型，清华大学李崇轩

专知会员服务

52+阅读 · 2019年11月8日

深度学习研究及军事应用综述

深度学习研究及军事应用综述

专知

29+阅读 · 2022年7月7日

最新最全《深度元学习》2021综述论文，68页pdf，A Survey of Deep Meta-Learning

最新最全《深度元学习》2021综述论文，68页pdf，A Survey of Deep Meta-Learning

专知

11+阅读 · 2021年4月23日

基于深度学习的数据融合方法研究综述

基于深度学习的数据融合方法研究综述

专知

37+阅读 · 2020年12月10日

深度学习模型可解释性的研究进展

深度学习模型可解释性的研究进展

专知

26+阅读 · 2020年8月1日

深度学习可解释性研究进展

深度学习可解释性研究进展

专知

19+阅读 · 2020年6月26日

基于深度学习的序列推荐系统：概念，算法与评估

基于深度学习的序列推荐系统：概念，算法与评估

专知

24+阅读 · 2019年6月6日

【学界】DeepMind论文：深度压缩感知，新框架提升GAN性能

【学界】DeepMind论文：深度压缩感知，新框架提升GAN性能

GAN生成式对抗网络

14+阅读 · 2019年5月23日

【论文综述】深度卷积神经网络架构最新进展综述（附60页全文下载）

【论文综述】深度卷积神经网络架构最新进展综述（附60页全文下载）

专知

29+阅读 · 2019年1月23日

36页最新《深度学习在推荐系统上的应用》综述论文，209篇参考论文

36页最新《深度学习在推荐系统上的应用》综述论文，209篇参考论文

专知

24+阅读 · 2018年9月6日

深度学习应用于网络空间安全所面临的十大问题与机遇

深度学习应用于网络空间安全所面临的十大问题与机遇

计算机研究与发展

22+阅读 · 2018年6月7日

基于信号理论和众包的社交媒体平台安全性和可信度群体评估方法研究

国家自然科学基金

0+阅读 · 2017年12月31日

面向网络系统的一致性安全隐私分析与防护机制设计

国家自然科学基金

2+阅读 · 2017年12月31日

多层动态网络的建模、群体动力学分析与控制

国家自然科学基金

3+阅读 · 2015年12月31日

复杂通信网络传输容量与级联效应安全防护综合研究

国家自然科学基金

0+阅读 · 2015年12月31日

复杂决策环境下面向共识的群体评价模型与方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

网络安全威胁踪源分析方法研究

国家自然科学基金

19+阅读 · 2015年12月31日

基于领域知识和链路预测的个性化推荐研究

国家自然科学基金

4+阅读 · 2014年12月31日

流程监控与评估中多元数据整合研究

国家自然科学基金

1+阅读 · 2014年12月31日

多域网络安全的异构策略语义形态与验证机制

国家自然科学基金

0+阅读 · 2014年12月31日

多语言大数据环境下的复杂网络行为分析、预测和干预

国家自然科学基金

4+阅读 · 2014年12月31日

ForesightSafety Bench: A Frontier Risk Evaluation and Governance Framework towards Safe AI

Arxiv

0+阅读 · 2月15日

Tutoring Large Language Models to be Domain-adaptive, Precise, and Safe

Arxiv

0+阅读 · 2月14日

From Fluent to Verifiable: Claim-Level Auditability for Deep Research Agents

Arxiv

0+阅读 · 2月14日

Provable FDR Control for Deep Feature Selection: Deep MLPs and Beyond

Arxiv

0+阅读 · 2月9日

AgentCPM-Report: Interleaving Drafting and Deepening for Open-Ended Deep Research

Arxiv

0+阅读 · 2月6日

Exploring Collaborative Immersive Visualization & Analytics for High-Dimensional Scientific Data through Domain Expert Perspectives

Arxiv

0+阅读 · 2月4日

Learning Query-Specific Rubrics from Human Preferences for DeepResearch Report Generation

Arxiv

0+阅读 · 2月3日

DeepResearch Bench II: Diagnosing Deep Research Agents via Rubrics from Expert Report

Arxiv

0+阅读 · 1月30日

Deep Researcher with Sequential Plan Reflection and Candidates Crossover (Deep Researcher Reflect Evolve)

Arxiv

0+阅读 · 1月28日

ReSearch: A Multi-Stage Machine Learning Framework for Earth Science Data Discovery

Arxiv

0+阅读 · 1月20日

VIP会员

文章信息

相关主题

最新内容

《COOL模型（行动循环圈）：军事领导体系中的战役层级变革流程》

《COOL模型（行动循环圈）：军事领导体系中的战役层级变革流程》

专知会员服务

7+阅读 · 4月20日

《系统簇式多域作战规划范畴论框架》

《系统簇式多域作战规划范畴论框架》

专知会员服务

5+阅读 · 4月20日

《美国防部指令6130.03，第2卷服役医疗标准：保留》

《美国防部指令6130.03，第2卷服役医疗标准：保留》

专知会员服务

3+阅读 · 4月20日

《美国防部指令6130.03，第1卷服役医疗标准：任命、征募或征召》

《美国防部指令6130.03，第1卷服役医疗标准：任命、征募或征召》

专知会员服务

2+阅读 · 4月20日

美空军“战场机载通信节点（BACN）”：美以对伊空战行动中隐形却关键的一环

美空军“战场机载通信节点（BACN）”：美以对伊空战行动中隐形却关键的一环

专知会员服务

3+阅读 · 4月20日

【CMU博士论文】面向非结构化环境下医疗急救的具身人工智能

【CMU博士论文】面向非结构化环境下医疗急救的具身人工智能

专知会员服务

2+阅读 · 4月20日

高效视频扩散模型：进展与挑战

高效视频扩散模型：进展与挑战

专知会员服务

2+阅读 · 4月20日

乌克兰前线的五项创新

乌克兰前线的五项创新

专知会员服务

7+阅读 · 4月20日

军事通信系统与设备的技术演进综述

军事通信系统与设备的技术演进综述

专知会员服务

5+阅读 · 4月20日

《北约 AI手册：作战人员的实用考量》（2026最新64页）

《北约 AI手册：作战人员的实用考量》（2026最新64页）

专知会员服务

9+阅读 · 4月20日

《北约标准：医疗评估手册》174页

《北约标准：医疗评估手册》174页

专知会员服务

5+阅读 · 4月20日

《提升生成模型的安全性与保障》博士论文

《提升生成模型的安全性与保障》博士论文

专知会员服务

5+阅读 · 4月20日

美国当前高超音速导弹发展概述

美国当前高超音速导弹发展概述

专知会员服务

4+阅读 · 4月19日

《高超音速武器：一项再度兴起的技术》120页slides

《高超音速武器：一项再度兴起的技术》120页slides

专知会员服务

14+阅读 · 4月19日

无人机蜂群建模与仿真方法

无人机蜂群建模与仿真方法

专知会员服务

14+阅读 · 4月19日

相关VIP内容

面向深度学习的后门攻击及防御研究综述

面向深度学习的后门攻击及防御研究综述

专知会员服务

12+阅读 · 2025年7月4日

DeepSeek模型在中文语境下的安全性评估

DeepSeek模型在中文语境下的安全性评估

专知会员服务

26+阅读 · 2025年2月21日

《针对网络安全中的预测和排名问题构建知识图谱和基于图谱的深度学习研究》2023最新17页报告

《针对网络安全中的预测和排名问题构建知识图谱和基于图谱的深度学习研究》2023最新17页报告

专知会员服务

31+阅读 · 2023年11月30日

【2023新书】网络安全中的对抗性深度学习:攻击分类，防御机制和学习理论

【2023新书】网络安全中的对抗性深度学习:攻击分类，防御机制和学习理论

专知会员服务

52+阅读 · 2023年3月16日

《打开黑盒：深度学习理论》最新报告，普林斯顿Sanjeev Arora教授，附ppt

《打开黑盒：深度学习理论》最新报告，普林斯顿Sanjeev Arora教授，附ppt

专知会员服务

74+阅读 · 2022年11月11日

《即时战略游戏和工业应用的安全深度强化学习》2022最新博士论文

《即时战略游戏和工业应用的安全深度强化学习》2022最新博士论文

专知会员服务

50+阅读 · 2022年9月2日

深度强化学习的攻防与安全性分析综述

深度强化学习的攻防与安全性分析综述

专知会员服务

27+阅读 · 2022年1月16日

最新《深度持续学习》综述论文，32页pdf

最新《深度持续学习》综述论文，32页pdf

专知会员服务

88+阅读 · 2020年9月6日

中科院信工所发布《深度学习系统的隐私与安全》综述论文，187篇文献总结

中科院信工所发布《深度学习系统的隐私与安全》综述论文，187篇文献总结

专知会员服务

103+阅读 · 2019年12月5日

【CCF优秀博士学位论文奖-2019】面向多种学习任务的深度生成模型，清华大学李崇轩

【CCF优秀博士学位论文奖-2019】面向多种学习任务的深度生成模型，清华大学李崇轩

专知会员服务

52+阅读 · 2019年11月8日

热门VIP内容

开通专知VIP会员享更多权益服务

《系统簇式多域作战规划范畴论框架》

《美国防部指令6130.03，第1卷服役医疗标准：任命、征募或征召》

《COOL模型（行动循环圈）：军事领导体系中的战役层级变革流程》

《美国防部指令6130.03，第2卷服役医疗标准：保留》

相关资讯

深度学习研究及军事应用综述

深度学习研究及军事应用综述

专知

29+阅读 · 2022年7月7日

最新最全《深度元学习》2021综述论文，68页pdf，A Survey of Deep Meta-Learning

最新最全《深度元学习》2021综述论文，68页pdf，A Survey of Deep Meta-Learning

专知

11+阅读 · 2021年4月23日

基于深度学习的数据融合方法研究综述

基于深度学习的数据融合方法研究综述

专知

37+阅读 · 2020年12月10日

深度学习模型可解释性的研究进展

深度学习模型可解释性的研究进展

专知

26+阅读 · 2020年8月1日

深度学习可解释性研究进展

深度学习可解释性研究进展

专知

19+阅读 · 2020年6月26日

基于深度学习的序列推荐系统：概念，算法与评估

基于深度学习的序列推荐系统：概念，算法与评估

专知

24+阅读 · 2019年6月6日

【学界】DeepMind论文：深度压缩感知，新框架提升GAN性能

【学界】DeepMind论文：深度压缩感知，新框架提升GAN性能

GAN生成式对抗网络

14+阅读 · 2019年5月23日

【论文综述】深度卷积神经网络架构最新进展综述（附60页全文下载）

【论文综述】深度卷积神经网络架构最新进展综述（附60页全文下载）

专知

29+阅读 · 2019年1月23日

36页最新《深度学习在推荐系统上的应用》综述论文，209篇参考论文

36页最新《深度学习在推荐系统上的应用》综述论文，209篇参考论文

专知

24+阅读 · 2018年9月6日

深度学习应用于网络空间安全所面临的十大问题与机遇

深度学习应用于网络空间安全所面临的十大问题与机遇

计算机研究与发展

22+阅读 · 2018年6月7日

相关论文

ForesightSafety Bench: A Frontier Risk Evaluation and Governance Framework towards Safe AI

Arxiv

0+阅读 · 2月15日

Tutoring Large Language Models to be Domain-adaptive, Precise, and Safe

Arxiv

0+阅读 · 2月14日

From Fluent to Verifiable: Claim-Level Auditability for Deep Research Agents

Arxiv

0+阅读 · 2月14日

Provable FDR Control for Deep Feature Selection: Deep MLPs and Beyond

Arxiv

0+阅读 · 2月9日

AgentCPM-Report: Interleaving Drafting and Deepening for Open-Ended Deep Research

Arxiv

0+阅读 · 2月6日

Exploring Collaborative Immersive Visualization & Analytics for High-Dimensional Scientific Data through Domain Expert Perspectives

Arxiv

0+阅读 · 2月4日

Learning Query-Specific Rubrics from Human Preferences for DeepResearch Report Generation

Arxiv

0+阅读 · 2月3日

DeepResearch Bench II: Diagnosing Deep Research Agents via Rubrics from Expert Report

Arxiv

0+阅读 · 1月30日

Deep Researcher with Sequential Plan Reflection and Candidates Crossover (Deep Researcher Reflect Evolve)

Arxiv

0+阅读 · 1月28日

ReSearch: A Multi-Stage Machine Learning Framework for Earth Science Data Discovery

Arxiv

0+阅读 · 1月20日

相关基金

基于信号理论和众包的社交媒体平台安全性和可信度群体评估方法研究

国家自然科学基金

0+阅读 · 2017年12月31日

面向网络系统的一致性安全隐私分析与防护机制设计

国家自然科学基金

2+阅读 · 2017年12月31日

多层动态网络的建模、群体动力学分析与控制

国家自然科学基金

3+阅读 · 2015年12月31日

复杂通信网络传输容量与级联效应安全防护综合研究

国家自然科学基金

0+阅读 · 2015年12月31日

复杂决策环境下面向共识的群体评价模型与方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

网络安全威胁踪源分析方法研究

国家自然科学基金

19+阅读 · 2015年12月31日

基于领域知识和链路预测的个性化推荐研究

国家自然科学基金

4+阅读 · 2014年12月31日

流程监控与评估中多元数据整合研究

国家自然科学基金

1+阅读 · 2014年12月31日

多域网络安全的异构策略语义形态与验证机制

国家自然科学基金

0+阅读 · 2014年12月31日

多语言大数据环境下的复杂网络行为分析、预测和干预

国家自然科学基金

4+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员