SafeThinker: Reasoning about Risk to Deepen Safety Beyond Shallow Alignment - 专知论文

会员服务 ·

0

攻击 · 对齐 · 自适应 · 风险感知 · 防御机制 ·

SafeThinker: Reasoning about Risk to Deepen Safety Beyond Shallow Alignment

翻译：SafeThinker：基于风险推理深化超越浅层对齐的安全性

Xianya Fang,Xianying Luo,Yadong Wang,Xiang Chen,Yu Tian,Zequn Sun,Rui Liu,Jun Fang,Naiqiang Tan,Yuanning Cui,Sheng-Jun Huang

Despite the intrinsic risk-awareness of Large Language Models (LLMs), current defenses often result in shallow safety alignment, rendering models vulnerable to disguised attacks (e.g., prefilling) while degrading utility. To bridge this gap, we propose SafeThinker, an adaptive framework that dynamically allocates defensive resources via a lightweight gateway classifier. Based on the gateway's risk assessment, inputs are routed through three distinct mechanisms: (i) a Standardized Refusal Mechanism for explicit threats to maximize efficiency; (ii) a Safety-Aware Twin Expert (SATE) module to intercept deceptive attacks masquerading as benign queries; and (iii) a Distribution-Guided Think (DDGT) component that adaptively intervenes during uncertain generation. Experiments show that SafeThinker significantly lowers attack success rates across diverse jailbreak strategies without compromising utility, demonstrating that coordinating intrinsic judgment throughout the generation process effectively balances robustness and practicality.

翻译：尽管大型语言模型（LLMs）具有内在的风险感知能力，但现有防御机制往往导致浅层安全对齐，使模型易受伪装攻击（如预填充）的影响，同时降低其实用性。为弥合这一差距，我们提出SafeThinker——一种通过轻量级网关分类器动态分配防御资源的自适应框架。基于网关的风险评估，输入被路由至三种不同机制：（i）针对显式威胁的标准化拒绝机制，以最大化效率；（ii）安全感知孪生专家（SATE）模块，用于拦截伪装为良性查询的欺骗性攻击；（iii）分布引导思考（DDGT）组件，在不确定生成过程中进行自适应干预。实验表明，SafeThinker能显著降低多种越狱策略的攻击成功率，且不影响实用性，这证明在生成过程中协调内在判断能有效平衡鲁棒性与实用性。

0

相关内容

综述：面向移动端大语言模型的隐私与安全

综述：面向移动端大语言模型的隐私与安全

专知会员服务

19+阅读 · 2025年9月7日

【ICML2025】层级对齐：在视觉语言模型中检验图像编码器层的安全对齐

【ICML2025】层级对齐：在视觉语言模型中检验图像编码器层的安全对齐

专知会员服务

7+阅读 · 2025年5月2日

探索大型语言模型在网络安全中的作用：一项系统综述

探索大型语言模型在网络安全中的作用：一项系统综述

专知会员服务

21+阅读 · 2025年4月27日

《大型推理模型的安全性：综述》

《大型推理模型的安全性：综述》

专知会员服务

24+阅读 · 2025年4月25日

负责任的大型语言模型的综述：固有风险、恶意使用与缓解策略

负责任的大型语言模型的综述：固有风险、恶意使用与缓解策略

专知会员服务

15+阅读 · 2025年1月17日

158页！天大等最新《大型语言模型安全：全面综述》

158页！天大等最新《大型语言模型安全：全面综述》

专知会员服务

49+阅读 · 2024年12月24日

生成式人工智能大型语言模型的安全性：概述

生成式人工智能大型语言模型的安全性：概述

专知会员服务

35+阅读 · 2024年7月30日

大型语言模型网络安全综述

大型语言模型网络安全综述

专知会员服务

68+阅读 · 2024年5月12日

大模型如何应对安全性？清华等最新《大型语言模型系统的风险分类、缓解措施及评估基准》论文

大模型如何应对安全性？清华等最新《大型语言模型系统的风险分类、缓解措施及评估基准》论文

专知会员服务

49+阅读 · 2024年1月17日

大模型如何可信安全？利物浦大学最新《从验证和确认的角度综述大型语言模型的安全性和可信性》综述，全面阐述LLM安全性

大模型如何可信安全？利物浦大学最新《从验证和确认的角度综述大型语言模型的安全性和可信性》综述，全面阐述LLM安全性

专知会员服务

66+阅读 · 2023年5月30日

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

专知

25+阅读 · 2023年4月7日

推荐！《不确定性下的作战决策：推理、序贯和对抗性方法》美国空军293页博士论文，含代码

推荐！《不确定性下的作战决策：推理、序贯和对抗性方法》美国空军293页博士论文，含代码

专知

50+阅读 · 2022年11月16日

《用于网络防御的深度机器学习》【概念解读、事件简史、深度学习、面临挑战、军事应用】20余位作者2022最新126页技术报告

《用于网络防御的深度机器学习》【概念解读、事件简史、深度学习、面临挑战、军事应用】20余位作者2022最新126页技术报告

专知

11+阅读 · 2022年10月28日

【博士论文】《安全博弈中的分层规划：战略、战术和行动决策的博弈论方法》南加州大学

【博士论文】《安全博弈中的分层规划：战略、战术和行动决策的博弈论方法》南加州大学

专知

24+阅读 · 2022年9月25日

推荐！【中文版】《指挥、控制、通信和情报（C3I）系统安全性综述：漏洞、攻击和对策》35页最新论文

推荐！【中文版】《指挥、控制、通信和情报（C3I）系统安全性综述：漏洞、攻击和对策》35页最新论文

专知

41+阅读 · 2022年7月27日

【经典书】网络安全《移动目标防御 II：博弈论和对抗性建模的应用》210页

【经典书】网络安全《移动目标防御 II：博弈论和对抗性建模的应用》210页

专知

17+阅读 · 2022年4月16日

【ICML2020-南大周志华老师组】针对未见类未标记数据的安全深度半监督学习

【ICML2020-南大周志华老师组】针对未见类未标记数据的安全深度半监督学习

专知

46+阅读 · 2020年7月5日

中山大学发布最新《图对抗机器学习》2020综述论文，带你全面了解40+种攻防对抗学习方法

中山大学发布最新《图对抗机器学习》2020综述论文，带你全面了解40+种攻防对抗学习方法

专知

15+阅读 · 2020年3月13日

探秘各种主流周界安防技术产品

探秘各种主流周界安防技术产品

未来产业促进会

12+阅读 · 2018年11月16日

网络安全态势感知浅析

网络安全态势感知浅析

计算机与网络安全

18+阅读 · 2017年10月13日

复杂系统中多密码算法密钥协同安全研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于信道差异的物理层安全编码技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向安全关键系统的时间可预测多核代码生成方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

网络安全威胁踪源分析方法研究

国家自然科学基金

19+阅读 · 2015年12月31日

基于软件定义无线网络的虚拟多径攻击检测与防御技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于信道加密的物理层安全理论与方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于安全需求分析的内核保护方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

自然灾害风险的时空尺度效应分析与推绎技术研究—以农业旱灾风险为例

国家自然科学基金

0+阅读 · 2014年12月31日

复杂需求场景驱动的软件安全防护模型检测技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

隐写模糊安全性测度及其优化嵌入算法研究

国家自然科学基金

0+阅读 · 2014年12月31日

SafeNeuron: Neuron-Level Safety Alignment for Large Language Models

Arxiv

0+阅读 · 2月12日

DeepSight: An All-in-One LM Safety Toolkit

Arxiv

0+阅读 · 2月12日

Risk Awareness Injection: Calibrating Vision-Language Models for Safety without Compromising Utility

Arxiv

0+阅读 · 2月11日

Safety Subspaces are Not Linearly Distinct: A Fine-Tuning Case Study

Arxiv

0+阅读 · 2月9日

SafeDialBench: A Fine-Grained Safety Evaluation Benchmark for Large Language Models in Multi-Turn Dialogues with Diverse Jailbreak Attacks

Arxiv

0+阅读 · 2月7日

Beyond Static Alignment: Hierarchical Policy Control for LLM Safety via Risk-Aware Chain-of-Thought

Arxiv

0+阅读 · 2月6日

Defending Large Language Models Against Jailbreak Attacks via In-Decoding Safety-Awareness Probing

Arxiv

0+阅读 · 1月30日

TraceRouter: Robust Safety for Large Foundation Models via Path-Level Intervention

Arxiv

0+阅读 · 1月29日

Enhancing Model Defense Against Jailbreaks with Proactive Safety Reasoning

Arxiv

0+阅读 · 1月28日

Attributing and Exploiting Safety Vectors through Global Optimization in Large Language Models

Arxiv

0+阅读 · 1月22日

VIP会员

文章信息

相关主题

最新内容

《面向巡飞弹药系统的情境感知深度强化学习自主非线性机动控制》

《面向巡飞弹药系统的情境感知深度强化学习自主非线性机动控制》

专知会员服务

1+阅读 · 14分钟前

《深度强化学习在兵棋推演中的应用》40页报告

《深度强化学习在兵棋推演中的应用》40页报告

专知会员服务

1+阅读 · 41分钟前

《多域作战面临复杂现实》

《多域作战面临复杂现实》

专知会员服务

1+阅读 · 43分钟前

《印度的多域作战：条令与能力发展》报告

《印度的多域作战：条令与能力发展》报告

专知会员服务

0+阅读 · 54分钟前

《是“修复情报”还是修复部队？阿富汗反叛乱行动中的美军情报调整》400页

《是“修复情报”还是修复部队？阿富汗反叛乱行动中的美军情报调整》400页

专知会员服务

0+阅读 · 今天5:18

美军的算法化军备库：无人机优势计划（DDP）、复制者倡议（Replicator）与联合全域指挥控制（JADC2）如何重写战争规则

美军的算法化军备库：无人机优势计划（DDP）、复制者倡议（Replicator）与联合全域指挥控制（JADC2）如何重写战争规则

专知会员服务

0+阅读 · 今天3:25

（中文版）美空军部发布《空军部数据战略》与《人工智能战略》两份战略：旨在加速建立军事优势

（中文版）美空军部发布《空军部数据战略》与《人工智能战略》两份战略：旨在加速建立军事优势

专知会员服务

5+阅读 · 今天2:55

【斯坦福博士论文】语言模型的机械可解释性与控制

【斯坦福博士论文】语言模型的机械可解释性与控制

专知会员服务

2+阅读 · 4月23日

大语言模型智能体长期记忆安全性综述：迈向记忆主权

大语言模型智能体长期记忆安全性综述：迈向记忆主权

专知会员服务

1+阅读 · 4月23日

美军被摧毁的空战装备：伊朗战争如何重创美国空中力量

美军被摧毁的空战装备：伊朗战争如何重创美国空中力量

专知会员服务

4+阅读 · 4月23日

人工智能赋能无人机：俄乌战争（万字长文）

人工智能赋能无人机：俄乌战争（万字长文）

专知会员服务

6+阅读 · 4月23日

国外海军作战管理系统与作战训练系统

国外海军作战管理系统与作战训练系统

专知会员服务

3+阅读 · 4月23日

美军条令《海军陆战队规划流程（2026版）》

美军条令《海军陆战队规划流程（2026版）》

专知会员服务

10+阅读 · 4月23日

《压缩式分布式交互仿真标准》120页

《压缩式分布式交互仿真标准》120页

专知会员服务

4+阅读 · 4月23日

《电子战数据交换模型研究报告》

《电子战数据交换模型研究报告》

专知会员服务

6+阅读 · 4月23日

相关VIP内容

综述：面向移动端大语言模型的隐私与安全

综述：面向移动端大语言模型的隐私与安全

专知会员服务

19+阅读 · 2025年9月7日

【ICML2025】层级对齐：在视觉语言模型中检验图像编码器层的安全对齐

【ICML2025】层级对齐：在视觉语言模型中检验图像编码器层的安全对齐

专知会员服务

7+阅读 · 2025年5月2日

探索大型语言模型在网络安全中的作用：一项系统综述

探索大型语言模型在网络安全中的作用：一项系统综述

专知会员服务

21+阅读 · 2025年4月27日

《大型推理模型的安全性：综述》

《大型推理模型的安全性：综述》

专知会员服务

24+阅读 · 2025年4月25日

负责任的大型语言模型的综述：固有风险、恶意使用与缓解策略

负责任的大型语言模型的综述：固有风险、恶意使用与缓解策略

专知会员服务

15+阅读 · 2025年1月17日

158页！天大等最新《大型语言模型安全：全面综述》

158页！天大等最新《大型语言模型安全：全面综述》

专知会员服务

49+阅读 · 2024年12月24日

生成式人工智能大型语言模型的安全性：概述

生成式人工智能大型语言模型的安全性：概述

专知会员服务

35+阅读 · 2024年7月30日

大型语言模型网络安全综述

大型语言模型网络安全综述

专知会员服务

68+阅读 · 2024年5月12日

大模型如何应对安全性？清华等最新《大型语言模型系统的风险分类、缓解措施及评估基准》论文

大模型如何应对安全性？清华等最新《大型语言模型系统的风险分类、缓解措施及评估基准》论文

专知会员服务

49+阅读 · 2024年1月17日

大模型如何可信安全？利物浦大学最新《从验证和确认的角度综述大型语言模型的安全性和可信性》综述，全面阐述LLM安全性

大模型如何可信安全？利物浦大学最新《从验证和确认的角度综述大型语言模型的安全性和可信性》综述，全面阐述LLM安全性

专知会员服务

66+阅读 · 2023年5月30日

热门VIP内容

开通专知VIP会员享更多权益服务

《深度强化学习在兵棋推演中的应用》40页报告

《印度的多域作战：条令与能力发展》报告

《面向巡飞弹药系统的情境感知深度强化学习自主非线性机动控制》

《多域作战面临复杂现实》

相关资讯

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

专知

25+阅读 · 2023年4月7日

推荐！《不确定性下的作战决策：推理、序贯和对抗性方法》美国空军293页博士论文，含代码

推荐！《不确定性下的作战决策：推理、序贯和对抗性方法》美国空军293页博士论文，含代码

专知

50+阅读 · 2022年11月16日

《用于网络防御的深度机器学习》【概念解读、事件简史、深度学习、面临挑战、军事应用】20余位作者2022最新126页技术报告

《用于网络防御的深度机器学习》【概念解读、事件简史、深度学习、面临挑战、军事应用】20余位作者2022最新126页技术报告

专知

11+阅读 · 2022年10月28日

【博士论文】《安全博弈中的分层规划：战略、战术和行动决策的博弈论方法》南加州大学

【博士论文】《安全博弈中的分层规划：战略、战术和行动决策的博弈论方法》南加州大学

专知

24+阅读 · 2022年9月25日

推荐！【中文版】《指挥、控制、通信和情报（C3I）系统安全性综述：漏洞、攻击和对策》35页最新论文

推荐！【中文版】《指挥、控制、通信和情报（C3I）系统安全性综述：漏洞、攻击和对策》35页最新论文

专知

41+阅读 · 2022年7月27日

【经典书】网络安全《移动目标防御 II：博弈论和对抗性建模的应用》210页

【经典书】网络安全《移动目标防御 II：博弈论和对抗性建模的应用》210页

专知

17+阅读 · 2022年4月16日

【ICML2020-南大周志华老师组】针对未见类未标记数据的安全深度半监督学习

【ICML2020-南大周志华老师组】针对未见类未标记数据的安全深度半监督学习

专知

46+阅读 · 2020年7月5日

中山大学发布最新《图对抗机器学习》2020综述论文，带你全面了解40+种攻防对抗学习方法

中山大学发布最新《图对抗机器学习》2020综述论文，带你全面了解40+种攻防对抗学习方法

专知

15+阅读 · 2020年3月13日

探秘各种主流周界安防技术产品

探秘各种主流周界安防技术产品

未来产业促进会

12+阅读 · 2018年11月16日

网络安全态势感知浅析

网络安全态势感知浅析

计算机与网络安全

18+阅读 · 2017年10月13日

相关论文

SafeNeuron: Neuron-Level Safety Alignment for Large Language Models

Arxiv

0+阅读 · 2月12日

DeepSight: An All-in-One LM Safety Toolkit

Arxiv

0+阅读 · 2月12日

Risk Awareness Injection: Calibrating Vision-Language Models for Safety without Compromising Utility

Arxiv

0+阅读 · 2月11日

Safety Subspaces are Not Linearly Distinct: A Fine-Tuning Case Study

Arxiv

0+阅读 · 2月9日

SafeDialBench: A Fine-Grained Safety Evaluation Benchmark for Large Language Models in Multi-Turn Dialogues with Diverse Jailbreak Attacks

Arxiv

0+阅读 · 2月7日

Beyond Static Alignment: Hierarchical Policy Control for LLM Safety via Risk-Aware Chain-of-Thought

Arxiv

0+阅读 · 2月6日

Defending Large Language Models Against Jailbreak Attacks via In-Decoding Safety-Awareness Probing

Arxiv

0+阅读 · 1月30日

TraceRouter: Robust Safety for Large Foundation Models via Path-Level Intervention

Arxiv

0+阅读 · 1月29日

Enhancing Model Defense Against Jailbreaks with Proactive Safety Reasoning

Arxiv

0+阅读 · 1月28日

Attributing and Exploiting Safety Vectors through Global Optimization in Large Language Models

Arxiv

0+阅读 · 1月22日

相关基金

复杂系统中多密码算法密钥协同安全研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于信道差异的物理层安全编码技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向安全关键系统的时间可预测多核代码生成方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

网络安全威胁踪源分析方法研究

国家自然科学基金

19+阅读 · 2015年12月31日

基于软件定义无线网络的虚拟多径攻击检测与防御技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于信道加密的物理层安全理论与方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于安全需求分析的内核保护方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

自然灾害风险的时空尺度效应分析与推绎技术研究—以农业旱灾风险为例

国家自然科学基金

0+阅读 · 2014年12月31日

复杂需求场景驱动的软件安全防护模型检测技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

隐写模糊安全性测度及其优化嵌入算法研究

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员