Safety Recovery in Reasoning Models Is Only a Few Early Steering Steps Away - 专知论文

会员服务 ·

0

推理模型 · 越狱 · 多模 · 模态 · 约束 ·

Safety Recovery in Reasoning Models Is Only a Few Early Steering Steps Away

翻译：安全恢复距离推理模型仅需数步早期引导

Soumya Suvra Ghosal,Souradip Chakraborty,Vaibhav Singh,Furong Huang,Dinesh Manocha,Amrit Singh Bedi

Reinforcement learning (RL) based post-training for explicit chain-of-thought (e.g., GRPO) improves the reasoning ability of multimodal large-scale reasoning models (MLRMs). But recent evidence shows that it can simultaneously degrade safety alignment and increase jailbreak success rates. We propose SafeThink, a lightweight inference-time defense that treats safety recovery as a satisficing constraint rather than a maximization objective. SafeThink monitors the evolving reasoning trace with a safety reward model and conditionally injects an optimized short corrective prefix ("Wait, think safely") only when the safety threshold is violated. In our evaluations across six open-source MLRMs and four jailbreak benchmarks (JailbreakV-28K, Hades, FigStep, and MM-SafetyBench), SafeThink reduces attack success rates by 30-60% (e.g., LlamaV-o1: 63.33% to 5.74% on JailbreakV-28K, R1-Onevision: 69.07% to 5.65% on Hades) while preserving reasoning performance (MathVista accuracy: 65.20% to 65.00%). A key empirical finding from our experiments is that safety recovery is often only a few steering steps away: intervening in the first 1-3 reasoning steps typically suffices to redirect the full generation toward safe completions.

翻译：基于强化学习（RL）的显式思维链（例如GRPO）后训练提升了多模态大规模推理模型（MLRMs）的推理能力。但近期研究表明，该方法可能同时削弱安全对齐并提高越狱成功率。我们提出SafeThink——一种轻量级推理时防御方法，将安全恢复视为满足性约束而非最大化目标。SafeThink通过安全奖励模型监控演化的推理轨迹，仅在安全阈值被违反时有条件地注入优化的简短纠正前缀（"Wait, think safely"）。我们在六个开源MLRM和四个越狱基准（JailbreakV-28K、Hades、FigStep与MM-SafetyBench）上的评估显示，SafeThink将攻击成功率降低30-60%（例如LlamaV-o1在JailbreakV-28K上从63.33%降至5.74%，R1-Onevision在Hades上从69.07%降至5.65%），同时保持推理性能（MathVista准确率：65.20%至65.00%）。实验中的关键实证发现是：安全恢复通常仅需数步引导——在前1-3个推理步骤进行干预，通常足以将完整生成过程重定向至安全结果。

0

相关内容

推理模型

【ICLR2026】缩放推理步数暴露短板：揭示并提升大语言模型中的步数泛化能力

【ICLR2026】缩放推理步数暴露短板：揭示并提升大语言模型中的步数泛化能力

专知会员服务

10+阅读 · 2月1日

迈向大推理模型的机理理解：关于训练、推理及失效模式的综述

迈向大推理模型的机理理解：关于训练、推理及失效模式的综述

专知会员服务

17+阅读 · 1月29日

【AAAI2026】善始则事半功倍：基于前缀优化的大语言模型推理强化学习

【AAAI2026】善始则事半功倍：基于前缀优化的大语言模型推理强化学习

专知会员服务

13+阅读 · 2025年12月19日

从感知到推理：深度思考赋能多模态大语言模型

从感知到推理：深度思考赋能多模态大语言模型

专知会员服务

25+阅读 · 2025年11月19日

《大型推理模型的安全性：综述》

《大型推理模型的安全性：综述》

专知会员服务

24+阅读 · 2025年4月25日

停止过度思考：大型语言模型高效推理研究综述

停止过度思考：大型语言模型高效推理研究综述

专知会员服务

37+阅读 · 2025年3月21日

Vision-R1：激励多模态大语言模型中的推理能力

Vision-R1：激励多模态大语言模型中的推理能力

专知会员服务

24+阅读 · 2025年3月12日

北京大学：2025年DeepSeek-R1/Kimi 1.5及类强推理模型开发解读报告｜附76页文件下载

北京大学：2025年DeepSeek-R1/Kimi 1.5及类强推理模型开发解读报告｜附76页文件下载

专知会员服务

48+阅读 · 2025年3月6日

如何构建安全深度模型？《数据高效、接地、安全的深度模型》Jay Thiagarajan，50页ppt

如何构建安全深度模型？《数据高效、接地、安全的深度模型》Jay Thiagarajan，50页ppt

专知会员服务

31+阅读 · 2022年10月4日

英国国防科技实验室最新论文《知识表示与推理在国防中的应用》，Knowledge Representation and Reasoning for Defence

英国国防科技实验室最新论文《知识表示与推理在国防中的应用》，Knowledge Representation and Reasoning for Defence

专知会员服务

77+阅读 · 2022年4月5日

【牛津大学博士论文】元强化学习的快速自适应，217页pdf

【牛津大学博士论文】元强化学习的快速自适应，217页pdf

专知

30+阅读 · 2022年9月19日

基于模型的强化学习综述

基于模型的强化学习综述

专知

42+阅读 · 2022年7月13日

注意力机制 | 图卷积多跳注意力机制 | Direct multi-hop Attention based GNN

注意力机制 | 图卷积多跳注意力机制 | Direct multi-hop Attention based GNN

AINLP

22+阅读 · 2020年11月29日

通过集成 XNNPACK 实现推理速度飞跃

通过集成 XNNPACK 实现推理速度飞跃

TensorFlow

26+阅读 · 2020年7月30日

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

专知

21+阅读 · 2019年11月14日

预训练语言模型关系图+必读论文列表，清华荣誉出品

预训练语言模型关系图+必读论文列表，清华荣誉出品

机器之心

18+阅读 · 2019年10月11日

成熟的目标检测，也该自己学习数据增强策略达到SOTA了

成熟的目标检测，也该自己学习数据增强策略达到SOTA了

机器之心

17+阅读 · 2019年6月28日

【CVPR2018】如何增强Attention Model的推理能力

【CVPR2018】如何增强Attention Model的推理能力

专知

15+阅读 · 2018年7月2日

【机器学习基本理论】详解最大似然估计（MLE）、最大后验概率估计（MAP），以及贝叶斯公式的理解

【机器学习基本理论】详解最大似然估计（MLE）、最大后验概率估计（MAP），以及贝叶斯公式的理解

机器学习研究会

19+阅读 · 2018年3月11日

模型汇总24 - 深度学习中Attention Mechanism详细介绍：原理、分类及应用

模型汇总24 - 深度学习中Attention Mechanism详细介绍：原理、分类及应用

深度学习与NLP

12+阅读 · 2017年11月30日

理性安全两方计算协议设计与安全性证明

国家自然科学基金

0+阅读 · 2015年12月31日

公钥密码体制的格分析方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向安全关键系统的时间可预测多核代码生成方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

网络安全威胁踪源分析方法研究

国家自然科学基金

19+阅读 · 2015年12月31日

线性时序关系下推理的概率计量化模型

国家自然科学基金

0+阅读 · 2014年12月31日

复杂需求场景驱动的软件安全防护模型检测技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于自适应模型检测的安全协议自动建模与设计研究

国家自然科学基金

1+阅读 · 2014年12月31日

隐写模糊安全性测度及其优化嵌入算法研究

国家自然科学基金

0+阅读 · 2014年12月31日

随机排队网络的强逼近及其相关渐近分析

国家自然科学基金

0+阅读 · 2014年12月31日

基于贝叶斯推理的模糊逻辑强化学习模型研究

国家自然科学基金

18+阅读 · 2012年12月31日

SFCoT: Safer Chain-of-Thought via Active Safety Evaluation and Calibration

SFCoT: Safer Chain-of-Thought via Active Safety Evaluation and Calibration

Arxiv

0+阅读 · 3月16日

Stepwise Guided Policy Optimization: Coloring your Incorrect Reasoning in GRPO

Arxiv

0+阅读 · 3月10日

Towards Safe Reasoning in Large Reasoning Models via Corrective Intervention

Arxiv

0+阅读 · 2月28日

Safe Reinforcement Learning via Recovery-based Shielding with Gaussian Process Dynamics Models

Arxiv

0+阅读 · 2月17日

FaithRL: Learning to Reason Faithfully through Step-Level Faithfulness Maximization

Arxiv

0+阅读 · 2月12日

Advancing General-Purpose Reasoning Models with Modular Gradient Surgery

Arxiv

0+阅读 · 2月10日

Safety Subspaces are Not Linearly Distinct: A Fine-Tuning Case Study

Arxiv

0+阅读 · 2月9日

Safe Exploration via Policy Priors

Arxiv

0+阅读 · 2月8日

RAPO: Risk-Aware Preference Optimization for Generalizable Safe Reasoning

Arxiv

0+阅读 · 2月4日

THINKSAFE: Self-Generated Safety Alignment for Reasoning Models

Arxiv

0+阅读 · 1月30日

VIP会员

文章信息

相关主题

最新内容

《COOL模型（行动循环圈）：军事领导体系中的战役层级变革流程》

《COOL模型（行动循环圈）：军事领导体系中的战役层级变革流程》

专知会员服务

7+阅读 · 4月20日

《系统簇式多域作战规划范畴论框架》

《系统簇式多域作战规划范畴论框架》

专知会员服务

3+阅读 · 4月20日

《美国防部指令6130.03，第2卷服役医疗标准：保留》

《美国防部指令6130.03，第2卷服役医疗标准：保留》

专知会员服务

3+阅读 · 4月20日

《美国防部指令6130.03，第1卷服役医疗标准：任命、征募或征召》

《美国防部指令6130.03，第1卷服役医疗标准：任命、征募或征召》

专知会员服务

2+阅读 · 4月20日

美空军“战场机载通信节点（BACN）”：美以对伊空战行动中隐形却关键的一环

美空军“战场机载通信节点（BACN）”：美以对伊空战行动中隐形却关键的一环

专知会员服务

3+阅读 · 4月20日

【CMU博士论文】面向非结构化环境下医疗急救的具身人工智能

【CMU博士论文】面向非结构化环境下医疗急救的具身人工智能

专知会员服务

1+阅读 · 4月20日

高效视频扩散模型：进展与挑战

高效视频扩散模型：进展与挑战

专知会员服务

1+阅读 · 4月20日

乌克兰前线的五项创新

乌克兰前线的五项创新

专知会员服务

7+阅读 · 4月20日

军事通信系统与设备的技术演进综述

军事通信系统与设备的技术演进综述

专知会员服务

5+阅读 · 4月20日

《北约 AI手册：作战人员的实用考量》（2026最新64页）

《北约 AI手册：作战人员的实用考量》（2026最新64页）

专知会员服务

9+阅读 · 4月20日

《北约标准：医疗评估手册》174页

《北约标准：医疗评估手册》174页

专知会员服务

5+阅读 · 4月20日

《提升生成模型的安全性与保障》博士论文

《提升生成模型的安全性与保障》博士论文

专知会员服务

5+阅读 · 4月20日

美国当前高超音速导弹发展概述

美国当前高超音速导弹发展概述

专知会员服务

4+阅读 · 4月19日

《高超音速武器：一项再度兴起的技术》120页slides

《高超音速武器：一项再度兴起的技术》120页slides

专知会员服务

13+阅读 · 4月19日

无人机蜂群建模与仿真方法

无人机蜂群建模与仿真方法

专知会员服务

14+阅读 · 4月19日

相关VIP内容

【ICLR2026】缩放推理步数暴露短板：揭示并提升大语言模型中的步数泛化能力

【ICLR2026】缩放推理步数暴露短板：揭示并提升大语言模型中的步数泛化能力

专知会员服务

10+阅读 · 2月1日

迈向大推理模型的机理理解：关于训练、推理及失效模式的综述

迈向大推理模型的机理理解：关于训练、推理及失效模式的综述

专知会员服务

17+阅读 · 1月29日

【AAAI2026】善始则事半功倍：基于前缀优化的大语言模型推理强化学习

【AAAI2026】善始则事半功倍：基于前缀优化的大语言模型推理强化学习

专知会员服务

13+阅读 · 2025年12月19日

从感知到推理：深度思考赋能多模态大语言模型

从感知到推理：深度思考赋能多模态大语言模型

专知会员服务

25+阅读 · 2025年11月19日

《大型推理模型的安全性：综述》

《大型推理模型的安全性：综述》

专知会员服务

24+阅读 · 2025年4月25日

停止过度思考：大型语言模型高效推理研究综述

停止过度思考：大型语言模型高效推理研究综述

专知会员服务

37+阅读 · 2025年3月21日

Vision-R1：激励多模态大语言模型中的推理能力

Vision-R1：激励多模态大语言模型中的推理能力

专知会员服务

24+阅读 · 2025年3月12日

北京大学：2025年DeepSeek-R1/Kimi 1.5及类强推理模型开发解读报告｜附76页文件下载

北京大学：2025年DeepSeek-R1/Kimi 1.5及类强推理模型开发解读报告｜附76页文件下载

专知会员服务

48+阅读 · 2025年3月6日

如何构建安全深度模型？《数据高效、接地、安全的深度模型》Jay Thiagarajan，50页ppt

如何构建安全深度模型？《数据高效、接地、安全的深度模型》Jay Thiagarajan，50页ppt

专知会员服务

31+阅读 · 2022年10月4日

英国国防科技实验室最新论文《知识表示与推理在国防中的应用》，Knowledge Representation and Reasoning for Defence

英国国防科技实验室最新论文《知识表示与推理在国防中的应用》，Knowledge Representation and Reasoning for Defence

专知会员服务

77+阅读 · 2022年4月5日

热门VIP内容

开通专知VIP会员享更多权益服务

《系统簇式多域作战规划范畴论框架》

《美国防部指令6130.03，第1卷服役医疗标准：任命、征募或征召》

《COOL模型（行动循环圈）：军事领导体系中的战役层级变革流程》

《美国防部指令6130.03，第2卷服役医疗标准：保留》

相关资讯

【牛津大学博士论文】元强化学习的快速自适应，217页pdf

【牛津大学博士论文】元强化学习的快速自适应，217页pdf

专知

30+阅读 · 2022年9月19日

基于模型的强化学习综述

基于模型的强化学习综述

专知

42+阅读 · 2022年7月13日

注意力机制 | 图卷积多跳注意力机制 | Direct multi-hop Attention based GNN

注意力机制 | 图卷积多跳注意力机制 | Direct multi-hop Attention based GNN

AINLP

22+阅读 · 2020年11月29日

通过集成 XNNPACK 实现推理速度飞跃

通过集成 XNNPACK 实现推理速度飞跃

TensorFlow

26+阅读 · 2020年7月30日

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

专知

21+阅读 · 2019年11月14日

预训练语言模型关系图+必读论文列表，清华荣誉出品

预训练语言模型关系图+必读论文列表，清华荣誉出品

机器之心

18+阅读 · 2019年10月11日

成熟的目标检测，也该自己学习数据增强策略达到SOTA了

成熟的目标检测，也该自己学习数据增强策略达到SOTA了

机器之心

17+阅读 · 2019年6月28日

【CVPR2018】如何增强Attention Model的推理能力

【CVPR2018】如何增强Attention Model的推理能力

专知

15+阅读 · 2018年7月2日

【机器学习基本理论】详解最大似然估计（MLE）、最大后验概率估计（MAP），以及贝叶斯公式的理解

【机器学习基本理论】详解最大似然估计（MLE）、最大后验概率估计（MAP），以及贝叶斯公式的理解

机器学习研究会

19+阅读 · 2018年3月11日

模型汇总24 - 深度学习中Attention Mechanism详细介绍：原理、分类及应用

模型汇总24 - 深度学习中Attention Mechanism详细介绍：原理、分类及应用

深度学习与NLP

12+阅读 · 2017年11月30日

相关论文

SFCoT: Safer Chain-of-Thought via Active Safety Evaluation and Calibration

SFCoT: Safer Chain-of-Thought via Active Safety Evaluation and Calibration

Arxiv

0+阅读 · 3月16日

Stepwise Guided Policy Optimization: Coloring your Incorrect Reasoning in GRPO

Arxiv

0+阅读 · 3月10日

Towards Safe Reasoning in Large Reasoning Models via Corrective Intervention

Arxiv

0+阅读 · 2月28日

Safe Reinforcement Learning via Recovery-based Shielding with Gaussian Process Dynamics Models

Arxiv

0+阅读 · 2月17日

FaithRL: Learning to Reason Faithfully through Step-Level Faithfulness Maximization

Arxiv

0+阅读 · 2月12日

Advancing General-Purpose Reasoning Models with Modular Gradient Surgery

Arxiv

0+阅读 · 2月10日

Safety Subspaces are Not Linearly Distinct: A Fine-Tuning Case Study

Arxiv

0+阅读 · 2月9日

Safe Exploration via Policy Priors

Arxiv

0+阅读 · 2月8日

RAPO: Risk-Aware Preference Optimization for Generalizable Safe Reasoning

Arxiv

0+阅读 · 2月4日

THINKSAFE: Self-Generated Safety Alignment for Reasoning Models

Arxiv

0+阅读 · 1月30日

相关基金

理性安全两方计算协议设计与安全性证明

国家自然科学基金

0+阅读 · 2015年12月31日

公钥密码体制的格分析方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向安全关键系统的时间可预测多核代码生成方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

网络安全威胁踪源分析方法研究

国家自然科学基金

19+阅读 · 2015年12月31日

线性时序关系下推理的概率计量化模型

国家自然科学基金

0+阅读 · 2014年12月31日

复杂需求场景驱动的软件安全防护模型检测技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于自适应模型检测的安全协议自动建模与设计研究

国家自然科学基金

1+阅读 · 2014年12月31日

隐写模糊安全性测度及其优化嵌入算法研究

国家自然科学基金

0+阅读 · 2014年12月31日

随机排队网络的强逼近及其相关渐近分析

国家自然科学基金

0+阅读 · 2014年12月31日

基于贝叶斯推理的模糊逻辑强化学习模型研究

国家自然科学基金

18+阅读 · 2012年12月31日

微信扫码咨询专知VIP会员