HarmRLVR: Weaponizing Verifiable Rewards for Harmful LLM Alignment - 专知论文

会员服务 ·

0

对齐 · 代码 · VR · 攻击 · 大模型对齐 ·

HarmRLVR: Weaponizing Verifiable Rewards for Harmful LLM Alignment

翻译：HarmRLVR：利用可验证奖励进行有害大模型对齐的武器化

Yuexiao Liu,Lijun Li,Xingjun Wang,Jing Shao

Recent advancements in Reinforcement Learning with Verifiable Rewards (RLVR) have gained significant attention due to their objective and verifiable reward signals, demonstrating strong performance in reasoning and code generation tasks. However, the potential safety risks associated with RLVR remain underexplored. This paper presents HarmRLVR, the first systematic investigation into the alignment reversibility risk of RLVR. We show that safety alignment can be rapidly reversed using GRPO with merely 64 harmful prompts without responses, causing models to readily comply with harmful instructions. Across five models from Llama, Qwen, and DeepSeek, we empirically demonstrate that RLVR-based attacks elevate the average harmfulness score to 4.94 with an attack success rate of 96.01\%, significantly outperforming harmful fine-tuning while preserving general capabilities. Our findings reveal that RLVR can be efficiently exploited for harmful alignment, posing serious threats to open-source model safety. Please see our code at https://github.com/lyxx2535/HarmRLVR.

翻译：近年来，基于可验证奖励的强化学习（RLVR）因其客观且可验证的奖励信号而受到广泛关注，在推理和代码生成任务中展现出强劲性能。然而，RLVR 的潜在安全风险仍未得到充分探索。本文提出了 HarmRLVR，这是首次对 RLVR 对齐可逆性风险进行的系统性研究。我们证明，仅使用 64 条无响应的有害提示，通过 GRPO 即可快速逆转安全对齐，导致模型轻易遵从有害指令。在 Llama、Qwen 和 DeepSeek 的五个模型上，我们的实验表明，基于 RLVR 的攻击将平均危害评分提升至 4.94，攻击成功率达到 96.01%，显著优于有害微调，同时保留了通用能力。我们的研究揭示，RLVR 可被高效地用于有害对齐，对开源模型安全构成严重威胁。相关代码请见 https://github.com/lyxx2535/HarmRLVR。

0

相关内容

《通过自然语言与强化学习奖励机制将军事条令与目标融入AI智能体》

《通过自然语言与强化学习奖励机制将军事条令与目标融入AI智能体》

专知会员服务

16+阅读 · 6月9日

【AAAI2026】善始则事半功倍：基于前缀优化的大语言模型推理强化学习

【AAAI2026】善始则事半功倍：基于前缀优化的大语言模型推理强化学习

专知会员服务

13+阅读 · 2025年12月19日

深度强化学习中的奖励模型：综述

深度强化学习中的奖励模型：综述

专知会员服务

29+阅读 · 2025年6月20日

【博士论文】强化学习智能体的奖励函数设计

【博士论文】强化学习智能体的奖励函数设计

专知会员服务

48+阅读 · 2025年4月8日

如何对齐学习？伯克利博士论文《人本主义奖励设计》，119页pdf阐述大模型中对齐人类输入设计

如何对齐学习？伯克利博士论文《人本主义奖励设计》，119页pdf阐述大模型中对齐人类输入设计

专知会员服务

47+阅读 · 2023年11月20日

战略战斗游戏中基于模糊XAI的形式化验证

战略战斗游戏中基于模糊XAI的形式化验证

专知会员服务

32+阅读 · 2023年11月1日

【CMU硕士论文】探索安全强化学习在序列决策制定中的应用

【CMU硕士论文】探索安全强化学习在序列决策制定中的应用

专知会员服务

29+阅读 · 2023年5月27日

【ICML2023】基于能量模型的奖励条件强化学习的贝叶斯重参数化

【ICML2023】基于能量模型的奖励条件强化学习的贝叶斯重参数化

专知会员服务

24+阅读 · 2023年5月23日

【密歇根大学博士论文】深度强化学习进展:内在奖励，时间信用分配，状态表示和价值等效模型

【密歇根大学博士论文】深度强化学习进展:内在奖励，时间信用分配，状态表示和价值等效模型

专知会员服务

36+阅读 · 2023年1月11日

《H4rm0ny：用于规避恶意软件生成和检测的多智能体学习的竞争性两人零和马尔可夫博弈》2022最新12页论文，加拿大国防研究与发展部

《H4rm0ny：用于规避恶意软件生成和检测的多智能体学习的竞争性两人零和马尔可夫博弈》2022最新12页论文，加拿大国防研究与发展部

专知会员服务

27+阅读 · 2022年10月26日

强化学习如何可解释？浙大最新《可解释强化学习》综述，37页pdf1阐述XRL概念、算法、挑战

强化学习如何可解释？浙大最新《可解释强化学习》综述，37页pdf1阐述XRL概念、算法、挑战

专知

10+阅读 · 2022年11月17日

推荐！【F16模型：符号系统、模型提取、异常检测和形式化方法】《利用符号表示实现安全可靠学习》美空军2022最新107页技术报告

推荐！【F16模型：符号系统、模型提取、异常检测和形式化方法】《利用符号表示实现安全可靠学习》美空军2022最新107页技术报告

专知

11+阅读 · 2022年11月3日

【牛津大学博士论文】元强化学习的快速自适应，217页pdf

【牛津大学博士论文】元强化学习的快速自适应，217页pdf

专知

30+阅读 · 2022年9月19日

基于模型的强化学习综述

基于模型的强化学习综述

专知

42+阅读 · 2022年7月13日

【NeurIPS 2020 Tutorial】离线强化学习:从算法到挑战，80页ppt

【NeurIPS 2020 Tutorial】离线强化学习:从算法到挑战，80页ppt

专知

16+阅读 · 2020年12月9日

强化学习《奖励函数设计: Reward Shaping》详细解读

强化学习《奖励函数设计: Reward Shaping》详细解读

深度强化学习实验室

20+阅读 · 2020年9月1日

【万字长文总结】如何解决"稀疏奖励(Sparse Reward)"下的强化学习问题？

【万字长文总结】如何解决"稀疏奖励(Sparse Reward)"下的强化学习问题？

深度强化学习实验室

43+阅读 · 2020年7月6日

超越 BERT 和 GPT，微软亚洲研究院开源新模型 MASS！

超越 BERT 和 GPT，微软亚洲研究院开源新模型 MASS！

雷锋网

10+阅读 · 2019年6月27日

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

新智元

12+阅读 · 2018年7月13日

【强化学习】强化学习/增强学习/再励学习介绍

【强化学习】强化学习/增强学习/再励学习介绍

产业智能官

10+阅读 · 2018年2月23日

面向网络虚拟化的网络层可信身份验证机制研究

国家自然科学基金

0+阅读 · 2017年12月31日

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

43+阅读 · 2015年12月31日

近似计算中基于概率图模型的软错误量化方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

大信号及宽带调制信号激励下AlGaN/GaN HEMT功率器件行为模型建模方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

Riemann-Hilbert 方法的一致渐近分析及其应用研究

国家自然科学基金

0+阅读 · 2015年12月31日

随机Kolmogorov型系统及其数值解的渐近性质分析

国家自然科学基金

0+阅读 · 2015年12月31日

流密码可约性高效判别算法存在性的研究

国家自然科学基金

0+阅读 · 2015年12月31日

多域网络安全的异构策略语义形态与验证机制

国家自然科学基金

0+阅读 · 2014年12月31日

数据和模型混合驱动的虚拟人群行为仿真技术研究及其在军事中的应用

国家自然科学基金

10+阅读 · 2011年12月31日

强化学习关键技术及其在机器人行为学习中的应用

国家自然科学基金

23+阅读 · 2009年12月31日

A Gradient Perspective on RLVR Stability and Winner Advantage Policy Optimization

Arxiv

0+阅读 · 6月15日

STRIDE: Strategic Trajectory Reasoning via Discriminative Estimation for Verifiable Reinforcement Learning

Arxiv

0+阅读 · 6月14日

Understanding Diversity Collapse in RLVR via the Lens of Overtraining

Arxiv

0+阅读 · 6月13日

ReSum: Synergizing LLM Reasoning and Summarization with Reinforcement Learning

Arxiv

0+阅读 · 6月11日

Improving Small Language Models for Code Generation with Reinforcement Learning from Verification Feedback

Arxiv

0+阅读 · 5月28日

OASES: Outcome-Aligned Search-Evaluation Co-Training for Agentic Search

Arxiv

0+阅读 · 5月23日

DelTA: Discriminative Token Credit Assignment for Reinforcement Learning from Verifiable Rewards

Arxiv

0+阅读 · 5月20日

PlexRL: Cluster-Level Orchestration of Serviceized LLM Execution for RLVR

Arxiv

0+阅读 · 5月20日

Rewarding Beliefs, Not Actions: Consistency-Guided Credit Assignment for Long-Horizon Agents

Arxiv

0+阅读 · 5月19日

On the optimization dynamics of RLVR: Gradient gap and step size thresholds

Arxiv

0+阅读 · 5月7日

VIP会员

文章信息

相关主题

大模型对齐

最新内容

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

专知会员服务

1+阅读 · 24分钟前

综述 | 世界动作模型：少做梦，多行动

综述 | 世界动作模型：少做梦，多行动

专知会员服务

1+阅读 · 26分钟前

美以伊冲突：无人机与人工智能的运用

美以伊冲突：无人机与人工智能的运用

专知会员服务

2+阅读 · 38分钟前

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

专知会员服务

3+阅读 · 49分钟前

《特种部队在透明战场中的生存力》最新报告

《特种部队在透明战场中的生存力》最新报告

专知会员服务

2+阅读 · 58分钟前

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

专知会员服务

2+阅读 · 今天14:07

《人工智能生成的零日漏洞：对未来作战的影响》

《人工智能生成的零日漏洞：对未来作战的影响》

专知会员服务

3+阅读 · 今天14:03

《理解伙伴国在防务能力选择中的偏好：探索美国解决方案的替代选择》美智库200页报告

《理解伙伴国在防务能力选择中的偏好：探索美国解决方案的替代选择》美智库200页报告

专知会员服务

2+阅读 · 今天13:59

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

专知会员服务

5+阅读 · 6月22日

综述 | 3D场景图：开放挑战与未来方向

综述 | 3D场景图：开放挑战与未来方向

专知会员服务

8+阅读 · 6月22日

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

专知会员服务

7+阅读 · 6月22日

21世纪的无人机战争

21世纪的无人机战争

专知会员服务

4+阅读 · 6月22日

《伊朗与以色列-美国热战及其对数字技术的影响》

《伊朗与以色列-美国热战及其对数字技术的影响》

专知会员服务

5+阅读 · 6月22日

《量子技术的军事任务技术适配与利用》

《量子技术的军事任务技术适配与利用》

专知会员服务

5+阅读 · 6月22日

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

专知会员服务

8+阅读 · 6月22日

相关VIP内容

《通过自然语言与强化学习奖励机制将军事条令与目标融入AI智能体》

《通过自然语言与强化学习奖励机制将军事条令与目标融入AI智能体》

专知会员服务

16+阅读 · 6月9日

【AAAI2026】善始则事半功倍：基于前缀优化的大语言模型推理强化学习

【AAAI2026】善始则事半功倍：基于前缀优化的大语言模型推理强化学习

专知会员服务

13+阅读 · 2025年12月19日

深度强化学习中的奖励模型：综述

深度强化学习中的奖励模型：综述

专知会员服务

29+阅读 · 2025年6月20日

【博士论文】强化学习智能体的奖励函数设计

【博士论文】强化学习智能体的奖励函数设计

专知会员服务

48+阅读 · 2025年4月8日

如何对齐学习？伯克利博士论文《人本主义奖励设计》，119页pdf阐述大模型中对齐人类输入设计

如何对齐学习？伯克利博士论文《人本主义奖励设计》，119页pdf阐述大模型中对齐人类输入设计

专知会员服务

47+阅读 · 2023年11月20日

战略战斗游戏中基于模糊XAI的形式化验证

战略战斗游戏中基于模糊XAI的形式化验证

专知会员服务

32+阅读 · 2023年11月1日

【CMU硕士论文】探索安全强化学习在序列决策制定中的应用

【CMU硕士论文】探索安全强化学习在序列决策制定中的应用

专知会员服务

29+阅读 · 2023年5月27日

【ICML2023】基于能量模型的奖励条件强化学习的贝叶斯重参数化

【ICML2023】基于能量模型的奖励条件强化学习的贝叶斯重参数化

专知会员服务

24+阅读 · 2023年5月23日

【密歇根大学博士论文】深度强化学习进展:内在奖励，时间信用分配，状态表示和价值等效模型

【密歇根大学博士论文】深度强化学习进展:内在奖励，时间信用分配，状态表示和价值等效模型

专知会员服务

36+阅读 · 2023年1月11日

《H4rm0ny：用于规避恶意软件生成和检测的多智能体学习的竞争性两人零和马尔可夫博弈》2022最新12页论文，加拿大国防研究与发展部

《H4rm0ny：用于规避恶意软件生成和检测的多智能体学习的竞争性两人零和马尔可夫博弈》2022最新12页论文，加拿大国防研究与发展部

专知会员服务

27+阅读 · 2022年10月26日

热门VIP内容

开通专知VIP会员享更多权益服务

综述 | 世界动作模型：少做梦，多行动

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

美以伊冲突：无人机与人工智能的运用

相关资讯

强化学习如何可解释？浙大最新《可解释强化学习》综述，37页pdf1阐述XRL概念、算法、挑战

强化学习如何可解释？浙大最新《可解释强化学习》综述，37页pdf1阐述XRL概念、算法、挑战

专知

10+阅读 · 2022年11月17日

推荐！【F16模型：符号系统、模型提取、异常检测和形式化方法】《利用符号表示实现安全可靠学习》美空军2022最新107页技术报告

推荐！【F16模型：符号系统、模型提取、异常检测和形式化方法】《利用符号表示实现安全可靠学习》美空军2022最新107页技术报告

专知

11+阅读 · 2022年11月3日

【牛津大学博士论文】元强化学习的快速自适应，217页pdf

【牛津大学博士论文】元强化学习的快速自适应，217页pdf

专知

30+阅读 · 2022年9月19日

基于模型的强化学习综述

基于模型的强化学习综述

专知

42+阅读 · 2022年7月13日

【NeurIPS 2020 Tutorial】离线强化学习:从算法到挑战，80页ppt

【NeurIPS 2020 Tutorial】离线强化学习:从算法到挑战，80页ppt

专知

16+阅读 · 2020年12月9日

强化学习《奖励函数设计: Reward Shaping》详细解读

强化学习《奖励函数设计: Reward Shaping》详细解读

深度强化学习实验室

20+阅读 · 2020年9月1日

【万字长文总结】如何解决"稀疏奖励(Sparse Reward)"下的强化学习问题？

【万字长文总结】如何解决"稀疏奖励(Sparse Reward)"下的强化学习问题？

深度强化学习实验室

43+阅读 · 2020年7月6日

超越 BERT 和 GPT，微软亚洲研究院开源新模型 MASS！

超越 BERT 和 GPT，微软亚洲研究院开源新模型 MASS！

雷锋网

10+阅读 · 2019年6月27日

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

新智元

12+阅读 · 2018年7月13日

【强化学习】强化学习/增强学习/再励学习介绍

【强化学习】强化学习/增强学习/再励学习介绍

产业智能官

10+阅读 · 2018年2月23日

相关论文

A Gradient Perspective on RLVR Stability and Winner Advantage Policy Optimization

Arxiv

0+阅读 · 6月15日

STRIDE: Strategic Trajectory Reasoning via Discriminative Estimation for Verifiable Reinforcement Learning

Arxiv

0+阅读 · 6月14日

Understanding Diversity Collapse in RLVR via the Lens of Overtraining

Arxiv

0+阅读 · 6月13日

ReSum: Synergizing LLM Reasoning and Summarization with Reinforcement Learning

Arxiv

0+阅读 · 6月11日

Improving Small Language Models for Code Generation with Reinforcement Learning from Verification Feedback

Arxiv

0+阅读 · 5月28日

OASES: Outcome-Aligned Search-Evaluation Co-Training for Agentic Search

Arxiv

0+阅读 · 5月23日

DelTA: Discriminative Token Credit Assignment for Reinforcement Learning from Verifiable Rewards

Arxiv

0+阅读 · 5月20日

PlexRL: Cluster-Level Orchestration of Serviceized LLM Execution for RLVR

Arxiv

0+阅读 · 5月20日

Rewarding Beliefs, Not Actions: Consistency-Guided Credit Assignment for Long-Horizon Agents

Arxiv

0+阅读 · 5月19日

On the optimization dynamics of RLVR: Gradient gap and step size thresholds

Arxiv

0+阅读 · 5月7日

相关基金

面向网络虚拟化的网络层可信身份验证机制研究

国家自然科学基金

0+阅读 · 2017年12月31日

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

43+阅读 · 2015年12月31日

近似计算中基于概率图模型的软错误量化方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

大信号及宽带调制信号激励下AlGaN/GaN HEMT功率器件行为模型建模方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

Riemann-Hilbert 方法的一致渐近分析及其应用研究

国家自然科学基金

0+阅读 · 2015年12月31日

随机Kolmogorov型系统及其数值解的渐近性质分析

国家自然科学基金

0+阅读 · 2015年12月31日

流密码可约性高效判别算法存在性的研究

国家自然科学基金

0+阅读 · 2015年12月31日

多域网络安全的异构策略语义形态与验证机制

国家自然科学基金

0+阅读 · 2014年12月31日

数据和模型混合驱动的虚拟人群行为仿真技术研究及其在军事中的应用

国家自然科学基金

10+阅读 · 2011年12月31日

强化学习关键技术及其在机器人行为学习中的应用

国家自然科学基金

23+阅读 · 2009年12月31日

微信扫码咨询专知VIP会员