Analysing the Safety Pitfalls of Steering Vectors - 专知论文

会员服务 ·

0

攻击 · 语言模型 · 分析 · 大语言模型 · 塑造 ·

Analysing the Safety Pitfalls of Steering Vectors

翻译：分析引导向量的安全陷阱

Yuxiao Li,Alina Fastowski,Efstratios Zaradoukas,Bardh Prenkaj,Gjergji Kasneci

Activation steering has emerged as a powerful tool to shape LLM behavior without the need for weight updates. While its inherent brittleness and unreliability are well-documented, its safety implications remain underexplored. In this work, we present a systematic safety audit of steering vectors obtained with Contrastive Activation Addition (CAA), a widely used steering approach, under a unified evaluation protocol. Using JailbreakBench as benchmark, we show that steering vectors consistently influence the success rate of jailbreak attacks, with stronger amplification under simple template-based attacks. Across LLM families and sizes, steering the model in specific directions can drastically increase (up to 57%) or decrease (up to 50%) its attack success rate (ASR), depending on the targeted behavior. We attribute this phenomenon to the overlap between the steering vectors and the latent directions of refusal behavior. Thus, we offer a traceable explanation for this discovery. Together, our findings reveal the previously unobserved origin of this safety gap in LLMs, highlighting a trade-off between controllability and safety.

翻译：激活引导已成为一种无需权重更新即可塑造大型语言模型行为的强大工具。尽管其固有的脆弱性和不可靠性已有充分记录，但其安全影响仍未得到充分探索。在本文中，我们采用统一评估协议，对基于对比激活加法这一广泛使用的引导方法所获得的引导向量进行了系统性安全审计。以JailbreakBench为基准，我们表明引导向量持续影响越狱攻击的成功率，且在简单模板攻击下放大效应更为显著。在不同系列和规模的大型语言模型中，将模型引导至特定方向，可大幅提升（高达57%）或降低（高达50%）其攻击成功率，具体效果取决于目标行为。我们将此现象归因于引导向量与拒绝行为潜在方向之间的重叠。因此，我们为此发现提供了可追溯的解释。综上，我们的研究揭示了大型语言模型中此前未被观测到的安全差距根源，凸显了可控性与安全性之间的权衡。

0

相关内容

《提升生成模型的安全性与保障》博士论文

《提升生成模型的安全性与保障》博士论文

专知会员服务

12+阅读 · 4月20日

【ICLR2025】用于大型语言模型对齐的差分隐私引导

【ICLR2025】用于大型语言模型对齐的差分隐私引导

专知会员服务

9+阅读 · 2025年1月31日

《重新思考网络安全决策：在不确定情况下利用认知启发法》2024最新论文

《重新思考网络安全决策：在不确定情况下利用认知启发法》2024最新论文

专知会员服务

27+阅读 · 2024年2月1日

大模型如何应对安全性？清华等最新《大型语言模型系统的风险分类、缓解措施及评估基准》论文

大模型如何应对安全性？清华等最新《大型语言模型系统的风险分类、缓解措施及评估基准》论文

专知会员服务

49+阅读 · 2024年1月17日

《理解、评估和缓解人工智能系统中的安全风险》美海军67页论文

《理解、评估和缓解人工智能系统中的安全风险》美海军67页论文

专知会员服务

53+阅读 · 2023年3月25日

【伯克利博士论文】机器学习安全性，172页pdf

【伯克利博士论文】机器学习安全性，172页pdf

专知会员服务

38+阅读 · 2022年12月6日

【NeurIPS2022】可解释机器学习的安全性:一种最大偏差方法

【NeurIPS2022】可解释机器学习的安全性:一种最大偏差方法

专知会员服务

24+阅读 · 2022年11月8日

如何构建安全深度模型？《数据高效、接地、安全的深度模型》Jay Thiagarajan，50页ppt

如何构建安全深度模型？《数据高效、接地、安全的深度模型》Jay Thiagarajan，50页ppt

专知会员服务

31+阅读 · 2022年10月4日

因果如何用于推荐？清华等最新《推荐系统中的因果推理》综述论文，29页pdf阐述因果推荐方法体系

因果如何用于推荐？清华等最新《推荐系统中的因果推理》综述论文，29页pdf阐述因果推荐方法体系

专知会员服务

48+阅读 · 2022年8月31日

【清华大学】Delta调优:预训练语言模型参数有效方法的综合研究，Delta Tuning: A Comprehensive Study of Parameter Efficient Methods for Pre-trained Language Models

【清华大学】Delta调优:预训练语言模型参数有效方法的综合研究，Delta Tuning: A Comprehensive Study of Parameter Efficient Methods for Pre-trained Language Models

专知会员服务

26+阅读 · 2022年3月15日

【博士论文】《安全博弈中的分层规划：战略、战术和行动决策的博弈论方法》南加州大学

【博士论文】《安全博弈中的分层规划：战略、战术和行动决策的博弈论方法》南加州大学

专知

24+阅读 · 2022年9月25日

推荐！【中文版】《指挥、控制、通信和情报（C3I）系统安全性综述：漏洞、攻击和对策》35页最新论文

推荐！【中文版】《指挥、控制、通信和情报（C3I）系统安全性综述：漏洞、攻击和对策》35页最新论文

专知

43+阅读 · 2022年7月27日

最新最权威《深度学习显著目标检测综述》论文代码数据发布，带你全面了解显著目标检测方法

最新最权威《深度学习显著目标检测综述》论文代码数据发布，带你全面了解显著目标检测方法

专知

79+阅读 · 2019年4月24日

36页最新《深度学习在推荐系统上的应用》综述论文，209篇参考论文

36页最新《深度学习在推荐系统上的应用》综述论文，209篇参考论文

专知

24+阅读 · 2018年9月6日

【论文推荐】最新八篇推荐系统相关论文—可解释推荐、上下文感知推荐系统、异构知识库嵌入、深度强化学习、移动推荐系统

【论文推荐】最新八篇推荐系统相关论文—可解释推荐、上下文感知推荐系统、异构知识库嵌入、深度强化学习、移动推荐系统

专知

17+阅读 · 2018年6月16日

Attention模型方法综述 | 多篇经典论文解读

Attention模型方法综述 | 多篇经典论文解读

PaperWeekly

107+阅读 · 2018年6月11日

【论文推荐】最新七篇推荐系统相关论文—协同度量学习、SQL-Rank、用户行为与神经网络、隐私价格、贝叶斯、 IoT、序列感知

【论文推荐】最新七篇推荐系统相关论文—协同度量学习、SQL-Rank、用户行为与神经网络、隐私价格、贝叶斯、 IoT、序列感知

专知

10+阅读 · 2018年3月9日

模型汇总24 - 深度学习中Attention Mechanism详细介绍：原理、分类及应用

模型汇总24 - 深度学习中Attention Mechanism详细介绍：原理、分类及应用

深度学习与NLP

12+阅读 · 2017年11月30日

综述 | 知识图谱向量化表示

综述 | 知识图谱向量化表示

开放知识图谱

33+阅读 · 2017年10月26日

网络安全态势感知浅析

网络安全态势感知浅析

计算机与网络安全

18+阅读 · 2017年10月13日

量子导引的判定、度量与几何表示

国家自然科学基金

1+阅读 · 2017年12月31日

面向网络系统的一致性安全隐私分析与防护机制设计

国家自然科学基金

2+阅读 · 2017年12月31日

网络安全威胁踪源分析方法研究

国家自然科学基金

19+阅读 · 2015年12月31日

非线性系统输入状态稳定性分析与设计的不定向量Lyapunov函数导数方法

国家自然科学基金

0+阅读 · 2015年12月31日

面向大数据的安全迁移学习方法

国家自然科学基金

31+阅读 · 2015年12月31日

复杂需求场景驱动的软件安全防护模型检测技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于自适应模型检测的安全协议自动建模与设计研究

国家自然科学基金

1+阅读 · 2014年12月31日

基于网络传导的金融系统风险度量：理论及其应用

国家自然科学基金

2+阅读 · 2014年12月31日

隐写模糊安全性测度及其优化嵌入算法研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于博弈论的信息安全理论与方法研究

国家自然科学基金

10+阅读 · 2012年12月31日

RefusalGuard: Geometry-Preserving Fine-Tuning for Safety in LLMs

Arxiv

0+阅读 · 5月3日

Uncovering Logit Suppression Vulnerabilities in LLM Safety Alignment

Arxiv

0+阅读 · 4月18日

Simplifying Safety Proofs with Forward-Backward Reasoning and Prophecy

Arxiv

0+阅读 · 4月16日

Safety at Scale: A Comprehensive Survey of Large Model and Agent Safety

Arxiv

0+阅读 · 4月14日

Towards Identification and Intervention of Safety-Critical Parameters in Large Language Models

Arxiv

0+阅读 · 4月9日

SecureBreak -- A dataset towards safe and secure models

Arxiv

0+阅读 · 3月23日

Persona Vectors in Games: Measuring and Steering Strategies via Activation Vectors

Arxiv

0+阅读 · 3月22日

Steering Awareness: Detecting Activation Steering from Within

Arxiv

0+阅读 · 3月19日

Understanding and Mitigating Dataset Corruption in LLM Steering

Arxiv

0+阅读 · 3月3日

Understanding Unreliability of Steering Vectors in Language Models: Geometric Predictors and the Limits of Linear Approximations

Arxiv

0+阅读 · 2月19日

VIP会员

文章信息

相关主题

大语言模型

最新内容

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

专知会员服务

1+阅读 · 今天14:45

综述 | 世界动作模型：少做梦，多行动

综述 | 世界动作模型：少做梦，多行动

专知会员服务

1+阅读 · 今天14:43

美以伊冲突：无人机与人工智能的运用

美以伊冲突：无人机与人工智能的运用

专知会员服务

3+阅读 · 今天14:31

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

专知会员服务

3+阅读 · 今天14:20

《特种部队在透明战场中的生存力》最新报告

《特种部队在透明战场中的生存力》最新报告

专知会员服务

2+阅读 · 今天14:11

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

专知会员服务

3+阅读 · 今天14:07

《人工智能生成的零日漏洞：对未来作战的影响》

《人工智能生成的零日漏洞：对未来作战的影响》

专知会员服务

3+阅读 · 今天14:03

《理解伙伴国在防务能力选择中的偏好：探索美国解决方案的替代选择》美智库200页报告

《理解伙伴国在防务能力选择中的偏好：探索美国解决方案的替代选择》美智库200页报告

专知会员服务

2+阅读 · 今天13:59

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

专知会员服务

5+阅读 · 6月22日

综述 | 3D场景图：开放挑战与未来方向

综述 | 3D场景图：开放挑战与未来方向

专知会员服务

8+阅读 · 6月22日

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

专知会员服务

7+阅读 · 6月22日

21世纪的无人机战争

21世纪的无人机战争

专知会员服务

4+阅读 · 6月22日

《伊朗与以色列-美国热战及其对数字技术的影响》

《伊朗与以色列-美国热战及其对数字技术的影响》

专知会员服务

5+阅读 · 6月22日

《量子技术的军事任务技术适配与利用》

《量子技术的军事任务技术适配与利用》

专知会员服务

5+阅读 · 6月22日

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

专知会员服务

8+阅读 · 6月22日

相关VIP内容

《提升生成模型的安全性与保障》博士论文

《提升生成模型的安全性与保障》博士论文

专知会员服务

12+阅读 · 4月20日

【ICLR2025】用于大型语言模型对齐的差分隐私引导

【ICLR2025】用于大型语言模型对齐的差分隐私引导

专知会员服务

9+阅读 · 2025年1月31日

《重新思考网络安全决策：在不确定情况下利用认知启发法》2024最新论文

《重新思考网络安全决策：在不确定情况下利用认知启发法》2024最新论文

专知会员服务

27+阅读 · 2024年2月1日

大模型如何应对安全性？清华等最新《大型语言模型系统的风险分类、缓解措施及评估基准》论文

大模型如何应对安全性？清华等最新《大型语言模型系统的风险分类、缓解措施及评估基准》论文

专知会员服务

49+阅读 · 2024年1月17日

《理解、评估和缓解人工智能系统中的安全风险》美海军67页论文

《理解、评估和缓解人工智能系统中的安全风险》美海军67页论文

专知会员服务

53+阅读 · 2023年3月25日

【伯克利博士论文】机器学习安全性，172页pdf

【伯克利博士论文】机器学习安全性，172页pdf

专知会员服务

38+阅读 · 2022年12月6日

【NeurIPS2022】可解释机器学习的安全性:一种最大偏差方法

【NeurIPS2022】可解释机器学习的安全性:一种最大偏差方法

专知会员服务

24+阅读 · 2022年11月8日

如何构建安全深度模型？《数据高效、接地、安全的深度模型》Jay Thiagarajan，50页ppt

如何构建安全深度模型？《数据高效、接地、安全的深度模型》Jay Thiagarajan，50页ppt

专知会员服务

31+阅读 · 2022年10月4日

因果如何用于推荐？清华等最新《推荐系统中的因果推理》综述论文，29页pdf阐述因果推荐方法体系

因果如何用于推荐？清华等最新《推荐系统中的因果推理》综述论文，29页pdf阐述因果推荐方法体系

专知会员服务

48+阅读 · 2022年8月31日

【清华大学】Delta调优:预训练语言模型参数有效方法的综合研究，Delta Tuning: A Comprehensive Study of Parameter Efficient Methods for Pre-trained Language Models

【清华大学】Delta调优:预训练语言模型参数有效方法的综合研究，Delta Tuning: A Comprehensive Study of Parameter Efficient Methods for Pre-trained Language Models

专知会员服务

26+阅读 · 2022年3月15日

热门VIP内容

开通专知VIP会员享更多权益服务

综述 | 世界动作模型：少做梦，多行动

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

美以伊冲突：无人机与人工智能的运用

相关资讯

【博士论文】《安全博弈中的分层规划：战略、战术和行动决策的博弈论方法》南加州大学

【博士论文】《安全博弈中的分层规划：战略、战术和行动决策的博弈论方法》南加州大学

专知

24+阅读 · 2022年9月25日

推荐！【中文版】《指挥、控制、通信和情报（C3I）系统安全性综述：漏洞、攻击和对策》35页最新论文

推荐！【中文版】《指挥、控制、通信和情报（C3I）系统安全性综述：漏洞、攻击和对策》35页最新论文

专知

43+阅读 · 2022年7月27日

最新最权威《深度学习显著目标检测综述》论文代码数据发布，带你全面了解显著目标检测方法

最新最权威《深度学习显著目标检测综述》论文代码数据发布，带你全面了解显著目标检测方法

专知

79+阅读 · 2019年4月24日

36页最新《深度学习在推荐系统上的应用》综述论文，209篇参考论文

36页最新《深度学习在推荐系统上的应用》综述论文，209篇参考论文

专知

24+阅读 · 2018年9月6日

【论文推荐】最新八篇推荐系统相关论文—可解释推荐、上下文感知推荐系统、异构知识库嵌入、深度强化学习、移动推荐系统

【论文推荐】最新八篇推荐系统相关论文—可解释推荐、上下文感知推荐系统、异构知识库嵌入、深度强化学习、移动推荐系统

专知

17+阅读 · 2018年6月16日

Attention模型方法综述 | 多篇经典论文解读

Attention模型方法综述 | 多篇经典论文解读

PaperWeekly

107+阅读 · 2018年6月11日

【论文推荐】最新七篇推荐系统相关论文—协同度量学习、SQL-Rank、用户行为与神经网络、隐私价格、贝叶斯、 IoT、序列感知

【论文推荐】最新七篇推荐系统相关论文—协同度量学习、SQL-Rank、用户行为与神经网络、隐私价格、贝叶斯、 IoT、序列感知

专知

10+阅读 · 2018年3月9日

模型汇总24 - 深度学习中Attention Mechanism详细介绍：原理、分类及应用

模型汇总24 - 深度学习中Attention Mechanism详细介绍：原理、分类及应用

深度学习与NLP

12+阅读 · 2017年11月30日

综述 | 知识图谱向量化表示

综述 | 知识图谱向量化表示

开放知识图谱

33+阅读 · 2017年10月26日

网络安全态势感知浅析

网络安全态势感知浅析

计算机与网络安全

18+阅读 · 2017年10月13日

相关论文

RefusalGuard: Geometry-Preserving Fine-Tuning for Safety in LLMs

Arxiv

0+阅读 · 5月3日

Uncovering Logit Suppression Vulnerabilities in LLM Safety Alignment

Arxiv

0+阅读 · 4月18日

Simplifying Safety Proofs with Forward-Backward Reasoning and Prophecy

Arxiv

0+阅读 · 4月16日

Safety at Scale: A Comprehensive Survey of Large Model and Agent Safety

Arxiv

0+阅读 · 4月14日

Towards Identification and Intervention of Safety-Critical Parameters in Large Language Models

Arxiv

0+阅读 · 4月9日

SecureBreak -- A dataset towards safe and secure models

Arxiv

0+阅读 · 3月23日

Persona Vectors in Games: Measuring and Steering Strategies via Activation Vectors

Arxiv

0+阅读 · 3月22日

Steering Awareness: Detecting Activation Steering from Within

Arxiv

0+阅读 · 3月19日

Understanding and Mitigating Dataset Corruption in LLM Steering

Arxiv

0+阅读 · 3月3日

Understanding Unreliability of Steering Vectors in Language Models: Geometric Predictors and the Limits of Linear Approximations

Arxiv

0+阅读 · 2月19日

相关基金

量子导引的判定、度量与几何表示

国家自然科学基金

1+阅读 · 2017年12月31日

面向网络系统的一致性安全隐私分析与防护机制设计

国家自然科学基金

2+阅读 · 2017年12月31日

网络安全威胁踪源分析方法研究

国家自然科学基金

19+阅读 · 2015年12月31日

非线性系统输入状态稳定性分析与设计的不定向量Lyapunov函数导数方法

国家自然科学基金

0+阅读 · 2015年12月31日

面向大数据的安全迁移学习方法

国家自然科学基金

31+阅读 · 2015年12月31日

复杂需求场景驱动的软件安全防护模型检测技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于自适应模型检测的安全协议自动建模与设计研究

国家自然科学基金

1+阅读 · 2014年12月31日

基于网络传导的金融系统风险度量：理论及其应用

国家自然科学基金

2+阅读 · 2014年12月31日

隐写模糊安全性测度及其优化嵌入算法研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于博弈论的信息安全理论与方法研究

国家自然科学基金

10+阅读 · 2012年12月31日

微信扫码咨询专知VIP会员