AsFT：在狭窄安全盆地内锚定大语言模型微调的安全性 (AsFT: Anchoring Safety During LLM Fine-Tuning Within Narrow Safety Basin) - 专知论文

会员服务 ·

0

对齐 · 微调 · 正交 · 约束 · 语言模型 ·

AsFT: Anchoring Safety During LLM Fine-Tuning Within Narrow Safety Basin

翻译：AsFT：在狭窄安全盆地内锚定大语言模型微调的安全性

Shuo Yang,Qihui Zhang,Yuyang Liu,Xiaojun Jia,Kunpeng Ning,Jiayu Yao,Jigang Wang,Hailiang Dai,Yibing Song,Li Yuan

Fine-tuning large language models (LLMs) improves performance but introduces critical safety vulnerabilities: even minimal harmful data can severely compromise safety measures. We observe that perturbations orthogonal to the alignment direction - defined by weight differences between aligned (safe) and unaligned models - rapidly compromise model safety. In contrast, updates along the alignment direction largely preserve it, revealing the parameter space as a "narrow safety basin". To address this, we propose AsFT (Anchoring Safety in Fine-Tuning) to maintain safety by explicitly constraining update directions during fine-tuning. By penalizing updates orthogonal to the alignment direction, AsFT effectively constrains the model within the "narrow safety basin," thus preserving its inherent safety. Extensive experiments on multiple datasets and models show that AsFT reduces harmful behaviors by up to 7.60%, improves task performance by 3.44%, and consistently outperforms existing methods across multiple tasks.

翻译：微调大语言模型（LLMs）能提升性能，但会引入关键的安全漏洞：即使是最小量的有害数据也可能严重破坏安全措施。我们观察到，与对齐方向正交的扰动——该方向由对齐（安全）模型与未对齐模型之间的权重差异定义——会迅速损害模型安全性。相比之下，沿对齐方向的更新在很大程度上能保持安全性，这揭示了参数空间呈现为“狭窄安全盆地”。为解决此问题，我们提出AsFT（微调中的安全锚定）方法，通过在微调过程中显式约束更新方向来维持安全性。通过惩罚与对齐方向正交的更新，AsFT有效地将模型约束在“狭窄安全盆地”内，从而保持其内在安全性。在多个数据集和模型上的大量实验表明，AsFT能将有害行为降低达7.60%，将任务性能提升3.44%，并在多项任务中持续优于现有方法。

0

相关内容

综述：面向移动端大语言模型的隐私与安全

综述：面向移动端大语言模型的隐私与安全

专知会员服务

19+阅读 · 2025年9月7日

【ACL2025教程】大语言模型的护栏与安全性：对其应用的安全、可靠与可控引导

【ACL2025教程】大语言模型的护栏与安全性：对其应用的安全、可靠与可控引导

专知会员服务

21+阅读 · 2025年8月1日

158页！天大等最新《大型语言模型安全：全面综述》

158页！天大等最新《大型语言模型安全：全面综述》

专知会员服务

49+阅读 · 2024年12月24日

【新书】大规模语言模型的隐私与安全，

【新书】大规模语言模型的隐私与安全，

专知会员服务

29+阅读 · 2024年12月4日

【ACL2024教程】大型语言模型对抗攻击的脆弱性，200多页ppt

【ACL2024教程】大型语言模型对抗攻击的脆弱性，200多页ppt

专知会员服务

34+阅读 · 2024年8月14日

生成式人工智能大型语言模型的安全性：概述

生成式人工智能大型语言模型的安全性：概述

专知会员服务

35+阅读 · 2024年7月30日

【ACL2024】语言模型对齐的不确定性感知学习

【ACL2024】语言模型对齐的不确定性感知学习

专知会员服务

25+阅读 · 2024年6月10日

大型语言模型网络安全综述

大型语言模型网络安全综述

专知会员服务

67+阅读 · 2024年5月12日

大模型如何应对安全性？清华等最新《大型语言模型系统的风险分类、缓解措施及评估基准》论文

大模型如何应对安全性？清华等最新《大型语言模型系统的风险分类、缓解措施及评估基准》论文

专知会员服务

49+阅读 · 2024年1月17日

大模型如何可信安全？利物浦大学最新《从验证和确认的角度综述大型语言模型的安全性和可信性》综述，全面阐述LLM安全性

大模型如何可信安全？利物浦大学最新《从验证和确认的角度综述大型语言模型的安全性和可信性》综述，全面阐述LLM安全性

专知会员服务

66+阅读 · 2023年5月30日

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

专知

25+阅读 · 2023年4月7日

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

专知

25+阅读 · 2023年4月4日

推荐！《不确定性下的作战决策：推理、序贯和对抗性方法》美国空军293页博士论文，含代码

推荐！《不确定性下的作战决策：推理、序贯和对抗性方法》美国空军293页博士论文，含代码

专知

47+阅读 · 2022年11月16日

【博士论文】《安全博弈中的分层规划：战略、战术和行动决策的博弈论方法》南加州大学

【博士论文】《安全博弈中的分层规划：战略、战术和行动决策的博弈论方法》南加州大学

专知

24+阅读 · 2022年9月25日

【经典书】网络安全《移动目标防御 II：博弈论和对抗性建模的应用》210页

【经典书】网络安全《移动目标防御 II：博弈论和对抗性建模的应用》210页

专知

17+阅读 · 2022年4月16日

【复旦大学】最新《预训练语言模型》2020综述论文大全，50+PTMs分类体系，25页pdf205篇参考文献

【复旦大学】最新《预训练语言模型》2020综述论文大全，50+PTMs分类体系，25页pdf205篇参考文献

专知

22+阅读 · 2020年3月19日

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

专知

12+阅读 · 2020年2月12日

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

机器之心

15+阅读 · 2019年3月18日

Spooftooph - 用于欺骗或克隆蓝牙设备的自动工具

Spooftooph - 用于欺骗或克隆蓝牙设备的自动工具

黑白之道

17+阅读 · 2019年2月27日

自然语言处理中的Attention Model：是什么及为什么

自然语言处理中的Attention Model：是什么及为什么

新智元

11+阅读 · 2017年7月13日

逻辑等价算子在不确定性推理中的应用

国家自然科学基金

1+阅读 · 2015年12月31日

复杂系统中多密码算法密钥协同安全研究

国家自然科学基金

0+阅读 · 2015年12月31日

高维回归模型的预测稳定性研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于不确定性计算的鲁棒风险评估关键技术研究

国家自然科学基金

8+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

基于改进微平面本构模型的RC桥墩地震损伤评价方法

国家自然科学基金

0+阅读 · 2015年12月31日

基于自适应模型检测的安全协议自动建模与设计研究

国家自然科学基金

1+阅读 · 2014年12月31日

隐写模糊安全性测度及其优化嵌入算法研究

国家自然科学基金

0+阅读 · 2014年12月31日

多域网络安全的异构策略语义形态与验证机制

国家自然科学基金

0+阅读 · 2014年12月31日

多语言大数据环境下的复杂网络行为分析、预测和干预

国家自然科学基金

4+阅读 · 2014年12月31日

Hallucination-Resistant Security Planning with a Large Language Model

Arxiv

0+阅读 · 2月5日

Risk Assessment and Security Analysis of Large Language Models

Arxiv

0+阅读 · 2月4日

Defending Large Language Models Against Jailbreak Attacks via In-Decoding Safety-Awareness Probing

Arxiv

0+阅读 · 1月30日

The Unintended Trade-off of AI Alignment:Balancing Hallucination Mitigation and Safety in LLMs

Arxiv

0+阅读 · 1月30日

SafeThinker: Reasoning about Risk to Deepen Safety Beyond Shallow Alignment

Arxiv

0+阅读 · 1月23日

Attributing and Exploiting Safety Vectors through Global Optimization in Large Language Models

Arxiv

0+阅读 · 1月22日

Targeting Alignment: Extracting Safety Classifiers of Aligned LLMs

Arxiv

0+阅读 · 1月21日

Safety at One Shot: Patching Fine-Tuned LLMs with A Single Instance

Arxiv

0+阅读 · 1月6日

Safe in the Future, Dangerous in the Past: Dissecting Temporal and Linguistic Vulnerabilities in LLMs

Arxiv

0+阅读 · 1月4日

One Trigger Token Is Enough: A Defense Strategy for Balancing Safety and Usability in Large Language Models

Arxiv

0+阅读 · 1月1日

VIP会员

文章信息

相关主题

相关VIP内容

综述：面向移动端大语言模型的隐私与安全

综述：面向移动端大语言模型的隐私与安全

专知会员服务

19+阅读 · 2025年9月7日

【ACL2025教程】大语言模型的护栏与安全性：对其应用的安全、可靠与可控引导

【ACL2025教程】大语言模型的护栏与安全性：对其应用的安全、可靠与可控引导

专知会员服务

21+阅读 · 2025年8月1日

158页！天大等最新《大型语言模型安全：全面综述》

158页！天大等最新《大型语言模型安全：全面综述》

专知会员服务

49+阅读 · 2024年12月24日

【新书】大规模语言模型的隐私与安全，

【新书】大规模语言模型的隐私与安全，

专知会员服务

29+阅读 · 2024年12月4日

【ACL2024教程】大型语言模型对抗攻击的脆弱性，200多页ppt

【ACL2024教程】大型语言模型对抗攻击的脆弱性，200多页ppt

专知会员服务

34+阅读 · 2024年8月14日

生成式人工智能大型语言模型的安全性：概述

生成式人工智能大型语言模型的安全性：概述

专知会员服务

35+阅读 · 2024年7月30日

【ACL2024】语言模型对齐的不确定性感知学习

【ACL2024】语言模型对齐的不确定性感知学习

专知会员服务

25+阅读 · 2024年6月10日

大型语言模型网络安全综述

大型语言模型网络安全综述

专知会员服务

67+阅读 · 2024年5月12日

大模型如何应对安全性？清华等最新《大型语言模型系统的风险分类、缓解措施及评估基准》论文

大模型如何应对安全性？清华等最新《大型语言模型系统的风险分类、缓解措施及评估基准》论文

专知会员服务

49+阅读 · 2024年1月17日

大模型如何可信安全？利物浦大学最新《从验证和确认的角度综述大型语言模型的安全性和可信性》综述，全面阐述LLM安全性

大模型如何可信安全？利物浦大学最新《从验证和确认的角度综述大型语言模型的安全性和可信性》综述，全面阐述LLM安全性

专知会员服务

66+阅读 · 2023年5月30日

热门VIP内容

开通专知VIP会员享更多权益服务

论学习、公平性与复杂度

《整合杀伤链：一个用于边缘目标验证与战术推理的零样本框架》最新资料

2025中国人工智能学会系列白皮书⸺棋盘上的人工智能|附下载

通用智能体评估的逻辑架构

相关资讯

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

专知

25+阅读 · 2023年4月7日

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

专知

25+阅读 · 2023年4月4日

推荐！《不确定性下的作战决策：推理、序贯和对抗性方法》美国空军293页博士论文，含代码

推荐！《不确定性下的作战决策：推理、序贯和对抗性方法》美国空军293页博士论文，含代码

专知

47+阅读 · 2022年11月16日

【博士论文】《安全博弈中的分层规划：战略、战术和行动决策的博弈论方法》南加州大学

【博士论文】《安全博弈中的分层规划：战略、战术和行动决策的博弈论方法》南加州大学

专知

24+阅读 · 2022年9月25日

【经典书】网络安全《移动目标防御 II：博弈论和对抗性建模的应用》210页

【经典书】网络安全《移动目标防御 II：博弈论和对抗性建模的应用》210页

专知

17+阅读 · 2022年4月16日

【复旦大学】最新《预训练语言模型》2020综述论文大全，50+PTMs分类体系，25页pdf205篇参考文献

【复旦大学】最新《预训练语言模型》2020综述论文大全，50+PTMs分类体系，25页pdf205篇参考文献

专知

22+阅读 · 2020年3月19日

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

专知

12+阅读 · 2020年2月12日

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

机器之心

15+阅读 · 2019年3月18日

Spooftooph - 用于欺骗或克隆蓝牙设备的自动工具

Spooftooph - 用于欺骗或克隆蓝牙设备的自动工具

黑白之道

17+阅读 · 2019年2月27日

自然语言处理中的Attention Model：是什么及为什么

自然语言处理中的Attention Model：是什么及为什么

新智元

11+阅读 · 2017年7月13日

相关论文

Hallucination-Resistant Security Planning with a Large Language Model

Arxiv

0+阅读 · 2月5日

Risk Assessment and Security Analysis of Large Language Models

Arxiv

0+阅读 · 2月4日

Defending Large Language Models Against Jailbreak Attacks via In-Decoding Safety-Awareness Probing

Arxiv

0+阅读 · 1月30日

The Unintended Trade-off of AI Alignment:Balancing Hallucination Mitigation and Safety in LLMs

Arxiv

0+阅读 · 1月30日

SafeThinker: Reasoning about Risk to Deepen Safety Beyond Shallow Alignment

Arxiv

0+阅读 · 1月23日

Attributing and Exploiting Safety Vectors through Global Optimization in Large Language Models

Arxiv

0+阅读 · 1月22日

Targeting Alignment: Extracting Safety Classifiers of Aligned LLMs

Arxiv

0+阅读 · 1月21日

Safety at One Shot: Patching Fine-Tuned LLMs with A Single Instance

Arxiv

0+阅读 · 1月6日

Safe in the Future, Dangerous in the Past: Dissecting Temporal and Linguistic Vulnerabilities in LLMs

Arxiv

0+阅读 · 1月4日

One Trigger Token Is Enough: A Defense Strategy for Balancing Safety and Usability in Large Language Models

Arxiv

0+阅读 · 1月1日

相关基金

逻辑等价算子在不确定性推理中的应用

国家自然科学基金

1+阅读 · 2015年12月31日

复杂系统中多密码算法密钥协同安全研究

国家自然科学基金

0+阅读 · 2015年12月31日

高维回归模型的预测稳定性研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于不确定性计算的鲁棒风险评估关键技术研究

国家自然科学基金

8+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

基于改进微平面本构模型的RC桥墩地震损伤评价方法

国家自然科学基金

0+阅读 · 2015年12月31日

基于自适应模型检测的安全协议自动建模与设计研究

国家自然科学基金

1+阅读 · 2014年12月31日

隐写模糊安全性测度及其优化嵌入算法研究

国家自然科学基金

0+阅读 · 2014年12月31日

多域网络安全的异构策略语义形态与验证机制

国家自然科学基金

0+阅读 · 2014年12月31日

多语言大数据环境下的复杂网络行为分析、预测和干预

国家自然科学基金

4+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员