SHARD: Safe and Helpful Alignment via Self-Reframing Distillation - 专知论文

会员服务 ·

0

蒸馏 · 对齐 · 哲学 · 准则 · 模型蒸馏 ·

SHARD: Safe and Helpful Alignment via Self-Reframing Distillation

翻译：标题：SHARD：通过自我重构蒸馏实现安全与有益的对齐

Viswonathan Manoranjan,Amogh Gupta,Anvesh Rao Vijjini,Thomas Hofweber,Snigdha Chaturvedi

Large language models often struggle with sensitive prompts. They may refuse outright, provide generic safety boilerplate, or fail to address the user's legitimate informational needs that can be answered safely. We introduce SHARD, a self-reframing distillation method to improve safe-helpfulness. It first rewrites sensitive prompts to surface benign intent using philosophical guidelines, then reframes its original responses into safe, more helpful ones, and finally fine-tunes the model on its self-reframed responses. Across DNA and the English subset of LINGUASAFE, SHARD improves helpfulness for most model families while preserving safety. It also remains competitive with distillation from a larger teacher model, suggesting that models can internalize safe and helpful behavior elicited from their own. Warning: This paper contains content that may be offensive or harmful.

翻译：摘要：大型语言模型在处理敏感提示时常常面临困境：它们可能直接拒绝回答、提供通用的安全套话，或无法满足用户可通过安全方式回答的合法信息需求。我们提出了SHARD（自我重构蒸馏方法），以提升安全-有益平衡性。该方法首先利用哲学准则将敏感提示重写以显露良性意图，随后将原始回应重构为安全且更有帮助的版本，最后基于自我重构的回应微调模型。在DNA数据集及LINGUASAFE的英语子集上，SHARD在保持安全性的同时提升了多数模型家族的有益性。该方法与从更大教师模型蒸馏的效果相当，表明模型可以内化从自身激发的安全且有益的行为。警告：本文包含可能令人不适或有害的内容。

0

相关内容

综述 | OPSD：大语言模型的在线策略自蒸馏

综述 | OPSD：大语言模型的在线策略自蒸馏

专知会员服务

8+阅读 · 6月1日

大语言模型同策略蒸馏研究综述

大语言模型同策略蒸馏研究综述

专知会员服务

20+阅读 · 4月5日

面向大语言模型对齐的机械解释性：进展、挑战与未来方向

面向大语言模型对齐的机械解释性：进展、挑战与未来方向

专知会员服务

14+阅读 · 2月14日

多模态大语言模型的自我改进：综述

多模态大语言模型的自我改进：综述

专知会员服务

28+阅读 · 2025年10月8日

大型语言模型的知识蒸馏与数据集蒸馏：新兴趋势、挑战与未来方向

大型语言模型的知识蒸馏与数据集蒸馏：新兴趋势、挑战与未来方向

专知会员服务

46+阅读 · 2025年4月26日

【NeurIPS2024】CA-SSLR：面向广义语音处理的条件感知自监督学习表征

【NeurIPS2024】CA-SSLR：面向广义语音处理的条件感知自监督学习表征

专知会员服务

15+阅读 · 2024年12月6日

大模型如何应对安全性？清华等最新《大型语言模型系统的风险分类、缓解措施及评估基准》论文

大模型如何应对安全性？清华等最新《大型语言模型系统的风险分类、缓解措施及评估基准》论文

专知会员服务

49+阅读 · 2024年1月17日

【清华大学】Delta调优:预训练语言模型参数有效方法的综合研究，Delta Tuning: A Comprehensive Study of Parameter Efficient Methods for Pre-trained Language Models

【清华大学】Delta调优:预训练语言模型参数有效方法的综合研究，Delta Tuning: A Comprehensive Study of Parameter Efficient Methods for Pre-trained Language Models

专知会员服务

26+阅读 · 2022年3月15日

【ICLR2021】自监督蒸馏学习视觉表示

【ICLR2021】自监督蒸馏学习视觉表示

专知会员服务

34+阅读 · 2021年4月14日

【MIT-伯克利-ICLR2020】对比表示蒸馏，Contrastive Representation Distillation

【MIT-伯克利-ICLR2020】对比表示蒸馏，Contrastive Representation Distillation

专知会员服务

56+阅读 · 2020年3月12日

多模态怎么用自监督？爱丁堡等最新《自监督多模态学习》综述，详述目标函数、数据对齐和模型架构

多模态怎么用自监督？爱丁堡等最新《自监督多模态学习》综述，详述目标函数、数据对齐和模型架构

专知

10+阅读 · 2023年4月6日

模型压缩 | 知识蒸馏经典解读

模型压缩 | 知识蒸馏经典解读

AINLP

11+阅读 · 2020年5月31日

【MIT-伯克利-ICLR2020】对比表示蒸馏，Contrastive Representation Distillation

【MIT-伯克利-ICLR2020】对比表示蒸馏，Contrastive Representation Distillation

专知

54+阅读 · 2020年3月12日

无所不能的Self-Attention！洛桑理工ICLR2020论文验证「自注意力可以表达任何CNN卷积滤波层」

无所不能的Self-Attention！洛桑理工ICLR2020论文验证「自注意力可以表达任何CNN卷积滤波层」

专知

24+阅读 · 2020年1月12日

基于知识蒸馏的BERT模型压缩

基于知识蒸馏的BERT模型压缩

大数据文摘

18+阅读 · 2019年10月14日

论文浅尝 | 基于用户反馈的交互式自然语言回答系统提升机制

论文浅尝 | 基于用户反馈的交互式自然语言回答系统提升机制

开放知识图谱

20+阅读 · 2019年10月12日

AI新视野 | 数据蒸馏Dataset Distillation

AI新视野 | 数据蒸馏Dataset Distillation

人工智能前沿讲习班

31+阅读 · 2019年6月14日

深入理解BERT Transformer ，不仅仅是注意力机制

深入理解BERT Transformer ，不仅仅是注意力机制

大数据文摘

22+阅读 · 2019年3月19日

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

机器之心

15+阅读 · 2019年3月18日

【论文笔记】自注意力机制学习句子embedding

【论文笔记】自注意力机制学习句子embedding

专知

15+阅读 · 2018年5月17日

基于控制器动态线性化的数据驱动控制方法及在精馏过程的应用

国家自然科学基金

1+阅读 · 2015年12月31日

面向CELP语音压缩域的通用隐写分析方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向不同对称性分子的自适应高性能单颗粒重构算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

具有重构特征的系统可靠性建模方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向交互式问答的省略恢复技术研究

国家自然科学基金

5+阅读 · 2015年12月31日

强调与对比影响语篇理解的认知过程及其神经机制

国家自然科学基金

4+阅读 · 2015年12月31日

基于热可逆Diels-Alder反应的自修复环氧树脂的构建及多重修复机制研究

国家自然科学基金

0+阅读 · 2014年12月31日

一种全新的结构修改重分析方法及其应用

国家自然科学基金

0+阅读 · 2014年12月31日

自热回收精馏过程的优化与控制研究

国家自然科学基金

0+阅读 · 2014年12月31日

压缩感知与稀疏信号恢复

国家自然科学基金

2+阅读 · 2014年12月31日

RLCSD: Reinforcement Learning with Contrastive On-Policy Self-Distillation

Arxiv

0+阅读 · 6月10日

The Role of Feedback Alignment in Self-Distillation

Arxiv

0+阅读 · 6月9日

Self-Mined Hardness for Safety Fine-Tuning

Arxiv

0+阅读 · 6月8日

Improving the Efficiency and Effectiveness of LLM Knowledge Distillation for Conversational Search

Arxiv

0+阅读 · 6月3日

Prompt-Level Distillation: A Non-Parametric Alternative to Model Fine-Tuning for Efficient Reasoning

Arxiv

0+阅读 · 6月2日

When Autoregressive Consistency Hurts Safety Alignment

Arxiv

0+阅读 · 6月2日

SafeSteer: Localized On-Policy Distillation for Efficient Safety Alignment

Arxiv

0+阅读 · 6月1日

BackWeak: Backdooring Knowledge Distillation Simply with Weak Triggers and Fine-tuning

Arxiv

0+阅读 · 5月25日

DeltaPrompts: Escaping the Zero-Delta Trap in Multimodal Distillation

Arxiv

0+阅读 · 5月19日

UniSD: Towards a Unified Self-Distillation Framework for Large Language Models

Arxiv

0+阅读 · 5月7日

VIP会员

文章信息

相关主题

最新内容

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

专知会员服务

3+阅读 · 6月18日

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

专知会员服务

4+阅读 · 6月18日

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

专知会员服务

9+阅读 · 6月18日

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

专知会员服务

8+阅读 · 6月18日

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

专知会员服务

4+阅读 · 6月17日

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

专知会员服务

7+阅读 · 6月17日

学习数据的几何：形状空间分析数学综述

学习数据的几何：形状空间分析数学综述

专知会员服务

6+阅读 · 6月17日

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

专知会员服务

9+阅读 · 6月17日

定向能反无人机系统最新发展动态

定向能反无人机系统最新发展动态

专知会员服务

7+阅读 · 6月17日

从燃煤战舰到算法战争：水面指挥的永恒要求

从燃煤战舰到算法战争：水面指挥的永恒要求

专知会员服务

4+阅读 · 6月17日

《短程弹道再入飞行器拦截时间中的一项异常现象》

《短程弹道再入飞行器拦截时间中的一项异常现象》

专知会员服务

6+阅读 · 6月17日

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

专知会员服务

7+阅读 · 6月17日

美智库《战术级指挥控制的迫切要求：构建弹性机动式指挥控制网络》报告

美智库《战术级指挥控制的迫切要求：构建弹性机动式指挥控制网络》报告

专知会员服务

6+阅读 · 6月17日

《韩国国防政策与军备出口：韩国安全与国防政策如何塑造其国防工业与军备出口格局》最新100页报告

《韩国国防政策与军备出口：韩国安全与国防政策如何塑造其国防工业与军备出口格局》最新100页报告

专知会员服务

5+阅读 · 6月17日

ICML 2026 | VOTP：用视频基础模型与最优传输，让离线偏好强化学习只需少量反馈

ICML 2026 | VOTP：用视频基础模型与最优传输，让离线偏好强化学习只需少量反馈

专知会员服务

6+阅读 · 6月16日

相关VIP内容

综述 | OPSD：大语言模型的在线策略自蒸馏

综述 | OPSD：大语言模型的在线策略自蒸馏

专知会员服务

8+阅读 · 6月1日

大语言模型同策略蒸馏研究综述

大语言模型同策略蒸馏研究综述

专知会员服务

20+阅读 · 4月5日

面向大语言模型对齐的机械解释性：进展、挑战与未来方向

面向大语言模型对齐的机械解释性：进展、挑战与未来方向

专知会员服务

14+阅读 · 2月14日

多模态大语言模型的自我改进：综述

多模态大语言模型的自我改进：综述

专知会员服务

28+阅读 · 2025年10月8日

大型语言模型的知识蒸馏与数据集蒸馏：新兴趋势、挑战与未来方向

大型语言模型的知识蒸馏与数据集蒸馏：新兴趋势、挑战与未来方向

专知会员服务

46+阅读 · 2025年4月26日

【NeurIPS2024】CA-SSLR：面向广义语音处理的条件感知自监督学习表征

【NeurIPS2024】CA-SSLR：面向广义语音处理的条件感知自监督学习表征

专知会员服务

15+阅读 · 2024年12月6日

大模型如何应对安全性？清华等最新《大型语言模型系统的风险分类、缓解措施及评估基准》论文

大模型如何应对安全性？清华等最新《大型语言模型系统的风险分类、缓解措施及评估基准》论文

专知会员服务

49+阅读 · 2024年1月17日

【清华大学】Delta调优:预训练语言模型参数有效方法的综合研究，Delta Tuning: A Comprehensive Study of Parameter Efficient Methods for Pre-trained Language Models

【清华大学】Delta调优:预训练语言模型参数有效方法的综合研究，Delta Tuning: A Comprehensive Study of Parameter Efficient Methods for Pre-trained Language Models

专知会员服务

26+阅读 · 2022年3月15日

【ICLR2021】自监督蒸馏学习视觉表示

【ICLR2021】自监督蒸馏学习视觉表示

专知会员服务

34+阅读 · 2021年4月14日

【MIT-伯克利-ICLR2020】对比表示蒸馏，Contrastive Representation Distillation

【MIT-伯克利-ICLR2020】对比表示蒸馏，Contrastive Representation Distillation

专知会员服务

56+阅读 · 2020年3月12日

热门VIP内容

开通专知VIP会员享更多权益服务

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

相关资讯

多模态怎么用自监督？爱丁堡等最新《自监督多模态学习》综述，详述目标函数、数据对齐和模型架构

多模态怎么用自监督？爱丁堡等最新《自监督多模态学习》综述，详述目标函数、数据对齐和模型架构

专知

10+阅读 · 2023年4月6日

模型压缩 | 知识蒸馏经典解读

模型压缩 | 知识蒸馏经典解读

AINLP

11+阅读 · 2020年5月31日

【MIT-伯克利-ICLR2020】对比表示蒸馏，Contrastive Representation Distillation

【MIT-伯克利-ICLR2020】对比表示蒸馏，Contrastive Representation Distillation

专知

54+阅读 · 2020年3月12日

无所不能的Self-Attention！洛桑理工ICLR2020论文验证「自注意力可以表达任何CNN卷积滤波层」

无所不能的Self-Attention！洛桑理工ICLR2020论文验证「自注意力可以表达任何CNN卷积滤波层」

专知

24+阅读 · 2020年1月12日

基于知识蒸馏的BERT模型压缩

基于知识蒸馏的BERT模型压缩

大数据文摘

18+阅读 · 2019年10月14日

论文浅尝 | 基于用户反馈的交互式自然语言回答系统提升机制

论文浅尝 | 基于用户反馈的交互式自然语言回答系统提升机制

开放知识图谱

20+阅读 · 2019年10月12日

AI新视野 | 数据蒸馏Dataset Distillation

AI新视野 | 数据蒸馏Dataset Distillation

人工智能前沿讲习班

31+阅读 · 2019年6月14日

深入理解BERT Transformer ，不仅仅是注意力机制

深入理解BERT Transformer ，不仅仅是注意力机制

大数据文摘

22+阅读 · 2019年3月19日

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

机器之心

15+阅读 · 2019年3月18日

【论文笔记】自注意力机制学习句子embedding

【论文笔记】自注意力机制学习句子embedding

专知

15+阅读 · 2018年5月17日

相关论文

RLCSD: Reinforcement Learning with Contrastive On-Policy Self-Distillation

Arxiv

0+阅读 · 6月10日

The Role of Feedback Alignment in Self-Distillation

Arxiv

0+阅读 · 6月9日

Self-Mined Hardness for Safety Fine-Tuning

Arxiv

0+阅读 · 6月8日

Improving the Efficiency and Effectiveness of LLM Knowledge Distillation for Conversational Search

Arxiv

0+阅读 · 6月3日

Prompt-Level Distillation: A Non-Parametric Alternative to Model Fine-Tuning for Efficient Reasoning

Arxiv

0+阅读 · 6月2日

When Autoregressive Consistency Hurts Safety Alignment

Arxiv

0+阅读 · 6月2日

SafeSteer: Localized On-Policy Distillation for Efficient Safety Alignment

Arxiv

0+阅读 · 6月1日

BackWeak: Backdooring Knowledge Distillation Simply with Weak Triggers and Fine-tuning

Arxiv

0+阅读 · 5月25日

DeltaPrompts: Escaping the Zero-Delta Trap in Multimodal Distillation

Arxiv

0+阅读 · 5月19日

UniSD: Towards a Unified Self-Distillation Framework for Large Language Models

Arxiv

0+阅读 · 5月7日

相关基金

基于控制器动态线性化的数据驱动控制方法及在精馏过程的应用

国家自然科学基金

1+阅读 · 2015年12月31日

面向CELP语音压缩域的通用隐写分析方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向不同对称性分子的自适应高性能单颗粒重构算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

具有重构特征的系统可靠性建模方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向交互式问答的省略恢复技术研究

国家自然科学基金

5+阅读 · 2015年12月31日

强调与对比影响语篇理解的认知过程及其神经机制

国家自然科学基金

4+阅读 · 2015年12月31日

基于热可逆Diels-Alder反应的自修复环氧树脂的构建及多重修复机制研究

国家自然科学基金

0+阅读 · 2014年12月31日

一种全新的结构修改重分析方法及其应用

国家自然科学基金

0+阅读 · 2014年12月31日

自热回收精馏过程的优化与控制研究

国家自然科学基金

0+阅读 · 2014年12月31日

压缩感知与稀疏信号恢复

国家自然科学基金

2+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员