Prior work has shown that safety interventions applied during pretraining, such as removing and rephrasing harmful content, can substantially improve the robustness of the resulting models. In this paper, we study the fundamental question that prior work has overlooked: "When during pretraining should safety interventions be introduced?" We keep the underlying data sources and pretraining interventions fixed, varying the intervention start time (after 0%, 20%, or 60% of pretraining tokens). We find that the optimal start time is not one-size-fits-all: with standard top-k decoding, introducing interventions after a short initial phase of safe-only pretraining (20%-60%) often yields the strongest robustness, with the clearest benefits emerging after downstream, benign finetuning. In contrast, for safety-aware inference, interventions starting from the beginning improve steerability towards safer generations. Finally, we observe that earlier interventions reshape internal representations: linear probes more cleanly separate safe vs harmful examples. Our results are the first to establish intervention timing as a key curriculum design choice for safety.


翻译:先前的研究表明,在预训练期间应用安全干预(例如移除和重述有害内容)可以显著提升所得模型的鲁棒性。本文研究了一个先前工作忽视的基本问题:“安全干预应在预训练的哪个阶段引入?”我们保持底层数据源和预训练干预措施不变,仅改变干预的起始时间(在预训练完成0%、20%或60%的token后)。我们发现最优起始时间并非一成不变:在使用标准top-k解码的情况下,在仅使用安全数据进行短暂初始预训练(20%-60%)后引入干预,通常能产生最强的鲁棒性,其最显著的效益在下游良性微调后显现。相比之下,对于安全感知推理,从一开始就引入干预能提高生成内容朝向更安全方向的引导性。最后,我们观察到较早的干预会重塑内部表征:线性探针能更清晰地区分安全与有害示例。我们的研究首次确立了干预时机作为安全课程设计中的一个关键选择。

0
下载
关闭预览

相关内容

在搭建网络模型时,需要随机初始化参数,然后开始训练网络,不断调整直到网络的损失越来越小。在训练的过程中,一开始初始化的参数会不断变化。当参数训练到比较好的时候就可以将训练模型的参数保存下来,以便训练好的模型可以在下次执行类似任务时获得较好的结果。
预训练模型的新兴安全与隐私问题:综述与展望
专知会员服务
20+阅读 · 2024年11月13日
预训练语言模型的应用综述
专知会员服务
36+阅读 · 2023年1月23日
预训练语言模型fine-tuning近期进展概述
专知会员服务
40+阅读 · 2021年4月9日
专知会员服务
123+阅读 · 2020年12月9日
「知识增强预训练语言模型」最新研究综述
专知
18+阅读 · 2022年11月18日
ICML2020 图神经网络的预训练
图与推荐
12+阅读 · 2020年4月4日
一大批中文(BERT等)预训练模型等你认领!
PaperWeekly
15+阅读 · 2019年6月25日
BERT-预训练的强大
微信AI
61+阅读 · 2019年3月7日
自然语言处理中的语言模型预训练方法
PaperWeekly
14+阅读 · 2018年10月21日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关VIP内容
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员