Modern deployments require LLMs to enforce safety policies at scale, yet many controls rely on inference-time interventions that add recurring compute cost and serving complexity. Activation steering is widely used, but it requires runtime hooks and scales cost with the number of generations; conditional variants improve selectivity by gating when steering is applied but still retain an inference-time control path. We ask whether selective refusal can be moved entirely offline: can a mechanistic understanding of category-specific refusal be distilled into a circuit-restricted weight update that deploys as a standard checkpoint? We propose C-Δθ: Circuit Restricted Weight Arithmetic, which (i) localizes refusal-causal computation as a sparse circuit using EAP-IG and (ii) computes a constrained weight update ΔθC supported only on that circuit (typically <5% of parameters). Applying ΔθC yields a drop-in edited checkpoint with no inference-time hooks, shifting cost from per-request intervention to a one-time offline update. We evaluate category-targeted selectivity and capability retention on refusal and utility benchmarks.


翻译:现代部署要求大型语言模型大规模执行安全策略,然而许多控制方法依赖推理时干预,这会增加重复计算成本与服务复杂性。激活引导被广泛使用,但其需要运行时钩子且成本随生成次数线性增长;条件变体通过门控引导应用时机来提高选择性,但仍保留了推理时控制路径。我们探讨是否可将选择性拒绝完全移至离线阶段:能否将对特定类别拒绝机制的机理理解提炼为电路约束的权重更新,使其可作为标准检查点部署?我们提出C-Δθ:电路约束权重算术方法,其(i)利用EAP-IG将拒绝因果计算定位为稀疏电路,(ii)计算仅在该电路上支持的约束权重更新ΔθC(通常涉及<5%的参数)。应用ΔθC可生成无需推理时钩子的即插即用编辑检查点,将成本从每次请求干预转移至一次性离线更新。我们在拒绝与效用基准测试中评估了类别定向选择性与能力保持性。

0
下载
关闭预览

相关内容

【博士论文】神经语言模型的参数效率,199页pdf
专知会员服务
33+阅读 · 2024年3月13日
【ICML2023】表示驱动强化学习
专知会员服务
39+阅读 · 2023年6月2日
综述:军事应用中使用的一些重要算法
专知
12+阅读 · 2022年7月3日
【边缘计算】边缘计算面临的问题
产业智能官
17+阅读 · 2019年5月31日
你的算法可靠吗? 神经网络不确定性度量
专知
40+阅读 · 2019年4月27日
推荐|机器学习中的模型评价、模型选择和算法选择!
全球人工智能
10+阅读 · 2018年2月5日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
国家自然科学基金
1+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
0+阅读 · 2月5日
VIP会员
相关VIP内容
相关基金
国家自然科学基金
1+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员