Safety alignment mechanisms in large language models prevent responses to harmful queries through learned refusal behavior, yet these same mechanisms impede legitimate research applications including cognitive modeling, adversarial testing, and security analysis. While abliteration techniques enable surgical removal of refusal representations through directional orthogonalization, the relative effectiveness of available implementations remains uncharacterized. This study evaluates four abliteration tools (Heretic, DECCP, ErisForge, FailSpy) across sixteen instruction-tuned models (7B-14B parameters), reporting tool compatibility on all 16 models and quantitative metrics on subsets dictated by tool support. Single-pass methods demonstrated superior capability preservation on the benchmarked subset (avg GSM8K change across three models: ErisForge -0.28 pp; DECCP -0.13 pp), while Bayesian-optimized abliteration produced variable distribution shift (KL divergence: 0.043-1.646) with model-dependent capability impact. These findings provide researchers with evidence-based selection criteria for abliteration tool deployment across diverse model architectures. The principal finding indicates that mathematical reasoning capabilities exhibit the highest sensitivity to abliteration interventions, with GSM8K change ranging from +1.51 pp to -18.81 pp (-26.5% relative) depending on tool selection and model architecture.


翻译:大型语言模型中的安全对齐机制通过习得的拒绝行为防止对有害查询的响应,但这些机制同样阻碍了包括认知建模、对抗性测试和安全分析在内的合法研究应用。虽然能力消除技术能够通过定向正交化手术式地移除拒绝表征,但现有各种实现方案的相对有效性仍未得到系统评估。本研究在十六个指令微调模型(7B-140亿参数)上评估了四种能力消除工具(Heretic、DECCP、ErisForge、FailSpy),报告了所有16个模型的工具兼容性以及由工具支持情况决定的子集定量指标。在基准测试子集上,单次消除方法展现出更优的能力保持性(三个模型的GSM8K平均变化:ErisForge -0.28个百分点;DECCP -0.13个百分点),而贝叶斯优化的能力消除则产生可变的分布偏移(KL散度:0.043-1.646)以及模型依赖的能力影响。这些发现为研究人员在不同模型架构中部署能力消除工具提供了基于证据的选择标准。主要研究结果表明,数学推理能力对能力消除干预表现出最高的敏感性,根据工具选择和模型架构的不同,GSM8K变化范围从+1.51个百分点到-18.81个百分点(相对变化-26.5%)。

0
下载
关闭预览

相关内容

RAG与RAU:自然语言处理中的检索增强语言模型综述
专知会员服务
87+阅读 · 2024年5月3日
AAAI 2022 | ProtGNN:自解释图神经网络
专知
10+阅读 · 2022年2月28日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
VIP会员
相关基金
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
Top
微信扫码咨询专知VIP会员