The rise of model hubs has made it easier to access reusable model components, making model merging a practical tool for combining capabilities. Yet, this modularity also creates a governance gap: downstream users can recompose released weights into unauthorized mixtures that bypass safety alignment or licensing terms. Because existing defenses are largely post-hoc and architecture-specific, they provide inconsistent protection across diverse architectures and release formats in practice. To close this gap, we propose Trap$^2$, an architecture-agnostic protection framework that encodes protection into updates during fine-tuning, regardless of whether they are released as adapters or full models. Instead of relying on architecture-dependent approaches, Trap$^2$ uses weight re-scaling as a simple proxy for the merging process. It keeps released weights effective in standalone use, but degrades them under re-scaling that often arises in merging, undermining unauthorized recomposition.


翻译:模型中心的兴起使得复用模型组件更加便捷,模型合并成为一项实用的能力整合工具。然而,这种模块化也带来了治理缺口:下游用户可将发布权重重新组合成未经授权的混合模型,从而绕过安全对齐或许可条款。由于现有防御措施多为事后补救且依赖特定架构,在实际应用中无法为不同架构和发布格式提供一致的保护。为弥补这一缺口,我们提出Trap$^2$,一种与架构无关的保护框架,可在微调过程中将保护机制编码到更新参数中,无论其以适配器还是完整模型形式发布。与依赖特定架构的方法不同,Trap$^2$将权重缩放作为合并过程的简单代理。该方法在独立使用场景下保持发布权重有效性,但在合并过程中常见的缩放操作下会使性能退化,从而阻止未经授权的模型重组。

0
下载
关闭预览

相关内容

【博士论文】模型合并:理论基础与算法研究
专知会员服务
15+阅读 · 5月7日
扩散模型中的缓存方法综述:迈向高效的多模态生成
专知会员服务
9+阅读 · 2025年10月23日
《面相混合威胁建模的贝叶斯网络方法》最新报告
专知会员服务
25+阅读 · 2025年7月30日
大模型报告:模型能力决定下限,场景适配度决定上限
专知会员服务
57+阅读 · 2024年6月3日
低质量数据的多模态融合综述
专知会员服务
59+阅读 · 2024年5月4日
《大模型对齐方法》最新综述
专知会员服务
85+阅读 · 2024年3月8日
《深度模型融合》综述
专知会员服务
75+阅读 · 2023年9月28日
专家报告|深度学习+图像多模态融合
中国图象图形学报
12+阅读 · 2019年10月23日
你的算法可靠吗? 神经网络不确定性度量
专知
40+阅读 · 2019年4月27日
如何理解模型的过拟合与欠拟合,以及如何解决?
七月在线实验室
12+阅读 · 2019年4月23日
用模型不确定性理解模型
论智
11+阅读 · 2018年9月5日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Arxiv
14+阅读 · 2023年9月27日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
4+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
7+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
4+阅读 · 6月17日
相关VIP内容
【博士论文】模型合并:理论基础与算法研究
专知会员服务
15+阅读 · 5月7日
扩散模型中的缓存方法综述:迈向高效的多模态生成
专知会员服务
9+阅读 · 2025年10月23日
《面相混合威胁建模的贝叶斯网络方法》最新报告
专知会员服务
25+阅读 · 2025年7月30日
大模型报告:模型能力决定下限,场景适配度决定上限
专知会员服务
57+阅读 · 2024年6月3日
低质量数据的多模态融合综述
专知会员服务
59+阅读 · 2024年5月4日
《大模型对齐方法》最新综述
专知会员服务
85+阅读 · 2024年3月8日
《深度模型融合》综述
专知会员服务
75+阅读 · 2023年9月28日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员