Fine-Tuning Integrity for Modern Neural Networks: Structured Drift Proofs via Norm, Rank, and Sparsity Certificates - 专知论文

会员服务 ·

0

微调 · 完整性 · 结构 · 稀疏 · 稀疏性 ·

Fine-Tuning Integrity for Modern Neural Networks: Structured Drift Proofs via Norm, Rank, and Sparsity Certificates

翻译：面向现代神经网络的微调完整性：基于范数、秩和稀疏性证书的结构化漂移证明

Zhenhang Shang,Kani Chen

from arxiv, 15 pages, 3 figures

Fine-tuning is now the primary method for adapting large neural networks, but it also introduces new integrity risks. An untrusted party can insert backdoors, change safety behavior, or overwrite large parts of a model while claiming only small updates. Existing verification tools focus on inference correctness or full-model provenance and do not address this problem. We introduce Fine-Tuning Integrity (FTI) as a security goal for controlled model evolution. An FTI system certifies that a fine-tuned model differs from a trusted base only within a policy-defined drift class. We propose Succinct Model Difference Proofs (SMDPs) as a new cryptographic primitive for enforcing these drift constraints. SMDPs provide zero-knowledge proofs that the update to a model is norm-bounded, low-rank, or sparse. The verifier cost depends only on the structure of the drift, not on the size of the model. We give concrete SMDP constructions based on random projections, polynomial commitments, and streaming linear checks. We also prove an information-theoretic lower bound showing that some form of structure is necessary for succinct proofs. Finally, we present architecture-aware instantiations for transformers, CNNs, and MLPs, together with an end-to-end system that aggregates block-level proofs into a global certificate.

翻译：微调现在是适配大型神经网络的主要方法，但其也带来了新的完整性风险。不可信方可能插入后门、改变安全行为或覆盖模型的大部分权重，同时声称仅进行了小幅更新。现有验证工具聚焦于推理正确性或完整模型溯源，无法解决此问题。我们提出"微调完整性"（FTI）作为受控模型演进的安全目标。FTI系统可证明微调后的模型与受信任基准模型之间的差异仅在策略定义的漂移类别内。我们提出"简洁模型差异证明"（SMDPs）作为实施这些漂移约束的新型密码学原语。SMDPs为零知识证明，证明模型更新满足范数有界、低秩或稀疏性。验证者开销仅取决于漂移的结构而非模型规模。我们给出了基于随机投影、多项式承诺和流式线性验证的具体SMDP构造，并证明了信息论下界，表明简洁证明必须依赖某种结构形式。最后，我们提出了面向Transformer、CNN和MLP的架构感知实例化方案，以及将区块级证明聚合为全局证书的端到端系统。

0

相关内容

【博士论文】基于物理结构与贝叶斯不确定性的可靠神经网络

【博士论文】基于物理结构与贝叶斯不确定性的可靠神经网络

专知会员服务

21+阅读 · 6月4日

【博士论文】迈向可靠神经网络：基于物理结构与贝叶斯不确定性

【博士论文】迈向可靠神经网络：基于物理结构与贝叶斯不确定性

专知会员服务

23+阅读 · 5月1日

【NYU博士论文】神经网络中的简单结构：论表达能力、优化性与数据分布

【NYU博士论文】神经网络中的简单结构：论表达能力、优化性与数据分布

专知会员服务

17+阅读 · 2025年4月30日

【普林斯顿博士论文】深度学习优化的隐性偏差：数学考察，391页pdf

【普林斯顿博士论文】深度学习优化的隐性偏差：数学考察，391页pdf

专知会员服务

29+阅读 · 2024年10月4日

【ETHZ博士论文】神经网络训练与认证，101页pdf

【ETHZ博士论文】神经网络训练与认证，101页pdf

专知会员服务

20+阅读 · 2024年7月28日

【ETHZ博士论文】认证神经网络的表达能力，86页pdf

【ETHZ博士论文】认证神经网络的表达能力，86页pdf

专知会员服务

20+阅读 · 2024年6月16日

【牛津大学博士论文】超参数化神经网络的泛化与表达性，221页pdf

【牛津大学博士论文】超参数化神经网络的泛化与表达性，221页pdf

专知会员服务

32+阅读 · 2024年4月19日

【ICML2020】最小化验证损失代理来搜索最佳神经网络结构

专知会员服务

25+阅读 · 2020年7月13日

【剑桥大学博士论文】深层神经网络结构的复兴，147页pdf，The resurgence of structure in deep neural networks

【剑桥大学博士论文】深层神经网络结构的复兴，147页pdf，The resurgence of structure in deep neural networks

专知会员服务

20+阅读 · 2020年5月14日

【斯坦福大学】面向可解释人工智能:神经网络的显著性检验（Towards Explainable AI: Significance Tests for Neural Networks），26页pdf

【斯坦福大学】面向可解释人工智能:神经网络的显著性检验（Towards Explainable AI: Significance Tests for Neural Networks），26页pdf

专知会员服务

27+阅读 · 2019年12月19日

更透明的AI？MIT等最新《可解释AI: 深度神经网络内部结构解释》综述，17页pdf全面阐述DNN内部可解释性技术

更透明的AI？MIT等最新《可解释AI: 深度神经网络内部结构解释》综述，17页pdf全面阐述DNN内部可解释性技术

专知

13+阅读 · 2022年8月11日

深度神经网络可解释性方法汇总，附Tensorflow代码实现

深度神经网络可解释性方法汇总，附Tensorflow代码实现

新智元

34+阅读 · 2019年11月7日

深度神经网络可解释性方法汇总（附TF代码实现）

深度神经网络可解释性方法汇总（附TF代码实现）

CVer

11+阅读 · 2019年11月4日

CVPR 2019 | 告别低分辨率网络，微软提出高分辨率深度神经网络HRNet

CVPR 2019 | 告别低分辨率网络，微软提出高分辨率深度神经网络HRNet

微软研究院AI头条

14+阅读 · 2019年5月21日

神经网络中的权重初始化一览：从基础到Kaiming

神经网络中的权重初始化一览：从基础到Kaiming

大数据文摘

12+阅读 · 2019年4月18日

2019年新书推荐-《神经网络与深度学习》-Michael Nielsen

2019年新书推荐-《神经网络与深度学习》-Michael Nielsen

深度学习与NLP

14+阅读 · 2019年2月21日

【人工智能】神经网络常用优化算法概览、一文了解迁移学习经典算法

【人工智能】神经网络常用优化算法概览、一文了解迁移学习经典算法

产业智能官

13+阅读 · 2018年8月18日

超全总结：神经网络加速之量化模型 | 附带代码

超全总结：神经网络加速之量化模型 | 附带代码

PaperWeekly

12+阅读 · 2018年6月1日

神经网络可解释性最新进展

神经网络可解释性最新进展

专知

18+阅读 · 2018年3月10日

【论文读书笔记】重新考虑用简单神经网络进行知识表示学习（附代码）

【论文读书笔记】重新考虑用简单神经网络进行知识表示学习（附代码）

专知

14+阅读 · 2018年2月4日

面向网络系统的一致性安全隐私分析与防护机制设计

国家自然科学基金

2+阅读 · 2017年12月31日

面向网络虚拟化的网络层可信身份验证机制研究

国家自然科学基金

0+阅读 · 2017年12月31日

基于稀疏性与分片常数空间的网格简化方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

T-S模糊神经网络的容错同步性分析

国家自然科学基金

0+阅读 · 2015年12月31日

非确定型Web服务流程重组的可靠性验证技术

国家自然科学基金

1+阅读 · 2015年12月31日

复杂非完整多自主体网络协同算法设计与性能极限分析

国家自然科学基金

1+阅读 · 2015年12月31日

基于神经网络的无约束0-1二次规划全局最优算法研究

国家自然科学基金

3+阅读 · 2015年12月31日

自组织递归二型小波模糊神经网络的研究及在微型飞行器姿态控制中的应用

国家自然科学基金

0+阅读 · 2015年12月31日

可证明的网络和数据匿名性及隐私增强身份管理关键技术研究

国家自然科学基金

3+阅读 · 2014年12月31日

非凸非光滑优化的神经网络设计及其关键问题研究

国家自然科学基金

0+阅读 · 2014年12月31日

Multiple Additive Neural Networks for Structured and Unstructured Data

Arxiv

0+阅读 · 4月29日

A Survey on Split Learning for LLM Fine-Tuning: Models, Systems, and Privacy Optimizations

Arxiv

0+阅读 · 4月27日

Relaxation-Informed Training of Neural Network Surrogate Models

Arxiv

0+阅读 · 4月24日

HiPreNets: High-Precision Neural Networks through Progressive Training

Arxiv

0+阅读 · 4月17日

Certified and accurate computation of function space norms of deep neural networks

Arxiv

0+阅读 · 4月16日

Quantitative Verification with Neural Networks

Arxiv

0+阅读 · 4月14日

Socrates Loss: Unifying Confidence Calibration and Classification by Leveraging the Unknown

Arxiv

0+阅读 · 4月14日

When Fine-Tuning Changes the Evidence: Architecture-Dependent Semantic Drift in Chest X-Ray Explanations

Arxiv

0+阅读 · 4月9日

Lipschitz-Based Robustness Certification Under Floating-Point Execution

Arxiv

0+阅读 · 3月24日

Towards Verifiable AI with Lightweight Cryptographic Proofs of Inference

Arxiv

0+阅读 · 3月19日

VIP会员

文章信息

相关主题

最新内容

对抗环境下超视距目标打击的情报支援

对抗环境下超视距目标打击的情报支援

专知会员服务

5+阅读 · 7月22日

《面向复杂地形下无人机跟踪地面机器人（UAV–UGV）的自适应多滤波器扩展卡尔曼滤波框架》

《面向复杂地形下无人机跟踪地面机器人（UAV–UGV）的自适应多滤波器扩展卡尔曼滤波框架》

专知会员服务

1+阅读 · 7月22日

纵深侦察：大规模作战行动中远程侦察与监视之迫切需求

纵深侦察：大规模作战行动中远程侦察与监视之迫切需求

专知会员服务

3+阅读 · 7月22日

共享认知，分布式研判：复杂行动中的美国空军指挥控制（万字长文）

共享认知，分布式研判：复杂行动中的美国空军指挥控制（万字长文）

专知会员服务

2+阅读 · 7月22日

《无人机对海面作战影响评估》

《无人机对海面作战影响评估》

专知会员服务

14+阅读 · 7月21日

《可损耗无人系统规模化应用对美国军事转型的战略影响（2022-2030）》2026年270页

《可损耗无人系统规模化应用对美国军事转型的战略影响（2022-2030）》2026年270页

专知会员服务

10+阅读 · 7月21日

博士论文 | 后训练如何损害大模型生成多样性？SimpleStrat与Stylus

博士论文 | 后训练如何损害大模型生成多样性？SimpleStrat与Stylus

专知会员服务

4+阅读 · 7月21日

综述 | 面向5G/6G网络的LLM智能体AI：架构、协议与标准化

综述 | 面向5G/6G网络的LLM智能体AI：架构、协议与标准化

专知会员服务

6+阅读 · 7月21日

五角大楼新设无人机办公室（DRPM-UxS）将如何重塑美国无人系统格局（附美国防部设立备忘录）

五角大楼新设无人机办公室（DRPM-UxS）将如何重塑美国无人系统格局（附美国防部设立备忘录）

专知会员服务

8+阅读 · 7月21日

印度精确打击与指挥架构的断层

印度精确打击与指挥架构的断层

专知会员服务

6+阅读 · 7月20日

《NASA喷气推进实验室：高耐久轻质常驻空观测系统（HELIOS）》429页

《NASA喷气推进实验室：高耐久轻质常驻空观测系统（HELIOS）》429页

专知会员服务

8+阅读 · 7月20日

美空军AI完成F-16战斗机自主空战历史性试飞

美空军AI完成F-16战斗机自主空战历史性试飞

专知会员服务

6+阅读 · 7月20日

《美政府问责局——武器系统年度评估（2026年）：强制要求成熟技术或可推动转向快速交付》249页

《美政府问责局——武器系统年度评估（2026年）：强制要求成熟技术或可推动转向快速交付》249页

专知会员服务

9+阅读 · 7月20日

《美国陆军：通过弹性分布式模型库实现自适应AI优势》

《美国陆军：通过弹性分布式模型库实现自适应AI优势》

专知会员服务

8+阅读 · 7月20日

博士论文 | 理解与改进大语言模型推理：从反转诅咒到连续思维链

博士论文 | 理解与改进大语言模型推理：从反转诅咒到连续思维链

专知会员服务

10+阅读 · 7月20日

相关VIP内容

【博士论文】基于物理结构与贝叶斯不确定性的可靠神经网络

【博士论文】基于物理结构与贝叶斯不确定性的可靠神经网络

专知会员服务

21+阅读 · 6月4日

【博士论文】迈向可靠神经网络：基于物理结构与贝叶斯不确定性

【博士论文】迈向可靠神经网络：基于物理结构与贝叶斯不确定性

专知会员服务

23+阅读 · 5月1日

【NYU博士论文】神经网络中的简单结构：论表达能力、优化性与数据分布

【NYU博士论文】神经网络中的简单结构：论表达能力、优化性与数据分布

专知会员服务

17+阅读 · 2025年4月30日

【普林斯顿博士论文】深度学习优化的隐性偏差：数学考察，391页pdf

【普林斯顿博士论文】深度学习优化的隐性偏差：数学考察，391页pdf

专知会员服务

29+阅读 · 2024年10月4日

【ETHZ博士论文】神经网络训练与认证，101页pdf

【ETHZ博士论文】神经网络训练与认证，101页pdf

专知会员服务

20+阅读 · 2024年7月28日

【ETHZ博士论文】认证神经网络的表达能力，86页pdf

【ETHZ博士论文】认证神经网络的表达能力，86页pdf

专知会员服务

20+阅读 · 2024年6月16日

【牛津大学博士论文】超参数化神经网络的泛化与表达性，221页pdf

【牛津大学博士论文】超参数化神经网络的泛化与表达性，221页pdf

专知会员服务

32+阅读 · 2024年4月19日

【ICML2020】最小化验证损失代理来搜索最佳神经网络结构

专知会员服务

25+阅读 · 2020年7月13日

【剑桥大学博士论文】深层神经网络结构的复兴，147页pdf，The resurgence of structure in deep neural networks

【剑桥大学博士论文】深层神经网络结构的复兴，147页pdf，The resurgence of structure in deep neural networks

专知会员服务

20+阅读 · 2020年5月14日

【斯坦福大学】面向可解释人工智能:神经网络的显著性检验（Towards Explainable AI: Significance Tests for Neural Networks），26页pdf

【斯坦福大学】面向可解释人工智能:神经网络的显著性检验（Towards Explainable AI: Significance Tests for Neural Networks），26页pdf

专知会员服务

27+阅读 · 2019年12月19日

热门VIP内容

开通专知VIP会员享更多权益服务

《面向复杂地形下无人机跟踪地面机器人（UAV–UGV）的自适应多滤波器扩展卡尔曼滤波框架》

共享认知，分布式研判：复杂行动中的美国空军指挥控制（万字长文）

对抗环境下超视距目标打击的情报支援

纵深侦察：大规模作战行动中远程侦察与监视之迫切需求

相关资讯

更透明的AI？MIT等最新《可解释AI: 深度神经网络内部结构解释》综述，17页pdf全面阐述DNN内部可解释性技术

更透明的AI？MIT等最新《可解释AI: 深度神经网络内部结构解释》综述，17页pdf全面阐述DNN内部可解释性技术

专知

13+阅读 · 2022年8月11日

深度神经网络可解释性方法汇总，附Tensorflow代码实现

深度神经网络可解释性方法汇总，附Tensorflow代码实现

新智元

34+阅读 · 2019年11月7日

深度神经网络可解释性方法汇总（附TF代码实现）

深度神经网络可解释性方法汇总（附TF代码实现）

CVer

11+阅读 · 2019年11月4日

CVPR 2019 | 告别低分辨率网络，微软提出高分辨率深度神经网络HRNet

CVPR 2019 | 告别低分辨率网络，微软提出高分辨率深度神经网络HRNet

微软研究院AI头条

14+阅读 · 2019年5月21日

神经网络中的权重初始化一览：从基础到Kaiming

神经网络中的权重初始化一览：从基础到Kaiming

大数据文摘

12+阅读 · 2019年4月18日

2019年新书推荐-《神经网络与深度学习》-Michael Nielsen

2019年新书推荐-《神经网络与深度学习》-Michael Nielsen

深度学习与NLP

14+阅读 · 2019年2月21日

【人工智能】神经网络常用优化算法概览、一文了解迁移学习经典算法

【人工智能】神经网络常用优化算法概览、一文了解迁移学习经典算法

产业智能官

13+阅读 · 2018年8月18日

超全总结：神经网络加速之量化模型 | 附带代码

超全总结：神经网络加速之量化模型 | 附带代码

PaperWeekly

12+阅读 · 2018年6月1日

神经网络可解释性最新进展

神经网络可解释性最新进展

专知

18+阅读 · 2018年3月10日

【论文读书笔记】重新考虑用简单神经网络进行知识表示学习（附代码）

【论文读书笔记】重新考虑用简单神经网络进行知识表示学习（附代码）

专知

14+阅读 · 2018年2月4日

相关论文

Multiple Additive Neural Networks for Structured and Unstructured Data

Arxiv

0+阅读 · 4月29日

A Survey on Split Learning for LLM Fine-Tuning: Models, Systems, and Privacy Optimizations

Arxiv

0+阅读 · 4月27日

Relaxation-Informed Training of Neural Network Surrogate Models

Arxiv

0+阅读 · 4月24日

HiPreNets: High-Precision Neural Networks through Progressive Training

Arxiv

0+阅读 · 4月17日

Certified and accurate computation of function space norms of deep neural networks

Arxiv

0+阅读 · 4月16日

Quantitative Verification with Neural Networks

Arxiv

0+阅读 · 4月14日

Socrates Loss: Unifying Confidence Calibration and Classification by Leveraging the Unknown

Arxiv

0+阅读 · 4月14日

When Fine-Tuning Changes the Evidence: Architecture-Dependent Semantic Drift in Chest X-Ray Explanations

Arxiv

0+阅读 · 4月9日

Lipschitz-Based Robustness Certification Under Floating-Point Execution

Arxiv

0+阅读 · 3月24日

Towards Verifiable AI with Lightweight Cryptographic Proofs of Inference

Arxiv

0+阅读 · 3月19日

相关基金

面向网络系统的一致性安全隐私分析与防护机制设计

国家自然科学基金

2+阅读 · 2017年12月31日

面向网络虚拟化的网络层可信身份验证机制研究

国家自然科学基金

0+阅读 · 2017年12月31日

基于稀疏性与分片常数空间的网格简化方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

T-S模糊神经网络的容错同步性分析

国家自然科学基金

0+阅读 · 2015年12月31日

非确定型Web服务流程重组的可靠性验证技术

国家自然科学基金

1+阅读 · 2015年12月31日

复杂非完整多自主体网络协同算法设计与性能极限分析

国家自然科学基金

1+阅读 · 2015年12月31日

基于神经网络的无约束0-1二次规划全局最优算法研究

国家自然科学基金

3+阅读 · 2015年12月31日

自组织递归二型小波模糊神经网络的研究及在微型飞行器姿态控制中的应用

国家自然科学基金

0+阅读 · 2015年12月31日

可证明的网络和数据匿名性及隐私增强身份管理关键技术研究

国家自然科学基金

3+阅读 · 2014年12月31日

非凸非光滑优化的神经网络设计及其关键问题研究

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员