Provably Safe Model Updates - 专知论文

会员服务 ·

0

Provably Safe Model Updates

翻译：可证明安全的模型更新

Leo Elmecker-Plakolm,Pierre Fasterling,Philip Sosnin,Calvin Tsay,Matthew Wicker

from arxiv, 12 pages, 9 figures. This work has been accepted for publication at SaTML 2026. The final version will be available on IEEE Xplore

Safety-critical environments are inherently dynamic. Distribution shifts, emerging vulnerabilities, and evolving requirements demand continuous updates to machine learning models. Yet even benign parameter updates can have unintended consequences, such as catastrophic forgetting in classical models or alignment drift in foundation models. Existing heuristic approaches (e.g., regularization, parameter isolation) can mitigate these effects but cannot certify that updated models continue to satisfy required performance specifications. We address this problem by introducing a framework for provably safe model updates. Our approach first formalizes the problem as computing the largest locally invariant domain (LID): a connected region in parameter space where all points are certified to satisfy a given specification. While exact maximal LID computation is intractable, we show that relaxing the problem to parameterized abstract domains (orthotopes, zonotopes) yields a tractable primal-dual formulation. This enables efficient certification of updates - independent of the data or algorithm used - by projecting them onto the safe domain. Our formulation further allows computation of multiple approximately optimal LIDs, incorporation of regularization-inspired biases, and use of lookahead data buffers. Across continual learning and foundation model fine-tuning benchmarks, our method matches or exceeds heuristic baselines for avoiding forgetting while providing formal safety guarantees.

翻译：安全关键型环境本质上是动态的。分布漂移、新出现的安全漏洞及不断演变的需求要求对机器学习模型进行持续更新。然而即便是良性的参数更新也可能产生意外后果，例如经典模型中的灾难性遗忘或基础模型中的对齐漂移。现有启发式方法（如正则化、参数隔离）虽能缓解这些影响，但无法证明更新后的模型仍能满足所需的性能规约。针对该问题，我们提出了一种可证明安全的模型更新框架。该方法首先将问题形式化为计算最大局部不变域（LID）：参数空间中所有点均被证明满足给定规约的连通区域。尽管精确的最大LID计算是棘手的，但通过将问题松弛至参数化抽象域（正交体、多面体），我们推导出易处理的原始-对偶形式。这使得无论使用何种数据或算法，均可通过将更新投影至安全域实现高效认证。我们的框架进一步支持计算多个近似最优LID、融入正则化启发式偏置以及使用前瞻数据缓冲区。在持续学习与基础模型微调基准测试中，本方法在提供形式化安全保证的同时，在避免遗忘方面达到或超越了启发式基线方法的性能。

0

相关内容

《提升生成模型的安全性与保障》博士论文

《提升生成模型的安全性与保障》博士论文

专知会员服务

12+阅读 · 4月20日

深度学习模型安全：威胁与防御，176页pdf

深度学习模型安全：威胁与防御，176页pdf

专知会员服务

28+阅读 · 2024年12月13日

【新书】大规模语言模型的隐私与安全，

【新书】大规模语言模型的隐私与安全，

专知会员服务

29+阅读 · 2024年12月4日

大模型安全性，Google DeepMind Nicholas Carlini，附191页slides与视频

大模型安全性，Google DeepMind Nicholas Carlini，附191页slides与视频

专知会员服务

31+阅读 · 2024年7月15日

【MIT博士论文】机器学习模型鲁棒性的探索、改进与验证，208页pdf

【MIT博士论文】机器学习模型鲁棒性的探索、改进与验证，208页pdf

专知会员服务

47+阅读 · 2023年4月2日

面向机器学习模型安全的测试与修复

面向机器学习模型安全的测试与修复

专知会员服务

54+阅读 · 2023年2月5日

如何构建安全深度模型？《数据高效、接地、安全的深度模型》Jay Thiagarajan，50页ppt

如何构建安全深度模型？《数据高效、接地、安全的深度模型》Jay Thiagarajan，50页ppt

专知会员服务

31+阅读 · 2022年10月4日

「联邦学习模型安全与隐私」研究进展

「联邦学习模型安全与隐私」研究进展

专知会员服务

69+阅读 · 2022年9月24日

【AI+军事】附论文《敏感还是不敏感？如何攻击和捍卫文件安全分类模型》

【AI+军事】附论文《敏感还是不敏感？如何攻击和捍卫文件安全分类模型》

专知会员服务

19+阅读 · 2022年4月26日

机器学习的安全问题及隐私保护

专知会员服务

40+阅读 · 2020年12月20日

推荐！《不确定性下的作战决策：推理、序贯和对抗性方法》美国空军293页博士论文，含代码

推荐！《不确定性下的作战决策：推理、序贯和对抗性方法》美国空军293页博士论文，含代码

专知

52+阅读 · 2022年11月16日

推荐！【F16模型：符号系统、模型提取、异常检测和形式化方法】《利用符号表示实现安全可靠学习》美空军2022最新107页技术报告

推荐！【F16模型：符号系统、模型提取、异常检测和形式化方法】《利用符号表示实现安全可靠学习》美空军2022最新107页技术报告

专知

11+阅读 · 2022年11月3日

【经典书】网络安全《移动目标防御 II：博弈论和对抗性建模的应用》210页

【经典书】网络安全《移动目标防御 II：博弈论和对抗性建模的应用》210页

专知

17+阅读 · 2022年4月16日

【WWW2020-新加坡国立大学】知识图谱强化负采样的推荐系统，Reinforced Negative Sampling

【WWW2020-新加坡国立大学】知识图谱强化负采样的推荐系统，Reinforced Negative Sampling

专知

22+阅读 · 2020年3月14日

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

专知

21+阅读 · 2019年11月14日

FewRel 2.0数据集：以近知远，以一知万，少次学习新挑战

FewRel 2.0数据集：以近知远，以一知万，少次学习新挑战

PaperWeekly

24+阅读 · 2019年11月6日

你的算法可靠吗？神经网络不确定性度量

你的算法可靠吗？神经网络不确定性度量

专知

40+阅读 · 2019年4月27日

网络安全态势感知

网络安全态势感知

计算机与网络安全

26+阅读 · 2018年10月14日

推荐｜机器学习中的模型评价、模型选择和算法选择！

推荐｜机器学习中的模型评价、模型选择和算法选择！

全球人工智能

10+阅读 · 2018年2月5日

网络安全态势感知浅析

网络安全态势感知浅析

计算机与网络安全

18+阅读 · 2017年10月13日

动态重构综合模块化航空电子系统适航安全性评估方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

可证明安全的确定性公钥加密体制研究

国家自然科学基金

0+阅读 · 2015年12月31日

高维回归模型的预测稳定性研究

国家自然科学基金

3+阅读 · 2015年12月31日

非确定型Web服务流程重组的可靠性验证技术

国家自然科学基金

1+阅读 · 2015年12月31日

网络安全威胁踪源分析方法研究

国家自然科学基金

19+阅读 · 2015年12月31日

具有重构特征的系统可靠性建模方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向大数据的安全迁移学习方法

国家自然科学基金

31+阅读 · 2015年12月31日

复杂需求场景驱动的软件安全防护模型检测技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于自适应模型检测的安全协议自动建模与设计研究

国家自然科学基金

1+阅读 · 2014年12月31日

物联网关键技术RFID系统安全测试的仿真架构.评估模型和受攻击模式的研究和实践

国家自然科学基金

2+阅读 · 2014年12月31日

Safe Planning in Interactive Environments via Iterative Policy Updates and Adversarially Robust Conformal Prediction

Arxiv

0+阅读 · 5月4日

RefusalGuard: Geometry-Preserving Fine-Tuning for Safety in LLMs

Arxiv

0+阅读 · 5月3日

Patching LLM Like Software: A Lightweight Method for Improving Safety Policy in Large Language Models

Arxiv

0+阅读 · 4月27日

Continual Safety Alignment via Gradient-Based Sample Selection

Arxiv

0+阅读 · 4月19日

Safety at Scale: A Comprehensive Survey of Large Model and Agent Safety

Arxiv

0+阅读 · 4月14日

SafeAdapt: Provably Safe Policy Updates in Deep Reinforcement Learning

Arxiv

0+阅读 · 4月10日

Risk-Constrained Belief-Space Optimization for Safe Control under Latent Uncertainty

Arxiv

0+阅读 · 4月4日

Label-efficient Training Updates for Malware Detection over Time

Arxiv

0+阅读 · 3月30日

SecureBreak -- A dataset towards safe and secure models

Arxiv

0+阅读 · 3月23日

Improving Generalization on Cybersecurity Tasks with Multi-Modal Contrastive Learning

Arxiv

0+阅读 · 3月20日

VIP会员

文章信息

相关主题

最新内容

综述 | 3D场景图：开放挑战与未来方向

综述 | 3D场景图：开放挑战与未来方向

专知会员服务

0+阅读 · 4分钟前

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

专知会员服务

1+阅读 · 34分钟前

21世纪的无人机战争

21世纪的无人机战争

专知会员服务

1+阅读 · 59分钟前

《伊朗与以色列-美国热战及其对数字技术的影响》

《伊朗与以色列-美国热战及其对数字技术的影响》

专知会员服务

1+阅读 · 今天13:55

《量子技术的军事任务技术适配与利用》

《量子技术的军事任务技术适配与利用》

专知会员服务

1+阅读 · 今天13:51

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

专知会员服务

2+阅读 · 今天13:48

美国从乌克兰无人机战争中学习经验

美国从乌克兰无人机战争中学习经验

专知会员服务

7+阅读 · 6月21日

ICML 2026 | 面向视觉语言模型的语义鲁棒性认证

ICML 2026 | 面向视觉语言模型的语义鲁棒性认证

专知会员服务

5+阅读 · 6月21日

综述 | 智能体电子设计自动化：从“交接有效性”重新理解Agentic EDA

综述 | 智能体电子设计自动化：从“交接有效性”重新理解Agentic EDA

专知会员服务

7+阅读 · 6月21日

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

专知会员服务

20+阅读 · 6月20日

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

专知会员服务

5+阅读 · 6月19日

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

专知会员服务

8+阅读 · 6月19日

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

专知会员服务

7+阅读 · 6月18日

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

专知会员服务

9+阅读 · 6月18日

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

专知会员服务

13+阅读 · 6月18日

相关VIP内容

《提升生成模型的安全性与保障》博士论文

《提升生成模型的安全性与保障》博士论文

专知会员服务

12+阅读 · 4月20日

深度学习模型安全：威胁与防御，176页pdf

深度学习模型安全：威胁与防御，176页pdf

专知会员服务

28+阅读 · 2024年12月13日

【新书】大规模语言模型的隐私与安全，

【新书】大规模语言模型的隐私与安全，

专知会员服务

29+阅读 · 2024年12月4日

大模型安全性，Google DeepMind Nicholas Carlini，附191页slides与视频

大模型安全性，Google DeepMind Nicholas Carlini，附191页slides与视频

专知会员服务

31+阅读 · 2024年7月15日

【MIT博士论文】机器学习模型鲁棒性的探索、改进与验证，208页pdf

【MIT博士论文】机器学习模型鲁棒性的探索、改进与验证，208页pdf

专知会员服务

47+阅读 · 2023年4月2日

面向机器学习模型安全的测试与修复

面向机器学习模型安全的测试与修复

专知会员服务

54+阅读 · 2023年2月5日

如何构建安全深度模型？《数据高效、接地、安全的深度模型》Jay Thiagarajan，50页ppt

如何构建安全深度模型？《数据高效、接地、安全的深度模型》Jay Thiagarajan，50页ppt

专知会员服务

31+阅读 · 2022年10月4日

「联邦学习模型安全与隐私」研究进展

「联邦学习模型安全与隐私」研究进展

专知会员服务

69+阅读 · 2022年9月24日

【AI+军事】附论文《敏感还是不敏感？如何攻击和捍卫文件安全分类模型》

【AI+军事】附论文《敏感还是不敏感？如何攻击和捍卫文件安全分类模型》

专知会员服务

19+阅读 · 2022年4月26日

机器学习的安全问题及隐私保护

专知会员服务

40+阅读 · 2020年12月20日

热门VIP内容

开通专知VIP会员享更多权益服务

21世纪的无人机战争

《量子技术的军事任务技术适配与利用》

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

《伊朗与以色列-美国热战及其对数字技术的影响》

相关资讯

推荐！《不确定性下的作战决策：推理、序贯和对抗性方法》美国空军293页博士论文，含代码

推荐！《不确定性下的作战决策：推理、序贯和对抗性方法》美国空军293页博士论文，含代码

专知

52+阅读 · 2022年11月16日

推荐！【F16模型：符号系统、模型提取、异常检测和形式化方法】《利用符号表示实现安全可靠学习》美空军2022最新107页技术报告

推荐！【F16模型：符号系统、模型提取、异常检测和形式化方法】《利用符号表示实现安全可靠学习》美空军2022最新107页技术报告

专知

11+阅读 · 2022年11月3日

【经典书】网络安全《移动目标防御 II：博弈论和对抗性建模的应用》210页

【经典书】网络安全《移动目标防御 II：博弈论和对抗性建模的应用》210页

专知

17+阅读 · 2022年4月16日

【WWW2020-新加坡国立大学】知识图谱强化负采样的推荐系统，Reinforced Negative Sampling

【WWW2020-新加坡国立大学】知识图谱强化负采样的推荐系统，Reinforced Negative Sampling

专知

22+阅读 · 2020年3月14日

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

专知

21+阅读 · 2019年11月14日

FewRel 2.0数据集：以近知远，以一知万，少次学习新挑战

FewRel 2.0数据集：以近知远，以一知万，少次学习新挑战

PaperWeekly

24+阅读 · 2019年11月6日

你的算法可靠吗？神经网络不确定性度量

你的算法可靠吗？神经网络不确定性度量

专知

40+阅读 · 2019年4月27日

网络安全态势感知

网络安全态势感知

计算机与网络安全

26+阅读 · 2018年10月14日

推荐｜机器学习中的模型评价、模型选择和算法选择！

推荐｜机器学习中的模型评价、模型选择和算法选择！

全球人工智能

10+阅读 · 2018年2月5日

网络安全态势感知浅析

网络安全态势感知浅析

计算机与网络安全

18+阅读 · 2017年10月13日

相关论文

Safe Planning in Interactive Environments via Iterative Policy Updates and Adversarially Robust Conformal Prediction

Arxiv

0+阅读 · 5月4日

RefusalGuard: Geometry-Preserving Fine-Tuning for Safety in LLMs

Arxiv

0+阅读 · 5月3日

Patching LLM Like Software: A Lightweight Method for Improving Safety Policy in Large Language Models

Arxiv

0+阅读 · 4月27日

Continual Safety Alignment via Gradient-Based Sample Selection

Arxiv

0+阅读 · 4月19日

Safety at Scale: A Comprehensive Survey of Large Model and Agent Safety

Arxiv

0+阅读 · 4月14日

SafeAdapt: Provably Safe Policy Updates in Deep Reinforcement Learning

Arxiv

0+阅读 · 4月10日

Risk-Constrained Belief-Space Optimization for Safe Control under Latent Uncertainty

Arxiv

0+阅读 · 4月4日

Label-efficient Training Updates for Malware Detection over Time

Arxiv

0+阅读 · 3月30日

SecureBreak -- A dataset towards safe and secure models

Arxiv

0+阅读 · 3月23日

Improving Generalization on Cybersecurity Tasks with Multi-Modal Contrastive Learning

Arxiv

0+阅读 · 3月20日

相关基金

动态重构综合模块化航空电子系统适航安全性评估方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

可证明安全的确定性公钥加密体制研究

国家自然科学基金

0+阅读 · 2015年12月31日

高维回归模型的预测稳定性研究

国家自然科学基金

3+阅读 · 2015年12月31日

非确定型Web服务流程重组的可靠性验证技术

国家自然科学基金

1+阅读 · 2015年12月31日

网络安全威胁踪源分析方法研究

国家自然科学基金

19+阅读 · 2015年12月31日

具有重构特征的系统可靠性建模方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向大数据的安全迁移学习方法

国家自然科学基金

31+阅读 · 2015年12月31日

复杂需求场景驱动的软件安全防护模型检测技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于自适应模型检测的安全协议自动建模与设计研究

国家自然科学基金

1+阅读 · 2014年12月31日

物联网关键技术RFID系统安全测试的仿真架构.评估模型和受攻击模式的研究和实践

国家自然科学基金

2+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员