Information-Theoretic Limits of Safety Verification for Self-Improving Systems - 专知论文

会员服务 ·

0

可行 · 分类器 · 系统 · 安全验证 · 效用 ·

Information-Theoretic Limits of Safety Verification for Self-Improving Systems

翻译：信息论框架下的自改进系统安全验证极限

Arsenios Scrivens

from arxiv, 27 pages, 6 figures. Companion empirical paper: doi:10.5281/zenodo.19237566

Can a safety gate permit unbounded beneficial self-modification while maintaining bounded cumulative risk? We formalize this question through dual conditions -- requiring sum delta_n < infinity (bounded risk) and sum TPR_n = infinity (unbounded utility) -- and establish a theory of their (in)compatibility. Classification impossibility (Theorem 1): For power-law risk schedules delta_n = O(n^{-p}) with p > 1, any classifier-based gate under overlapping safe/unsafe distributions satisfies TPR_n <= C_alpha * delta_n^beta via Holder's inequality, forcing sum TPR_n < infinity. This impossibility is exponent-optimal (Theorem 3). A second independent proof via the NP counting method (Theorem 4) yields a 13% tighter bound without Holder's inequality. Universal finite-horizon ceiling (Theorem 5): For any summable risk schedule, the exact maximum achievable classifier utility is U*(N, B) = N * TPR_NP(B/N), growing as exp(O(sqrt(log N))) -- subpolynomial. At N = 10^6 with budget B = 1.0, a classifier extracts at most U* ~ 87 versus a verifier's ~500,000. Verification escape (Theorem 2): A Lipschitz ball verifier achieves delta = 0 with TPR > 0, escaping the impossibility. Formal Lipschitz bounds for pre-LayerNorm transformers under LoRA enable LLM-scale verification. The separation is strict. We validate on GPT-2 (d_LoRA = 147,456): conditional delta = 0 with TPR = 0.352. Comprehensive empirical validation is in the companion paper [D2].

翻译：安全门能否在维持有界累积风险的同时允许无界有益自我修改？我们通过双重条件——要求∑δ_n < ∞（有界风险）且∑TPR_n = ∞（无界效用）——形式化该问题，并建立其（不）兼容性理论。分类不可行性定理（定理1）：对于幂律风险时间表δ_n = O(n^{-p})且p > 1，在安全/非安全分布重叠条件下，任何基于分类器的安全门通过Hölder不等式满足TPR_n ≤ C_α * δ_n^β，迫使∑TPR_n < ∞。该不可行性具有指数最优性（定理3）。第二类独立证明采用NP计数法（定理4）在无需Hölder不等式条件下获得比原界严格13%的更紧界限。通用有限时域上限定理（定理5）：对于任意可求和风险时间表，分类器可实现的最大精确效用为U*(N, B) = N * TPR_NP(B/N)，其增长率为exp(O(√log N))——亚多项式级。当N=10^6且预算B=1.0时，分类器最多提取U*≈87，而验证器可达约500,000。验证逃逸定理（定理2）：Lipschitz球验证器在TPR>0条件下实现δ=0，突破不可行性边界。基于LoRA的预层归一化Transformer的正式Lipschitz界可实现大规模语言模型级验证，这种分离具有严格性。我们在GPT-2（d_LoRA=147,456）上验证：条件δ=0时TPR=0.352。完整实证验证参见姊妹论文[D2]。

0

相关内容

【博士论文】基于信息论探索的强化学习与控制：安全性、最优性及其应用研究

【博士论文】基于信息论探索的强化学习与控制：安全性、最优性及其应用研究

专知会员服务

15+阅读 · 5月9日

《多智能体系统中的边界定义可容许性：贝尔曼共约、全局安全与分布式最优性》

《多智能体系统中的边界定义可容许性：贝尔曼共约、全局安全与分布式最优性》

专知会员服务

18+阅读 · 2月14日

【MIT博士论文】不确定环境下自主系统的风险感知规划与概率预测，166页pdf

【MIT博士论文】不确定环境下自主系统的风险感知规划与概率预测，166页pdf

专知会员服务

38+阅读 · 2023年5月3日

《匿名保密通信框架：基于区块链的概念验证》美海军2022最新154页论文

《匿名保密通信框架：基于区块链的概念验证》美海军2022最新154页论文

专知会员服务

23+阅读 · 2022年12月21日

《在自修复系统中嵌入验证意识》美空军132页技术总结报告

《在自修复系统中嵌入验证意识》美空军132页技术总结报告

专知会员服务

22+阅读 · 2022年11月3日

推荐！【美国空军】《可靠自主性的分布式学习和控制器设计》24页“可靠自主性”（Assured Autonomy）项目技术报告，2022年8月

推荐！【美国空军】《可靠自主性的分布式学习和控制器设计》24页“可靠自主性”（Assured Autonomy）项目技术报告，2022年8月

专知会员服务

41+阅读 · 2022年9月25日

【军用区块链+复杂系统】《数据信任方法学：基于区块链的军事复杂系统检测》麻省理工林肯实验室

【军用区块链+复杂系统】《数据信任方法学：基于区块链的军事复杂系统检测》麻省理工林肯实验室

专知会员服务

57+阅读 · 2022年6月11日

牛津大学等《多智能体系统的博弈论验证》最新论文，Rational verification: game-theoretic verification of multi-agent systems

牛津大学等《多智能体系统的博弈论验证》最新论文，Rational verification: game-theoretic verification of multi-agent systems

专知会员服务

43+阅读 · 2022年4月4日

《信息安全技术边缘计算安全技术要求》国家标准意见稿

《信息安全技术边缘计算安全技术要求》国家标准意见稿

专知会员服务

35+阅读 · 2022年3月30日

首篇《后门学习综述》论文发布，阐述AI系统训练过程的安全性问题

专知会员服务

31+阅读 · 2020年11月21日

推荐！《不确定性下的作战决策：推理、序贯和对抗性方法》美国空军293页博士论文，含代码

推荐！《不确定性下的作战决策：推理、序贯和对抗性方法》美国空军293页博士论文，含代码

专知

52+阅读 · 2022年11月16日

【经典书】网络安全《移动目标防御 II：博弈论和对抗性建模的应用》210页

【经典书】网络安全《移动目标防御 II：博弈论和对抗性建模的应用》210页

专知

17+阅读 · 2022年4月16日

100+篇《自监督学习(Self-Supervised Learning)》论文最新合集

100+篇《自监督学习(Self-Supervised Learning)》论文最新合集

专知

133+阅读 · 2020年3月18日

【学界】CVPR 2019 | 旷视研究院提出新型损失函数：改善边界框模糊问题

【学界】CVPR 2019 | 旷视研究院提出新型损失函数：改善边界框模糊问题

GAN生成式对抗网络

14+阅读 · 2019年5月20日

从信息论的角度来理解损失函数

从信息论的角度来理解损失函数

深度学习每日摘要

17+阅读 · 2019年4月7日

从Seq2seq到Attention模型到Self Attention（二）

从Seq2seq到Attention模型到Self Attention（二）

量化投资与机器学习

23+阅读 · 2018年10月9日

【论文推荐】最新八篇推荐系统相关论文—可解释推荐、上下文感知推荐系统、异构知识库嵌入、深度强化学习、移动推荐系统

【论文推荐】最新八篇推荐系统相关论文—可解释推荐、上下文感知推荐系统、异构知识库嵌入、深度强化学习、移动推荐系统

专知

17+阅读 · 2018年6月16日

【论文推荐】最新十篇度量学习相关论文—可量化表示、非线性度量学习、在线深度量学习、大间隔最近邻、判别深度度量、域自适应

【论文推荐】最新十篇度量学习相关论文—可量化表示、非线性度量学习、在线深度量学习、大间隔最近邻、判别深度度量、域自适应

专知

12+阅读 · 2018年5月18日

【论文推荐】最新六篇对抗自编码器相关论文—多尺度网络节点表示、生成对抗自编码、逆映射、Wasserstein、条件对抗、去噪

【论文推荐】最新六篇对抗自编码器相关论文—多尺度网络节点表示、生成对抗自编码、逆映射、Wasserstein、条件对抗、去噪

专知

20+阅读 · 2018年4月7日

网络安全态势感知浅析

网络安全态势感知浅析

计算机与网络安全

18+阅读 · 2017年10月13日

理性安全两方计算协议设计与安全性证明

国家自然科学基金

0+阅读 · 2015年12月31日

基于信道差异的物理层安全编码技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向安全关键系统的时间可预测多核代码生成方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

云计算环境信任链系统安全性理论研究

国家自然科学基金

0+阅读 · 2015年12月31日

非线性期望理论下的极限定理及其金融风险度量中应用的研究

国家自然科学基金

0+阅读 · 2015年12月31日

混合交通环境中自动驾驶汽车安全可达性分析与优化控制研究

国家自然科学基金

1+阅读 · 2015年12月31日

自然灾害风险的时空尺度效应分析与推绎技术研究—以农业旱灾风险为例

国家自然科学基金

0+阅读 · 2014年12月31日

考虑不确定性和方向性的结构随机极值和疲劳风致响应及抗风可靠性评价理论

国家自然科学基金

0+阅读 · 2014年12月31日

基于自适应模型检测的安全协议自动建模与设计研究

国家自然科学基金

1+阅读 · 2014年12月31日

基于博弈论的信息安全理论与方法研究

国家自然科学基金

10+阅读 · 2012年12月31日

The Algebraic Limits of Polynomial Information Measures

Arxiv

0+阅读 · 6月12日

Infinite State Model Checking by Learning Transitive Relations

Arxiv

0+阅读 · 5月4日

Exact Structural Abstraction and Tractability Limits

Arxiv

0+阅读 · 4月27日

Simplifying Safety Proofs with Forward-Backward Reasoning and Prophecy

Arxiv

0+阅读 · 4月16日

Exact Structural Abstraction and Tractability Limits

Arxiv

0+阅读 · 4月15日

On the Accuracy Limits of Sequential Recommender Systems: An Entropy-Based Approach

Arxiv

0+阅读 · 4月14日

Exact Structural Abstraction and Tractability Limits

Arxiv

0+阅读 · 4月13日

Trustworthy Feature Importance Avoids Unrestricted Permutations

Arxiv

0+阅读 · 4月13日

On the Accuracy Limits of Sequential Recommender Systems: An Entropy-Based Approach

Arxiv

0+阅读 · 3月30日

On the Limits of Prediction: Forecastability Profiles and Information Decay in Time Series

Arxiv

0+阅读 · 3月20日

VIP会员

文章信息

相关主题

最新内容

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

专知会员服务

0+阅读 · 14分钟前

综述 | 世界动作模型：少做梦，多行动

综述 | 世界动作模型：少做梦，多行动

专知会员服务

0+阅读 · 16分钟前

美以伊冲突：无人机与人工智能的运用

美以伊冲突：无人机与人工智能的运用

专知会员服务

1+阅读 · 28分钟前

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

专知会员服务

1+阅读 · 39分钟前

《特种部队在透明战场中的生存力》最新报告

《特种部队在透明战场中的生存力》最新报告

专知会员服务

1+阅读 · 48分钟前

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

专知会员服务

1+阅读 · 52分钟前

《人工智能生成的零日漏洞：对未来作战的影响》

《人工智能生成的零日漏洞：对未来作战的影响》

专知会员服务

1+阅读 · 56分钟前

《理解伙伴国在防务能力选择中的偏好：探索美国解决方案的替代选择》美智库200页报告

《理解伙伴国在防务能力选择中的偏好：探索美国解决方案的替代选择》美智库200页报告

专知会员服务

1+阅读 · 今天13:59

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

专知会员服务

5+阅读 · 6月22日

综述 | 3D场景图：开放挑战与未来方向

综述 | 3D场景图：开放挑战与未来方向

专知会员服务

8+阅读 · 6月22日

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

专知会员服务

6+阅读 · 6月22日

21世纪的无人机战争

21世纪的无人机战争

专知会员服务

4+阅读 · 6月22日

《伊朗与以色列-美国热战及其对数字技术的影响》

《伊朗与以色列-美国热战及其对数字技术的影响》

专知会员服务

5+阅读 · 6月22日

《量子技术的军事任务技术适配与利用》

《量子技术的军事任务技术适配与利用》

专知会员服务

5+阅读 · 6月22日

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

专知会员服务

8+阅读 · 6月22日

相关VIP内容

【博士论文】基于信息论探索的强化学习与控制：安全性、最优性及其应用研究

【博士论文】基于信息论探索的强化学习与控制：安全性、最优性及其应用研究

专知会员服务

15+阅读 · 5月9日

《多智能体系统中的边界定义可容许性：贝尔曼共约、全局安全与分布式最优性》

《多智能体系统中的边界定义可容许性：贝尔曼共约、全局安全与分布式最优性》

专知会员服务

18+阅读 · 2月14日

【MIT博士论文】不确定环境下自主系统的风险感知规划与概率预测，166页pdf

【MIT博士论文】不确定环境下自主系统的风险感知规划与概率预测，166页pdf

专知会员服务

38+阅读 · 2023年5月3日

《匿名保密通信框架：基于区块链的概念验证》美海军2022最新154页论文

《匿名保密通信框架：基于区块链的概念验证》美海军2022最新154页论文

专知会员服务

23+阅读 · 2022年12月21日

《在自修复系统中嵌入验证意识》美空军132页技术总结报告

《在自修复系统中嵌入验证意识》美空军132页技术总结报告

专知会员服务

22+阅读 · 2022年11月3日

推荐！【美国空军】《可靠自主性的分布式学习和控制器设计》24页“可靠自主性”（Assured Autonomy）项目技术报告，2022年8月

推荐！【美国空军】《可靠自主性的分布式学习和控制器设计》24页“可靠自主性”（Assured Autonomy）项目技术报告，2022年8月

专知会员服务

41+阅读 · 2022年9月25日

【军用区块链+复杂系统】《数据信任方法学：基于区块链的军事复杂系统检测》麻省理工林肯实验室

【军用区块链+复杂系统】《数据信任方法学：基于区块链的军事复杂系统检测》麻省理工林肯实验室

专知会员服务

57+阅读 · 2022年6月11日

牛津大学等《多智能体系统的博弈论验证》最新论文，Rational verification: game-theoretic verification of multi-agent systems

牛津大学等《多智能体系统的博弈论验证》最新论文，Rational verification: game-theoretic verification of multi-agent systems

专知会员服务

43+阅读 · 2022年4月4日

《信息安全技术边缘计算安全技术要求》国家标准意见稿

《信息安全技术边缘计算安全技术要求》国家标准意见稿

专知会员服务

35+阅读 · 2022年3月30日

首篇《后门学习综述》论文发布，阐述AI系统训练过程的安全性问题

专知会员服务

31+阅读 · 2020年11月21日

热门VIP内容

开通专知VIP会员享更多权益服务

综述 | 世界动作模型：少做梦，多行动

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

美以伊冲突：无人机与人工智能的运用

相关资讯

推荐！《不确定性下的作战决策：推理、序贯和对抗性方法》美国空军293页博士论文，含代码

推荐！《不确定性下的作战决策：推理、序贯和对抗性方法》美国空军293页博士论文，含代码

专知

52+阅读 · 2022年11月16日

【经典书】网络安全《移动目标防御 II：博弈论和对抗性建模的应用》210页

【经典书】网络安全《移动目标防御 II：博弈论和对抗性建模的应用》210页

专知

17+阅读 · 2022年4月16日

100+篇《自监督学习(Self-Supervised Learning)》论文最新合集

100+篇《自监督学习(Self-Supervised Learning)》论文最新合集

专知

133+阅读 · 2020年3月18日

【学界】CVPR 2019 | 旷视研究院提出新型损失函数：改善边界框模糊问题

【学界】CVPR 2019 | 旷视研究院提出新型损失函数：改善边界框模糊问题

GAN生成式对抗网络

14+阅读 · 2019年5月20日

从信息论的角度来理解损失函数

从信息论的角度来理解损失函数

深度学习每日摘要

17+阅读 · 2019年4月7日

从Seq2seq到Attention模型到Self Attention（二）

从Seq2seq到Attention模型到Self Attention（二）

量化投资与机器学习

23+阅读 · 2018年10月9日

【论文推荐】最新八篇推荐系统相关论文—可解释推荐、上下文感知推荐系统、异构知识库嵌入、深度强化学习、移动推荐系统

【论文推荐】最新八篇推荐系统相关论文—可解释推荐、上下文感知推荐系统、异构知识库嵌入、深度强化学习、移动推荐系统

专知

17+阅读 · 2018年6月16日

【论文推荐】最新十篇度量学习相关论文—可量化表示、非线性度量学习、在线深度量学习、大间隔最近邻、判别深度度量、域自适应

【论文推荐】最新十篇度量学习相关论文—可量化表示、非线性度量学习、在线深度量学习、大间隔最近邻、判别深度度量、域自适应

专知

12+阅读 · 2018年5月18日

【论文推荐】最新六篇对抗自编码器相关论文—多尺度网络节点表示、生成对抗自编码、逆映射、Wasserstein、条件对抗、去噪

【论文推荐】最新六篇对抗自编码器相关论文—多尺度网络节点表示、生成对抗自编码、逆映射、Wasserstein、条件对抗、去噪

专知

20+阅读 · 2018年4月7日

网络安全态势感知浅析

网络安全态势感知浅析

计算机与网络安全

18+阅读 · 2017年10月13日

相关论文

The Algebraic Limits of Polynomial Information Measures

Arxiv

0+阅读 · 6月12日

Infinite State Model Checking by Learning Transitive Relations

Arxiv

0+阅读 · 5月4日

Exact Structural Abstraction and Tractability Limits

Arxiv

0+阅读 · 4月27日

Simplifying Safety Proofs with Forward-Backward Reasoning and Prophecy

Arxiv

0+阅读 · 4月16日

Exact Structural Abstraction and Tractability Limits

Arxiv

0+阅读 · 4月15日

On the Accuracy Limits of Sequential Recommender Systems: An Entropy-Based Approach

Arxiv

0+阅读 · 4月14日

Exact Structural Abstraction and Tractability Limits

Arxiv

0+阅读 · 4月13日

Trustworthy Feature Importance Avoids Unrestricted Permutations

Arxiv

0+阅读 · 4月13日

On the Accuracy Limits of Sequential Recommender Systems: An Entropy-Based Approach

Arxiv

0+阅读 · 3月30日

On the Limits of Prediction: Forecastability Profiles and Information Decay in Time Series

Arxiv

0+阅读 · 3月20日

相关基金

理性安全两方计算协议设计与安全性证明

国家自然科学基金

0+阅读 · 2015年12月31日

基于信道差异的物理层安全编码技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向安全关键系统的时间可预测多核代码生成方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

云计算环境信任链系统安全性理论研究

国家自然科学基金

0+阅读 · 2015年12月31日

非线性期望理论下的极限定理及其金融风险度量中应用的研究

国家自然科学基金

0+阅读 · 2015年12月31日

混合交通环境中自动驾驶汽车安全可达性分析与优化控制研究

国家自然科学基金

1+阅读 · 2015年12月31日

自然灾害风险的时空尺度效应分析与推绎技术研究—以农业旱灾风险为例

国家自然科学基金

0+阅读 · 2014年12月31日

考虑不确定性和方向性的结构随机极值和疲劳风致响应及抗风可靠性评价理论

国家自然科学基金

0+阅读 · 2014年12月31日

基于自适应模型检测的安全协议自动建模与设计研究

国家自然科学基金

1+阅读 · 2014年12月31日

基于博弈论的信息安全理论与方法研究

国家自然科学基金

10+阅读 · 2012年12月31日

微信扫码咨询专知VIP会员