Capability Minimization as a Safety Primitive: Risk-Aware Causal Gating for Least-Privilege LLM Agents - 专知论文

会员服务 ·

0

门控 · 风险感知 · 系统 · 置信度 · 决策系统 ·

Capability Minimization as a Safety Primitive: Risk-Aware Causal Gating for Least-Privilege LLM Agents

翻译：以能力最小化作为安全原语：面向最小权限LLM智能体的风险感知因果门控

Laxmipriya Ganesh Iyer,Rahul Suresh Babu

Modern decision systems increasingly rely on learned components whose outputs may be confident yet wrong, exposing downstream actions to costly errors. We introduce Risk-Aware Causal Gating (RACG), a framework that decides whether to act on, defer, or abstain from a model's prediction by combining causal effect estimation with calibrated risk control. RACG models the causal pathway from candidate actions to outcomes and gates each decision according to an estimated counterfactual risk rather than raw predictive confidence. To make gating reliable, we derive distribution-free bounds on the probability of acting under high-risk conditions and show how these bounds translate into operating thresholds that satisfy user-specified safety constraints. We further propose an adaptive gating policy that adjusts to distribution shift by monitoring discrepancies between predicted and realized outcomes, tightening the gate when causal assumptions appear violated. Across simulated interventions and real-world decision benchmarks, RACG reduces high-cost errors substantially while preserving most of the utility of an ungated policy, and it outperforms confidence-based and selective-prediction baselines at matched abstention rates. Our results indicate that explicitly separating causal risk from predictive uncertainty yields decision systems that are both safer and more transparent, offering a principled mechanism for trustworthy automation in high-stakes settings.

翻译：现代决策系统日益依赖学习组件，其输出可能自信却错误，导致下游行动面临高昂代价。我们提出风险感知因果门控（RACG）框架，通过融合因果效应估计与校准风险控制，决定是否采纳、延迟或拒绝模型的预测。RACG对候选行动到结果的因果路径进行建模，并基于估算的反事实风险（而非原始预测置信度）对每个决策进行门控。为确保门控的可靠性，我们推导出高条件下行动概率的无分布界，并展示这些边界如何转化为满足用户指定安全约束的操作阈值。我们还进一步提出自适应门控策略，通过监控预测结果与实际结果之间的差异来应对分布偏移——当因果假设可能被违反时收紧门控。在模拟干预和真实决策基准测试中，RACG在保留未门控策略大部分效用的同时大幅减少高成本错误，并在相同弃权率下优于基于置信度和选择性预测的基线方法。结果表明，明确分离因果风险与预测不确定性可构建更安全、更透明的决策系统，为高风险场景下的可信自动化提供原则性机制。

0

相关内容

管理 LLM 智能体中的演进式记忆：风险、机理及稳定性与安全性受控记忆（SSGM）框架

管理 LLM 智能体中的演进式记忆：风险、机理及稳定性与安全性受控记忆（SSGM）框架

专知会员服务

16+阅读 · 3月14日

一种Agent自主性风险评估框架 | 最新文献

一种Agent自主性风险评估框架 | 最新文献

专知会员服务

24+阅读 · 2025年10月24日

认知优势：人工智能在国家安全决策中的核心作用

认知优势：人工智能在国家安全决策中的核心作用

专知会员服务

15+阅读 · 2025年8月16日

【CMU博士论文】重新思考面向风险感知的社会型具身智能的安全保障体系

【CMU博士论文】重新思考面向风险感知的社会型具身智能的安全保障体系

专知会员服务

15+阅读 · 2025年5月9日

《概率结果下全局最优决策的高效树生成方法》最新30页报告

《概率结果下全局最优决策的高效树生成方法》最新30页报告

专知会员服务

17+阅读 · 2025年5月6日

【ICML2024】悲观遇上风险：风险敏感的离线强化学习

【ICML2024】悲观遇上风险：风险敏感的离线强化学习

专知会员服务

25+阅读 · 2024年7月11日

【ICML2023】序列反事实风险最小化

【ICML2023】序列反事实风险最小化

专知会员服务

21+阅读 · 2023年5月1日

基于因果建模的强化学习控制: 现状及展望

基于因果建模的强化学习控制: 现状及展望

专知会员服务

78+阅读 · 2023年3月3日

《因果ABM：基于智能体的建模以学习可靠因果模型》2022美国南佛罗里达大学等26页论文

《因果ABM：基于智能体的建模以学习可靠因果模型》2022美国南佛罗里达大学等26页论文

专知会员服务

47+阅读 · 2023年1月5日

【ICML2021】异质风险最小化，Heterogeneous Risk Minimization

专知会员服务

16+阅读 · 2021年5月21日

【佐治亚理工博士论文】基于策略智能体和有限反馈的序列决策，211页pdf

【佐治亚理工博士论文】基于策略智能体和有限反馈的序列决策，211页pdf

专知

38+阅读 · 2023年4月13日

《基于近端策略优化(PPO)算法的制导弹体控制行为学习》美国陆军2022最新27页技术报告

《基于近端策略优化(PPO)算法的制导弹体控制行为学习》美国陆军2022最新27页技术报告

专知

13+阅读 · 2022年11月25日

基于深度元学习的因果推断新方法

基于深度元学习的因果推断新方法

图与推荐

12+阅读 · 2020年7月21日

【ICML2020-Tutorial】因果强化学习-CRL，147页ppt，哥伦比亚大学-Elias Bareinboim

【ICML2020-Tutorial】因果强化学习-CRL，147页ppt，哥伦比亚大学-Elias Bareinboim

专知

13+阅读 · 2020年7月16日

最新「因果推断Causal Inference」综述论文38页pdf，阿里巴巴、Buffalo、Georgia、Virginia

最新「因果推断Causal Inference」综述论文38页pdf，阿里巴巴、Buffalo、Georgia、Virginia

专知

68+阅读 · 2020年2月11日

DataFunTalk "各厂最新技术应用分享" 文章合集：风控篇

DataFunTalk "各厂最新技术应用分享" 文章合集：风控篇

DataFunTalk

10+阅读 · 2019年12月26日

让智能体主动交互，DeepMind提出用元强化学习实现因果推理

让智能体主动交互，DeepMind提出用元强化学习实现因果推理

机器之心

17+阅读 · 2019年2月11日

网络安全态势感知

网络安全态势感知

计算机与网络安全

26+阅读 · 2018年10月14日

智能时代如何构建金融反欺诈体系？

智能时代如何构建金融反欺诈体系？

数据猿

12+阅读 · 2018年3月26日

网络安全态势感知浅析

网络安全态势感知浅析

计算机与网络安全

18+阅读 · 2017年10月13日

基于子模优化的远程预警传感器管理研究

国家自然科学基金

2+阅读 · 2015年12月31日

具有动态不确定性的下三角多智能体系统分布式自适应协同控制

国家自然科学基金

3+阅读 · 2015年12月31日

基于多层网络智能体分析的银行业系统风险研究：形成、传染与救助策略

国家自然科学基金

0+阅读 · 2015年12月31日

网络化控制系统安全理论与关键技术

国家自然科学基金

1+阅读 · 2014年12月31日

基于稀有事件模拟技术的金融衍生品组合风险度量及应用研究

国家自然科学基金

0+阅读 · 2014年12月31日

随机动态系统的风险分析及其最优控制问题

国家自然科学基金

1+阅读 · 2014年12月31日

风险信息披露、风险感知与资本市场风险识别行为

国家自然科学基金

1+阅读 · 2014年12月31日

保险金融市场中相依风险模型的随机最优控制

国家自然科学基金

0+阅读 · 2014年12月31日

保险中两类随机最优控制问题及策略过程概率分布研究

国家自然科学基金

0+阅读 · 2014年12月31日

考虑具有风险结构的决策建模及应用研究

国家自然科学基金

0+阅读 · 2014年12月31日

ProvenanceGuard: Source-Aware Factuality Verification for MCP-Based LLM Agents

Arxiv

0+阅读 · 6月16日

Enhancing LLM Safety Through a Theoretical Minimax Game Lens

Arxiv

0+阅读 · 6月15日

AttriGuard: Defeating Indirect Prompt Injection in LLM Agents via Causal Attribution of Tool Invocations

Arxiv

0+阅读 · 6月10日

Toward Secure LLM Agents: Threat Surfaces, Attacks, Defenses, and Evaluation

Arxiv

0+阅读 · 6月9日

Minimal Oversight: Uncertainty-Aware Governance for Delegated AI Systems

Arxiv

0+阅读 · 6月4日

Causal Risk Minimization for High-Dimensional Treatments

Arxiv

0+阅读 · 5月26日

Think Twice Before You Act: Enhancing Agent Behavioral Safety with Thought Correction

Arxiv

0+阅读 · 5月26日

LLMs and Childhood Safety: Identifying Risks and Proposing a Protection Framework for Safe Child-LLM Interaction

Arxiv

0+阅读 · 5月22日

LLM Readiness Harness: Evaluation, Observability, and CI Gates for LLM/RAG Applications

Arxiv

0+阅读 · 5月21日

CASPIAN: Online Detection and Attribution of Cascade Attacks in LLM Multi-Agent Systems via Cross-Channel Causal Monitoring

Arxiv

0+阅读 · 5月19日

VIP会员

文章信息

相关主题

最新内容

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

专知会员服务

3+阅读 · 6月18日

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

专知会员服务

4+阅读 · 6月18日

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

专知会员服务

10+阅读 · 6月18日

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

专知会员服务

8+阅读 · 6月18日

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

专知会员服务

5+阅读 · 6月17日

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

专知会员服务

7+阅读 · 6月17日

学习数据的几何：形状空间分析数学综述

学习数据的几何：形状空间分析数学综述

专知会员服务

6+阅读 · 6月17日

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

专知会员服务

10+阅读 · 6月17日

定向能反无人机系统最新发展动态

定向能反无人机系统最新发展动态

专知会员服务

7+阅读 · 6月17日

从燃煤战舰到算法战争：水面指挥的永恒要求

从燃煤战舰到算法战争：水面指挥的永恒要求

专知会员服务

5+阅读 · 6月17日

《短程弹道再入飞行器拦截时间中的一项异常现象》

《短程弹道再入飞行器拦截时间中的一项异常现象》

专知会员服务

6+阅读 · 6月17日

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

专知会员服务

7+阅读 · 6月17日

美智库《战术级指挥控制的迫切要求：构建弹性机动式指挥控制网络》报告

美智库《战术级指挥控制的迫切要求：构建弹性机动式指挥控制网络》报告

专知会员服务

6+阅读 · 6月17日

《韩国国防政策与军备出口：韩国安全与国防政策如何塑造其国防工业与军备出口格局》最新100页报告

《韩国国防政策与军备出口：韩国安全与国防政策如何塑造其国防工业与军备出口格局》最新100页报告

专知会员服务

5+阅读 · 6月17日

ICML 2026 | VOTP：用视频基础模型与最优传输，让离线偏好强化学习只需少量反馈

ICML 2026 | VOTP：用视频基础模型与最优传输，让离线偏好强化学习只需少量反馈

专知会员服务

6+阅读 · 6月16日

相关VIP内容

管理 LLM 智能体中的演进式记忆：风险、机理及稳定性与安全性受控记忆（SSGM）框架

管理 LLM 智能体中的演进式记忆：风险、机理及稳定性与安全性受控记忆（SSGM）框架

专知会员服务

16+阅读 · 3月14日

一种Agent自主性风险评估框架 | 最新文献

一种Agent自主性风险评估框架 | 最新文献

专知会员服务

24+阅读 · 2025年10月24日

认知优势：人工智能在国家安全决策中的核心作用

认知优势：人工智能在国家安全决策中的核心作用

专知会员服务

15+阅读 · 2025年8月16日

【CMU博士论文】重新思考面向风险感知的社会型具身智能的安全保障体系

【CMU博士论文】重新思考面向风险感知的社会型具身智能的安全保障体系

专知会员服务

15+阅读 · 2025年5月9日

《概率结果下全局最优决策的高效树生成方法》最新30页报告

《概率结果下全局最优决策的高效树生成方法》最新30页报告

专知会员服务

17+阅读 · 2025年5月6日

【ICML2024】悲观遇上风险：风险敏感的离线强化学习

【ICML2024】悲观遇上风险：风险敏感的离线强化学习

专知会员服务

25+阅读 · 2024年7月11日

【ICML2023】序列反事实风险最小化

【ICML2023】序列反事实风险最小化

专知会员服务

21+阅读 · 2023年5月1日

基于因果建模的强化学习控制: 现状及展望

基于因果建模的强化学习控制: 现状及展望

专知会员服务

78+阅读 · 2023年3月3日

《因果ABM：基于智能体的建模以学习可靠因果模型》2022美国南佛罗里达大学等26页论文

《因果ABM：基于智能体的建模以学习可靠因果模型》2022美国南佛罗里达大学等26页论文

专知会员服务

47+阅读 · 2023年1月5日

【ICML2021】异质风险最小化，Heterogeneous Risk Minimization

专知会员服务

16+阅读 · 2021年5月21日

热门VIP内容

开通专知VIP会员享更多权益服务

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

相关资讯

【佐治亚理工博士论文】基于策略智能体和有限反馈的序列决策，211页pdf

【佐治亚理工博士论文】基于策略智能体和有限反馈的序列决策，211页pdf

专知

38+阅读 · 2023年4月13日

《基于近端策略优化(PPO)算法的制导弹体控制行为学习》美国陆军2022最新27页技术报告

《基于近端策略优化(PPO)算法的制导弹体控制行为学习》美国陆军2022最新27页技术报告

专知

13+阅读 · 2022年11月25日

基于深度元学习的因果推断新方法

基于深度元学习的因果推断新方法

图与推荐

12+阅读 · 2020年7月21日

【ICML2020-Tutorial】因果强化学习-CRL，147页ppt，哥伦比亚大学-Elias Bareinboim

【ICML2020-Tutorial】因果强化学习-CRL，147页ppt，哥伦比亚大学-Elias Bareinboim

专知

13+阅读 · 2020年7月16日

最新「因果推断Causal Inference」综述论文38页pdf，阿里巴巴、Buffalo、Georgia、Virginia

最新「因果推断Causal Inference」综述论文38页pdf，阿里巴巴、Buffalo、Georgia、Virginia

专知

68+阅读 · 2020年2月11日

DataFunTalk "各厂最新技术应用分享" 文章合集：风控篇

DataFunTalk "各厂最新技术应用分享" 文章合集：风控篇

DataFunTalk

10+阅读 · 2019年12月26日

让智能体主动交互，DeepMind提出用元强化学习实现因果推理

让智能体主动交互，DeepMind提出用元强化学习实现因果推理

机器之心

17+阅读 · 2019年2月11日

网络安全态势感知

网络安全态势感知

计算机与网络安全

26+阅读 · 2018年10月14日

智能时代如何构建金融反欺诈体系？

智能时代如何构建金融反欺诈体系？

数据猿

12+阅读 · 2018年3月26日

网络安全态势感知浅析

网络安全态势感知浅析

计算机与网络安全

18+阅读 · 2017年10月13日

相关论文

ProvenanceGuard: Source-Aware Factuality Verification for MCP-Based LLM Agents

Arxiv

0+阅读 · 6月16日

Enhancing LLM Safety Through a Theoretical Minimax Game Lens

Arxiv

0+阅读 · 6月15日

AttriGuard: Defeating Indirect Prompt Injection in LLM Agents via Causal Attribution of Tool Invocations

Arxiv

0+阅读 · 6月10日

Toward Secure LLM Agents: Threat Surfaces, Attacks, Defenses, and Evaluation

Arxiv

0+阅读 · 6月9日

Minimal Oversight: Uncertainty-Aware Governance for Delegated AI Systems

Arxiv

0+阅读 · 6月4日

Causal Risk Minimization for High-Dimensional Treatments

Arxiv

0+阅读 · 5月26日

Think Twice Before You Act: Enhancing Agent Behavioral Safety with Thought Correction

Arxiv

0+阅读 · 5月26日

LLMs and Childhood Safety: Identifying Risks and Proposing a Protection Framework for Safe Child-LLM Interaction

Arxiv

0+阅读 · 5月22日

LLM Readiness Harness: Evaluation, Observability, and CI Gates for LLM/RAG Applications

Arxiv

0+阅读 · 5月21日

CASPIAN: Online Detection and Attribution of Cascade Attacks in LLM Multi-Agent Systems via Cross-Channel Causal Monitoring

Arxiv

0+阅读 · 5月19日

相关基金

基于子模优化的远程预警传感器管理研究

国家自然科学基金

2+阅读 · 2015年12月31日

具有动态不确定性的下三角多智能体系统分布式自适应协同控制

国家自然科学基金

3+阅读 · 2015年12月31日

基于多层网络智能体分析的银行业系统风险研究：形成、传染与救助策略

国家自然科学基金

0+阅读 · 2015年12月31日

网络化控制系统安全理论与关键技术

国家自然科学基金

1+阅读 · 2014年12月31日

基于稀有事件模拟技术的金融衍生品组合风险度量及应用研究

国家自然科学基金

0+阅读 · 2014年12月31日

随机动态系统的风险分析及其最优控制问题

国家自然科学基金

1+阅读 · 2014年12月31日

风险信息披露、风险感知与资本市场风险识别行为

国家自然科学基金

1+阅读 · 2014年12月31日

保险金融市场中相依风险模型的随机最优控制

国家自然科学基金

0+阅读 · 2014年12月31日

保险中两类随机最优控制问题及策略过程概率分布研究

国家自然科学基金

0+阅读 · 2014年12月31日

考虑具有风险结构的决策建模及应用研究

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员