Selection as Power: Constrained Reinforcement for Bounded Decision Authority - 专知论文

会员服务 ·

0

约束 · 约束强化学习 · 系统 · 投影 · 智能体系统 ·

Selection as Power: Constrained Reinforcement for Bounded Decision Authority

翻译：选择即权力：面向有限决策权威的约束强化学习

Jose Manuel de la Chica Rodriguez,Juan Manuel Vera Díaz

Selection as Power argued that upstream selection authority, rather than internal objective misalignment, constitutes a primary source of risk in high-stakes agentic systems. However, the original framework was static: governance constraints bounded selection power but did not adapt over time. In this work, we extend the framework to dynamic settings by introducing incentivized selection governance, where reinforcement updates are applied to scoring and reducer parameters under externally enforced sovereignty constraints. We formalize selection as a constrained reinforcement process in which parameter updates are projected onto governance-defined feasible sets, preventing concentration beyond prescribed bounds. Across multiple regulated financial scenarios, unconstrained reinforcement consistently collapses into deterministic dominance under repeated feedback, especially at higher learning rates. In contrast, incentivized governance enables adaptive improvement while maintaining bounded selection concentration. Projection-based constraints transform reinforcement from irreversible lock-in into controlled adaptation, with governance debt quantifying the tension between optimization pressure and authority bounds. These results demonstrate that learning dynamics can coexist with structural diversity when sovereignty constraints are enforced at every update step, offering a principled approach to integrating reinforcement into high-stakes agentic systems without surrendering bounded selection authority.

翻译：《选择即权力》指出，上游选择权威而非内部目标错配构成了高风险智能体系统中的主要风险来源。然而，原始框架是静态的：治理约束限制了选择权力但未随时间动态调整。本研究通过引入激励式选择治理机制，将框架扩展至动态场景，其中在外部强制的主权约束下对评分函数与约简器参数实施强化更新。我们将选择形式化为约束强化过程，将参数更新投影至治理定义的可行集，从而防止选择集中度超越预设边界。在多个受监管金融场景中，无约束强化在重复反馈下（尤其在高学习率时）持续坍缩为确定性主导模式。相比之下，激励式治理机制在保持有限选择集中度的同时实现了自适应改进。基于投影的约束将强化过程从不可逆的路径锁定转化为受控适应过程，其中治理债务量化了优化压力与权威边界之间的张力。这些结果表明，当每个更新步骤均强制执行主权约束时，学习动力学可与结构多样性共存，为在高风险智能体系统中集成强化学习而不放弃有限选择权威提供了原则性框架。

0

相关内容

【NTU博士论文】利用强化学习与生成模型推动可靠且具备泛化能力的决策

【NTU博士论文】利用强化学习与生成模型推动可靠且具备泛化能力的决策

专知会员服务

20+阅读 · 2025年10月2日

认知优势：人工智能在国家安全决策中的核心作用

认知优势：人工智能在国家安全决策中的核心作用

专知会员服务

14+阅读 · 2025年8月16日

《战斗决策中的人工智能：基于强化学习和图神经网络的武器目标分配》

《战斗决策中的人工智能：基于强化学习和图神经网络的武器目标分配》

专知会员服务

124+阅读 · 2024年10月11日

《决策优势与主动权：联合全域指挥与控制》

《决策优势与主动权：联合全域指挥与控制》

专知会员服务

85+阅读 · 2024年5月29日

【2023新书】现代优化方法用于在风险和不确定性下的决策, 388页pdf

【2023新书】现代优化方法用于在风险和不确定性下的决策, 388页pdf

专知会员服务

66+阅读 · 2023年10月29日

【254页博士论文】《动态多目标环境中基于深度强化学习的智能决策方案》

【254页博士论文】《动态多目标环境中基于深度强化学习的智能决策方案》

专知会员服务

261+阅读 · 2022年8月23日

美国哈德逊研究所国防概念与技术中心《实施以决策为中心的战争：提升指挥与控制以获得选择优势》，50页pdf

美国哈德逊研究所国防概念与技术中心《实施以决策为中心的战争：提升指挥与控制以获得选择优势》，50页pdf

专知会员服务

182+阅读 · 2022年4月11日

【普林斯顿干货书】强化学习与随机优化，728页pdf阐述序列决策统一框架

【普林斯顿干货书】强化学习与随机优化，728页pdf阐述序列决策统一框架

专知会员服务

132+阅读 · 2021年4月25日

可解释强化学习，Explainable Reinforcement Learning: A Survey

可解释强化学习，Explainable Reinforcement Learning: A Survey

专知会员服务

132+阅读 · 2020年5月14日

【AAAI 2019 Tutorial】不确定性下基于知识的顺序决策（Knowledge-based Sequential Decision-Making under Uncertainty），张世琦，Mohan Sridharan

【AAAI 2019 Tutorial】不确定性下基于知识的顺序决策（Knowledge-based Sequential Decision-Making under Uncertainty），张世琦，Mohan Sridharan

专知会员服务

13+阅读 · 2019年11月18日

推荐！《不确定性下的作战决策：推理、序贯和对抗性方法》美国空军293页博士论文，含代码

推荐！《不确定性下的作战决策：推理、序贯和对抗性方法》美国空军293页博士论文，含代码

专知

50+阅读 · 2022年11月16日

【254页博士论文】《动态多目标环境中基于深度强化学习的智能决策方案》

【254页博士论文】《动态多目标环境中基于深度强化学习的智能决策方案》

专知

32+阅读 · 2022年10月17日

推荐！【中文版】美国陆军《用于决策动力学、欺骗和博弈论的新型人工智能决策辅助工具》52页技术总结报告

推荐！【中文版】美国陆军《用于决策动力学、欺骗和博弈论的新型人工智能决策辅助工具》52页技术总结报告

专知

83+阅读 · 2022年7月7日

【干货书】深度不确定性条件下的决策:理论到实践，408页pdf

【干货书】深度不确定性条件下的决策:理论到实践，408页pdf

专知

17+阅读 · 2021年1月18日

强化学习的两大话题之一，仍有极大探索空间

强化学习的两大话题之一，仍有极大探索空间

AI科技评论

22+阅读 · 2020年8月22日

【开放新书】不确定性决策与强化学习，267页pdf，瑞典查尔姆斯理工大学

【开放新书】不确定性决策与强化学习，267页pdf，瑞典查尔姆斯理工大学

专知

31+阅读 · 2020年4月28日

多因素问题分析时，如何确立各因素权重？

多因素问题分析时，如何确立各因素权重？

人人都是产品经理

75+阅读 · 2020年3月4日

DeepMind研究员Tor2019著作《赌博机算法》，555页带你学习专治选择困难症技术

DeepMind研究员Tor2019著作《赌博机算法》，555页带你学习专治选择困难症技术

专知

11+阅读 · 2019年1月6日

【强化学习】强化学习与控制理论的区别与联系；深度强化学习的课程笔记。

【强化学习】强化学习与控制理论的区别与联系；深度强化学习的课程笔记。

产业智能官

49+阅读 · 2018年7月4日

【强化学习】强化学习+深度学习=人工智能

【强化学习】强化学习+深度学习=人工智能

产业智能官

55+阅读 · 2017年8月11日

随机图和随机环境中的接触过程、选举模型、排他过程

国家自然科学基金

0+阅读 · 2015年12月31日

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

43+阅读 · 2015年12月31日

测量误差数据下部分线性模型有约束统计推断理论

国家自然科学基金

2+阅读 · 2015年12月31日

冲动性个体的决策加工模式与神经机制

国家自然科学基金

0+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

演化优化的自适应约束处理机理及在生化过程中的应用

国家自然科学基金

0+阅读 · 2015年12月31日

大城市中等收入群体出行选择行为的不确定性决策机理研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于中智集的模糊多属性决策理论、方法与应用研究

国家自然科学基金

2+阅读 · 2014年12月31日

广义线性模型的组变量选择及其在信用评分中的应用

国家自然科学基金

2+阅读 · 2014年12月31日

不确定环境下强化学习和决策的神经机制

国家自然科学基金

11+阅读 · 2012年12月31日

Controlling Authority Retrieval: A Missing Retrieval Objective for Authority-Governed Knowledge

Arxiv

0+阅读 · 4月28日

Cognitive Comparability and the Limits of Governance: Evaluating Authority Under Radical Capability Asymmetry

Arxiv

0+阅读 · 4月14日

What Capable Agents Must Know: Selection Theorems for Robust Decision-Making under Uncertainty

Arxiv

0+阅读 · 4月2日

When Identity Overrides Incentives: Representational Choices as Governance Decisions in Multi-Agent LLM Systems

Arxiv

0+阅读 · 3月26日

Prescriptive Artificial Intelligence: A Formal Paradigm for Auditing Human Decisions Under Uncertainty

Arxiv

0+阅读 · 3月25日

Authority-Level Priors: An Under-Specified Constraint in Hierarchical Predictive Processing

Arxiv

0+阅读 · 3月19日

Sovereign-OS: A Charter-Governed Operating System for Autonomous AI Agents with Verifiable Fiscal Discipline

Arxiv

0+阅读 · 3月14日

Decision Aggregation under Quantal Response

Arxiv

0+阅读 · 3月14日

The Confidence Gate Theorem: When Should Ranked Decision Systems Abstain?

Arxiv

0+阅读 · 3月10日

Upholding Epistemic Agency: A Brouwerian Assertibility Constraint for Responsible AI

Arxiv

0+阅读 · 3月4日

VIP会员

文章信息

相关主题

约束强化学习

智能体系统

最新内容

BES：让语言模型通过双向进化搜索自我改进

BES：让语言模型通过双向进化搜索自我改进

专知会员服务

3+阅读 · 5月30日

ICML 2026 | 揭开视觉语言模型计数瓶颈：看得到，却说不出

ICML 2026 | 揭开视觉语言模型计数瓶颈：看得到，却说不出

专知会员服务

3+阅读 · 5月30日

以色列-美国-伊朗战争中的无人机：关键要点

以色列-美国-伊朗战争中的无人机：关键要点

专知会员服务

4+阅读 · 5月30日

美以伊战争：首次人工智能战争——军事自主性困境

美以伊战争：首次人工智能战争——军事自主性困境

专知会员服务

4+阅读 · 5月30日

《Palantir任务保障性软件安全标准（MA-S2）》

《Palantir任务保障性软件安全标准（MA-S2）》

专知会员服务

10+阅读 · 5月30日

《美海军利用扩展现实增强知识流动研究》300页报告

《美海军利用扩展现实增强知识流动研究》300页报告

专知会员服务

6+阅读 · 5月30日

基于声学的无人机检测技术综述

基于声学的无人机检测技术综述

专知会员服务

7+阅读 · 5月30日

《当代混合战争分析框架：俄乌战争经验教训》

《当代混合战争分析框架：俄乌战争经验教训》

专知会员服务

8+阅读 · 5月30日

生成式AI基础小册子绪论解读：一条数学地基路线，178页pdf

生成式AI基础小册子绪论解读：一条数学地基路线，178页pdf

专知会员服务

11+阅读 · 5月29日

AutoScientists：自组织智能体团队驱动长期科学实验

AutoScientists：自组织智能体团队驱动长期科学实验

专知会员服务

6+阅读 · 5月29日

《阿利·伯克级驱逐舰的战损修理：桌面推演结果》报告

《阿利·伯克级驱逐舰的战损修理：桌面推演结果》报告

专知会员服务

6+阅读 · 5月29日

战略前沿人工智能的再思考（中文）

战略前沿人工智能的再思考（中文）

专知会员服务

8+阅读 · 5月29日

《量化地基防空系统间接效应的博弈论方法》

《量化地基防空系统间接效应的博弈论方法》

专知会员服务

6+阅读 · 5月29日

传感器网络：美国如何探测来自伊朗的导弹与无人机

传感器网络：美国如何探测来自伊朗的导弹与无人机

专知会员服务

6+阅读 · 5月29日

《无人机战争中的经济不对称：伊朗“沙赫德-136”对抗以色列“铁穹”防御系统的案例研究》

《无人机战争中的经济不对称：伊朗“沙赫德-136”对抗以色列“铁穹”防御系统的案例研究》

专知会员服务

9+阅读 · 5月29日

相关VIP内容

【NTU博士论文】利用强化学习与生成模型推动可靠且具备泛化能力的决策

【NTU博士论文】利用强化学习与生成模型推动可靠且具备泛化能力的决策

专知会员服务

20+阅读 · 2025年10月2日

认知优势：人工智能在国家安全决策中的核心作用

认知优势：人工智能在国家安全决策中的核心作用

专知会员服务

14+阅读 · 2025年8月16日

《战斗决策中的人工智能：基于强化学习和图神经网络的武器目标分配》

《战斗决策中的人工智能：基于强化学习和图神经网络的武器目标分配》

专知会员服务

124+阅读 · 2024年10月11日

《决策优势与主动权：联合全域指挥与控制》

《决策优势与主动权：联合全域指挥与控制》

专知会员服务

85+阅读 · 2024年5月29日

【2023新书】现代优化方法用于在风险和不确定性下的决策, 388页pdf

【2023新书】现代优化方法用于在风险和不确定性下的决策, 388页pdf

专知会员服务

66+阅读 · 2023年10月29日

【254页博士论文】《动态多目标环境中基于深度强化学习的智能决策方案》

【254页博士论文】《动态多目标环境中基于深度强化学习的智能决策方案》

专知会员服务

261+阅读 · 2022年8月23日

美国哈德逊研究所国防概念与技术中心《实施以决策为中心的战争：提升指挥与控制以获得选择优势》，50页pdf

美国哈德逊研究所国防概念与技术中心《实施以决策为中心的战争：提升指挥与控制以获得选择优势》，50页pdf

专知会员服务

182+阅读 · 2022年4月11日

【普林斯顿干货书】强化学习与随机优化，728页pdf阐述序列决策统一框架

【普林斯顿干货书】强化学习与随机优化，728页pdf阐述序列决策统一框架

专知会员服务

132+阅读 · 2021年4月25日

可解释强化学习，Explainable Reinforcement Learning: A Survey

可解释强化学习，Explainable Reinforcement Learning: A Survey

专知会员服务

132+阅读 · 2020年5月14日

【AAAI 2019 Tutorial】不确定性下基于知识的顺序决策（Knowledge-based Sequential Decision-Making under Uncertainty），张世琦，Mohan Sridharan

【AAAI 2019 Tutorial】不确定性下基于知识的顺序决策（Knowledge-based Sequential Decision-Making under Uncertainty），张世琦，Mohan Sridharan

专知会员服务

13+阅读 · 2019年11月18日

热门VIP内容

开通专知VIP会员享更多权益服务

ICML 2026 | 揭开视觉语言模型计数瓶颈：看得到，却说不出

美以伊战争：首次人工智能战争——军事自主性困境

BES：让语言模型通过双向进化搜索自我改进

以色列-美国-伊朗战争中的无人机：关键要点

相关资讯

推荐！《不确定性下的作战决策：推理、序贯和对抗性方法》美国空军293页博士论文，含代码

推荐！《不确定性下的作战决策：推理、序贯和对抗性方法》美国空军293页博士论文，含代码

专知

50+阅读 · 2022年11月16日

【254页博士论文】《动态多目标环境中基于深度强化学习的智能决策方案》

【254页博士论文】《动态多目标环境中基于深度强化学习的智能决策方案》

专知

32+阅读 · 2022年10月17日

推荐！【中文版】美国陆军《用于决策动力学、欺骗和博弈论的新型人工智能决策辅助工具》52页技术总结报告

推荐！【中文版】美国陆军《用于决策动力学、欺骗和博弈论的新型人工智能决策辅助工具》52页技术总结报告

专知

83+阅读 · 2022年7月7日

【干货书】深度不确定性条件下的决策:理论到实践，408页pdf

【干货书】深度不确定性条件下的决策:理论到实践，408页pdf

专知

17+阅读 · 2021年1月18日

强化学习的两大话题之一，仍有极大探索空间

强化学习的两大话题之一，仍有极大探索空间

AI科技评论

22+阅读 · 2020年8月22日

【开放新书】不确定性决策与强化学习，267页pdf，瑞典查尔姆斯理工大学

【开放新书】不确定性决策与强化学习，267页pdf，瑞典查尔姆斯理工大学

专知

31+阅读 · 2020年4月28日

多因素问题分析时，如何确立各因素权重？

多因素问题分析时，如何确立各因素权重？

人人都是产品经理

75+阅读 · 2020年3月4日

DeepMind研究员Tor2019著作《赌博机算法》，555页带你学习专治选择困难症技术

DeepMind研究员Tor2019著作《赌博机算法》，555页带你学习专治选择困难症技术

专知

11+阅读 · 2019年1月6日

【强化学习】强化学习与控制理论的区别与联系；深度强化学习的课程笔记。

【强化学习】强化学习与控制理论的区别与联系；深度强化学习的课程笔记。

产业智能官

49+阅读 · 2018年7月4日

【强化学习】强化学习+深度学习=人工智能

【强化学习】强化学习+深度学习=人工智能

产业智能官

55+阅读 · 2017年8月11日

相关论文

Controlling Authority Retrieval: A Missing Retrieval Objective for Authority-Governed Knowledge

Arxiv

0+阅读 · 4月28日

Cognitive Comparability and the Limits of Governance: Evaluating Authority Under Radical Capability Asymmetry

Arxiv

0+阅读 · 4月14日

What Capable Agents Must Know: Selection Theorems for Robust Decision-Making under Uncertainty

Arxiv

0+阅读 · 4月2日

When Identity Overrides Incentives: Representational Choices as Governance Decisions in Multi-Agent LLM Systems

Arxiv

0+阅读 · 3月26日

Prescriptive Artificial Intelligence: A Formal Paradigm for Auditing Human Decisions Under Uncertainty

Arxiv

0+阅读 · 3月25日

Authority-Level Priors: An Under-Specified Constraint in Hierarchical Predictive Processing

Arxiv

0+阅读 · 3月19日

Sovereign-OS: A Charter-Governed Operating System for Autonomous AI Agents with Verifiable Fiscal Discipline

Arxiv

0+阅读 · 3月14日

Decision Aggregation under Quantal Response

Arxiv

0+阅读 · 3月14日

The Confidence Gate Theorem: When Should Ranked Decision Systems Abstain?

Arxiv

0+阅读 · 3月10日

Upholding Epistemic Agency: A Brouwerian Assertibility Constraint for Responsible AI

Arxiv

0+阅读 · 3月4日

相关基金

随机图和随机环境中的接触过程、选举模型、排他过程

国家自然科学基金

0+阅读 · 2015年12月31日

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

43+阅读 · 2015年12月31日

测量误差数据下部分线性模型有约束统计推断理论

国家自然科学基金

2+阅读 · 2015年12月31日

冲动性个体的决策加工模式与神经机制

国家自然科学基金

0+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

演化优化的自适应约束处理机理及在生化过程中的应用

国家自然科学基金

0+阅读 · 2015年12月31日

大城市中等收入群体出行选择行为的不确定性决策机理研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于中智集的模糊多属性决策理论、方法与应用研究

国家自然科学基金

2+阅读 · 2014年12月31日

广义线性模型的组变量选择及其在信用评分中的应用

国家自然科学基金

2+阅读 · 2014年12月31日

不确定环境下强化学习和决策的神经机制

国家自然科学基金

11+阅读 · 2012年12月31日

微信扫码咨询专知VIP会员