What Capable Agents Must Know: Selection Theorems for Robust Decision-Making under Uncertainty - 专知论文

会员服务 ·

0

不确定 · 不确定性 · 鲁棒 · 结构 · 最优 ·

What Capable Agents Must Know: Selection Theorems for Robust Decision-Making under Uncertainty

翻译：标题：能行动主体必须知道什么？不确定性下鲁棒决策的选择定理

from arxiv, 23 pages; added PSR recovery (Theorems 3 & 4), and updated related work

As artificial agents become increasingly capable, what internal structure is *necessary* for an agent to act competently under uncertainty? Classical results show that optimal control can be *implemented* using belief states or world models, but not that such representations are required. We prove quantitative "selection theorems" showing that strong task performance (low *average-case regret*) forces world models, belief-like memory and -- under task mixtures -- persistent variables resembling core primitives associated with emotion, along with informational modularity under block-structured tasks. Our results cover stochastic policies, partial observability, and evaluation under task distributions, without assuming optimality, determinism, or access to an explicit model. Technically, we reduce predictive modeling to binary "betting" decisions and show that regret bounds limit probability mass on suboptimal bets, enforcing the predictive distinctions needed to separate high-margin outcomes. In fully observed settings, this yields approximate recovery of the interventional transition kernel; under partial observability, it implies necessity of predictive state and belief-like memory, addressing an open question in prior world-model recovery work.

翻译：摘要：随着人工智能主体能力日益增强，何种内部结构是主体在不确定性下胜任行动所*必需*的？经典结果表明，最优控制可通过信念状态或世界模型*实现*，但并未指出此类表征是必要的。我们证明了量化的"选择定理"：强任务表现（低*平均情形遗憾值*）迫使主体具备世界模型、类信念记忆，并在任务混合条件下迫使存在类似情感核心原语的持久变量，以及在分块结构任务下迫使信息模块化。我们的结果涵盖随机策略、部分可观测性及任务分布下的评估，不假设最优性、确定性或显式模型的存在。技术层面，我们将预测建模简化为二元"博弈"决策，并证明遗憾界限制了次优博弈上的概率质量，从而强制要求做出分离高收益结果所需的预测区分。在完全可观测设定中，这导致干预转移核的近似恢复；在部分可观测性下，它意味着预测状态与类信念记忆的必要性，从而解答了先前世界模型恢复研究中的一个开放问题。

0

相关内容

不确定

《不确定条件下优化问题的高效精确与近似算法》MIT最新130页

《不确定条件下优化问题的高效精确与近似算法》MIT最新130页

专知会员服务

30+阅读 · 2025年11月19日

【普林斯顿博士论文】从博弈论视角看控制中的鲁棒性，266页pdf

【普林斯顿博士论文】从博弈论视角看控制中的鲁棒性，266页pdf

专知会员服务

40+阅读 · 2024年2月27日

【斯坦福博士论文】基于理解和采用理性行为的数据驱动序列决策，193页pdf

【斯坦福博士论文】基于理解和采用理性行为的数据驱动序列决策，193页pdf

专知会员服务

34+阅读 · 2024年1月18日

【斯坦福大学博士论文】基于数据的序列决策制定，通过理解并采纳理性行为，193页pdf

【斯坦福大学博士论文】基于数据的序列决策制定，通过理解并采纳理性行为，193页pdf

专知会员服务

38+阅读 · 2023年10月8日

【2023新书】不确定性决策与强化学习:理论与算法，251页pdf

【2023新书】不确定性决策与强化学习:理论与算法，251页pdf

专知会员服务

121+阅读 · 2023年6月1日

推荐！《不确定性下的作战决策：推理、序贯和对抗性方法》美国空军293页博士论文，含代码

推荐！《不确定性下的作战决策：推理、序贯和对抗性方法》美国空军293页博士论文，含代码

专知会员服务

254+阅读 · 2022年11月15日

如何稳健决策？MIT最新博士论文《鲁棒决策的端到端学习》234页pdf

如何稳健决策？MIT最新博士论文《鲁棒决策的端到端学习》234页pdf

专知会员服务

105+阅读 · 2022年9月1日

不确定性下如何决策？弗吉尼亚理工最新《不确定性推理与量化的决策研究综述》，51页pdf阐述信念理论与深度学习结合下的不确定性决策

不确定性下如何决策？弗吉尼亚理工最新《不确定性推理与量化的决策研究综述》，51页pdf阐述信念理论与深度学习结合下的不确定性决策

专知会员服务

108+阅读 · 2022年6月17日

【多目标多智能体系统决策】196页PDF布鲁塞尔自由大学博士论文，Decision Making in Multi-Objective Multi-Agent Systems——A Utility-Based Perspective

【多目标多智能体系统决策】196页PDF布鲁塞尔自由大学博士论文，Decision Making in Multi-Objective Multi-Agent Systems——A Utility-Based Perspective

专知会员服务

118+阅读 · 2022年3月18日

【AAAI 2019 Tutorial】不确定性下基于知识的顺序决策（Knowledge-based Sequential Decision-Making under Uncertainty），张世琦，Mohan Sridharan

【AAAI 2019 Tutorial】不确定性下基于知识的顺序决策（Knowledge-based Sequential Decision-Making under Uncertainty），张世琦，Mohan Sridharan

专知会员服务

13+阅读 · 2019年11月18日

【佐治亚理工博士论文】基于策略智能体和有限反馈的序列决策，211页pdf

【佐治亚理工博士论文】基于策略智能体和有限反馈的序列决策，211页pdf

专知

38+阅读 · 2023年4月13日

推荐！《不确定性下的作战决策：推理、序贯和对抗性方法》美国空军293页博士论文，含代码

推荐！《不确定性下的作战决策：推理、序贯和对抗性方法》美国空军293页博士论文，含代码

专知

50+阅读 · 2022年11月16日

【苏黎世联邦理工博士论文】神经系统中的知识不确定性与终身学习，179页pdf

【苏黎世联邦理工博士论文】神经系统中的知识不确定性与终身学习，179页pdf

专知

10+阅读 · 2022年10月29日

【254页博士论文】《动态多目标环境中基于深度强化学习的智能决策方案》

【254页博士论文】《动态多目标环境中基于深度强化学习的智能决策方案》

专知

32+阅读 · 2022年10月17日

【干货书】深度不确定性条件下的决策:理论到实践，408页pdf

【干货书】深度不确定性条件下的决策:理论到实践，408页pdf

专知

17+阅读 · 2021年1月18日

【开放新书】不确定性决策与强化学习，267页pdf，瑞典查尔姆斯理工大学

【开放新书】不确定性决策与强化学习，267页pdf，瑞典查尔姆斯理工大学

专知

31+阅读 · 2020年4月28日

DeepMind研究员Tor2019著作《赌博机算法》，555页带你学习专治选择困难症技术

DeepMind研究员Tor2019著作《赌博机算法》，555页带你学习专治选择困难症技术

专知

11+阅读 · 2019年1月6日

用模型不确定性理解模型

用模型不确定性理解模型

论智

11+阅读 · 2018年9月5日

【论文推荐】最新六篇主题模型相关论文—领域特定知识库、神经变分推断、动态和静态主题模型

【论文推荐】最新六篇主题模型相关论文—领域特定知识库、神经变分推断、动态和静态主题模型

专知

19+阅读 · 2018年6月26日

【智能制造】智能制造的核心——智能决策

【智能制造】智能制造的核心——智能决策

产业智能官

12+阅读 · 2018年4月11日

知识不确定性度量的粒计算模型及其应用研究

国家自然科学基金

1+阅读 · 2017年12月31日

冲动性个体的决策加工模式与神经机制

国家自然科学基金

0+阅读 · 2015年12月31日

逻辑等价算子在不确定性推理中的应用

国家自然科学基金

1+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

不确定环境下具有稀疏特征的鲁棒投资组合选择问题研究

国家自然科学基金

1+阅读 · 2015年12月31日

线性时序关系下推理的概率计量化模型

国家自然科学基金

0+阅读 · 2014年12月31日

大城市中等收入群体出行选择行为的不确定性决策机理研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于中智集的模糊多属性决策理论、方法与应用研究

国家自然科学基金

2+阅读 · 2014年12月31日

不确定性推理与语义网中知识表示的数学基础

国家自然科学基金

18+阅读 · 2012年12月31日

不确定环境下强化学习和决策的神经机制

国家自然科学基金

11+阅读 · 2012年12月31日

A Field Guide to Decision Making

Arxiv

0+阅读 · 4月22日

Dynamic Multi-Robot Task Allocation under Uncertainty and Communication Constraints: A Game-Theoretic Approach

Arxiv

0+阅读 · 4月13日

Decoupling Exploration and Policy Optimization: Uncertainty Guided Tree Search for Hard Exploration

Arxiv

0+阅读 · 3月30日

LLM-Driven Reasoning for Constraint-Aware Feature Selection in Industrial Systems

Arxiv

0+阅读 · 3月26日

Decoupling Exploration and Policy Optimization: Uncertainty Guided Tree Search for Hard Exploration

Arxiv

0+阅读 · 3月23日

On Information Self-Locking in Reinforcement Learning for Active Reasoning of LLM agents

Arxiv

0+阅读 · 3月12日

The Confidence Gate Theorem: When Should Ranked Decision Systems Abstain?

Arxiv

0+阅读 · 3月10日

Shoot First, Ask Questions Later? Building Rational Agents that Explore and Act Like People

Arxiv

0+阅读 · 3月6日

Knowledge-driven Reasoning for Mobile Agentic AI: Concepts, Approaches, and Directions

Arxiv

0+阅读 · 3月6日

Selection as Power: Constrained Reinforcement for Bounded Decision Authority

Arxiv

0+阅读 · 3月2日

VIP会员

文章信息

相关主题

最新内容

《提升战术级作战规划水平：城市进攻作战中的机动样式研究》

《提升战术级作战规划水平：城市进攻作战中的机动样式研究》

专知会员服务

1+阅读 · 今天1:36

《人员配置对陆军突击清障车与联合突击桥战备状态的影响研究》

《人员配置对陆军突击清障车与联合突击桥战备状态的影响研究》

专知会员服务

1+阅读 · 今天1:28

管理咨询报告：美国国防部量子技术开发与实施评估（译文）

管理咨询报告：美国国防部量子技术开发与实施评估（译文）

专知会员服务

1+阅读 · 今天1:16

【博士论文】可解释人工智能的数学基础与 Bandit 优化的研究进展

【博士论文】可解释人工智能的数学基础与 Bandit 优化的研究进展

专知会员服务

1+阅读 · 5月8日

生成-过滤-控制-重放：LLM强化学习中Rollout策略的全面综述

生成-过滤-控制-重放：LLM强化学习中Rollout策略的全面综述

专知会员服务

0+阅读 · 5月8日

认知战与交战性质的改变：神经战略视角

认知战与交战性质的改变：神经战略视角

专知会员服务

5+阅读 · 5月8日

美国《国防授权法案》指令要求界定“认知战”：区分相关概念

美国《国防授权法案》指令要求界定“认知战”：区分相关概念

专知会员服务

4+阅读 · 5月8日

人工智能对特定国防资源管理流程的影响（万字长文）

人工智能对特定国防资源管理流程的影响（万字长文）

专知会员服务

5+阅读 · 5月8日

《多域作战概念实证检验：美军“史诗怒火”行动中跨域协同的地理空间混合方法分析研究》245页报告

《多域作战概念实证检验：美军“史诗怒火”行动中跨域协同的地理空间混合方法分析研究》245页报告

专知会员服务

8+阅读 · 5月8日

《预设时间的单次协同估计、制导与控制框架：实现同时目标拦截》2026最新40页报告

《预设时间的单次协同估计、制导与控制框架：实现同时目标拦截》2026最新40页报告

专知会员服务

10+阅读 · 5月8日

《美空军条令出版物：网络空间作战（2026版）》

《美空军条令出版物：网络空间作战（2026版）》

专知会员服务

11+阅读 · 5月8日

《美空军条令出版物：空军作战中的信息（2026版）》

《美空军条令出版物：空军作战中的信息（2026版）》

专知会员服务

13+阅读 · 5月8日

为指挥控制与防御构建智能网络结构：集成感知与通信以提升频谱利用率

为指挥控制与防御构建智能网络结构：集成感知与通信以提升频谱利用率

专知会员服务

9+阅读 · 5月8日

人工智能如何变革军事C5ISR作战

人工智能如何变革军事C5ISR作战

专知会员服务

12+阅读 · 5月8日

《自主空中加油：用于相对导航与自主对接的双向多目标检测系统》97页

《自主空中加油：用于相对导航与自主对接的双向多目标检测系统》97页

专知会员服务

8+阅读 · 5月8日

相关VIP内容

《不确定条件下优化问题的高效精确与近似算法》MIT最新130页

《不确定条件下优化问题的高效精确与近似算法》MIT最新130页

专知会员服务

30+阅读 · 2025年11月19日

【普林斯顿博士论文】从博弈论视角看控制中的鲁棒性，266页pdf

【普林斯顿博士论文】从博弈论视角看控制中的鲁棒性，266页pdf

专知会员服务

40+阅读 · 2024年2月27日

【斯坦福博士论文】基于理解和采用理性行为的数据驱动序列决策，193页pdf

【斯坦福博士论文】基于理解和采用理性行为的数据驱动序列决策，193页pdf

专知会员服务

34+阅读 · 2024年1月18日

【斯坦福大学博士论文】基于数据的序列决策制定，通过理解并采纳理性行为，193页pdf

【斯坦福大学博士论文】基于数据的序列决策制定，通过理解并采纳理性行为，193页pdf

专知会员服务

38+阅读 · 2023年10月8日

【2023新书】不确定性决策与强化学习:理论与算法，251页pdf

【2023新书】不确定性决策与强化学习:理论与算法，251页pdf

专知会员服务

121+阅读 · 2023年6月1日

推荐！《不确定性下的作战决策：推理、序贯和对抗性方法》美国空军293页博士论文，含代码

推荐！《不确定性下的作战决策：推理、序贯和对抗性方法》美国空军293页博士论文，含代码

专知会员服务

254+阅读 · 2022年11月15日

如何稳健决策？MIT最新博士论文《鲁棒决策的端到端学习》234页pdf

如何稳健决策？MIT最新博士论文《鲁棒决策的端到端学习》234页pdf

专知会员服务

105+阅读 · 2022年9月1日

不确定性下如何决策？弗吉尼亚理工最新《不确定性推理与量化的决策研究综述》，51页pdf阐述信念理论与深度学习结合下的不确定性决策

不确定性下如何决策？弗吉尼亚理工最新《不确定性推理与量化的决策研究综述》，51页pdf阐述信念理论与深度学习结合下的不确定性决策

专知会员服务

108+阅读 · 2022年6月17日

【多目标多智能体系统决策】196页PDF布鲁塞尔自由大学博士论文，Decision Making in Multi-Objective Multi-Agent Systems——A Utility-Based Perspective

【多目标多智能体系统决策】196页PDF布鲁塞尔自由大学博士论文，Decision Making in Multi-Objective Multi-Agent Systems——A Utility-Based Perspective

专知会员服务

118+阅读 · 2022年3月18日

【AAAI 2019 Tutorial】不确定性下基于知识的顺序决策（Knowledge-based Sequential Decision-Making under Uncertainty），张世琦，Mohan Sridharan

【AAAI 2019 Tutorial】不确定性下基于知识的顺序决策（Knowledge-based Sequential Decision-Making under Uncertainty），张世琦，Mohan Sridharan

专知会员服务

13+阅读 · 2019年11月18日

热门VIP内容

开通专知VIP会员享更多权益服务

《人员配置对陆军突击清障车与联合突击桥战备状态的影响研究》

【博士论文】可解释人工智能的数学基础与 Bandit 优化的研究进展

《提升战术级作战规划水平：城市进攻作战中的机动样式研究》

管理咨询报告：美国国防部量子技术开发与实施评估（译文）

相关资讯

【佐治亚理工博士论文】基于策略智能体和有限反馈的序列决策，211页pdf

【佐治亚理工博士论文】基于策略智能体和有限反馈的序列决策，211页pdf

专知

38+阅读 · 2023年4月13日

推荐！《不确定性下的作战决策：推理、序贯和对抗性方法》美国空军293页博士论文，含代码

推荐！《不确定性下的作战决策：推理、序贯和对抗性方法》美国空军293页博士论文，含代码

专知

50+阅读 · 2022年11月16日

【苏黎世联邦理工博士论文】神经系统中的知识不确定性与终身学习，179页pdf

【苏黎世联邦理工博士论文】神经系统中的知识不确定性与终身学习，179页pdf

专知

10+阅读 · 2022年10月29日

【254页博士论文】《动态多目标环境中基于深度强化学习的智能决策方案》

【254页博士论文】《动态多目标环境中基于深度强化学习的智能决策方案》

专知

32+阅读 · 2022年10月17日

【干货书】深度不确定性条件下的决策:理论到实践，408页pdf

【干货书】深度不确定性条件下的决策:理论到实践，408页pdf

专知

17+阅读 · 2021年1月18日

【开放新书】不确定性决策与强化学习，267页pdf，瑞典查尔姆斯理工大学

【开放新书】不确定性决策与强化学习，267页pdf，瑞典查尔姆斯理工大学

专知

31+阅读 · 2020年4月28日

DeepMind研究员Tor2019著作《赌博机算法》，555页带你学习专治选择困难症技术

DeepMind研究员Tor2019著作《赌博机算法》，555页带你学习专治选择困难症技术

专知

11+阅读 · 2019年1月6日

用模型不确定性理解模型

用模型不确定性理解模型

论智

11+阅读 · 2018年9月5日

【论文推荐】最新六篇主题模型相关论文—领域特定知识库、神经变分推断、动态和静态主题模型

【论文推荐】最新六篇主题模型相关论文—领域特定知识库、神经变分推断、动态和静态主题模型

专知

19+阅读 · 2018年6月26日

【智能制造】智能制造的核心——智能决策

【智能制造】智能制造的核心——智能决策

产业智能官

12+阅读 · 2018年4月11日

相关论文

A Field Guide to Decision Making

Arxiv

0+阅读 · 4月22日

Dynamic Multi-Robot Task Allocation under Uncertainty and Communication Constraints: A Game-Theoretic Approach

Arxiv

0+阅读 · 4月13日

Decoupling Exploration and Policy Optimization: Uncertainty Guided Tree Search for Hard Exploration

Arxiv

0+阅读 · 3月30日

LLM-Driven Reasoning for Constraint-Aware Feature Selection in Industrial Systems

Arxiv

0+阅读 · 3月26日

Decoupling Exploration and Policy Optimization: Uncertainty Guided Tree Search for Hard Exploration

Arxiv

0+阅读 · 3月23日

On Information Self-Locking in Reinforcement Learning for Active Reasoning of LLM agents

Arxiv

0+阅读 · 3月12日

The Confidence Gate Theorem: When Should Ranked Decision Systems Abstain?

Arxiv

0+阅读 · 3月10日

Shoot First, Ask Questions Later? Building Rational Agents that Explore and Act Like People

Arxiv

0+阅读 · 3月6日

Knowledge-driven Reasoning for Mobile Agentic AI: Concepts, Approaches, and Directions

Arxiv

0+阅读 · 3月6日

Selection as Power: Constrained Reinforcement for Bounded Decision Authority

Arxiv

0+阅读 · 3月2日

相关基金

知识不确定性度量的粒计算模型及其应用研究

国家自然科学基金

1+阅读 · 2017年12月31日

冲动性个体的决策加工模式与神经机制

国家自然科学基金

0+阅读 · 2015年12月31日

逻辑等价算子在不确定性推理中的应用

国家自然科学基金

1+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

不确定环境下具有稀疏特征的鲁棒投资组合选择问题研究

国家自然科学基金

1+阅读 · 2015年12月31日

线性时序关系下推理的概率计量化模型

国家自然科学基金

0+阅读 · 2014年12月31日

大城市中等收入群体出行选择行为的不确定性决策机理研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于中智集的模糊多属性决策理论、方法与应用研究

国家自然科学基金

2+阅读 · 2014年12月31日

不确定性推理与语义网中知识表示的数学基础

国家自然科学基金

18+阅读 · 2012年12月31日

不确定环境下强化学习和决策的神经机制

国家自然科学基金

11+阅读 · 2012年12月31日

微信扫码咨询专知VIP会员