An agent must act on the situation before it, learn what it cannot yet represent, and model other agents well enough to coordinate. These faculties are usually realized by separate mechanisms, yet they share a failure mode: the situation can exceed what the agent can currently represent, and the honest response is then a principled refusal that says what was missing. We develop a small cognitive architecture in which these limits arise from a single quantity. An Interpretation-Decision Unit (IDU) interprets a content vector through a family of regimes - local representational frames with private bases - and decides which actions it licenses; a scalar residual of the content against the active regimes' representational scope drives the unit. Low residual with a clean licensing emits an action; otherwise the unit re-interprets, attempts a description-length-justified expansion, or halts with a typed, witnessed terminal. We prove the unit is total and deterministic: for any content and fixed configuration it halts in finitely many bounded-cost steps with a unique terminal witness, so abstention carries its cause by construction. By binding the architecture's open parameters without changing its mechanics, the same residual-against-scope constraint recovers three documented phenomena at three scopes: the typology of not-knowing (typed abstention); a forced misunderstanding between agents, localized to one shared concept and invisible to the agent committing it (bounded empathy); and prerequisite dependence in learning derived from a bounded focus window rather than posited (developmental prerequisites). Each instantiation is worked for a natural and an artificial agent and states a falsifiable prediction, so one constraint can model limits in both human and machine cognition. The account contributes a unification and a notion of accountable abstention, typed and witnessed by construction.


翻译:一个智能体必须对当前情境采取行动,学习其尚无法表征的内容,并充分建模其他智能体以达成协调。这些能力通常由独立机制实现,却共享一种失效模式:情境可能超出智能体当前的表征能力,此时的诚实回应应是能够说明缺失内容的原则性拒绝。我们构建了一个小型认知架构,使这些局限源于单一量值。该架构包含一个解释-决策单元(IDU),通过一组"子域"(具有私有基底的局部表征框架)解释内容向量,并判定其许可的行动;内容相对于活跃子域表征范围的标量残差驱动该单元。当残差较小且许可清晰时生成行动;否则单元将重新解释、尝试基于描述长度合理性的扩展,或通过带类型标注与见证的终止状态停止运行。我们证明该单元具有全功能性与确定性:对任意内容与固定配置,它将在有限有界代价步数内终止于唯一见证,因此弃权行为通过构造携带其成因。通过绑定架构开放参数而不改变其运行机制,同一"残差-范围"约束在三个层面复现了三种已记载现象:认知缺失的类型学(带类型标注的弃权);智能体间局限于某一共享概念且对实施者不可见的强制误解(有界共情);以及在特定先验框架下,源于有界关注窗口而非假设的发展性学习中的先决依赖关系。每个实例化分别针对自然智能体与人工智能体进行验证,并提出可证伪预测,表明单一约束可建模人类与机器认知的局限。本理论贡献了一种统一框架与一种通过构造自带类型标注与见证的可解释性弃权概念。

0
下载
关闭预览

相关内容

《分布式多智能体强化学习策略的可解释性研究》
专知会员服务
29+阅读 · 2025年11月17日
面向强化学习的可解释性研究综述
专知会员服务
44+阅读 · 2024年7月30日
【普林斯顿博士论文】智能体和机制的学习算法,201页pdf
机器学习的可解释性
专知会员服务
180+阅读 · 2020年8月27日
可解释强化学习,Explainable Reinforcement Learning: A Survey
专知会员服务
132+阅读 · 2020年5月14日
「强化学习可解释性」最新2022综述
专知
12+阅读 · 2022年1月16日
强化学习《奖励函数设计: Reward Shaping》详细解读
深度强化学习实验室
20+阅读 · 2020年9月1日
浅谈主动学习(Active Learning)
凡人机器学习
32+阅读 · 2020年6月18日
机器学习的可解释性:因果推理和稳定学习
DataFunTalk
13+阅读 · 2020年3月3日
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2017年12月31日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2013年12月31日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
7+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
8+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
6+阅读 · 6月17日
相关基金
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2017年12月31日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2013年12月31日
Top
微信扫码咨询专知VIP会员