Deployed RL agents operate in closed-loop systems where reliable performance depends on maintaining coherent coupling between observations, actions, and outcomes. Current monitoring approaches rely on reward and task metrics, measures that are reactive by design and blind to structural degradation that precedes performance collapse. We argue that deployment monitoring is fundamentally a question about uncertainty resolution: whether the agent's observations and actions continue to reduce uncertainty about outcomes, and whether outcomes constrain what the agent must have done. Information theory directly operationalizes this question, entropy quantifies uncertainty, and mutual information quantifies its resolution across the loop. We introduce Bipredictability (P), the fraction of the total uncertainty budget converted into shared predictability across the observation, action, outcome loop. A theoretical property is a provable classical upper bound P is less than or equal to 0.5, independent of domain, task, or agent, a structural consequence of Shannon entropy rather than an empirical observation. When agency is present, a penalty suppresses P strictly below this ceiling, confirmed at P equals 0.33 across trained agents. To operationalize P as a real time monitoring signal, we introduce the Information Digital Twin (IDT), an auxiliary architecture that computes P and its directional components from the observable interaction stream without access to model internals. Across 168 perturbation trials spanning eight perturbation types and two policy architectures, IDT based monitoring detected 89.3 percent of coupling degradations versus 44.0 percent for reward based monitoring, with 4.4 times lower median latency. These results establish Bipredictability as a principled, bounded, and computable prerequisite signal for closed loop self regulation in deployed reinforcement learning systems.


翻译:部署式强化学习智能体在闭环系统中运行,其可靠性能取决于观测、动作与结果之间保持连贯耦合。当前监控方法依赖奖励和任务指标,这些度量在本质上是反应式的,且对性能崩溃前发生的结构退化视而不见。我们认为部署监控本质上是一个关于不确定性消解的问题:智能体的观测和动作是否持续降低结果的不确定性,以及结果是否约束了智能体必须执行的行动。信息理论直接实现了这一问题的形式化——熵量化不确定性,互信息则量化其在闭环中的消解程度。我们提出双可预测性(P),即总不确定性预算中被转换为观测-动作-结果闭环共享可预测性的比例。其理论性质在于存在一个可证明的经典上界P≤0.5,该界限独立于领域、任务或智能体,是香农熵的结构性结果而非经验观测。当存在主体性时,惩罚项将严格压制P低于此上限,经训练智能体验证其值为P=0.33。为将P转化为实时监控信号,我们引入信息数字孪生(IDT)——一种无需访问模型内部即可从可观测交互流中计算P及其方向分量的辅助架构。在涵盖八种扰动类型与两种策略架构的168次扰动试验中,基于IDT的监控检测到89.3%的耦合退化(奖励基监控为44.0%),中位延迟降低4.4倍。这些结果确立了双可预测性作为部署式强化学习系统中闭环自调节所需的有界、可计算且具有原则性基础的先决信号。

0
下载
关闭预览

相关内容

【CMU博士论文】强化学习泛化性与效率研究,206页pdf
专知会员服务
73+阅读 · 2023年2月23日
移动边缘网络中联邦学习效率优化综述
专知会员服务
50+阅读 · 2022年7月9日
【CMU博士论文Wen Sun】强化学习的泛化性与效率,206页pdf
专知会员服务
94+阅读 · 2020年9月28日
可解释强化学习,Explainable Reinforcement Learning: A Survey
专知会员服务
132+阅读 · 2020年5月14日
「基于通信的多智能体强化学习」 进展综述
强化学习《奖励函数设计: Reward Shaping》详细解读
深度强化学习实验室
20+阅读 · 2020年9月1日
探索(Exploration)还是利用(Exploitation)?强化学习如何tradeoff?
深度强化学习实验室
13+阅读 · 2020年8月23日
浅谈主动学习(Active Learning)
凡人机器学习
32+阅读 · 2020年6月18日
PlaNet 简介:用于强化学习的深度规划网络
谷歌开发者
13+阅读 · 2019年3月16日
基于强化学习的量化交易框架
机器学习研究会
30+阅读 · 2018年2月22日
【强化学习】强化学习+深度学习=人工智能
产业智能官
55+阅读 · 2017年8月11日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2008年12月31日
VIP会员
最新内容
综述 | 从问答到任务完成:Agent系统与Harness设计
Agentic RL:框架、实践与长程智能体训练
专知会员服务
2+阅读 · 6月24日
重新思考无人机时代的生存能力
专知会员服务
5+阅读 · 6月24日
装甲突击旅:现代战争思考、战斗与组织
专知会员服务
4+阅读 · 6月24日
在人工智能加速决策环境中拓展OODA循环
专知会员服务
4+阅读 · 6月24日
军事欺骗:供作战战术指挥官使用的工具
专知会员服务
4+阅读 · 6月24日
综述 | 世界动作模型:少做梦,多行动
专知会员服务
6+阅读 · 6月23日
美以伊冲突:无人机与人工智能的运用
专知会员服务
10+阅读 · 6月23日
《特种部队在透明战场中的生存力》最新报告
专知会员服务
5+阅读 · 6月23日
相关资讯
「基于通信的多智能体强化学习」 进展综述
强化学习《奖励函数设计: Reward Shaping》详细解读
深度强化学习实验室
20+阅读 · 2020年9月1日
探索(Exploration)还是利用(Exploitation)?强化学习如何tradeoff?
深度强化学习实验室
13+阅读 · 2020年8月23日
浅谈主动学习(Active Learning)
凡人机器学习
32+阅读 · 2020年6月18日
PlaNet 简介:用于强化学习的深度规划网络
谷歌开发者
13+阅读 · 2019年3月16日
基于强化学习的量化交易框架
机器学习研究会
30+阅读 · 2018年2月22日
【强化学习】强化学习+深度学习=人工智能
产业智能官
55+阅读 · 2017年8月11日
相关基金
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员