Many ideas in modern control and reinforcement learning treat decision-making as inference: start from a baseline distribution and update it when a signal arrives. We ask when this can be made literal rather than metaphorical. We study the special case where a KL-regularized soft update is exactly a Bayesian posterior inside a single fixed probabilistic model, so the update variable is a genuine channel through which information is transmitted. In this regime, behavioral change is driven only by evidence carried by that channel: the update must be explainable as an evidence reweighing of the baseline. This yields a sharp identification result: posterior updates determine the relative, context-dependent incentive signal that shifts behavior, but they do not uniquely determine absolute rewards, which remain ambiguous up to context-specific baselines. Requiring one reusable continuation value across different update directions adds a further coherence constraint linking the reward descriptions associated with different conditioning orders.


翻译:现代控制与强化学习中的许多思想将决策视为推断过程:从基准分布出发,并在信号到达时对其进行更新。本文探讨了这种观点何时能够成为字面意义上的机制而非隐喻。我们研究了KL正则化软更新在特定固定概率模型内精确对应贝叶斯后验的特殊情形,此时更新变量成为信息传递的真实通道。在此机制下,行为变化仅由该通道承载的证据驱动:更新必须能够解释为对基准分布的证据重加权。这导出了一个精确的识别结果:后验更新决定了驱动行为变化的相对性、上下文依赖的激励信号,但无法唯一确定绝对奖励值——后者仍受上下文特定基准的模糊性影响。若要求在不同更新方向上保持可重复使用的延续价值,则会进一步产生连接不同条件顺序对应奖励描述的相干性约束。

0
下载
关闭预览

相关内容

Mamba之后是什么?朝着更具表现力的递归更新规则迈进
专知会员服务
15+阅读 · 2025年1月18日
【CVPR2024】卷积提示"遇见了语言模型的持续学习
专知会员服务
18+阅读 · 2024年4月1日
强化学习《奖励函数设计: Reward Shaping》详细解读
深度强化学习实验室
18+阅读 · 2020年9月1日
用Attention玩转CV,一文总览自注意力语义分割进展
【强化学习】强化学习/增强学习/再励学习介绍
产业智能官
10+阅读 · 2018年2月23日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
0+阅读 · 2月16日
Arxiv
0+阅读 · 2月15日
VIP会员
相关VIP内容
Mamba之后是什么?朝着更具表现力的递归更新规则迈进
专知会员服务
15+阅读 · 2025年1月18日
【CVPR2024】卷积提示"遇见了语言模型的持续学习
专知会员服务
18+阅读 · 2024年4月1日
相关基金
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员