Iterative generative policies, such as diffusion models and flow matching, offer superior expressivity for continuous control but complicate Maximum Entropy Reinforcement Learning because their action log-densities are not directly accessible. To address this, we propose Field Least-Energy Actor-Critic (FLAC), a likelihood-free framework that regulates policy stochasticity by penalizing the kinetic energy of the velocity field. Our key insight is to formulate policy optimization as a Generalized Schrödinger Bridge (GSB) problem relative to a high-entropy reference process (e.g., uniform). Under this view, the maximum-entropy principle emerges naturally as staying close to a high-entropy reference while optimizing return, without requiring explicit action densities. In this framework, kinetic energy serves as a physically grounded proxy for divergence from the reference: minimizing path-space energy bounds the deviation of the induced terminal action distribution. Building on this view, we derive an energy-regularized policy iteration scheme and a practical off-policy algorithm that automatically tunes the kinetic energy via a Lagrangian dual mechanism. Empirically, FLAC achieves superior or comparable performance on high-dimensional benchmarks relative to strong baselines, while avoiding explicit density estimation.


翻译:迭代生成策略,如扩散模型和流匹配,为连续控制提供了卓越的表达能力,但由于其动作对数密度无法直接获取,使得最大熵强化学习变得复杂。为解决这一问题,我们提出了场最小能量执行者-评判者(FLAC),这是一个无需似然估计的框架,通过惩罚速度场的动能来调节策略的随机性。我们的核心见解是将策略优化表述为一个相对于高熵参考过程(例如均匀分布)的广义薛定谇桥问题。在此视角下,最大熵原则自然地体现为在优化回报的同时保持接近高熵参考,而无需显式的动作密度。在此框架中,动能作为偏离参考的物理基础代理指标:最小化路径空间能量可以约束诱导的终端动作分布的偏差。基于这一观点,我们推导出一种能量正则化的策略迭代方案和一个实用的离策略算法,该算法通过拉格朗日对偶机制自动调节动能。实验表明,在高维基准测试中,FLAC相对于强基线实现了优越或可比的性能,同时避免了显式的密度估计。

0
下载
关闭预览

相关内容

在数学,统计学和计算机科学中,尤其是在机器学习和逆问题中,正则化是添加信息以解决不适定问题或防止过度拟合的过程。 正则化适用于不适定的优化问题中的目标函数。
【NeurIPS2025】熵正则化与分布强化学习的收敛定理
专知会员服务
12+阅读 · 2025年10月12日
【ICML2023】表示驱动强化学习
专知会员服务
39+阅读 · 2023年6月2日
《分布式多智能体强化学习的编码》加州大学等
专知会员服务
55+阅读 · 2022年11月2日
【NeurIPS2022】基于最大熵编码的自监督学习
专知会员服务
27+阅读 · 2022年10月23日
「基于通信的多智能体强化学习」 进展综述
基于模型的强化学习综述
专知
42+阅读 · 2022年7月13日
超全总结:神经网络加速之量化模型 | 附带代码
基于强化学习的量化交易框架
机器学习研究会
30+阅读 · 2018年2月22日
【强化学习】强化学习+深度学习=人工智能
产业智能官
55+阅读 · 2017年8月11日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2008年12月31日
VIP会员
相关基金
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员