Stationary Reweighting Yields Local Convergence of Soft Fitted Q-Iteration - 专知论文

会员服务 ·

0

拟合 · 函数逼近 · 正则化 · 工具 · 最优 ·

2025 年 12 月 30 日

Stationary Reweighting Yields Local Convergence of Soft Fitted Q-Iteration

翻译：平稳重加权实现软拟合Q迭代的局部收敛

Lars van der Laan,Nathan Kallus

Fitted Q-iteration (FQI) and its entropy-regularized variant, soft FQI, are central tools for value-based model-free offline reinforcement learning, but can behave poorly under function approximation and distribution shift. In the entropy-regularized setting, we show that the soft Bellman operator is locally contractive in the stationary norm of the soft-optimal policy, rather than in the behavior norm used by standard FQI. This geometric mismatch explains the instability of soft Q-iteration with function approximation in the absence of Bellman completeness. To restore contraction, we introduce stationary-reweighted soft FQI, which reweights each regression update using the stationary distribution of the current policy. We prove local linear convergence under function approximation with geometrically damped weight-estimation errors, assuming approximate realizability. Our analysis further suggests that global convergence may be recovered by gradually reducing the softmax temperature, and that this continuation approach can extend to the hardmax limit under a mild margin condition.

翻译：拟合Q迭代（FQI）及其熵正则化变体——软FQI，是基于价值的无模型离线强化学习的核心工具，但在函数逼近和分布偏移下可能表现不佳。在熵正则化设定中，我们证明了软贝尔曼算子在软最优策略的平稳范数下是局部压缩的，而非标准FQI所使用的行为范数。这种几何失配解释了在缺乏贝尔曼完备性时，软Q迭代在函数逼近下的不稳定性。为恢复压缩性，我们引入了平稳重加权软FQI，该方法使用当前策略的平稳分布对每个回归更新进行重加权。在近似可实现性假设下，我们证明了在函数逼近下具有几何衰减的权重估计误差时，算法可实现局部线性收敛。我们的分析进一步表明，通过逐步降低softmax温度可能恢复全局收敛性，且这种延拓方法在温和的边界条件下可扩展至hardmax极限。

0

相关内容

语言模型如何重塑实体对齐？语言模型驱动实体对齐的进展、基准与未来

语言模型如何重塑实体对齐？语言模型驱动实体对齐的进展、基准与未来

专知会员服务

8+阅读 · 2025年11月2日

【NeurIPS2025】TITAN：一种面向轨迹感知的大规模 VQE 自适应参数冻结技术

【NeurIPS2025】TITAN：一种面向轨迹感知的大规模 VQE 自适应参数冻结技术

专知会员服务

12+阅读 · 2025年9月20日

美陆军研究报告《基于熵引导的深度神经网络加速收敛与性能提升方法》最新26页

美陆军研究报告《基于熵引导的深度神经网络加速收敛与性能提升方法》最新26页

专知会员服务

17+阅读 · 2025年7月3日

基于深度学习的物体姿态估计综述

基于深度学习的物体姿态估计综述

专知会员服务

27+阅读 · 2024年5月15日

【博士论文】机器学习中的熵最优传输:在分布回归、重心估计和概率匹配中的应用，209页pdf

【博士论文】机器学习中的熵最优传输:在分布回归、重心估计和概率匹配中的应用，209页pdf

专知会员服务

37+阅读 · 2022年5月23日

【CMU-Yuejie Chi等干货书】满足低秩矩阵分解的非凸优化综述，69页pdf，Nonconvex Optimization Meets Low-Rank Matrix Factorization: An Overview

【CMU-Yuejie Chi等干货书】满足低秩矩阵分解的非凸优化综述，69页pdf，Nonconvex Optimization Meets Low-Rank Matrix Factorization: An Overview

专知会员服务

33+阅读 · 2022年3月4日

首篇《深度学习不确定性量化: 技术、应用与挑战》2020综述论文，61页pdf582篇文献

专知会员服务

106+阅读 · 2020年11月16日

【伯克利】自回归模型的局部掩卷积，Locally Masked Convolution for Autoregressive Models

【伯克利】自回归模型的局部掩卷积，Locally Masked Convolution for Autoregressive Models

专知会员服务

20+阅读 · 2020年6月23日

【NeurIPS 2019|经典论文奖】正则随机学习和在线优化的双重平均法（Dual Averaging Method for Regularized Stochastic Learning and Online Optimization），微软研究院Lin Xiao

【NeurIPS 2019|经典论文奖】正则随机学习和在线优化的双重平均法（Dual Averaging Method for Regularized Stochastic Learning and Online Optimization），微软研究院Lin Xiao

专知会员服务

17+阅读 · 2019年12月9日

【ICCV 2019 Toturial】Global Optimization for Geometric Understanding with Provable Guarantees（具有可证明保证的几何理解的全局优化）

【ICCV 2019 Toturial】Global Optimization for Geometric Understanding with Provable Guarantees（具有可证明保证的几何理解的全局优化）

专知会员服务

18+阅读 · 2019年11月1日

【AAAI2023】用于图对比学习的谱特征增强

【AAAI2023】用于图对比学习的谱特征增强

专知

20+阅读 · 2022年12月11日

QCon广州站圆满落幕：研发效能、架构演进主题持续火爆，数据驱动决策、核心系统改造热度攀升

QCon广州站圆满落幕：研发效能、架构演进主题持续火爆，数据驱动决策、核心系统改造热度攀升

极客邦科技Geekbang

10+阅读 · 2022年8月5日

Distributional Soft Actor-Critic (DSAC)强化学习算法的设计与验证

Distributional Soft Actor-Critic (DSAC)强化学习算法的设计与验证

深度强化学习实验室

20+阅读 · 2020年8月11日

基于 SonarQube 的增量代码扫描

基于 SonarQube 的增量代码扫描

DevOps时代

12+阅读 · 2019年7月18日

换个角度看GAN：另一种损失函数

换个角度看GAN：另一种损失函数

机器之心

16+阅读 · 2019年1月1日

Seq2seq强化，Pointer Network简介

Seq2seq强化，Pointer Network简介

机器学习算法与Python学习

15+阅读 · 2018年12月8日

数据分析师应该知道的16种回归技术：岭回归

数据分析师应该知道的16种回归技术：岭回归

数萃大数据

15+阅读 · 2018年8月11日

超全总结：神经网络加速之量化模型 | 附带代码

超全总结：神经网络加速之量化模型 | 附带代码

PaperWeekly

12+阅读 · 2018年6月1日

纵览轻量化卷积神经网络：SqueezeNet、MobileNet、ShuffleNet、Xception

纵览轻量化卷积神经网络：SqueezeNet、MobileNet、ShuffleNet、Xception

机器之心

11+阅读 · 2018年1月8日

各种相似性度量及Python实现

各种相似性度量及Python实现

机器学习算法与Python学习

11+阅读 · 2017年7月6日

双曲平衡律系统半整体熵解的适定性及其应用

国家自然科学基金

0+阅读 · 2015年12月31日

非对称扰动下的拟线性椭圆方程解的多重性研究

国家自然科学基金

0+阅读 · 2015年12月31日

功率天平准直误差软补偿关键技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

加权紧黎曼流形上函数逼近问题的研究

国家自然科学基金

0+阅读 · 2015年12月31日

无限闭凸集族凸可行性问题中投影算法的线性收敛

国家自然科学基金

0+阅读 · 2015年12月31日

结合图像块联合聚类加权和混合分类器的非对齐稀疏表示识别方法

国家自然科学基金

1+阅读 · 2015年12月31日

与微分算子相关的加权Hardy型空间实变理论及应用

国家自然科学基金

0+阅读 · 2014年12月31日

全空间中临界Surface Quasi-geostrophic方程的全局吸引子及其分形维数

国家自然科学基金

0+阅读 · 2014年12月31日

求解非线性方程的加速迭代算法

国家自然科学基金

0+阅读 · 2014年12月31日

基于quantaloid-加载范畴的quantale值收敛理论

国家自然科学基金

1+阅读 · 2014年12月31日

Periodic Regularized Q-Learning

Arxiv

0+阅读 · 2月3日

Efficient Softmax Reformulation for Homomorphic Encryption via Moment Generating Function

Arxiv

0+阅读 · 2月2日

Iterative execution of discrete and inverse discrete Fourier transforms with applications for signal denoising via sparsification

Arxiv

0+阅读 · 1月29日

Scale-Consistent State-Space Dynamics via Fractal of Stationary Transformations

Arxiv

0+阅读 · 1月27日

StableQAT: Stable Quantization-Aware Training at Ultra-Low Bitwidths

Arxiv

0+阅读 · 1月27日

Discrete Layered Entropy, Conditional Compression and a Tighter Strong Functional Representation Lemma

Arxiv

0+阅读 · 1月25日

Non-Stationary Functional Bilevel Optimization

Arxiv

0+阅读 · 1月21日

Kernel Learning for Regression via Quantum Annealing Based Spectral Sampling

Arxiv

0+阅读 · 1月13日

Optimal Approximation -- Smoothness Tradeoffs for Soft-Max Functions

Arxiv

0+阅读 · 2025年12月30日

Fitted Q Evaluation Without Bellman Completeness via Stationary Weighting

Arxiv

0+阅读 · 2025年12月29日

VIP会员

文章信息

相关主题

最新内容

博士论文 | 用代码结构感知方法推进代码大模型

博士论文 | 用代码结构感知方法推进代码大模型

专知会员服务

0+阅读 · 7月25日

综述 | 遥感多模态大模型：领域专用还是通用模型？

综述 | 遥感多模态大模型：领域专用还是通用模型？

专知会员服务

0+阅读 · 7月25日

《面向指挥控制训练与实时北约兼容数据分发的战术模拟器》

《面向指挥控制训练与实时北约兼容数据分发的战术模拟器》

专知会员服务

3+阅读 · 7月25日

《决策模型比较研究》

《决策模型比较研究》

专知会员服务

8+阅读 · 7月25日

全球军事与武器工业中的人工智能：应用、方法与影响（万字长文）

全球军事与武器工业中的人工智能：应用、方法与影响（万字长文）

专知会员服务

4+阅读 · 7月25日

《美军水下战与海床战概述及本地实施》

《美军水下战与海床战概述及本地实施》

专知会员服务

5+阅读 · 7月25日

面向未来冲突推进陆军情报体制改革

面向未来冲突推进陆军情报体制改革

专知会员服务

4+阅读 · 7月25日

人工智能赋能无人机：俄乌冲突案例及其深远影响（万字长文）

人工智能赋能无人机：俄乌冲突案例及其深远影响（万字长文）

专知会员服务

5+阅读 · 7月25日

《反无人机蜂群：有人-无人协同防御场景下的编队重构分析》

《反无人机蜂群：有人-无人协同防御场景下的编队重构分析》

专知会员服务

10+阅读 · 7月24日

《史诗怒火/咆哮雄狮行动：针对伊朗空中战役的战略分析》68页智库报告

《史诗怒火/咆哮雄狮行动：针对伊朗空中战役的战略分析》68页智库报告

专知会员服务

8+阅读 · 7月24日

“愈演愈烈的欺骗与干扰博弈”：无人机与人工智能背景下俄乌强化以无人机为核心的电子战

“愈演愈烈的欺骗与干扰博弈”：无人机与人工智能背景下俄乌强化以无人机为核心的电子战

专知会员服务

5+阅读 · 7月24日

乌克兰纵深打击如何重塑俄罗斯的战略选择

乌克兰纵深打击如何重塑俄罗斯的战略选择

专知会员服务

3+阅读 · 7月24日

《分布式太空任务对比分析与综合建模及仿真环境》120页

《分布式太空任务对比分析与综合建模及仿真环境》120页

专知会员服务

4+阅读 · 7月24日

俄乌战争中关于中程打击无人机部署的经验启示

俄乌战争中关于中程打击无人机部署的经验启示

专知会员服务

5+阅读 · 7月24日

《远程自主系统可扩展态势感知的解决方案》32页2026最新报告

《远程自主系统可扩展态势感知的解决方案》32页2026最新报告

专知会员服务

7+阅读 · 7月23日

相关VIP内容

语言模型如何重塑实体对齐？语言模型驱动实体对齐的进展、基准与未来

语言模型如何重塑实体对齐？语言模型驱动实体对齐的进展、基准与未来

专知会员服务

8+阅读 · 2025年11月2日

【NeurIPS2025】TITAN：一种面向轨迹感知的大规模 VQE 自适应参数冻结技术

【NeurIPS2025】TITAN：一种面向轨迹感知的大规模 VQE 自适应参数冻结技术

专知会员服务

12+阅读 · 2025年9月20日

美陆军研究报告《基于熵引导的深度神经网络加速收敛与性能提升方法》最新26页

美陆军研究报告《基于熵引导的深度神经网络加速收敛与性能提升方法》最新26页

专知会员服务

17+阅读 · 2025年7月3日

基于深度学习的物体姿态估计综述

基于深度学习的物体姿态估计综述

专知会员服务

27+阅读 · 2024年5月15日

【博士论文】机器学习中的熵最优传输:在分布回归、重心估计和概率匹配中的应用，209页pdf

【博士论文】机器学习中的熵最优传输:在分布回归、重心估计和概率匹配中的应用，209页pdf

专知会员服务

37+阅读 · 2022年5月23日

【CMU-Yuejie Chi等干货书】满足低秩矩阵分解的非凸优化综述，69页pdf，Nonconvex Optimization Meets Low-Rank Matrix Factorization: An Overview

【CMU-Yuejie Chi等干货书】满足低秩矩阵分解的非凸优化综述，69页pdf，Nonconvex Optimization Meets Low-Rank Matrix Factorization: An Overview

专知会员服务

33+阅读 · 2022年3月4日

首篇《深度学习不确定性量化: 技术、应用与挑战》2020综述论文，61页pdf582篇文献

专知会员服务

106+阅读 · 2020年11月16日

【伯克利】自回归模型的局部掩卷积，Locally Masked Convolution for Autoregressive Models

【伯克利】自回归模型的局部掩卷积，Locally Masked Convolution for Autoregressive Models

专知会员服务

20+阅读 · 2020年6月23日

【NeurIPS 2019|经典论文奖】正则随机学习和在线优化的双重平均法（Dual Averaging Method for Regularized Stochastic Learning and Online Optimization），微软研究院Lin Xiao

【NeurIPS 2019|经典论文奖】正则随机学习和在线优化的双重平均法（Dual Averaging Method for Regularized Stochastic Learning and Online Optimization），微软研究院Lin Xiao

专知会员服务

17+阅读 · 2019年12月9日

【ICCV 2019 Toturial】Global Optimization for Geometric Understanding with Provable Guarantees（具有可证明保证的几何理解的全局优化）

【ICCV 2019 Toturial】Global Optimization for Geometric Understanding with Provable Guarantees（具有可证明保证的几何理解的全局优化）

专知会员服务

18+阅读 · 2019年11月1日

热门VIP内容

开通专知VIP会员享更多权益服务

综述 | 遥感多模态大模型：领域专用还是通用模型？

《决策模型比较研究》

博士论文 | 用代码结构感知方法推进代码大模型

《面向指挥控制训练与实时北约兼容数据分发的战术模拟器》

相关资讯

【AAAI2023】用于图对比学习的谱特征增强

【AAAI2023】用于图对比学习的谱特征增强

专知

20+阅读 · 2022年12月11日

QCon广州站圆满落幕：研发效能、架构演进主题持续火爆，数据驱动决策、核心系统改造热度攀升

QCon广州站圆满落幕：研发效能、架构演进主题持续火爆，数据驱动决策、核心系统改造热度攀升

极客邦科技Geekbang

10+阅读 · 2022年8月5日

Distributional Soft Actor-Critic (DSAC)强化学习算法的设计与验证

Distributional Soft Actor-Critic (DSAC)强化学习算法的设计与验证

深度强化学习实验室

20+阅读 · 2020年8月11日

基于 SonarQube 的增量代码扫描

基于 SonarQube 的增量代码扫描

DevOps时代

12+阅读 · 2019年7月18日

换个角度看GAN：另一种损失函数

换个角度看GAN：另一种损失函数

机器之心

16+阅读 · 2019年1月1日

Seq2seq强化，Pointer Network简介

Seq2seq强化，Pointer Network简介

机器学习算法与Python学习

15+阅读 · 2018年12月8日

数据分析师应该知道的16种回归技术：岭回归

数据分析师应该知道的16种回归技术：岭回归

数萃大数据

15+阅读 · 2018年8月11日

超全总结：神经网络加速之量化模型 | 附带代码

超全总结：神经网络加速之量化模型 | 附带代码

PaperWeekly

12+阅读 · 2018年6月1日

纵览轻量化卷积神经网络：SqueezeNet、MobileNet、ShuffleNet、Xception

纵览轻量化卷积神经网络：SqueezeNet、MobileNet、ShuffleNet、Xception

机器之心

11+阅读 · 2018年1月8日

各种相似性度量及Python实现

各种相似性度量及Python实现

机器学习算法与Python学习

11+阅读 · 2017年7月6日

相关论文

Periodic Regularized Q-Learning

Arxiv

0+阅读 · 2月3日

Efficient Softmax Reformulation for Homomorphic Encryption via Moment Generating Function

Arxiv

0+阅读 · 2月2日

Iterative execution of discrete and inverse discrete Fourier transforms with applications for signal denoising via sparsification

Arxiv

0+阅读 · 1月29日

Scale-Consistent State-Space Dynamics via Fractal of Stationary Transformations

Arxiv

0+阅读 · 1月27日

StableQAT: Stable Quantization-Aware Training at Ultra-Low Bitwidths

Arxiv

0+阅读 · 1月27日

Discrete Layered Entropy, Conditional Compression and a Tighter Strong Functional Representation Lemma

Arxiv

0+阅读 · 1月25日

Non-Stationary Functional Bilevel Optimization

Arxiv

0+阅读 · 1月21日

Kernel Learning for Regression via Quantum Annealing Based Spectral Sampling

Arxiv

0+阅读 · 1月13日

Optimal Approximation -- Smoothness Tradeoffs for Soft-Max Functions

Arxiv

0+阅读 · 2025年12月30日

Fitted Q Evaluation Without Bellman Completeness via Stationary Weighting

Arxiv

0+阅读 · 2025年12月29日

相关基金

双曲平衡律系统半整体熵解的适定性及其应用

国家自然科学基金

0+阅读 · 2015年12月31日

非对称扰动下的拟线性椭圆方程解的多重性研究

国家自然科学基金

0+阅读 · 2015年12月31日

功率天平准直误差软补偿关键技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

加权紧黎曼流形上函数逼近问题的研究

国家自然科学基金

0+阅读 · 2015年12月31日

无限闭凸集族凸可行性问题中投影算法的线性收敛

国家自然科学基金

0+阅读 · 2015年12月31日

结合图像块联合聚类加权和混合分类器的非对齐稀疏表示识别方法

国家自然科学基金

1+阅读 · 2015年12月31日

与微分算子相关的加权Hardy型空间实变理论及应用

国家自然科学基金

0+阅读 · 2014年12月31日

全空间中临界Surface Quasi-geostrophic方程的全局吸引子及其分形维数

国家自然科学基金

0+阅读 · 2014年12月31日

求解非线性方程的加速迭代算法

国家自然科学基金

0+阅读 · 2014年12月31日

基于quantaloid-加载范畴的quantale值收敛理论

国家自然科学基金

1+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员