What Does Flow Matching Bring To TD Learning? - 专知论文

会员服务 ·

0

流匹配 · 差分 · TD · 时序 · 时序差分学习 ·

What Does Flow Matching Bring To TD Learning?

翻译：流匹配为时序差分学习带来了什么？

Bhavya Agrawalla,Michal Nauman,Aviral Kumar

Recent work shows that flow matching can be effective for scalar Q-value function estimation in reinforcement learning (RL), but it remains unclear why or how this approach differs from standard critics. Contrary to conventional belief, we show that their success is not explained by distributional RL, as explicitly modeling return distributions can reduce performance. Instead, we argue that the use of integration for reading out values and dense velocity supervision at each step of this integration process for training improves TD learning via two mechanisms. First, it enables robust value prediction through \emph{test-time recovery}, whereby iterative computation through integration dampens errors in early value estimates as more integration steps are performed. This recovery mechanism is absent in monolithic critics. Second, supervising the velocity field at multiple interpolant values induces more \emph{plastic} feature learning within the network, allowing critics to represent non-stationary TD targets without discarding previously learned features or overfitting to individual TD targets encountered during training. We formalize these effects and validate them empirically, showing that flow-matching critics substantially outperform monolithic critics (2$\times$ in final performance and around 5$\times$ in sample efficiency) in settings where loss of plasticity poses a challenge e.g., in high-UTD online RL problems, while remaining stable during learning.

翻译：近期研究表明，流匹配在强化学习（RL）中的标量Q值函数估计方面具有显著效果，但其与标准评论者（critic）方法的差异原因与机制尚不明确。与传统观点相反，我们发现其成功并不能通过分布强化学习（distributional RL）来解释，因为显式建模回报分布反而可能降低性能。我们认为，该方法通过积分过程读取数值，并在积分的每一步进行密集的速度监督训练，从而通过两种机制改进了时序差分（TD）学习。首先，它通过**测试时恢复**实现了稳健的价值预测，即通过积分进行迭代计算，随着积分步数的增加，能够抑制早期价值估计中的误差。这种恢复机制在单体评论者（monolithic critic）中并不存在。其次，在多个插值点对速度场进行监督，促使网络内部进行更具**可塑性**的特征学习，使得评论者能够表示非平稳的TD目标，同时不会丢弃先前学习的特征或对训练中遇到的单个TD目标产生过拟合。我们对这些效应进行了形式化分析，并通过实验验证了其有效性。结果表明，在可塑性丧失构成挑战的场景中（例如高UTD在线RL问题），流匹配评论者在最终性能上显著优于单体评论者（约2倍提升），样本效率提升约5倍，同时在学习过程中保持稳定。

0

相关内容

流匹配

因果强化学习的统一框架：综述、分类体系、算法与应用

因果强化学习的统一框架：综述、分类体系、算法与应用

专知会员服务

36+阅读 · 2025年12月24日

【斯坦福博士论文】用于序贯决策的强化学习：从芯片设计到语言建模

【斯坦福博士论文】用于序贯决策的强化学习：从芯片设计到语言建模

专知会员服务

18+阅读 · 2025年6月21日

【ETHZ博士论文】样本高效的基于模型的强化学习：零阶轨迹优化、策略蒸馏和距离学习的分析

【ETHZ博士论文】样本高效的基于模型的强化学习：零阶轨迹优化、策略蒸馏和距离学习的分析

专知会员服务

44+阅读 · 2023年12月6日

【ETHZ博士论文】基于人类反馈的安全高效强化学习算法基础， 258页pdf

【ETHZ博士论文】基于人类反馈的安全高效强化学习算法基础， 258页pdf

专知会员服务

52+阅读 · 2023年10月8日

【密歇根大学博士论文】深度强化学习进展:内在奖励，时间信用分配，状态表示和价值等效模型

【密歇根大学博士论文】深度强化学习进展:内在奖励，时间信用分配，状态表示和价值等效模型

专知会员服务

36+阅读 · 2023年1月11日

【MIT博士论文】通过奇异值分解、端到端基于模型的方法和奖励塑造的有效强化学习

【MIT博士论文】通过奇异值分解、端到端基于模型的方法和奖励塑造的有效强化学习

专知会员服务

49+阅读 · 2022年9月22日

【清华大学】Delta调优:预训练语言模型参数有效方法的综合研究，Delta Tuning: A Comprehensive Study of Parameter Efficient Methods for Pre-trained Language Models

【清华大学】Delta调优:预训练语言模型参数有效方法的综合研究，Delta Tuning: A Comprehensive Study of Parameter Efficient Methods for Pre-trained Language Models

专知会员服务

26+阅读 · 2022年3月15日

强化学习如何用于推荐？厦大最新《强化学习推荐系统》综述论文，25页pdf156篇文献论述五种典型RL推荐方法

专知会员服务

80+阅读 · 2021年9月23日

基于决策树模型重用的分布变化流数据学习

专知会员服务

24+阅读 · 2021年1月30日

【ICML2020投稿论文-DeepMind】时序差分学习的推理与泛化，Temporal Difference Learning

专知会员服务

26+阅读 · 2020年3月16日

基于模型的强化学习综述

基于模型的强化学习综述

专知

42+阅读 · 2022年7月13日

【万字长文总结】如何解决"稀疏奖励(Sparse Reward)"下的强化学习问题？

【万字长文总结】如何解决"稀疏奖励(Sparse Reward)"下的强化学习问题？

深度强化学习实验室

43+阅读 · 2020年7月6日

以BERT为例,如何优化机器学习模型性能?

以BERT为例,如何优化机器学习模型性能?

专知

10+阅读 · 2019年10月3日

深度学习应用在图像匹配的效果如何？

深度学习应用在图像匹配的效果如何？

中国图象图形学报

10+阅读 · 2019年6月11日

【论文笔记和代码梳理】RippleNet：基于知识图谱的用户偏好传播

【论文笔记和代码梳理】RippleNet：基于知识图谱的用户偏好传播

专知

42+阅读 · 2019年4月9日

机器学习中如何处理不平衡数据？

机器学习中如何处理不平衡数据？

机器之心

13+阅读 · 2019年2月17日

WSDM 2019教程—李航、何向南等，深度学习匹配在搜索和推荐中的应用

WSDM 2019教程—李航、何向南等，深度学习匹配在搜索和推荐中的应用

专知

26+阅读 · 2019年2月12日

关于强化学习（附代码，练习和解答）

关于强化学习（附代码，练习和解答）

深度学习

38+阅读 · 2018年1月30日

入门 | 从Q学习到DDPG，一文简述多种强化学习算法

入门 | 从Q学习到DDPG，一文简述多种强化学习算法

机器之心

17+阅读 · 2018年1月21日

推荐算法：Match与Rank模型的交织配合

推荐算法：Match与Rank模型的交织配合

从0到1

15+阅读 · 2017年12月18日

抽样环境下基于流记录的行为特征分析与多分类器识别模型研究

国家自然科学基金

0+阅读 · 2015年12月31日

多标记文本数据流分类方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

半参数回归模型中随机误差分布的检验问题

国家自然科学基金

2+阅读 · 2015年12月31日

排序与半监督学习的误差分析

国家自然科学基金

0+阅读 · 2015年12月31日

有向图谱理论在图像匹配中应用研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于强化学习的分布参数系统数据驱动控制

国家自然科学基金

7+阅读 · 2015年12月31日

面向大规模多步学习问题的学习分类元系统技术研究

国家自然科学基金

5+阅读 · 2015年12月31日

海量数据流实时分发技术研究

国家自然科学基金

3+阅读 · 2015年12月31日

面向异分布数据的主动学习方法

国家自然科学基金

12+阅读 · 2015年12月31日

空间分数阶Schr？dinger方程的时间分裂谱方法

国家自然科学基金

0+阅读 · 2014年12月31日

LeapAlign: Post-Training Flow Matching Models at Any Generation Step by Building Two-Step Trajectories

Arxiv

0+阅读 · 4月16日

Binary Flow Matching: Prediction-Loss Space Alignment for Robust Learning

Arxiv

0+阅读 · 4月13日

Flow Matching is Adaptive to Manifold Structures

Arxiv

0+阅读 · 4月9日

Score-matching-based Structure Learning for Temporal Data on Networks

Arxiv

0+阅读 · 4月6日

Flow-based Policy With Distributional Reinforcement Learning in Trajectory Optimization

Arxiv

0+阅读 · 4月1日

Stepwise Credit Assignment for GRPO on Flow-Matching Models

Arxiv

0+阅读 · 3月30日

Finite Difference Flow Optimization for RL Post-Training of Text-to-Image Models

Arxiv

0+阅读 · 3月13日

Distribution estimation via Flow Matching with Lipschitz guarantees

Arxiv

0+阅读 · 3月12日

Flow Matching with Injected Noise for Offline-to-Online Reinforcement Learning

Arxiv

0+阅读 · 2月20日

Temporal Pair Consistency for Variance-Reduced Flow Matching

Arxiv

0+阅读 · 2月19日

VIP会员

文章信息

相关主题

时序差分学习

最新内容

《基于智能体建模与仿真的无人机蜂群模型目标定位涌现行为比较分析》360页

《基于智能体建模与仿真的无人机蜂群模型目标定位涌现行为比较分析》360页

专知会员服务

7+阅读 · 7月18日

欧洲智能弹药战略创新管理：迈向制导弹药、巡飞系统与自主无人机蜂群的技术主权研究路线图

欧洲智能弹药战略创新管理：迈向制导弹药、巡飞系统与自主无人机蜂群的技术主权研究路线图

专知会员服务

4+阅读 · 7月18日

从领域适配到部署与可解释：Berkeley博士论文解析大语言模型真实落地

从领域适配到部署与可解释：Berkeley博士论文解析大语言模型真实落地

专知会员服务

6+阅读 · 7月18日

综述 | 长程智能体研究全景：基础、演化、框架、优化与前沿

综述 | 长程智能体研究全景：基础、演化、框架、优化与前沿

专知会员服务

4+阅读 · 7月18日

DARPA拟打造十万规模自主思考作战的AI智能体集群：“受控涌现式分布式人工智能”（DICE）项目

DARPA拟打造十万规模自主思考作战的AI智能体集群：“受控涌现式分布式人工智能”（DICE）项目

专知会员服务

8+阅读 · 7月17日

《边缘端实时无线感知赋能现场多机器人部署》200页

《边缘端实时无线感知赋能现场多机器人部署》200页

专知会员服务

7+阅读 · 7月17日

战力倍增器：自主武器系统与乌克兰及加沙冲突

战力倍增器：自主武器系统与乌克兰及加沙冲突

专知会员服务

4+阅读 · 7月17日

人工智能赋能战场情报：提速决策进程

人工智能赋能战场情报：提速决策进程

专知会员服务

2+阅读 · 7月17日

《拥抱新兴技术：面向未来军官的教育革新》

《拥抱新兴技术：面向未来军官的教育革新》

专知会员服务

5+阅读 · 7月17日

ACM MM 2026 | MAR-GRPO：稳定混合图像生成的强化学习训练

ACM MM 2026 | MAR-GRPO：稳定混合图像生成的强化学习训练

专知会员服务

3+阅读 · 7月17日

综述 | 大模型水印理论与部署：来源追踪、攻击鲁棒与可信治理

综述 | 大模型水印理论与部署：来源追踪、攻击鲁棒与可信治理

专知会员服务

4+阅读 · 7月17日

《火线上的后勤保障：对抗环境下的随机规划模型研究——俄乌场景案例分析》99页

《火线上的后勤保障：对抗环境下的随机规划模型研究——俄乌场景案例分析》99页

专知会员服务

12+阅读 · 7月16日

《无人地面战车（UGV）的崛起》报告

《无人地面战车（UGV）的崛起》报告

专知会员服务

7+阅读 · 7月16日

《无人机参数化与集群飞行创新项目的监控流程管理：模型、策略及自适应解决方案》

《无人机参数化与集群飞行创新项目的监控流程管理：模型、策略及自适应解决方案》

专知会员服务

6+阅读 · 7月16日

《美军开放式任务系统（OMS）定义与文档（D&D）——Java关键抽象层（CAL）接口生成规范》47页标准

《美军开放式任务系统（OMS）定义与文档（D&D）——Java关键抽象层（CAL）接口生成规范》47页标准

专知会员服务

14+阅读 · 7月16日

相关VIP内容

因果强化学习的统一框架：综述、分类体系、算法与应用

因果强化学习的统一框架：综述、分类体系、算法与应用

专知会员服务

36+阅读 · 2025年12月24日

【斯坦福博士论文】用于序贯决策的强化学习：从芯片设计到语言建模

【斯坦福博士论文】用于序贯决策的强化学习：从芯片设计到语言建模

专知会员服务

18+阅读 · 2025年6月21日

【ETHZ博士论文】样本高效的基于模型的强化学习：零阶轨迹优化、策略蒸馏和距离学习的分析

【ETHZ博士论文】样本高效的基于模型的强化学习：零阶轨迹优化、策略蒸馏和距离学习的分析

专知会员服务

44+阅读 · 2023年12月6日

【ETHZ博士论文】基于人类反馈的安全高效强化学习算法基础， 258页pdf

【ETHZ博士论文】基于人类反馈的安全高效强化学习算法基础， 258页pdf

专知会员服务

52+阅读 · 2023年10月8日

【密歇根大学博士论文】深度强化学习进展:内在奖励，时间信用分配，状态表示和价值等效模型

【密歇根大学博士论文】深度强化学习进展:内在奖励，时间信用分配，状态表示和价值等效模型

专知会员服务

36+阅读 · 2023年1月11日

【MIT博士论文】通过奇异值分解、端到端基于模型的方法和奖励塑造的有效强化学习

【MIT博士论文】通过奇异值分解、端到端基于模型的方法和奖励塑造的有效强化学习

专知会员服务

49+阅读 · 2022年9月22日

【清华大学】Delta调优:预训练语言模型参数有效方法的综合研究，Delta Tuning: A Comprehensive Study of Parameter Efficient Methods for Pre-trained Language Models

【清华大学】Delta调优:预训练语言模型参数有效方法的综合研究，Delta Tuning: A Comprehensive Study of Parameter Efficient Methods for Pre-trained Language Models

专知会员服务

26+阅读 · 2022年3月15日

强化学习如何用于推荐？厦大最新《强化学习推荐系统》综述论文，25页pdf156篇文献论述五种典型RL推荐方法

专知会员服务

80+阅读 · 2021年9月23日

基于决策树模型重用的分布变化流数据学习

专知会员服务

24+阅读 · 2021年1月30日

【ICML2020投稿论文-DeepMind】时序差分学习的推理与泛化，Temporal Difference Learning

专知会员服务

26+阅读 · 2020年3月16日

热门VIP内容

开通专知VIP会员享更多权益服务

欧洲智能弹药战略创新管理：迈向制导弹药、巡飞系统与自主无人机蜂群的技术主权研究路线图

综述 | 长程智能体研究全景：基础、演化、框架、优化与前沿

《基于智能体建模与仿真的无人机蜂群模型目标定位涌现行为比较分析》360页

从领域适配到部署与可解释：Berkeley博士论文解析大语言模型真实落地

相关资讯

基于模型的强化学习综述

基于模型的强化学习综述

专知

42+阅读 · 2022年7月13日

【万字长文总结】如何解决"稀疏奖励(Sparse Reward)"下的强化学习问题？

【万字长文总结】如何解决"稀疏奖励(Sparse Reward)"下的强化学习问题？

深度强化学习实验室

43+阅读 · 2020年7月6日

以BERT为例,如何优化机器学习模型性能?

以BERT为例,如何优化机器学习模型性能?

专知

10+阅读 · 2019年10月3日

深度学习应用在图像匹配的效果如何？

深度学习应用在图像匹配的效果如何？

中国图象图形学报

10+阅读 · 2019年6月11日

【论文笔记和代码梳理】RippleNet：基于知识图谱的用户偏好传播

【论文笔记和代码梳理】RippleNet：基于知识图谱的用户偏好传播

专知

42+阅读 · 2019年4月9日

机器学习中如何处理不平衡数据？

机器学习中如何处理不平衡数据？

机器之心

13+阅读 · 2019年2月17日

WSDM 2019教程—李航、何向南等，深度学习匹配在搜索和推荐中的应用

WSDM 2019教程—李航、何向南等，深度学习匹配在搜索和推荐中的应用

专知

26+阅读 · 2019年2月12日

关于强化学习（附代码，练习和解答）

关于强化学习（附代码，练习和解答）

深度学习

38+阅读 · 2018年1月30日

入门 | 从Q学习到DDPG，一文简述多种强化学习算法

入门 | 从Q学习到DDPG，一文简述多种强化学习算法

机器之心

17+阅读 · 2018年1月21日

推荐算法：Match与Rank模型的交织配合

推荐算法：Match与Rank模型的交织配合

从0到1

15+阅读 · 2017年12月18日

相关论文

LeapAlign: Post-Training Flow Matching Models at Any Generation Step by Building Two-Step Trajectories

Arxiv

0+阅读 · 4月16日

Binary Flow Matching: Prediction-Loss Space Alignment for Robust Learning

Arxiv

0+阅读 · 4月13日

Flow Matching is Adaptive to Manifold Structures

Arxiv

0+阅读 · 4月9日

Score-matching-based Structure Learning for Temporal Data on Networks

Arxiv

0+阅读 · 4月6日

Flow-based Policy With Distributional Reinforcement Learning in Trajectory Optimization

Arxiv

0+阅读 · 4月1日

Stepwise Credit Assignment for GRPO on Flow-Matching Models

Arxiv

0+阅读 · 3月30日

Finite Difference Flow Optimization for RL Post-Training of Text-to-Image Models

Arxiv

0+阅读 · 3月13日

Distribution estimation via Flow Matching with Lipschitz guarantees

Arxiv

0+阅读 · 3月12日

Flow Matching with Injected Noise for Offline-to-Online Reinforcement Learning

Arxiv

0+阅读 · 2月20日

Temporal Pair Consistency for Variance-Reduced Flow Matching

Arxiv

0+阅读 · 2月19日

相关基金

抽样环境下基于流记录的行为特征分析与多分类器识别模型研究

国家自然科学基金

0+阅读 · 2015年12月31日

多标记文本数据流分类方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

半参数回归模型中随机误差分布的检验问题

国家自然科学基金

2+阅读 · 2015年12月31日

排序与半监督学习的误差分析

国家自然科学基金

0+阅读 · 2015年12月31日

有向图谱理论在图像匹配中应用研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于强化学习的分布参数系统数据驱动控制

国家自然科学基金

7+阅读 · 2015年12月31日

面向大规模多步学习问题的学习分类元系统技术研究

国家自然科学基金

5+阅读 · 2015年12月31日

海量数据流实时分发技术研究

国家自然科学基金

3+阅读 · 2015年12月31日

面向异分布数据的主动学习方法

国家自然科学基金

12+阅读 · 2015年12月31日

空间分数阶Schr？dinger方程的时间分裂谱方法

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员