FASTER: Value-Guided Sampling for Fast RL - 专知论文

会员服务 ·

0

FASTER: Value-Guided Sampling for Fast RL

翻译：FASTER：价值引导的快速强化学习采样方法

Perry Dong,Alexander Swerdlow,Dorsa Sadigh,Chelsea Finn

Some of the most performant reinforcement learning algorithms today can be prohibitively expensive as they use test-time scaling methods such as sampling multiple action candidates and selecting the best one. In this work, we propose FASTER, a method for getting the benefits of sampling-based test-time scaling of diffusion-based policies without the computational cost by tracing the performance gain of action samples back to earlier in the denoising process. Our key insight is that we can model the denoising of multiple action candidates and selecting the best one as a Markov Decision Process (MDP) where the goal is to progressively filter action candidates before denoising is complete. With this MDP, we can learn a policy and value function in the denoising space that predicts the downstream value of action candidates in the denoising process and filters them while maximizing returns. The result is a method that is lightweight and can be plugged into existing generative RL algorithms. Across challenging long-horizon manipulation tasks in online and batch-online RL, FASTER consistently improves the underlying policies and achieves the best overall performance among the compared methods. Applied to a pretrained VLA, FASTER achieves the same performance while substantially reducing training and inference compute requirements. Code is available at https://github.com/alexanderswerdlow/faster .

翻译：当前一些性能最优的强化学习算法往往因采用测试时扩展方法（如采样多个动作候选并选择最优者）而计算成本过高。本文提出FASTER方法，通过将动作样本的性能增益追溯至去噪过程的早期阶段，在无需增加计算开销的前提下，获得基于采样的扩散策略测试时扩展优势。核心洞察在于：可将多动作候选去噪与最优选择过程建模为马尔可夫决策过程（MDP），其目标是在去噪完成前逐步过滤动作候选。基于该MDP，我们在去噪空间中学习策略函数与价值函数，用以预测动作候选在去噪过程中的下游价值，并在最大化回报的同时对其进行筛选。该方法轻量化设计，可即插即用于现有生成式强化学习算法。在在线及批次-在线强化学习的长程操控任务中，FASTER持续提升基础策略性能，并在对比方法中取得最优综合表现。当应用于预训练VLA模型时，FASTER在保持同等性能的前提下，显著降低训练与推理计算需求。代码开源地址：https://github.com/alexanderswerdlow/faster。

0

相关内容

【斯坦福博士论文】基于自适应采样的加速机器学习算法，113页pdf

【斯坦福博士论文】基于自适应采样的加速机器学习算法，113页pdf

专知会员服务

27+阅读 · 2023年6月25日

用Transformer学习通用超参数优化器，DeepMind Yutian Chen博士讲授，附Slides与视频

用Transformer学习通用超参数优化器，DeepMind Yutian Chen博士讲授，附Slides与视频

专知会员服务

40+阅读 · 2023年3月12日

Transformer如何训得更快更好？莫纳什大学最新《Transformer高效训练》综述，详述训练Transformer技术

Transformer如何训得更快更好？莫纳什大学最新《Transformer高效训练》综述，详述训练Transformer技术

专知会员服务

61+阅读 · 2023年2月4日

李宏毅老师讲解！《AlphaTensor: 用强化学习找出更有效率的矩阵相乘，附Slides与视频

李宏毅老师讲解！《AlphaTensor: 用强化学习找出更有效率的矩阵相乘，附Slides与视频

专知会员服务

42+阅读 · 2022年10月15日

【Facebook AI】fastText是一个用于高效学习单词表示和句子分类的库

【Facebook AI】fastText是一个用于高效学习单词表示和句子分类的库

专知会员服务

22+阅读 · 2022年3月25日

新加坡国立大学最新「大规模深度学习优化」综述论文，带你全面了解最新深度学习准确率和效率的优化方法

新加坡国立大学最新「大规模深度学习优化」综述论文，带你全面了解最新深度学习准确率和效率的优化方法

专知会员服务

54+阅读 · 2021年11月19日

【Google-普林斯顿】从学习速率中解开自适应梯度法，Disentangling Adaptive Gradient

专知会员服务

19+阅读 · 2020年3月5日

【AAAI2020论文-腾讯】通过稠密边界发生器快速学习时间动作方案（Fast Learning of Temporal Action Proposal via Dense Boundary Generator）

【AAAI2020论文-腾讯】通过稠密边界发生器快速学习时间动作方案（Fast Learning of Temporal Action Proposal via Dense Boundary Generator）

专知会员服务

12+阅读 · 2019年11月15日

【CCF优秀博士学位论文奖-2019】表示学习的高效算法，清华大学陈健飞

【CCF优秀博士学位论文奖-2019】表示学习的高效算法，清华大学陈健飞

专知会员服务

48+阅读 · 2019年11月8日

【ICML2019 Tutorials】元学习：从小样本学习到快速强化学习(Meta-Learning: from Few-Shot Learning to Rapid Reinforcement Learning)，Google Brain的研究科学家| Chelsea Finn，加州大学伯克利分校| Sergey Levine

【ICML2019 Tutorials】元学习：从小样本学习到快速强化学习(Meta-Learning: from Few-Shot Learning to Rapid Reinforcement Learning)，Google Brain的研究科学家| Chelsea Finn，加州大学伯克利分校| Sergey Levine

专知会员服务

55+阅读 · 2019年6月10日

【优博微展2019】李志泽：简单快速的机器学习优化方法

【优博微展2019】李志泽：简单快速的机器学习优化方法

清华大学研究生教育

15+阅读 · 2019年10月8日

初学者系列：基于Keras的Faster-RCNN的代码学习

初学者系列：基于Keras的Faster-RCNN的代码学习

专知

17+阅读 · 2019年8月9日

DeepMind综述深度强化学习中的快与慢，智能体应该像人一样学习

DeepMind综述深度强化学习中的快与慢，智能体应该像人一样学习

机器之心

20+阅读 · 2019年5月3日

最新最权威《深度学习显著目标检测综述》论文代码数据发布，带你全面了解显著目标检测方法

最新最权威《深度学习显著目标检测综述》论文代码数据发布，带你全面了解显著目标检测方法

专知

79+阅读 · 2019年4月24日

实战 | 源码入门之Faster RCNN

实战 | 源码入门之Faster RCNN

计算机视觉life

19+阅读 · 2019年4月16日

Meta-Learning 元学习：学会快速学习

Meta-Learning 元学习：学会快速学习

GAN生成式对抗网络

20+阅读 · 2018年12月8日

「目标检测算法」连连看：从 Faster R-CNN 、 R-FCN 到 FPN

「目标检测算法」连连看：从 Faster R-CNN 、 R-FCN 到 FPN

AI研习社

10+阅读 · 2018年5月12日

深度学习的快速目标跟踪

深度学习的快速目标跟踪

AI研习社

13+阅读 · 2018年1月8日

深度学习目标检测模型全面综述：Faster R-CNN、R-FCN和SSD

深度学习目标检测模型全面综述：Faster R-CNN、R-FCN和SSD

深度学习世界

10+阅读 · 2017年9月18日

从浅层模型到深度模型：概览机器学习优化算法

从浅层模型到深度模型：概览机器学习优化算法

机器之心

27+阅读 · 2017年7月9日

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

43+阅读 · 2015年12月31日

基于重要性采样的并行离策略强化学习方法研究

国家自然科学基金

24+阅读 · 2015年12月31日

量子算法加速性差异研究及其应用

国家自然科学基金

0+阅读 · 2015年12月31日

基于微型批量采样的分布式多智能个体网络协同优化算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

小快拍数下宽带信号超分辨测向性能的多元优化方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

快速射线追踪模型处理技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

图像复原中非凸稀疏优化问题的快速算法

国家自然科学基金

0+阅读 · 2015年12月31日

面向异分布数据的主动学习方法

国家自然科学基金

12+阅读 · 2015年12月31日

高阶图像去噪模型的快速数值算法研究

国家自然科学基金

1+阅读 · 2015年12月31日

移动终端视频目标快速识别技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

Accelerating RL Post-Training Rollouts via System-Integrated Speculative Decoding

Arxiv

0+阅读 · 4月29日

FastGrasp: Learning-based Whole-body Control method for Fast Dexterous Grasping with Mobile Manipulators

Arxiv

0+阅读 · 4月14日

RLBoost: Harvesting Preemptible Resources for Cost-Efficient Reinforcement Learning on LLMs

Arxiv

0+阅读 · 4月8日

Seer: Online Context Learning for Fast Synchronous LLM Reinforcement Learning

Arxiv

0+阅读 · 4月3日

FastCache: Fast Caching for Diffusion Transformer Through Learnable Linear Approximation

Arxiv

0+阅读 · 3月27日

SortedRL: Accelerating RL Training for LLMs through Online Length-Aware Scheduling

Arxiv

0+阅读 · 3月24日

Off-Policy Value-Based Reinforcement Learning for Large Language Models

Arxiv

0+阅读 · 3月24日

Unified Policy Value Decomposition for Rapid Adaptation

Arxiv

0+阅读 · 3月18日

Slow-Fast Policy Optimization: Reposition-Before-Update for LLM Reasoning

Arxiv

0+阅读 · 3月17日

Squint: Fast Visual Reinforcement Learning for Sim-to-Real Robotics

Arxiv

0+阅读 · 2月24日

VIP会员

文章信息

相关主题

最新内容

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

专知会员服务

1+阅读 · 6月22日

综述 | 3D场景图：开放挑战与未来方向

综述 | 3D场景图：开放挑战与未来方向

专知会员服务

1+阅读 · 6月22日

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

专知会员服务

2+阅读 · 6月22日

21世纪的无人机战争

21世纪的无人机战争

专知会员服务

2+阅读 · 6月22日

《伊朗与以色列-美国热战及其对数字技术的影响》

《伊朗与以色列-美国热战及其对数字技术的影响》

专知会员服务

2+阅读 · 6月22日

《量子技术的军事任务技术适配与利用》

《量子技术的军事任务技术适配与利用》

专知会员服务

3+阅读 · 6月22日

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

专知会员服务

2+阅读 · 6月22日

美国从乌克兰无人机战争中学习经验

美国从乌克兰无人机战争中学习经验

专知会员服务

7+阅读 · 6月21日

ICML 2026 | 面向视觉语言模型的语义鲁棒性认证

ICML 2026 | 面向视觉语言模型的语义鲁棒性认证

专知会员服务

5+阅读 · 6月21日

综述 | 智能体电子设计自动化：从“交接有效性”重新理解Agentic EDA

综述 | 智能体电子设计自动化：从“交接有效性”重新理解Agentic EDA

专知会员服务

8+阅读 · 6月21日

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

专知会员服务

20+阅读 · 6月20日

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

专知会员服务

5+阅读 · 6月19日

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

专知会员服务

8+阅读 · 6月19日

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

专知会员服务

7+阅读 · 6月18日

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

专知会员服务

9+阅读 · 6月18日

相关VIP内容

【斯坦福博士论文】基于自适应采样的加速机器学习算法，113页pdf

【斯坦福博士论文】基于自适应采样的加速机器学习算法，113页pdf

专知会员服务

27+阅读 · 2023年6月25日

用Transformer学习通用超参数优化器，DeepMind Yutian Chen博士讲授，附Slides与视频

用Transformer学习通用超参数优化器，DeepMind Yutian Chen博士讲授，附Slides与视频

专知会员服务

40+阅读 · 2023年3月12日

Transformer如何训得更快更好？莫纳什大学最新《Transformer高效训练》综述，详述训练Transformer技术

Transformer如何训得更快更好？莫纳什大学最新《Transformer高效训练》综述，详述训练Transformer技术

专知会员服务

61+阅读 · 2023年2月4日

李宏毅老师讲解！《AlphaTensor: 用强化学习找出更有效率的矩阵相乘，附Slides与视频

李宏毅老师讲解！《AlphaTensor: 用强化学习找出更有效率的矩阵相乘，附Slides与视频

专知会员服务

42+阅读 · 2022年10月15日

【Facebook AI】fastText是一个用于高效学习单词表示和句子分类的库

【Facebook AI】fastText是一个用于高效学习单词表示和句子分类的库

专知会员服务

22+阅读 · 2022年3月25日

新加坡国立大学最新「大规模深度学习优化」综述论文，带你全面了解最新深度学习准确率和效率的优化方法

新加坡国立大学最新「大规模深度学习优化」综述论文，带你全面了解最新深度学习准确率和效率的优化方法

专知会员服务

54+阅读 · 2021年11月19日

【Google-普林斯顿】从学习速率中解开自适应梯度法，Disentangling Adaptive Gradient

专知会员服务

19+阅读 · 2020年3月5日

【AAAI2020论文-腾讯】通过稠密边界发生器快速学习时间动作方案（Fast Learning of Temporal Action Proposal via Dense Boundary Generator）

【AAAI2020论文-腾讯】通过稠密边界发生器快速学习时间动作方案（Fast Learning of Temporal Action Proposal via Dense Boundary Generator）

专知会员服务

12+阅读 · 2019年11月15日

【CCF优秀博士学位论文奖-2019】表示学习的高效算法，清华大学陈健飞

【CCF优秀博士学位论文奖-2019】表示学习的高效算法，清华大学陈健飞

专知会员服务

48+阅读 · 2019年11月8日

【ICML2019 Tutorials】元学习：从小样本学习到快速强化学习(Meta-Learning: from Few-Shot Learning to Rapid Reinforcement Learning)，Google Brain的研究科学家| Chelsea Finn，加州大学伯克利分校| Sergey Levine

【ICML2019 Tutorials】元学习：从小样本学习到快速强化学习(Meta-Learning: from Few-Shot Learning to Rapid Reinforcement Learning)，Google Brain的研究科学家| Chelsea Finn，加州大学伯克利分校| Sergey Levine

专知会员服务

55+阅读 · 2019年6月10日

热门VIP内容

开通专知VIP会员享更多权益服务

综述 | 3D场景图：开放挑战与未来方向

21世纪的无人机战争

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

相关资讯

【优博微展2019】李志泽：简单快速的机器学习优化方法

【优博微展2019】李志泽：简单快速的机器学习优化方法

清华大学研究生教育

15+阅读 · 2019年10月8日

初学者系列：基于Keras的Faster-RCNN的代码学习

初学者系列：基于Keras的Faster-RCNN的代码学习

专知

17+阅读 · 2019年8月9日

DeepMind综述深度强化学习中的快与慢，智能体应该像人一样学习

DeepMind综述深度强化学习中的快与慢，智能体应该像人一样学习

机器之心

20+阅读 · 2019年5月3日

最新最权威《深度学习显著目标检测综述》论文代码数据发布，带你全面了解显著目标检测方法

最新最权威《深度学习显著目标检测综述》论文代码数据发布，带你全面了解显著目标检测方法

专知

79+阅读 · 2019年4月24日

实战 | 源码入门之Faster RCNN

实战 | 源码入门之Faster RCNN

计算机视觉life

19+阅读 · 2019年4月16日

Meta-Learning 元学习：学会快速学习

Meta-Learning 元学习：学会快速学习

GAN生成式对抗网络

20+阅读 · 2018年12月8日

「目标检测算法」连连看：从 Faster R-CNN 、 R-FCN 到 FPN

「目标检测算法」连连看：从 Faster R-CNN 、 R-FCN 到 FPN

AI研习社

10+阅读 · 2018年5月12日

深度学习的快速目标跟踪

深度学习的快速目标跟踪

AI研习社

13+阅读 · 2018年1月8日

深度学习目标检测模型全面综述：Faster R-CNN、R-FCN和SSD

深度学习目标检测模型全面综述：Faster R-CNN、R-FCN和SSD

深度学习世界

10+阅读 · 2017年9月18日

从浅层模型到深度模型：概览机器学习优化算法

从浅层模型到深度模型：概览机器学习优化算法

机器之心

27+阅读 · 2017年7月9日

相关论文

Accelerating RL Post-Training Rollouts via System-Integrated Speculative Decoding

Arxiv

0+阅读 · 4月29日

FastGrasp: Learning-based Whole-body Control method for Fast Dexterous Grasping with Mobile Manipulators

Arxiv

0+阅读 · 4月14日

RLBoost: Harvesting Preemptible Resources for Cost-Efficient Reinforcement Learning on LLMs

Arxiv

0+阅读 · 4月8日

Seer: Online Context Learning for Fast Synchronous LLM Reinforcement Learning

Arxiv

0+阅读 · 4月3日

FastCache: Fast Caching for Diffusion Transformer Through Learnable Linear Approximation

Arxiv

0+阅读 · 3月27日

SortedRL: Accelerating RL Training for LLMs through Online Length-Aware Scheduling

Arxiv

0+阅读 · 3月24日

Off-Policy Value-Based Reinforcement Learning for Large Language Models

Arxiv

0+阅读 · 3月24日

Unified Policy Value Decomposition for Rapid Adaptation

Arxiv

0+阅读 · 3月18日

Slow-Fast Policy Optimization: Reposition-Before-Update for LLM Reasoning

Arxiv

0+阅读 · 3月17日

Squint: Fast Visual Reinforcement Learning for Sim-to-Real Robotics

Arxiv

0+阅读 · 2月24日

相关基金

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

43+阅读 · 2015年12月31日

基于重要性采样的并行离策略强化学习方法研究

国家自然科学基金

24+阅读 · 2015年12月31日

量子算法加速性差异研究及其应用

国家自然科学基金

0+阅读 · 2015年12月31日

基于微型批量采样的分布式多智能个体网络协同优化算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

小快拍数下宽带信号超分辨测向性能的多元优化方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

快速射线追踪模型处理技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

图像复原中非凸稀疏优化问题的快速算法

国家自然科学基金

0+阅读 · 2015年12月31日

面向异分布数据的主动学习方法

国家自然科学基金

12+阅读 · 2015年12月31日

高阶图像去噪模型的快速数值算法研究

国家自然科学基金

1+阅读 · 2015年12月31日

移动终端视频目标快速识别技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员