Although diffusion models have achieved strong results in decision-making tasks, their slow inference speed remains a key limitation. While consistency models offer a potential solution, existing applications to decision-making either struggle with suboptimal demonstrations under behavior cloning or rely on complex concurrent training of multiple networks under the actor-critic framework. In this work, we propose a novel approach to consistency distillation for offline reinforcement learning that directly incorporates reward optimization into the distillation process. Our method achieves single-step sampling while generating higher-reward action trajectories through decoupled training and noise-free reward signals. Empirical evaluations on the Gym MuJoCo, FrankaKitchen, and long horizon planning benchmarks demonstrate that our approach can achieve a 9.7% improvement over previous state-of-the-art while offering up to 142x speedup over diffusion counterparts in inference time.


翻译:尽管扩散模型在决策任务中取得了显著成果,但其缓慢的推理速度仍是关键瓶颈。一致性模型虽提供了潜在解决方案,但现有决策应用要么在行为克隆下受限于次优示范数据,要么依赖于演员-评论家框架中多个网络的复杂并行训练。本研究提出一种用于离线强化学习的一致性蒸馏新方法,将奖励优化直接融入蒸馏过程。该方法通过解耦训练和无噪声奖励信号,在实现单步采样的同时生成更高奖励的动作轨迹。在Gym MuJoCo、FrankaKitchen及长程规划基准测试中的实证评估表明,本方法在推理时间上较扩散模型实现高达142倍的加速,同时性能超越先前最优方法达9.7%。

0
下载
关闭预览

相关内容

【ICML2025】SADA:基于稳定性引导的自适应扩散加速方法
专知会员服务
7+阅读 · 2025年7月30日
【ICML2025】SADA:稳定性引导的自适应扩散加速
专知会员服务
12+阅读 · 2025年7月24日
深度学习中知识蒸馏研究综述
专知会员服务
109+阅读 · 2022年8月13日
【微信@CIKM2021 】 强化学习推荐模型的知识蒸馏探索之路
专知会员服务
16+阅读 · 2021年7月7日
基于模型的强化学习综述
专知
42+阅读 · 2022年7月13日
Distributional Soft Actor-Critic (DSAC)强化学习算法的设计与验证
深度强化学习实验室
19+阅读 · 2020年8月11日
【边缘智能】边缘计算驱动的深度学习加速技术
产业智能官
20+阅读 · 2019年2月8日
国家自然科学基金
1+阅读 · 2017年12月31日
国家自然科学基金
42+阅读 · 2015年12月31日
国家自然科学基金
23+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
55+阅读 · 2011年12月31日
Arxiv
0+阅读 · 2月11日
VIP会员
相关基金
国家自然科学基金
1+阅读 · 2017年12月31日
国家自然科学基金
42+阅读 · 2015年12月31日
国家自然科学基金
23+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
55+阅读 · 2011年12月31日
Top
微信扫码咨询专知VIP会员