Controlling high-dimensional systems in biological and robotic applications is challenging due to expansive state-action spaces, where effective exploration is critical. Commonly used exploration strategies in reinforcement learning are largely undirected with sharp degradation as action dimensionality grows. Many existing methods resort to dimensionality reduction, which constrains policy expressiveness and forfeits system flexibility. We introduce Q-guided Flow Exploration (Qflex), a scalable reinforcement learning method that conducts exploration directly in the native high-dimensional action space. During training, Qflex traverses actions from a learnable source distribution along a probability flow induced by the learned value function, aligning exploration with task-relevant gradients rather than isotropic noise. Our proposed method substantially outperforms representative online reinforcement learning baselines across diverse high-dimensional continuous-control benchmarks. Qflex also successfully controls a full-body human musculoskeletal model to perform agile, complex movements, demonstrating superior scalability and sample efficiency in very high-dimensional settings. Our results indicate that value-guided flows offer a principled and practical route to exploration at scale.


翻译:在生物和机器人应用中,由于状态-动作空间庞大,高维系统的控制具有挑战性,其中有效的探索至关重要。强化学习中常用的探索策略大多是无导向的,随着动作维度增加,其性能会急剧下降。许多现有方法采用降维技术,但这限制了策略的表达能力并牺牲了系统灵活性。我们提出了Q引导流探索(Qflex),这是一种可扩展的强化学习方法,可直接在原生高维动作空间中进行探索。在训练过程中,Qflex沿着由学习到的价值函数诱导的概率流,从可学习的源分布中遍历动作,使探索与任务相关的梯度对齐,而非各向同性噪声。我们提出的方法在多种高维连续控制基准测试中显著优于代表性的在线强化学习基线。Qflex还成功控制了一个全身人体肌肉骨骼模型,执行敏捷复杂的运动,在极高维环境中展示了卓越的可扩展性和样本效率。我们的结果表明,价值引导流为大规模探索提供了一条原则性且实用的路径。

0
下载
关闭预览

相关内容

【斯坦福博士论文】高精度操控的策略学习前沿研究
专知会员服务
22+阅读 · 2025年3月30日
面向强化学习的可解释性研究综述
专知会员服务
44+阅读 · 2024年7月30日
基于内在动机的深度强化学习探索方法综述
专知会员服务
40+阅读 · 2023年5月13日
强化学习可解释性基础问题探索和方法综述
专知会员服务
92+阅读 · 2022年1月16日
探索(Exploration)还是利用(Exploitation)?强化学习如何tradeoff?
深度强化学习实验室
13+阅读 · 2020年8月23日
强化学习的两大话题之一,仍有极大探索空间
AI科技评论
22+阅读 · 2020年8月22日
深度学习模型可解释性的研究进展
专知
26+阅读 · 2020年8月1日
清华大学《高级机器学习》课程
专知
40+阅读 · 2020年7月21日
基于逆强化学习的示教学习方法综述
计算机研究与发展
16+阅读 · 2019年2月25日
简述多种降维算法
算法与数学之美
11+阅读 · 2018年9月23日
展望:模型驱动的深度学习
人工智能学家
12+阅读 · 2018年1月23日
国家自然科学基金
42+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
13+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2013年12月31日
国家自然科学基金
23+阅读 · 2009年12月31日
国家自然科学基金
11+阅读 · 2008年12月31日
VIP会员
相关资讯
探索(Exploration)还是利用(Exploitation)?强化学习如何tradeoff?
深度强化学习实验室
13+阅读 · 2020年8月23日
强化学习的两大话题之一,仍有极大探索空间
AI科技评论
22+阅读 · 2020年8月22日
深度学习模型可解释性的研究进展
专知
26+阅读 · 2020年8月1日
清华大学《高级机器学习》课程
专知
40+阅读 · 2020年7月21日
基于逆强化学习的示教学习方法综述
计算机研究与发展
16+阅读 · 2019年2月25日
简述多种降维算法
算法与数学之美
11+阅读 · 2018年9月23日
展望:模型驱动的深度学习
人工智能学家
12+阅读 · 2018年1月23日
相关基金
国家自然科学基金
42+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
13+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2013年12月31日
国家自然科学基金
23+阅读 · 2009年12月31日
国家自然科学基金
11+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员