PRISM: Parallel Reward Integration with Symmetry for MORL - 专知论文

会员服务 ·

0

并行 · 集成 · 多目标 · 多目标强化学习 · 稀疏 ·

PRISM: Parallel Reward Integration with Symmetry for MORL

翻译：PRISM：基于对称性的并行奖励集成用于多目标强化学习

Finn van der Knaap,Kejiang Qian,Zheng Xu,Fengxiang He

This work studies heterogeneous Multi-Objective Reinforcement Learning (MORL), where objectives can differ sharply in temporal frequency. Such heterogeneity allows dense objectives to dominate learning, while sparse long-horizon rewards receive weak credit assignment, leading to poor sample efficiency. We propose a Parallel Reward Integration with Symmetry (PRISM) algorithm that enforces reflectional symmetry as an inductive bias in aligning reward channels. PRISM introduces ReSymNet, a theory-motivated model that reconciles temporal-frequency mismatches across objectives, using residual blocks to learn a scaled opportunity value that accelerates exploration while preserving the optimal policy. We also propose SymReg, a reflectional equivariance regulariser that enforces agent mirroring and constrains policy search to a reflection-equivariant subspace. This restriction provably reduces hypothesis complexity and improves generalisation. Across MuJoCo benchmarks, PRISM consistently outperforms both a sparse-reward baseline and an oracle trained with full dense rewards, improving Pareto coverage and distributional balance: it achieves hypervolume gains exceeding 100\% over the baseline and up to 32\% over the oracle. The code is at \href{https://github.com/EVIEHub/PRISM}{https://github.com/EVIEHub/PRISM}.

翻译：本文研究异构多目标强化学习（MORL），其中各目标在时间频率上可能存在显著差异。这种异质性导致密集目标主导学习过程，而稀疏的长时程奖励则获得较弱的信用分配，从而造成样本效率低下。我们提出一种基于对称性的并行奖励集成（PRISM）算法，该算法通过强制反射对称性作为归纳偏置来对齐奖励通道。PRISM引入了理论驱动的ReSymNet模型，该模型利用残差块学习缩放机会价值，以协调目标间的时间频率失配，在加速探索的同时保持最优策略。我们还提出SymReg——一种反射等变正则化器，通过强制智能体镜像行为将策略搜索约束在反射等变子空间内。理论证明该限制可降低假设复杂度并提升泛化能力。在MuJoCo基准测试中，PRISM持续优于稀疏奖励基线模型及使用全密集奖励训练的预言机模型，显著提升了帕累托覆盖度与分布平衡性：其超体积指标较基线提升超过100%，较预言机最高提升32%。代码发布于 \href{https://github.com/EVIEHub/PRISM}{https://github.com/EVIEHub/PRISM}。

0

相关内容

【博士论文】多目标奖励与偏好优化：理论与算法

【博士论文】多目标奖励与偏好优化：理论与算法

专知会员服务

32+阅读 · 2025年12月12日

【普林斯顿博士论文】迈向原则化的强化学习

【普林斯顿博士论文】迈向原则化的强化学习

专知会员服务

23+阅读 · 2025年7月2日

深度强化学习中的奖励模型：综述

深度强化学习中的奖励模型：综述

专知会员服务

29+阅读 · 2025年6月20日

【博士论文】强化学习智能体的奖励函数设计

【博士论文】强化学习智能体的奖励函数设计

专知会员服务

48+阅读 · 2025年4月8日

【ICML2023】基于能量模型的奖励条件强化学习的贝叶斯重参数化

【ICML2023】基于能量模型的奖励条件强化学习的贝叶斯重参数化

专知会员服务

24+阅读 · 2023年5月23日

清华等最新《因果强化学习》综述，29页pdf详述因果强化学习方法与评价

清华等最新《因果强化学习》综述，29页pdf详述因果强化学习方法与评价

专知会员服务

102+阅读 · 2023年2月13日

基于模型的强化学习综述

基于模型的强化学习综述

专知会员服务

149+阅读 · 2022年7月13日

【ICML2022】稀疏奖励目标条件强化学习的阶段性自模仿约减

【ICML2022】稀疏奖励目标条件强化学习的阶段性自模仿约减

专知会员服务

19+阅读 · 2022年6月28日

【ICML2020-伯克利】稳定非策略强化学习的表示，Representations for Stable Off-Policy Reinforcement Learning

【ICML2020-伯克利】稳定非策略强化学习的表示，Representations for Stable Off-Policy Reinforcement Learning

专知会员服务

17+阅读 · 2020年7月14日

【目标跟踪 | 2019最新综述】多目标追踪综述，附38页PDF，185篇参考文献，Deep Learning in Video Multi-Object Tracking: A Survey

【目标跟踪 | 2019最新综述】多目标追踪综述，附38页PDF，185篇参考文献，Deep Learning in Video Multi-Object Tracking: A Survey

专知会员服务

93+阅读 · 2019年11月15日

多模态怎么用自监督？爱丁堡等最新《自监督多模态学习》综述，详述目标函数、数据对齐和模型架构

多模态怎么用自监督？爱丁堡等最新《自监督多模态学习》综述，详述目标函数、数据对齐和模型架构

专知

10+阅读 · 2023年4月6日

强化学习如何可解释？浙大最新《可解释强化学习》综述，37页pdf1阐述XRL概念、算法、挑战

强化学习如何可解释？浙大最新《可解释强化学习》综述，37页pdf1阐述XRL概念、算法、挑战

专知

10+阅读 · 2022年11月17日

基于模型的强化学习综述

基于模型的强化学习综述

专知

42+阅读 · 2022年7月13日

强化学习《奖励函数设计: Reward Shaping》详细解读

强化学习《奖励函数设计: Reward Shaping》详细解读

深度强化学习实验室

20+阅读 · 2020年9月1日

Google at KDD 2020，提出MoSE框架显式建模用户行为序列提升多任务学习效果

Google at KDD 2020，提出MoSE框架显式建模用户行为序列提升多任务学习效果

AINLP

11+阅读 · 2020年7月7日

【万字长文总结】如何解决"稀疏奖励(Sparse Reward)"下的强化学习问题？

【万字长文总结】如何解决"稀疏奖励(Sparse Reward)"下的强化学习问题？

深度强化学习实验室

43+阅读 · 2020年7月6日

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

专知

21+阅读 · 2019年11月14日

【综述】深度学习在视频多目标跟踪上的应用

【综述】深度学习在视频多目标跟踪上的应用

专知

14+阅读 · 2019年8月8日

【论文推荐】最新六篇强化学习相关论文—Sublinear、机器阅读理解、加速强化学习、对抗性奖励学习、人机交互

【论文推荐】最新六篇强化学习相关论文—Sublinear、机器阅读理解、加速强化学习、对抗性奖励学习、人机交互

专知

17+阅读 · 2018年4月28日

【强化学习】强化学习/增强学习/再励学习介绍

【强化学习】强化学习/增强学习/再励学习介绍

产业智能官

10+阅读 · 2018年2月23日

基于重要性采样的并行离策略强化学习方法研究

国家自然科学基金

24+阅读 · 2015年12月31日

通信约束下间歇量测的多自主体系统趋同控制研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于秩一张量近似的多目标跟踪

国家自然科学基金

0+阅读 · 2015年12月31日

排序与半监督学习的误差分析

国家自然科学基金

0+阅读 · 2015年12月31日

基于多样化查询的多标记主动学习研究

国家自然科学基金

0+阅读 · 2015年12月31日

随机环境下多个体系统集体行为分析、调控与优化

国家自然科学基金

0+阅读 · 2015年12月31日

基于结构化方法的复杂研发项目多领域集成分析与优化研究

国家自然科学基金

2+阅读 · 2014年12月31日

不确定环境下强化学习和决策的神经机制

国家自然科学基金

11+阅读 · 2012年12月31日

基于多智能体强化学习的多机器人系统研究

国家自然科学基金

50+阅读 · 2009年12月31日

基于支持向量机的复杂连续系统强化学习控制研究

国家自然科学基金

12+阅读 · 2008年12月31日

GRPO is Secretly a Process Reward Model

Arxiv

0+阅读 · 2月20日

MoRL: Reinforced Reasoning for Unified Motion Understanding and Generation

Arxiv

0+阅读 · 2月16日

Enabling Option Learning in Sparse Rewards with Hindsight Experience Replay

Arxiv

0+阅读 · 2月14日

Dual-Granularity Contrastive Reward via Generated Episodic Guidance for Efficient Embodied RL

Arxiv

0+阅读 · 2月13日

FaithRL: Learning to Reason Faithfully through Step-Level Faithfulness Maximization

Arxiv

0+阅读 · 2月12日

PRISM: Parallel Residual Iterative Sequence Model

Arxiv

0+阅读 · 2月11日

rePIRL: Learn PRM with Inverse RL for LLM Reasoning

Arxiv

0+阅读 · 2月8日

Preference Conditioned Multi-Objective Reinforcement Learning: Decomposed, Diversity-Driven Policy Optimization

Arxiv

0+阅读 · 2月8日

Prism: Spectral Parameter Sharing for Multi-Agent Reinforcement Learning

Arxiv

0+阅读 · 2月6日

PRISM: Performer RS-IMLE for Single-pass Multisensory Imitation Learning

Arxiv

0+阅读 · 2月2日

VIP会员

文章信息

相关主题

多目标强化学习

最新内容

DARPA拟打造十万规模自主思考作战的AI智能体集群：“受控涌现式分布式人工智能”（DICE）项目

DARPA拟打造十万规模自主思考作战的AI智能体集群：“受控涌现式分布式人工智能”（DICE）项目

专知会员服务

2+阅读 · 7月17日

《边缘端实时无线感知赋能现场多机器人部署》200页

《边缘端实时无线感知赋能现场多机器人部署》200页

专知会员服务

3+阅读 · 7月17日

战力倍增器：自主武器系统与乌克兰及加沙冲突

战力倍增器：自主武器系统与乌克兰及加沙冲突

专知会员服务

2+阅读 · 7月17日

人工智能赋能战场情报：提速决策进程

人工智能赋能战场情报：提速决策进程

专知会员服务

1+阅读 · 7月17日

《拥抱新兴技术：面向未来军官的教育革新》

《拥抱新兴技术：面向未来军官的教育革新》

专知会员服务

4+阅读 · 7月17日

ACM MM 2026 | MAR-GRPO：稳定混合图像生成的强化学习训练

ACM MM 2026 | MAR-GRPO：稳定混合图像生成的强化学习训练

专知会员服务

1+阅读 · 7月17日

综述 | 大模型水印理论与部署：来源追踪、攻击鲁棒与可信治理

综述 | 大模型水印理论与部署：来源追踪、攻击鲁棒与可信治理

专知会员服务

1+阅读 · 7月17日

《火线上的后勤保障：对抗环境下的随机规划模型研究——俄乌场景案例分析》99页

《火线上的后勤保障：对抗环境下的随机规划模型研究——俄乌场景案例分析》99页

专知会员服务

11+阅读 · 7月16日

《无人地面战车（UGV）的崛起》报告

《无人地面战车（UGV）的崛起》报告

专知会员服务

7+阅读 · 7月16日

《无人机参数化与集群飞行创新项目的监控流程管理：模型、策略及自适应解决方案》

《无人机参数化与集群飞行创新项目的监控流程管理：模型、策略及自适应解决方案》

专知会员服务

6+阅读 · 7月16日

《美军开放式任务系统（OMS）定义与文档（D&D）——Java关键抽象层（CAL）接口生成规范》47页标准

《美军开放式任务系统（OMS）定义与文档（D&D）——Java关键抽象层（CAL）接口生成规范》47页标准

专知会员服务

12+阅读 · 7月16日

美陆军任务式指挥人工智能解决方案

美陆军任务式指挥人工智能解决方案

专知会员服务

11+阅读 · 7月16日

ICML 2026 | 理论级自动形式化：从孤立命题到统一形式化知识库

ICML 2026 | 理论级自动形式化：从孤立命题到统一形式化知识库

专知会员服务

9+阅读 · 7月16日

综述 | 现代智能体自我改进，从模型更新到脚手架演化

综述 | 现代智能体自我改进，从模型更新到脚手架演化

专知会员服务

15+阅读 · 7月16日

美国陆军宣布“项目融合-顶点6”：现代化进程的关键里程碑

美国陆军宣布“项目融合-顶点6”：现代化进程的关键里程碑

专知会员服务

13+阅读 · 7月15日

相关VIP内容

【博士论文】多目标奖励与偏好优化：理论与算法

【博士论文】多目标奖励与偏好优化：理论与算法

专知会员服务

32+阅读 · 2025年12月12日

【普林斯顿博士论文】迈向原则化的强化学习

【普林斯顿博士论文】迈向原则化的强化学习

专知会员服务

23+阅读 · 2025年7月2日

深度强化学习中的奖励模型：综述

深度强化学习中的奖励模型：综述

专知会员服务

29+阅读 · 2025年6月20日

【博士论文】强化学习智能体的奖励函数设计

【博士论文】强化学习智能体的奖励函数设计

专知会员服务

48+阅读 · 2025年4月8日

【ICML2023】基于能量模型的奖励条件强化学习的贝叶斯重参数化

【ICML2023】基于能量模型的奖励条件强化学习的贝叶斯重参数化

专知会员服务

24+阅读 · 2023年5月23日

清华等最新《因果强化学习》综述，29页pdf详述因果强化学习方法与评价

清华等最新《因果强化学习》综述，29页pdf详述因果强化学习方法与评价

专知会员服务

102+阅读 · 2023年2月13日

基于模型的强化学习综述

基于模型的强化学习综述

专知会员服务

149+阅读 · 2022年7月13日

【ICML2022】稀疏奖励目标条件强化学习的阶段性自模仿约减

【ICML2022】稀疏奖励目标条件强化学习的阶段性自模仿约减

专知会员服务

19+阅读 · 2022年6月28日

【ICML2020-伯克利】稳定非策略强化学习的表示，Representations for Stable Off-Policy Reinforcement Learning

【ICML2020-伯克利】稳定非策略强化学习的表示，Representations for Stable Off-Policy Reinforcement Learning

专知会员服务

17+阅读 · 2020年7月14日

【目标跟踪 | 2019最新综述】多目标追踪综述，附38页PDF，185篇参考文献，Deep Learning in Video Multi-Object Tracking: A Survey

【目标跟踪 | 2019最新综述】多目标追踪综述，附38页PDF，185篇参考文献，Deep Learning in Video Multi-Object Tracking: A Survey

专知会员服务

93+阅读 · 2019年11月15日

热门VIP内容

开通专知VIP会员享更多权益服务

《边缘端实时无线感知赋能现场多机器人部署》200页

人工智能赋能战场情报：提速决策进程

DARPA拟打造十万规模自主思考作战的AI智能体集群：“受控涌现式分布式人工智能”（DICE）项目

战力倍增器：自主武器系统与乌克兰及加沙冲突

相关资讯

多模态怎么用自监督？爱丁堡等最新《自监督多模态学习》综述，详述目标函数、数据对齐和模型架构

多模态怎么用自监督？爱丁堡等最新《自监督多模态学习》综述，详述目标函数、数据对齐和模型架构

专知

10+阅读 · 2023年4月6日

强化学习如何可解释？浙大最新《可解释强化学习》综述，37页pdf1阐述XRL概念、算法、挑战

强化学习如何可解释？浙大最新《可解释强化学习》综述，37页pdf1阐述XRL概念、算法、挑战

专知

10+阅读 · 2022年11月17日

基于模型的强化学习综述

基于模型的强化学习综述

专知

42+阅读 · 2022年7月13日

强化学习《奖励函数设计: Reward Shaping》详细解读

强化学习《奖励函数设计: Reward Shaping》详细解读

深度强化学习实验室

20+阅读 · 2020年9月1日

Google at KDD 2020，提出MoSE框架显式建模用户行为序列提升多任务学习效果

Google at KDD 2020，提出MoSE框架显式建模用户行为序列提升多任务学习效果

AINLP

11+阅读 · 2020年7月7日

【万字长文总结】如何解决"稀疏奖励(Sparse Reward)"下的强化学习问题？

【万字长文总结】如何解决"稀疏奖励(Sparse Reward)"下的强化学习问题？

深度强化学习实验室

43+阅读 · 2020年7月6日

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

专知

21+阅读 · 2019年11月14日

【综述】深度学习在视频多目标跟踪上的应用

【综述】深度学习在视频多目标跟踪上的应用

专知

14+阅读 · 2019年8月8日

【论文推荐】最新六篇强化学习相关论文—Sublinear、机器阅读理解、加速强化学习、对抗性奖励学习、人机交互

【论文推荐】最新六篇强化学习相关论文—Sublinear、机器阅读理解、加速强化学习、对抗性奖励学习、人机交互

专知

17+阅读 · 2018年4月28日

【强化学习】强化学习/增强学习/再励学习介绍

【强化学习】强化学习/增强学习/再励学习介绍

产业智能官

10+阅读 · 2018年2月23日

相关论文

GRPO is Secretly a Process Reward Model

Arxiv

0+阅读 · 2月20日

MoRL: Reinforced Reasoning for Unified Motion Understanding and Generation

Arxiv

0+阅读 · 2月16日

Enabling Option Learning in Sparse Rewards with Hindsight Experience Replay

Arxiv

0+阅读 · 2月14日

Dual-Granularity Contrastive Reward via Generated Episodic Guidance for Efficient Embodied RL

Arxiv

0+阅读 · 2月13日

FaithRL: Learning to Reason Faithfully through Step-Level Faithfulness Maximization

Arxiv

0+阅读 · 2月12日

PRISM: Parallel Residual Iterative Sequence Model

Arxiv

0+阅读 · 2月11日

rePIRL: Learn PRM with Inverse RL for LLM Reasoning

Arxiv

0+阅读 · 2月8日

Preference Conditioned Multi-Objective Reinforcement Learning: Decomposed, Diversity-Driven Policy Optimization

Arxiv

0+阅读 · 2月8日

Prism: Spectral Parameter Sharing for Multi-Agent Reinforcement Learning

Arxiv

0+阅读 · 2月6日

PRISM: Performer RS-IMLE for Single-pass Multisensory Imitation Learning

Arxiv

0+阅读 · 2月2日

相关基金

基于重要性采样的并行离策略强化学习方法研究

国家自然科学基金

24+阅读 · 2015年12月31日

通信约束下间歇量测的多自主体系统趋同控制研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于秩一张量近似的多目标跟踪

国家自然科学基金

0+阅读 · 2015年12月31日

排序与半监督学习的误差分析

国家自然科学基金

0+阅读 · 2015年12月31日

基于多样化查询的多标记主动学习研究

国家自然科学基金

0+阅读 · 2015年12月31日

随机环境下多个体系统集体行为分析、调控与优化

国家自然科学基金

0+阅读 · 2015年12月31日

基于结构化方法的复杂研发项目多领域集成分析与优化研究

国家自然科学基金

2+阅读 · 2014年12月31日

不确定环境下强化学习和决策的神经机制

国家自然科学基金

11+阅读 · 2012年12月31日

基于多智能体强化学习的多机器人系统研究

国家自然科学基金

50+阅读 · 2009年12月31日

基于支持向量机的复杂连续系统强化学习控制研究

国家自然科学基金

12+阅读 · 2008年12月31日

微信扫码咨询专知VIP会员