MVR: Multi-view Video Reward Shaping for Reinforcement Learning - 专知论文

会员服务 ·

0

视频 · 多视角 · 奖励塑形 · 多视角视频 · 相似度 ·

MVR: Multi-view Video Reward Shaping for Reinforcement Learning

翻译：多视角视频奖励塑形强化学习

Lirui Luo,Guoxi Zhang,Hongming Xu,Yaodong Yang,Cong Fang,Qing Li

from arxiv, ICLR 2026

Reward design is of great importance for solving complex tasks with reinforcement learning. Recent studies have explored using image-text similarity produced by vision-language models (VLMs) to augment rewards of a task with visual feedback. A common practice linearly adds VLM scores to task or success rewards without explicit shaping, potentially altering the optimal policy. Moreover, such approaches, often relying on single static images, struggle with tasks whose desired behavior involves complex, dynamic motions spanning multiple visually different states. Furthermore, single viewpoints can occlude critical aspects of an agent's behavior. To address these issues, this paper presents Multi-View Video Reward Shaping (MVR), a framework that models the relevance of states regarding the target task using videos captured from multiple viewpoints. MVR leverages video-text similarity from a frozen pre-trained VLM to learn a state relevance function that mitigates the bias towards specific static poses inherent in image-based methods. Additionally, we introduce a state-dependent reward shaping formulation that integrates task-specific rewards and VLM-based guidance, automatically reducing the influence of VLM guidance once the desired motion pattern is achieved. We confirm the efficacy of the proposed framework with extensive experiments on challenging humanoid locomotion tasks from HumanoidBench and manipulation tasks from MetaWorld, verifying the design choices through ablation studies.

翻译：奖励设计对于利用强化学习解决复杂任务至关重要。近期研究探索使用视觉语言模型（VLMs）生成的图像-文本相似度，通过视觉反馈增强任务奖励。常见做法是将VLM评分线性叠加到任务或成功奖励上，缺乏显式塑形，可能改变最优策略。此外，这类通常依赖单张静态图像的方法，难以处理期望行为涉及跨越多个视觉差异状态的复杂动态运动的任务。单一视角还可能遮挡智能体行为的关键方面。为解决这些问题，本文提出多视角视频奖励塑形（MVR）框架，该框架利用多视角拍摄的视频对目标任务相关状态进行建模。MVR利用冻结预训练VLM生成的视频-文本相似度，学习状态相关性函数，从而缓解基于图像方法对特定静态姿态固有的偏好。此外，我们提出一种状态依赖的奖励塑形公式，整合任务特定奖励与基于VLM的引导，一旦达成期望运动模式即自动减弱VLM引导的影响。通过在HumanoidBench的具挑战性人形运动任务和MetaWorld的操作任务上进行大量实验，我们验证了所提框架的有效性，并通过消融研究证实了设计选择的合理性。

0

相关内容

视频

深度强化学习中的奖励模型：综述

深度强化学习中的奖励模型：综述

专知会员服务

29+阅读 · 2025年6月20日

【博士论文】强化学习智能体的奖励函数设计

【博士论文】强化学习智能体的奖励函数设计

专知会员服务

48+阅读 · 2025年4月8日

【CVPR2025】ProAPO: 逐步自动化提示优化用于视觉分类

【CVPR2025】ProAPO: 逐步自动化提示优化用于视觉分类

专知会员服务

10+阅读 · 2025年3月1日

【NeurlPS2024】一种适用于跨模态和任务的视觉-语言模型的统一去偏方法

【NeurlPS2024】一种适用于跨模态和任务的视觉-语言模型的统一去偏方法

专知会员服务

22+阅读 · 2024年10月11日

【ETHZ博士论文】基于人类反馈的安全高效强化学习算法基础， 258页pdf

【ETHZ博士论文】基于人类反馈的安全高效强化学习算法基础， 258页pdf

专知会员服务

52+阅读 · 2023年10月8日

多模态预训练到哪了？微信最新《视觉语言预训练:基础、最新进展和未来趋势》，102页阐述VLP进展

多模态预训练到哪了？微信最新《视觉语言预训练:基础、最新进展和未来趋势》，102页阐述VLP进展

专知会员服务

48+阅读 · 2022年10月18日

【AI+商业投资】法国兴业银行《深度强化学习在投资组合分配中的应用》26页PPT，Deep Reinforcement Learning for portfolio allocation

【AI+商业投资】法国兴业银行《深度强化学习在投资组合分配中的应用》26页PPT，Deep Reinforcement Learning for portfolio allocation

专知会员服务

24+阅读 · 2022年4月1日

【DeepMind】基于模型的强化学习，174页ppt，Model-Based Reinforcement Learning

【DeepMind】基于模型的强化学习，174页ppt，Model-Based Reinforcement Learning

专知会员服务

89+阅读 · 2021年1月12日

最新《模仿学习 - Imitation Learning》教程，63页ppt，微软Kamil Ciosek

最新《模仿学习 - Imitation Learning》教程，63页ppt，微软Kamil Ciosek

专知会员服务

66+阅读 · 2020年8月22日

【CVPR 2019 | tutorial】计算机视觉的深度强化学习：Deep Reinforcement Learning for Computer Vision

【CVPR 2019 | tutorial】计算机视觉的深度强化学习：Deep Reinforcement Learning for Computer Vision

专知会员服务

56+阅读 · 2019年11月28日

基于模型的强化学习综述

基于模型的强化学习综述

专知

42+阅读 · 2022年7月13日

【NeurIPS 2020 Tutorial】离线强化学习:从算法到挑战，80页ppt

【NeurIPS 2020 Tutorial】离线强化学习:从算法到挑战，80页ppt

专知

16+阅读 · 2020年12月9日

强化学习《奖励函数设计: Reward Shaping》详细解读

强化学习《奖励函数设计: Reward Shaping》详细解读

深度强化学习实验室

19+阅读 · 2020年9月1日

【万字长文总结】如何解决"稀疏奖励(Sparse Reward)"下的强化学习问题？

【万字长文总结】如何解决"稀疏奖励(Sparse Reward)"下的强化学习问题？

深度强化学习实验室

43+阅读 · 2020年7月6日

【ICML2020】多视角对比图表示学习，Contrastive Multi-View GRL

【ICML2020】多视角对比图表示学习，Contrastive Multi-View GRL

专知

37+阅读 · 2020年6月11日

【Manning2020新书】深度强化学习实战，351页pdf，Deep Reinforcement Learning

【Manning2020新书】深度强化学习实战，351页pdf，Deep Reinforcement Learning

专知

43+阅读 · 2020年3月10日

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

专知

21+阅读 · 2019年11月14日

强化学习的Unsupervised Meta-Learning

强化学习的Unsupervised Meta-Learning

CreateAMind

18+阅读 · 2019年1月7日

【强化学习】强化学习/增强学习/再励学习介绍

【强化学习】强化学习/增强学习/再励学习介绍

产业智能官

10+阅读 · 2018年2月23日

【论文推荐】最新6篇视觉问答（VQA）相关论文—目标推理、深度循环模型、可解释性、数据可视化、Triplet学习、基准

【论文推荐】最新6篇视觉问答（VQA）相关论文—目标推理、深度循环模型、可解释性、数据可视化、Triplet学习、基准

专知

15+阅读 · 2018年2月3日

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

43+阅读 · 2015年12月31日

基于图的半监督学习算法研究

国家自然科学基金

5+阅读 · 2015年12月31日

基于重要性采样的并行离策略强化学习方法研究

国家自然科学基金

24+阅读 · 2015年12月31日

基于深度学习的多尺度本质图像提取方法

国家自然科学基金

5+阅读 · 2015年12月31日

基于深度学习的复杂退化模糊图像恢复

国家自然科学基金

5+阅读 · 2015年12月31日

基于张量学习的多源异质多视角视频显著性分析

国家自然科学基金

0+阅读 · 2015年12月31日

基于记忆的不变图像特征学习方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

面向大规模多步学习问题的学习分类元系统技术研究

国家自然科学基金

5+阅读 · 2015年12月31日

强化学习关键技术及其在机器人行为学习中的应用

国家自然科学基金

23+阅读 · 2009年12月31日

基于多智能体强化学习的多机器人系统研究

国家自然科学基金

49+阅读 · 2009年12月31日

Visual-ERM: Reward Modeling for Visual Equivalence

Arxiv

0+阅读 · 3月13日

Trust Your Critic: Robust Reward Modeling and Reinforcement Learning for Faithful Image Editing and Generation

Arxiv

0+阅读 · 3月12日

Multi-modal, Multi-task, Multi-criteria Automatic Evaluation with Vision Language Models

Arxiv

0+阅读 · 3月7日

Reinforcement Learning with Symbolic Reward Machines

Arxiv

0+阅读 · 3月3日

Experiential Reinforcement Learning

Arxiv

0+阅读 · 2月15日

Dual-Granularity Contrastive Reward via Generated Episodic Guidance for Efficient Embodied RL

Arxiv

0+阅读 · 2月13日

Expanding the Capabilities of Reinforcement Learning via Text Feedback

Arxiv

0+阅读 · 2月11日

Unified Personalized Reward Model for Vision Generation

Arxiv

0+阅读 · 2月10日

Average Reward Reinforcement Learning for Omega-Regular and Mean-Payoff Objectives

Arxiv

0+阅读 · 2月7日

Reward Evolution with Graph-of-Thoughts: A Bi-Level Language Model Framework for Reinforcement Learning

Arxiv

0+阅读 · 2月2日

VIP会员

文章信息

相关主题

多视角视频

最新内容

《未来打击作战中有人-无人协同的扩展杀伤链分析》130页

《未来打击作战中有人-无人协同的扩展杀伤链分析》130页

专知会员服务

9+阅读 · 今天6:39

《人工智能在全球军事与武器工业中的应用、方法论与影响》

《人工智能在全球军事与武器工业中的应用、方法论与影响》

专知会员服务

3+阅读 · 今天6:36

《“史诗怒火”行动中美军平台的战略协同：基于开源数据的网络分析》200页报告

《“史诗怒火”行动中美军平台的战略协同：基于开源数据的网络分析》200页报告

专知会员服务

7+阅读 · 今天6:28

美国力量的新架构：Anduril、Palantir、SpaceX 与美国军工格局的转型

美国力量的新架构：Anduril、Palantir、SpaceX 与美国军工格局的转型

专知会员服务

4+阅读 · 今天0:51

机器人领域中的视觉-语言-动作模型：数据集、基准测试与数据引擎综述

机器人领域中的视觉-语言-动作模型：数据集、基准测试与数据引擎综述

专知会员服务

4+阅读 · 4月29日

主权智能前沿：战略霸权与算法战争代差的比较分析——第二部分

主权智能前沿：战略霸权与算法战争代差的比较分析——第二部分

专知会员服务

7+阅读 · 4月29日

万亿美元智能竞赛：OpenAI的主权崛起与数字神经系统的高风险博弈——第一部分

万亿美元智能竞赛：OpenAI的主权崛起与数字神经系统的高风险博弈——第一部分

专知会员服务

6+阅读 · 4月29日

《忠诚僚机、人工智能与认知增强：对赛博格-无人机战争的警示》

《忠诚僚机、人工智能与认知增强：对赛博格-无人机战争的警示》

专知会员服务

6+阅读 · 4月29日

《化繁为简：军事模拟器配置的对话式方法》报告

《化繁为简：军事模拟器配置的对话式方法》报告

专知会员服务

10+阅读 · 4月29日

《人机协同研究报告——衡量与预测技术流利性：知识、技能、能力及其他行为如何促成技术精通》146页

《人机协同研究报告——衡量与预测技术流利性：知识、技能、能力及其他行为如何促成技术精通》146页

专知会员服务

12+阅读 · 4月29日

《新兴技术武器化及其对全球风险的影响》

《新兴技术武器化及其对全球风险的影响》

专知会员服务

8+阅读 · 4月29日

《帕兰泰尔平台介绍：信息分析平台》

《帕兰泰尔平台介绍：信息分析平台》

专知会员服务

19+阅读 · 4月29日

Maven智能系统（MSS）如何赋能第三方解决方案：北约视角

Maven智能系统（MSS）如何赋能第三方解决方案：北约视角

专知会员服务

11+阅读 · 4月29日

【伯克利博士论文】深度解析 AI 智能体的失配问题

【伯克利博士论文】深度解析 AI 智能体的失配问题

专知会员服务

8+阅读 · 4月28日

智能体化世界建模：基础、能力、规律及展望

智能体化世界建模：基础、能力、规律及展望

专知会员服务

11+阅读 · 4月28日

相关VIP内容

深度强化学习中的奖励模型：综述

深度强化学习中的奖励模型：综述

专知会员服务

29+阅读 · 2025年6月20日

【博士论文】强化学习智能体的奖励函数设计

【博士论文】强化学习智能体的奖励函数设计

专知会员服务

48+阅读 · 2025年4月8日

【CVPR2025】ProAPO: 逐步自动化提示优化用于视觉分类

【CVPR2025】ProAPO: 逐步自动化提示优化用于视觉分类

专知会员服务

10+阅读 · 2025年3月1日

【NeurlPS2024】一种适用于跨模态和任务的视觉-语言模型的统一去偏方法

【NeurlPS2024】一种适用于跨模态和任务的视觉-语言模型的统一去偏方法

专知会员服务

22+阅读 · 2024年10月11日

【ETHZ博士论文】基于人类反馈的安全高效强化学习算法基础， 258页pdf

【ETHZ博士论文】基于人类反馈的安全高效强化学习算法基础， 258页pdf

专知会员服务

52+阅读 · 2023年10月8日

多模态预训练到哪了？微信最新《视觉语言预训练:基础、最新进展和未来趋势》，102页阐述VLP进展

多模态预训练到哪了？微信最新《视觉语言预训练:基础、最新进展和未来趋势》，102页阐述VLP进展

专知会员服务

48+阅读 · 2022年10月18日

【AI+商业投资】法国兴业银行《深度强化学习在投资组合分配中的应用》26页PPT，Deep Reinforcement Learning for portfolio allocation

【AI+商业投资】法国兴业银行《深度强化学习在投资组合分配中的应用》26页PPT，Deep Reinforcement Learning for portfolio allocation

专知会员服务

24+阅读 · 2022年4月1日

【DeepMind】基于模型的强化学习，174页ppt，Model-Based Reinforcement Learning

【DeepMind】基于模型的强化学习，174页ppt，Model-Based Reinforcement Learning

专知会员服务

89+阅读 · 2021年1月12日

最新《模仿学习 - Imitation Learning》教程，63页ppt，微软Kamil Ciosek

最新《模仿学习 - Imitation Learning》教程，63页ppt，微软Kamil Ciosek

专知会员服务

66+阅读 · 2020年8月22日

【CVPR 2019 | tutorial】计算机视觉的深度强化学习：Deep Reinforcement Learning for Computer Vision

【CVPR 2019 | tutorial】计算机视觉的深度强化学习：Deep Reinforcement Learning for Computer Vision

专知会员服务

56+阅读 · 2019年11月28日

热门VIP内容

开通专知VIP会员享更多权益服务

《人工智能在全球军事与武器工业中的应用、方法论与影响》

美国力量的新架构：Anduril、Palantir、SpaceX 与美国军工格局的转型

《未来打击作战中有人-无人协同的扩展杀伤链分析》130页

《“史诗怒火”行动中美军平台的战略协同：基于开源数据的网络分析》200页报告

相关资讯

基于模型的强化学习综述

基于模型的强化学习综述

专知

42+阅读 · 2022年7月13日

【NeurIPS 2020 Tutorial】离线强化学习:从算法到挑战，80页ppt

【NeurIPS 2020 Tutorial】离线强化学习:从算法到挑战，80页ppt

专知

16+阅读 · 2020年12月9日

强化学习《奖励函数设计: Reward Shaping》详细解读

强化学习《奖励函数设计: Reward Shaping》详细解读

深度强化学习实验室

19+阅读 · 2020年9月1日

【万字长文总结】如何解决"稀疏奖励(Sparse Reward)"下的强化学习问题？

【万字长文总结】如何解决"稀疏奖励(Sparse Reward)"下的强化学习问题？

深度强化学习实验室

43+阅读 · 2020年7月6日

【ICML2020】多视角对比图表示学习，Contrastive Multi-View GRL

【ICML2020】多视角对比图表示学习，Contrastive Multi-View GRL

专知

37+阅读 · 2020年6月11日

【Manning2020新书】深度强化学习实战，351页pdf，Deep Reinforcement Learning

【Manning2020新书】深度强化学习实战，351页pdf，Deep Reinforcement Learning

专知

43+阅读 · 2020年3月10日

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

专知

21+阅读 · 2019年11月14日

强化学习的Unsupervised Meta-Learning

强化学习的Unsupervised Meta-Learning

CreateAMind

18+阅读 · 2019年1月7日

【强化学习】强化学习/增强学习/再励学习介绍

【强化学习】强化学习/增强学习/再励学习介绍

产业智能官

10+阅读 · 2018年2月23日

【论文推荐】最新6篇视觉问答（VQA）相关论文—目标推理、深度循环模型、可解释性、数据可视化、Triplet学习、基准

【论文推荐】最新6篇视觉问答（VQA）相关论文—目标推理、深度循环模型、可解释性、数据可视化、Triplet学习、基准

专知

15+阅读 · 2018年2月3日

相关论文

Visual-ERM: Reward Modeling for Visual Equivalence

Arxiv

0+阅读 · 3月13日

Trust Your Critic: Robust Reward Modeling and Reinforcement Learning for Faithful Image Editing and Generation

Arxiv

0+阅读 · 3月12日

Multi-modal, Multi-task, Multi-criteria Automatic Evaluation with Vision Language Models

Arxiv

0+阅读 · 3月7日

Reinforcement Learning with Symbolic Reward Machines

Arxiv

0+阅读 · 3月3日

Experiential Reinforcement Learning

Arxiv

0+阅读 · 2月15日

Dual-Granularity Contrastive Reward via Generated Episodic Guidance for Efficient Embodied RL

Arxiv

0+阅读 · 2月13日

Expanding the Capabilities of Reinforcement Learning via Text Feedback

Arxiv

0+阅读 · 2月11日

Unified Personalized Reward Model for Vision Generation

Arxiv

0+阅读 · 2月10日

Average Reward Reinforcement Learning for Omega-Regular and Mean-Payoff Objectives

Arxiv

0+阅读 · 2月7日

Reward Evolution with Graph-of-Thoughts: A Bi-Level Language Model Framework for Reinforcement Learning

Arxiv

0+阅读 · 2月2日

相关基金

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

43+阅读 · 2015年12月31日

基于图的半监督学习算法研究

国家自然科学基金

5+阅读 · 2015年12月31日

基于重要性采样的并行离策略强化学习方法研究

国家自然科学基金

24+阅读 · 2015年12月31日

基于深度学习的多尺度本质图像提取方法

国家自然科学基金

5+阅读 · 2015年12月31日

基于深度学习的复杂退化模糊图像恢复

国家自然科学基金

5+阅读 · 2015年12月31日

基于张量学习的多源异质多视角视频显著性分析

国家自然科学基金

0+阅读 · 2015年12月31日

基于记忆的不变图像特征学习方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

面向大规模多步学习问题的学习分类元系统技术研究

国家自然科学基金

5+阅读 · 2015年12月31日

强化学习关键技术及其在机器人行为学习中的应用

国家自然科学基金

23+阅读 · 2009年12月31日

基于多智能体强化学习的多机器人系统研究

国家自然科学基金

49+阅读 · 2009年12月31日

微信扫码咨询专知VIP会员