GrndCtrl：通过自监督奖励对齐实现世界模型的几何基础化 (GrndCtrl: Grounding World Models via Self-Supervised Reward Alignment) - 专知论文

会员服务 ·

0

一致 · 对齐 · 监督 · 世界模型 · 结构 ·

GrndCtrl: Grounding World Models via Self-Supervised Reward Alignment

翻译：GrndCtrl：通过自监督奖励对齐实现世界模型的几何基础化

Haoyang He,Jay Patrikar,Dong-Ki Kim,Max Smith,Daniel McGann,Ali-akbar Agha-mohammadi,Shayegan Omidshafiei,Sebastian Scherer

Recent advances in video world modeling have enabled large-scale generative models to simulate embodied environments with high visual fidelity, providing strong priors for prediction, planning, and control. Yet, despite their realism, these models often lack geometric grounding, limiting their use in navigation tasks that require spatial coherence and stability. We introduce Reinforcement Learning with World Grounding (RLWG), a self-supervised post-training framework that aligns pretrained world models with a physically verifiable structure through geometric and perceptual rewards. Analogous to reinforcement learning from verifiable feedback (RLVR) in language models, RLWG can use multiple rewards that measure pose cycle-consistency, depth reprojection, and temporal coherence. We instantiate this framework with GrndCtrl, a reward-aligned adaptation method based on Group Relative Policy Optimization (GRPO), yielding world models that maintain stable trajectories, consistent geometry, and reliable rollouts for embodied navigation. Like post-training alignment in large language models, GrndCtrl leverages verifiable rewards to bridge generative pretraining and grounded behavior, achieving superior spatial coherence and navigation stability over supervised fine-tuning in outdoor environments.

翻译：视频世界建模的最新进展使得大规模生成模型能够以高视觉保真度模拟具身环境，为预测、规划和控制提供了强大的先验。然而，尽管这些模型具有真实感，但它们往往缺乏几何基础，限制了其在需要空间一致性和稳定性的导航任务中的应用。我们引入了基于世界几何基础的强化学习（RLWG），这是一种自监督的后训练框架，通过几何和感知奖励将预训练的世界模型与物理可验证的结构对齐。类似于语言模型中基于可验证反馈的强化学习（RLVR），RLWG可以利用多种奖励来衡量姿态循环一致性、深度重投影和时间一致性。我们通过GrndCtrl实例化了这一框架，这是一种基于组相对策略优化（GRPO）的奖励对齐适应方法，由此产生的世界模型能够为具身导航保持稳定的轨迹、一致的几何结构和可靠的推演。与大型语言模型中的后训练对齐类似，GrndCtrl利用可验证的奖励来桥接生成式预训练与基础化行为，在户外环境中实现了优于监督微调的空间一致性和导航稳定性。

0

相关内容

【博士论文】弥合多模态基础模型与世界模型之间的鸿沟

【博士论文】弥合多模态基础模型与世界模型之间的鸿沟

专知会员服务

29+阅读 · 2025年10月9日

三维与四维世界建模综述

三维与四维世界建模综述

专知会员服务

29+阅读 · 2025年9月12日

【MIT博士论文】通过神经物理构建世界模型

【MIT博士论文】通过神经物理构建世界模型

专知会员服务

34+阅读 · 2025年4月3日

【伯克利博士论文】通过视频生成学习关于世界的知识

【伯克利博士论文】通过视频生成学习关于世界的知识

专知会员服务

29+阅读 · 2024年12月19日

【哥伦比亚大学博士论文】面向计算机视觉中实际约束条件的模型适应通用框架，140页pdf

【哥伦比亚大学博士论文】面向计算机视觉中实际约束条件的模型适应通用框架，140页pdf

专知会员服务

25+阅读 · 2024年2月8日

多模态怎么用自监督？爱丁堡等最新《自监督多模态学习》综述，详述目标函数、数据对齐和模型架构

多模态怎么用自监督？爱丁堡等最新《自监督多模态学习》综述，详述目标函数、数据对齐和模型架构

专知会员服务

84+阅读 · 2023年4月6日

大模型如何决策？Google伯克利MIT等最新《基础模型决策:问题、方法和机会》论文，详述序列决策与大语言模型的技术交叉

大模型如何决策？Google伯克利MIT等最新《基础模型决策:问题、方法和机会》论文，详述序列决策与大语言模型的技术交叉

专知会员服务

98+阅读 · 2023年3月10日

Jakub Tomczak- 《深度生成建模》讲座报告与视频，84页ppt，Deep Generative Modeling is a key to unlocking AI potential

Jakub Tomczak- 《深度生成建模》讲座报告与视频，84页ppt，Deep Generative Modeling is a key to unlocking AI potential

专知会员服务

61+阅读 · 2022年3月11日

【MIT】自监督几何感知，22页ppt，Self-supervised Geometric Perception

【MIT】自监督几何感知，22页ppt，Self-supervised Geometric Perception

专知会员服务

23+阅读 · 2021年6月3日

【DeepMind】PolyGen: 一种三维网格的自回归生成模型，PolyGen: An Autoregressive Generative Model of 3D Meshes

【DeepMind】PolyGen: 一种三维网格的自回归生成模型，PolyGen: An Autoregressive Generative Model of 3D Meshes

专知会员服务

37+阅读 · 2020年2月27日

多模态怎么用自监督？爱丁堡等最新《自监督多模态学习》综述，详述目标函数、数据对齐和模型架构

多模态怎么用自监督？爱丁堡等最新《自监督多模态学习》综述，详述目标函数、数据对齐和模型架构

专知

10+阅读 · 2023年4月6日

【MIT博士论文】深度学习几何表示，138页pdf

【MIT博士论文】深度学习几何表示，138页pdf

专知

18+阅读 · 2022年9月4日

最新《深度生成式模型进展》视频报告，43页ppt，斯坦福Aditya Grover

最新《深度生成式模型进展》视频报告，43页ppt，斯坦福Aditya Grover

专知

13+阅读 · 2020年8月9日

Transformers就是图神经网络？NTU-Chaitanya Joshi论述: 是GNN的一个特例

Transformers就是图神经网络？NTU-Chaitanya Joshi论述: 是GNN的一个特例

专知

20+阅读 · 2020年3月1日

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

专知

21+阅读 · 2019年11月14日

DeepMind爆出无监督表示学习模型BigBiGAN，GAN之父点赞！

DeepMind爆出无监督表示学习模型BigBiGAN，GAN之父点赞！

新智元

13+阅读 · 2019年7月9日

最新《深度神经网络自监督视觉特征学习综述》论文（附24页全文下载）

最新《深度神经网络自监督视觉特征学习综述》论文（附24页全文下载）

专知

36+阅读 · 2019年2月20日

pytorch-pretrained-BERT：BERT PyTorch实现，可加载Google BERT预训练模型

pytorch-pretrained-BERT：BERT PyTorch实现，可加载Google BERT预训练模型

AINLP

35+阅读 · 2018年11月6日

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

新智元

12+阅读 · 2018年7月13日

深度强化学习首次在无监督视频摘要生成问题中的应用：实现state-of-the-art效果

深度强化学习首次在无监督视频摘要生成问题中的应用：实现state-of-the-art效果

专知

26+阅读 · 2018年1月21日

GNSS仿真模型服务化共享关键技术研究

国家自然科学基金

9+阅读 · 2015年12月31日

基于支撑函数的不规则形态扩展目标建模和估计研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于草图的几何处理和应用

国家自然科学基金

2+阅读 · 2015年12月31日

基于DEM样本的交互式地形合成方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

几何与随机分析及其应用交叉平台

国家自然科学基金

0+阅读 · 2014年12月31日

CGF战场空间认知行为建模研究

国家自然科学基金

51+阅读 · 2014年12月31日

面向地理模型集成与运行的数据适配方法研究

国家自然科学基金

1+阅读 · 2014年12月31日

动态群稀疏约束场景知识建模的感兴趣监控目标超分辨率重建

国家自然科学基金

1+阅读 · 2014年12月31日

网络的小世界结构及其上随机游动的混合时

国家自然科学基金

1+阅读 · 2014年12月31日

语义关联的地理视频数据自适应组织方法

国家自然科学基金

1+阅读 · 2014年12月31日

Geometry-Aware Rotary Position Embedding for Consistent Video World Model

Arxiv

0+阅读 · 2月17日

GigaBrain-0.5M*: a VLA That Learns From World Model-Based Reinforcement Learning

Arxiv

0+阅读 · 2月12日

WorldArena: A Unified Benchmark for Evaluating Perception and Functional Utility of Embodied World Models

Arxiv

0+阅读 · 2月11日

Coupled Local and Global World Models for Efficient First Order RL

Arxiv

0+阅读 · 2月5日

Making Foundation Models Probabilistic via Singular Value Ensembles

Arxiv

0+阅读 · 1月29日

GeoDiff3D: Self-Supervised 3D Scene Generation with Geometry-Constrained 2D Diffusion Guidance

Arxiv

0+阅读 · 1月28日

GPA-VGGT:Adapting VGGT to Large Scale Localization by Self-Supervised Learning with Geometry and Physics Aware Loss

Arxiv

0+阅读 · 1月26日

GPA-VGGT:Adapting VGGT to Large scale Localization by self-Supervised learning with Geometry and Physics Aware loss

Arxiv

0+阅读 · 1月23日

GeoSurDepth: Harnessing Foundation Model for Spatial Geometry Consistency-Oriented Self-Supervised Surround-View Depth Estimation

Arxiv

0+阅读 · 1月20日

MAD: Motion Appearance Decoupling for efficient Driving World Models

Arxiv

0+阅读 · 1月14日

VIP会员

文章信息

相关主题

相关VIP内容

【博士论文】弥合多模态基础模型与世界模型之间的鸿沟

【博士论文】弥合多模态基础模型与世界模型之间的鸿沟

专知会员服务

29+阅读 · 2025年10月9日

三维与四维世界建模综述

三维与四维世界建模综述

专知会员服务

29+阅读 · 2025年9月12日

【MIT博士论文】通过神经物理构建世界模型

【MIT博士论文】通过神经物理构建世界模型

专知会员服务

34+阅读 · 2025年4月3日

【伯克利博士论文】通过视频生成学习关于世界的知识

【伯克利博士论文】通过视频生成学习关于世界的知识

专知会员服务

29+阅读 · 2024年12月19日

【哥伦比亚大学博士论文】面向计算机视觉中实际约束条件的模型适应通用框架，140页pdf

【哥伦比亚大学博士论文】面向计算机视觉中实际约束条件的模型适应通用框架，140页pdf

专知会员服务

25+阅读 · 2024年2月8日

多模态怎么用自监督？爱丁堡等最新《自监督多模态学习》综述，详述目标函数、数据对齐和模型架构

多模态怎么用自监督？爱丁堡等最新《自监督多模态学习》综述，详述目标函数、数据对齐和模型架构

专知会员服务

84+阅读 · 2023年4月6日

大模型如何决策？Google伯克利MIT等最新《基础模型决策:问题、方法和机会》论文，详述序列决策与大语言模型的技术交叉

大模型如何决策？Google伯克利MIT等最新《基础模型决策:问题、方法和机会》论文，详述序列决策与大语言模型的技术交叉

专知会员服务

98+阅读 · 2023年3月10日

Jakub Tomczak- 《深度生成建模》讲座报告与视频，84页ppt，Deep Generative Modeling is a key to unlocking AI potential

Jakub Tomczak- 《深度生成建模》讲座报告与视频，84页ppt，Deep Generative Modeling is a key to unlocking AI potential

专知会员服务

61+阅读 · 2022年3月11日

【MIT】自监督几何感知，22页ppt，Self-supervised Geometric Perception

【MIT】自监督几何感知，22页ppt，Self-supervised Geometric Perception

专知会员服务

23+阅读 · 2021年6月3日

【DeepMind】PolyGen: 一种三维网格的自回归生成模型，PolyGen: An Autoregressive Generative Model of 3D Meshes

【DeepMind】PolyGen: 一种三维网格的自回归生成模型，PolyGen: An Autoregressive Generative Model of 3D Meshes

专知会员服务

37+阅读 · 2020年2月27日

热门VIP内容

开通专知VIP会员享更多权益服务

《可信人工智能赋能系统的支柱》

《从经典神经网络到不确定性下的拓扑神经网络：军事应用》2026最新40页报告

人工智能赋能边缘与自主系统：美陆军现代化进程聚焦威胁探测与战术边缘情报

《人工智能：对战略与力量的影响》slides

相关资讯

多模态怎么用自监督？爱丁堡等最新《自监督多模态学习》综述，详述目标函数、数据对齐和模型架构

多模态怎么用自监督？爱丁堡等最新《自监督多模态学习》综述，详述目标函数、数据对齐和模型架构

专知

10+阅读 · 2023年4月6日

【MIT博士论文】深度学习几何表示，138页pdf

【MIT博士论文】深度学习几何表示，138页pdf

专知

18+阅读 · 2022年9月4日

最新《深度生成式模型进展》视频报告，43页ppt，斯坦福Aditya Grover

最新《深度生成式模型进展》视频报告，43页ppt，斯坦福Aditya Grover

专知

13+阅读 · 2020年8月9日

Transformers就是图神经网络？NTU-Chaitanya Joshi论述: 是GNN的一个特例

Transformers就是图神经网络？NTU-Chaitanya Joshi论述: 是GNN的一个特例

专知

20+阅读 · 2020年3月1日

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

专知

21+阅读 · 2019年11月14日

DeepMind爆出无监督表示学习模型BigBiGAN，GAN之父点赞！

DeepMind爆出无监督表示学习模型BigBiGAN，GAN之父点赞！

新智元

13+阅读 · 2019年7月9日

最新《深度神经网络自监督视觉特征学习综述》论文（附24页全文下载）

最新《深度神经网络自监督视觉特征学习综述》论文（附24页全文下载）

专知

36+阅读 · 2019年2月20日

pytorch-pretrained-BERT：BERT PyTorch实现，可加载Google BERT预训练模型

pytorch-pretrained-BERT：BERT PyTorch实现，可加载Google BERT预训练模型

AINLP

35+阅读 · 2018年11月6日

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

新智元

12+阅读 · 2018年7月13日

深度强化学习首次在无监督视频摘要生成问题中的应用：实现state-of-the-art效果

深度强化学习首次在无监督视频摘要生成问题中的应用：实现state-of-the-art效果

专知

26+阅读 · 2018年1月21日

相关论文

Geometry-Aware Rotary Position Embedding for Consistent Video World Model

Arxiv

0+阅读 · 2月17日

GigaBrain-0.5M*: a VLA That Learns From World Model-Based Reinforcement Learning

Arxiv

0+阅读 · 2月12日

WorldArena: A Unified Benchmark for Evaluating Perception and Functional Utility of Embodied World Models

Arxiv

0+阅读 · 2月11日

Coupled Local and Global World Models for Efficient First Order RL

Arxiv

0+阅读 · 2月5日

Making Foundation Models Probabilistic via Singular Value Ensembles

Arxiv

0+阅读 · 1月29日

GeoDiff3D: Self-Supervised 3D Scene Generation with Geometry-Constrained 2D Diffusion Guidance

Arxiv

0+阅读 · 1月28日

GPA-VGGT:Adapting VGGT to Large Scale Localization by Self-Supervised Learning with Geometry and Physics Aware Loss

Arxiv

0+阅读 · 1月26日

GPA-VGGT:Adapting VGGT to Large scale Localization by self-Supervised learning with Geometry and Physics Aware loss

Arxiv

0+阅读 · 1月23日

GeoSurDepth: Harnessing Foundation Model for Spatial Geometry Consistency-Oriented Self-Supervised Surround-View Depth Estimation

Arxiv

0+阅读 · 1月20日

MAD: Motion Appearance Decoupling for efficient Driving World Models

Arxiv

0+阅读 · 1月14日

相关基金

GNSS仿真模型服务化共享关键技术研究

国家自然科学基金

9+阅读 · 2015年12月31日

基于支撑函数的不规则形态扩展目标建模和估计研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于草图的几何处理和应用

国家自然科学基金

2+阅读 · 2015年12月31日

基于DEM样本的交互式地形合成方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

几何与随机分析及其应用交叉平台

国家自然科学基金

0+阅读 · 2014年12月31日

CGF战场空间认知行为建模研究

国家自然科学基金

51+阅读 · 2014年12月31日

面向地理模型集成与运行的数据适配方法研究

国家自然科学基金

1+阅读 · 2014年12月31日

动态群稀疏约束场景知识建模的感兴趣监控目标超分辨率重建

国家自然科学基金

1+阅读 · 2014年12月31日

网络的小世界结构及其上随机游动的混合时

国家自然科学基金

1+阅读 · 2014年12月31日

语义关联的地理视频数据自适应组织方法

国家自然科学基金

1+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员