面向一致视频世界模型的几何感知旋转位置嵌入 (Geometry-Aware Rotary Position Embedding for Consistent Video World Model) - 专知论文

会员服务 ·

0

一致 · 几何感知 · 视频 · 位置嵌入 · 嵌入 ·

Geometry-Aware Rotary Position Embedding for Consistent Video World Model

翻译：面向一致视频世界模型的几何感知旋转位置嵌入

Chendong Xiang,Jiajun Liu,Jintao Zhang,Xiao Yang,Zhengwei Fang,Shizun Wang,Zijun Wang,Yingtian Zou,Hang Su,Jun Zhu

Predictive world models that simulate future observations under explicit camera control are fundamental to interactive AI. Despite rapid advances, current systems lack spatial persistence: they fail to maintain stable scene structures over long trajectories, frequently hallucinating details when cameras revisit previously observed locations. We identify that this geometric drift stems from reliance on screen-space positional embeddings, which conflict with the projective geometry required for 3D consistency. We introduce \textbf{ViewRope}, a geometry-aware encoding that injects camera-ray directions directly into video transformer self-attention layers. By parameterizing attention with relative ray geometry rather than pixel locality, ViewRope provides a model-native inductive bias for retrieving 3D-consistent content across temporal gaps. We further propose \textbf{Geometry-Aware Frame-Sparse Attention}, which exploits these geometric cues to selectively attend to relevant historical frames, improving efficiency without sacrificing memory consistency. We also present \textbf{ViewBench}, a diagnostic suite measuring loop-closure fidelity and geometric drift. Our results demonstrate that ViewRope substantially improves long-term consistency while reducing computational costs.

翻译：在显式相机控制下模拟未来观测的预测世界模型是交互式人工智能的基础。尽管进展迅速，当前系统仍缺乏空间持久性：它们在长轨迹上无法维持稳定的场景结构，当相机重新访问先前观测过的位置时，经常产生细节幻觉。我们发现这种几何漂移源于对屏幕空间位置嵌入的依赖，这与三维一致性所需的投影几何相冲突。我们引入了 \textbf{ViewRope}，一种几何感知编码，它将相机射线方向直接注入视频 Transformer 的自注意力层。通过使用相对射线几何而非像素局部性来参数化注意力，ViewRope 为跨时间间隙检索三维一致内容提供了模型固有的归纳偏置。我们进一步提出了 \textbf{几何感知帧稀疏注意力}，它利用这些几何线索选择性地关注相关的历史帧，在不牺牲记忆一致性的前提下提高了效率。我们还提出了 \textbf{ViewBench}，一个用于测量闭环保真度和几何漂移的诊断套件。我们的结果表明，ViewRope 显著改善了长期一致性，同时降低了计算成本。

0

相关内容

具身智能中的心理世界建模：深度综述

具身智能中的心理世界建模：深度综述

专知会员服务

28+阅读 · 1月10日

【NTU博士论文】面向高效感知与可扩展生成的三维物理世界

【NTU博士论文】面向高效感知与可扩展生成的三维物理世界

专知会员服务

12+阅读 · 2025年10月3日

迈向深度基础模型：基于视觉的深度估计最新趋势

迈向深度基础模型：基于视觉的深度估计最新趋势

专知会员服务

23+阅读 · 2025年7月16日

从二维到三维认知：通用世界模型简要综述

从二维到三维认知：通用世界模型简要综述

专知会员服务

29+阅读 · 2025年6月26日

【伯克利博士论文】揭示任何视频背后的四维世界

【伯克利博士论文】揭示任何视频背后的四维世界

专知会员服务

26+阅读 · 2024年11月24日

视觉如何模型统一？牛津大学Shuyang Sun博士论文《迈向统一视觉感知》全面阐述

视觉如何模型统一？牛津大学Shuyang Sun博士论文《迈向统一视觉感知》全面阐述

专知会员服务

47+阅读 · 2024年8月11日

大模型+遥感？最新《遥感中的人工智能基础模型》综述

大模型+遥感？最新《遥感中的人工智能基础模型》综述

专知会员服务

63+阅读 · 2024年8月10日

MBZ大学等最新《视觉基础模型》综述，详述视觉大模型技术进展

MBZ大学等最新《视觉基础模型》综述，详述视觉大模型技术进展

专知会员服务

75+阅读 · 2023年8月1日

【Virginia Tech博士论文】3D深度学习的目标几何感知，137页pdf

【Virginia Tech博士论文】3D深度学习的目标几何感知，137页pdf

专知会员服务

42+阅读 · 2023年2月27日

【剑桥大学博士论文】面向计算机视觉的神经世界模型，211页pdf

【剑桥大学博士论文】面向计算机视觉的神经世界模型，211页pdf

专知会员服务

63+阅读 · 2023年2月5日

3D Human相关研究总结：人体、姿态估计、人体重建等

3D Human相关研究总结：人体、姿态估计、人体重建等

PaperWeekly

27+阅读 · 2021年3月1日

【ACM Multimedia2020】跨模态注意力Transformer模型的深度视频理解

【ACM Multimedia2020】跨模态注意力Transformer模型的深度视频理解

专知

15+阅读 · 2020年8月30日

【浙大博士论文】面向复杂场景理解的视觉内容识别、检测与推理方法研究

【浙大博士论文】面向复杂场景理解的视觉内容识别、检测与推理方法研究

专知

27+阅读 · 2020年7月26日

【DeepMind】CrossTransformers: 空间感知的小样本迁移

【DeepMind】CrossTransformers: 空间感知的小样本迁移

专知

37+阅读 · 2020年7月26日

【AAAI2020论文】用于视觉对话中深度视觉理解的自适应双向编码模型—DualVD, 中科院信工所于静等

【AAAI2020论文】用于视觉对话中深度视觉理解的自适应双向编码模型—DualVD, 中科院信工所于静等

专知

20+阅读 · 2019年11月24日

计算机视觉方向简介 | 基于单目视觉的三维重建算法

计算机视觉方向简介 | 基于单目视觉的三维重建算法

计算机视觉life

32+阅读 · 2019年4月9日

三维感知与三维数据分析最新进展 - 3D传感&人工智能前沿科技论坛

三维感知与三维数据分析最新进展 - 3D传感&人工智能前沿科技论坛

AI科技评论

10+阅读 · 2019年2月2日

ECCV发布：228页教程全面理解视觉定位技术

ECCV发布：228页教程全面理解视觉定位技术

专知

17+阅读 · 2018年9月12日

【泡泡一分钟】Grad-CAM（加权梯度类激活映射）：可视化解释基于梯度定位的深度网络（ICCV2017-60）

【泡泡一分钟】Grad-CAM（加权梯度类激活映射）：可视化解释基于梯度定位的深度网络（ICCV2017-60）

泡泡机器人SLAM

47+阅读 · 2018年8月1日

报名 | 让机器读懂你的意图——人体姿态估计入门

报名 | 让机器读懂你的意图——人体姿态估计入门

人工智能头条

10+阅读 · 2017年9月19日

复合型移动群智感知关键技术研究

国家自然科学基金

9+阅读 · 2017年12月31日

2D/3D视觉信息融合仿生SLAM关键问题研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于数据挖掘和感知分析的非对称失真视觉质量评价模型研究

国家自然科学基金

0+阅读 · 2015年12月31日

MRF模型的车载全景视觉位姿估计最优化方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向智能穿戴设备的三维图形网格简化与渐进显示方法

国家自然科学基金

1+阅读 · 2015年12月31日

异源主被动遥感多视立体成像几何模型研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于视觉差异特征的跨域图像匹配方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

几何/拓扑混合空间中的仿生导航方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于螺旋理论的空间近距离相对运动建模方法与姿轨耦合控制研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于深度学习的特征融合在移动机器人视觉中的场景理解及研究

国家自然科学基金

12+阅读 · 2014年12月31日

Geometry-Aware Rotary Position Embedding for Consistent Video World Model

Arxiv

0+阅读 · 2月17日

Say, Dream, and Act: Learning Video World Models for Instruction-Driven Robot Manipulation

Arxiv

0+阅读 · 2月11日

GrndCtrl: Grounding World Models via Self-Supervised Reward Alignment

Arxiv

0+阅读 · 2月7日

Visual Implicit Geometry Transformer for Autonomous Driving

Arxiv

0+阅读 · 2月5日

Geometry-aware 4D Video Generation for Robot Manipulation

Arxiv

0+阅读 · 2月4日

Learning Geometrically-Grounded 3D Visual Representations for View-Generalizable Robotic Manipulation

Arxiv

0+阅读 · 1月30日

Masked Depth Modeling for Spatial Perception

Arxiv

0+阅读 · 1月25日

GeoSurDepth: Harnessing Foundation Model for Spatial Geometry Consistency-Oriented Self-Supervised Surround-View Depth Estimation

Arxiv

0+阅读 · 1月20日

An Efficient and Multi-Modal Navigation System with One-Step World Model

Arxiv

0+阅读 · 1月18日

Breaking Coordinate Overfitting: Geometry-Aware WiFi Sensing for Cross-Layout 3D Pose Estimation

Arxiv

0+阅读 · 1月18日

VIP会员

文章信息

相关主题

相关VIP内容

具身智能中的心理世界建模：深度综述

具身智能中的心理世界建模：深度综述

专知会员服务

28+阅读 · 1月10日

【NTU博士论文】面向高效感知与可扩展生成的三维物理世界

【NTU博士论文】面向高效感知与可扩展生成的三维物理世界

专知会员服务

12+阅读 · 2025年10月3日

迈向深度基础模型：基于视觉的深度估计最新趋势

迈向深度基础模型：基于视觉的深度估计最新趋势

专知会员服务

23+阅读 · 2025年7月16日

从二维到三维认知：通用世界模型简要综述

从二维到三维认知：通用世界模型简要综述

专知会员服务

29+阅读 · 2025年6月26日

【伯克利博士论文】揭示任何视频背后的四维世界

【伯克利博士论文】揭示任何视频背后的四维世界

专知会员服务

26+阅读 · 2024年11月24日

视觉如何模型统一？牛津大学Shuyang Sun博士论文《迈向统一视觉感知》全面阐述

视觉如何模型统一？牛津大学Shuyang Sun博士论文《迈向统一视觉感知》全面阐述

专知会员服务

47+阅读 · 2024年8月11日

大模型+遥感？最新《遥感中的人工智能基础模型》综述

大模型+遥感？最新《遥感中的人工智能基础模型》综述

专知会员服务

63+阅读 · 2024年8月10日

MBZ大学等最新《视觉基础模型》综述，详述视觉大模型技术进展

MBZ大学等最新《视觉基础模型》综述，详述视觉大模型技术进展

专知会员服务

75+阅读 · 2023年8月1日

【Virginia Tech博士论文】3D深度学习的目标几何感知，137页pdf

【Virginia Tech博士论文】3D深度学习的目标几何感知，137页pdf

专知会员服务

42+阅读 · 2023年2月27日

【剑桥大学博士论文】面向计算机视觉的神经世界模型，211页pdf

【剑桥大学博士论文】面向计算机视觉的神经世界模型，211页pdf

专知会员服务

63+阅读 · 2023年2月5日

热门VIP内容

开通专知VIP会员享更多权益服务

论学习、公平性与复杂度

《整合杀伤链：一个用于边缘目标验证与战术推理的零样本框架》最新资料

2025中国人工智能学会系列白皮书⸺棋盘上的人工智能|附下载

通用智能体评估的逻辑架构

相关资讯

3D Human相关研究总结：人体、姿态估计、人体重建等

3D Human相关研究总结：人体、姿态估计、人体重建等

PaperWeekly

27+阅读 · 2021年3月1日

【ACM Multimedia2020】跨模态注意力Transformer模型的深度视频理解

【ACM Multimedia2020】跨模态注意力Transformer模型的深度视频理解

专知

15+阅读 · 2020年8月30日

【浙大博士论文】面向复杂场景理解的视觉内容识别、检测与推理方法研究

【浙大博士论文】面向复杂场景理解的视觉内容识别、检测与推理方法研究

专知

27+阅读 · 2020年7月26日

【DeepMind】CrossTransformers: 空间感知的小样本迁移

【DeepMind】CrossTransformers: 空间感知的小样本迁移

专知

37+阅读 · 2020年7月26日

【AAAI2020论文】用于视觉对话中深度视觉理解的自适应双向编码模型—DualVD, 中科院信工所于静等

【AAAI2020论文】用于视觉对话中深度视觉理解的自适应双向编码模型—DualVD, 中科院信工所于静等

专知

20+阅读 · 2019年11月24日

计算机视觉方向简介 | 基于单目视觉的三维重建算法

计算机视觉方向简介 | 基于单目视觉的三维重建算法

计算机视觉life

32+阅读 · 2019年4月9日

三维感知与三维数据分析最新进展 - 3D传感&人工智能前沿科技论坛

三维感知与三维数据分析最新进展 - 3D传感&人工智能前沿科技论坛

AI科技评论

10+阅读 · 2019年2月2日

ECCV发布：228页教程全面理解视觉定位技术

ECCV发布：228页教程全面理解视觉定位技术

专知

17+阅读 · 2018年9月12日

【泡泡一分钟】Grad-CAM（加权梯度类激活映射）：可视化解释基于梯度定位的深度网络（ICCV2017-60）

【泡泡一分钟】Grad-CAM（加权梯度类激活映射）：可视化解释基于梯度定位的深度网络（ICCV2017-60）

泡泡机器人SLAM

47+阅读 · 2018年8月1日

报名 | 让机器读懂你的意图——人体姿态估计入门

报名 | 让机器读懂你的意图——人体姿态估计入门

人工智能头条

10+阅读 · 2017年9月19日

相关论文

Geometry-Aware Rotary Position Embedding for Consistent Video World Model

Arxiv

0+阅读 · 2月17日

Say, Dream, and Act: Learning Video World Models for Instruction-Driven Robot Manipulation

Arxiv

0+阅读 · 2月11日

GrndCtrl: Grounding World Models via Self-Supervised Reward Alignment

Arxiv

0+阅读 · 2月7日

Visual Implicit Geometry Transformer for Autonomous Driving

Arxiv

0+阅读 · 2月5日

Geometry-aware 4D Video Generation for Robot Manipulation

Arxiv

0+阅读 · 2月4日

Learning Geometrically-Grounded 3D Visual Representations for View-Generalizable Robotic Manipulation

Arxiv

0+阅读 · 1月30日

Masked Depth Modeling for Spatial Perception

Arxiv

0+阅读 · 1月25日

GeoSurDepth: Harnessing Foundation Model for Spatial Geometry Consistency-Oriented Self-Supervised Surround-View Depth Estimation

Arxiv

0+阅读 · 1月20日

An Efficient and Multi-Modal Navigation System with One-Step World Model

Arxiv

0+阅读 · 1月18日

Breaking Coordinate Overfitting: Geometry-Aware WiFi Sensing for Cross-Layout 3D Pose Estimation

Arxiv

0+阅读 · 1月18日

相关基金

复合型移动群智感知关键技术研究

国家自然科学基金

9+阅读 · 2017年12月31日

2D/3D视觉信息融合仿生SLAM关键问题研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于数据挖掘和感知分析的非对称失真视觉质量评价模型研究

国家自然科学基金

0+阅读 · 2015年12月31日

MRF模型的车载全景视觉位姿估计最优化方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向智能穿戴设备的三维图形网格简化与渐进显示方法

国家自然科学基金

1+阅读 · 2015年12月31日

异源主被动遥感多视立体成像几何模型研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于视觉差异特征的跨域图像匹配方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

几何/拓扑混合空间中的仿生导航方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于螺旋理论的空间近距离相对运动建模方法与姿轨耦合控制研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于深度学习的特征融合在移动机器人视觉中的场景理解及研究

国家自然科学基金

12+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员