OmniRoam: World Wandering via Long-Horizon Panoramic Video Generation - 专知论文

会员服务 ·

0

视频 · 视频生成 · 一致 · 合成 · 可控 ·

OmniRoam: World Wandering via Long-Horizon Panoramic Video Generation

翻译：标题：OmniRoam：通过长视界全景视频生成实现世界漫游

Yuheng Liu,Xin Lin,Xinke Li,Baihan Yang,Chen Wang,Kalyan Sunkavalli,Yannick Hold-Geoffroy,Hao Tan,Kai Zhang,Xiaohui Xie,Zifan Shi,Yiwei Hu

from arxiv, Code is available at https://github.com/yuhengliu02/OmniRoam

Modeling scenes using video generation models has garnered growing research interest in recent years. However, most existing approaches rely on perspective video models that synthesize only limited observations of a scene, leading to issues of completeness and global consistency. We propose OmniRoam, a controllable panoramic video generation framework that exploits the rich per-frame scene coverage and inherent long-term spatial and temporal consistency of panoramic representation, enabling long-horizon scene wandering. Our framework begins with a preview stage, where a trajectory-controlled video generation model creates a quick overview of the scene from a given input image or video. Then, in the refine stage, this video is temporally extended and spatially upsampled to produce long-range, high-resolution videos, thus enabling high-fidelity world wandering. To train our model, we introduce two panoramic video datasets that incorporate both synthetic and real-world captured videos. Experiments show that our framework consistently outperforms state-of-the-art methods in terms of visual quality, controllability, and long-term scene consistency, both qualitatively and quantitatively. We further showcase several extensions of this framework, including real-time video generation and 3D reconstruction. Code is available at https://github.com/yuhengliu02/OmniRoam.

翻译：摘要：近年来，利用视频生成模型对场景进行建模引起了广泛研究兴趣。然而，现有方法大多依赖仅合成场景有限观测的透视视频模型，导致完整性和全局一致性问题。我们提出OmniRoam，一种可控的全景视频生成框架，该框架利用全景表示丰富的逐帧场景覆盖及其固有的长时空间与时间一致性，实现长视界场景漫游。我们的框架始于预览阶段，在该阶段中，轨迹控制的视频生成模型从给定的输入图像或视频快速生成场景概览。随后在细化阶段，该视频在时间上被扩展且在空间上被上采样，以生成长距离、高分辨率视频，从而实现高保真世界漫游。为训练模型，我们引入了两个全景视频数据集，其中包含合成与真实世界采集视频。实验表明，我们的框架在视觉质量、可控性及长时场景一致性方面，无论定性还是定量均持续优于现有最优方法。我们进一步展示了该框架的若干扩展，包括实时视频生成与三维重建。代码已开源：https://github.com/yuhengliu02/OmniRoam。

0

相关内容

视频

《用人工智能模拟视觉世界：路线图》

《用人工智能模拟视觉世界：路线图》

专知会员服务

20+阅读 · 2025年11月12日

【NeurIPS2025】VideoLucy：用于长视频理解的深度记忆回溯机制

【NeurIPS2025】VideoLucy：用于长视频理解的深度记忆回溯机制

专知会员服务

9+阅读 · 2025年10月15日

飞越鸿沟：从视角到全景视觉的综述

飞越鸿沟：从视角到全景视觉的综述

专知会员服务

24+阅读 · 2025年9月5日

【CVPR2025】ShotAdapter：基于扩散模型的文本生成多镜头视频方法

【CVPR2025】ShotAdapter：基于扩散模型的文本生成多镜头视频方法

专知会员服务

11+阅读 · 2025年5月16日

探索长视频生成的最新趋势

探索长视频生成的最新趋势

专知会员服务

23+阅读 · 2024年12月30日

【伯克利博士论文】通过视频生成学习关于世界的知识

【伯克利博士论文】通过视频生成学习关于世界的知识

专知会员服务

29+阅读 · 2024年12月19日

Sora之后，OpenAI Lilian Weng亲自撰文教你从头设计《视频生成扩散模型》

Sora之后，OpenAI Lilian Weng亲自撰文教你从头设计《视频生成扩散模型》

专知会员服务

22+阅读 · 2024年4月22日

Sora 作为 AGI 世界模型？关于《文本到视频生成》完整综述

Sora 作为 AGI 世界模型？关于《文本到视频生成》完整综述

专知会员服务

48+阅读 · 2024年3月11日

Sora视频生成模型相关论文集合！《视频生成模型作为世界模拟器》中引用的所有论文集合

Sora视频生成模型相关论文集合！《视频生成模型作为世界模拟器》中引用的所有论文集合

专知会员服务

57+阅读 · 2024年2月20日

如何生成复杂逼真3D场景？CVPR2023英伟达等提出《分层潜在扩散模型》生成复杂的开放世界3D场景

如何生成复杂逼真3D场景？CVPR2023英伟达等提出《分层潜在扩散模型》生成复杂的开放世界3D场景

专知会员服务

48+阅读 · 2023年4月20日

Video Description视频描述综述论文-方法、数据集和评估指标，UWA

Video Description视频描述综述论文-方法、数据集和评估指标，UWA

专知

38+阅读 · 2020年3月5日

NLP+CV《桥接视觉与语言的研究综述》，带你全面了解视觉+语言最新应用和方法

NLP+CV《桥接视觉与语言的研究综述》，带你全面了解视觉+语言最新应用和方法

中国人工智能学会

27+阅读 · 2019年7月24日

视频生成的前沿论文，看我们推荐的7篇就够了

视频生成的前沿论文，看我们推荐的7篇就够了

人工智能前沿讲习班

34+阅读 · 2018年12月30日

全景分割任务介绍及其最新进展【附PPT与视频资料】

全景分割任务介绍及其最新进展【附PPT与视频资料】

人工智能前沿讲习班

11+阅读 · 2018年12月5日

Image Captioning 36页最新综述， 161篇参考文献

Image Captioning 36页最新综述， 161篇参考文献

专知

90+阅读 · 2018年10月23日

【论文推荐】最新八篇视频描述生成相关论文—在线视频理解、联合定位和描述事件、生成视频、跨模态注意力机制、联合事件检测和描述

【论文推荐】最新八篇视频描述生成相关论文—在线视频理解、联合定位和描述事件、生成视频、跨模态注意力机制、联合事件检测和描述

专知

11+阅读 · 2018年6月4日

【学界】极端图像压缩的生成对抗网络，可生成低码率的高质量图像

【学界】极端图像压缩的生成对抗网络，可生成低码率的高质量图像

GAN生成式对抗网络

10+阅读 · 2018年4月25日

FAIR最新视觉论文集锦：FPN，RetinaNet，Mask和Mask-X RCNN（含代码实现）

FAIR最新视觉论文集锦：FPN，RetinaNet，Mask和Mask-X RCNN（含代码实现）

AI科技评论

16+阅读 · 2018年4月7日

【论文推荐】最新六篇图像描述生成相关论文—视频摘要、注意力张量积、非自回归神经序列模型、副词识别、多主体、多样性度量

【论文推荐】最新六篇图像描述生成相关论文—视频摘要、注意力张量积、非自回归神经序列模型、副词识别、多主体、多样性度量

专知

10+阅读 · 2018年3月2日

业界 | 腾讯 AI Lab 斩获 MSCOCO Captions 冠军，领衔图像描述生成技术

业界 | 腾讯 AI Lab 斩获 MSCOCO Captions 冠军，领衔图像描述生成技术

AI科技评论

13+阅读 · 2017年11月4日

基于自媒体处理中的极坐标下的非线性理论及超分辨率重建方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

全景聚焦合成孔径成像及其遮挡目标提取研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于多源视频的大范围场景目标跟踪

国家自然科学基金

2+阅读 · 2015年12月31日

自由视点三维视频中纹理-深度图像联合建模及应用

国家自然科学基金

0+阅读 · 2015年12月31日

多约束协同的彩色夜视影像亚像素超分辨率重建

国家自然科学基金

1+阅读 · 2015年12月31日

基于DEM样本的交互式地形合成方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

复杂场景点线光流三维重建模型的建立及鲁棒性分析

国家自然科学基金

2+阅读 · 2014年12月31日

海量Web用户生成内容物化关键技术

国家自然科学基金

2+阅读 · 2014年12月31日

动态群稀疏约束场景知识建模的感兴趣监控目标超分辨率重建

国家自然科学基金

1+阅读 · 2014年12月31日

语义关联的地理视频数据自适应组织方法

国家自然科学基金

1+阅读 · 2014年12月31日

WorldPlay: Towards Long-Term Geometric Consistency for Real-Time Interactive World Modeling

Arxiv

0+阅读 · 6月9日

Omni2Sound: Towards Unified Video-Text-to-Audio Generation

Arxiv

0+阅读 · 4月29日

World-R1: Reinforcing 3D Constraints for Text-to-Video Generation

Arxiv

0+阅读 · 4月27日

ReImagine: Rethinking Controllable High-Quality Human Video Generation via Image-First Synthesis

Arxiv

0+阅读 · 4月21日

Omni123: Exploring 3D Native Foundation Models with Limited 3D Data by Unifying Text to 2D and 3D Generation

Arxiv

0+阅读 · 4月2日

SonoWorld: From One Image to a 3D Audio-Visual Scene

Arxiv

0+阅读 · 3月30日

VideoARM: Agentic Reasoning over Hierarchical Memory for Long-Form Video Understanding

Arxiv

0+阅读 · 3月30日

VGGRPO: Towards World-Consistent Video Generation with 4D Latent Reward

Arxiv

0+阅读 · 3月27日

Generative Blocks World: Moving Things Around in Pictures

Arxiv

0+阅读 · 3月20日

Omni-Captioner: Data Pipeline, Models, and Benchmark for Omni Detailed Perception

Arxiv

0+阅读 · 3月16日

VIP会员

文章信息

相关主题

最新内容

反无人机拦截器训练与运用课程：对美国陆军部队发展的启示

反无人机拦截器训练与运用课程：对美国陆军部队发展的启示

专知会员服务

5+阅读 · 今天8:00

重新思考无人机时代的生存能力

重新思考无人机时代的生存能力

专知会员服务

3+阅读 · 今天7:44

装甲突击旅：现代战争思考、战斗与组织

装甲突击旅：现代战争思考、战斗与组织

专知会员服务

3+阅读 · 今天7:28

在人工智能加速决策环境中拓展OODA循环

在人工智能加速决策环境中拓展OODA循环

专知会员服务

4+阅读 · 今天7:18

《廉价自杀式无人机战争的军事战略影响：乌克兰与伊朗案例研究》

《廉价自杀式无人机战争的军事战略影响：乌克兰与伊朗案例研究》

专知会员服务

5+阅读 · 今天7:07

军事欺骗：供作战战术指挥官使用的工具

军事欺骗：供作战战术指挥官使用的工具

专知会员服务

4+阅读 · 今天7:03

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

专知会员服务

4+阅读 · 6月23日

综述 | 世界动作模型：少做梦，多行动

综述 | 世界动作模型：少做梦，多行动

专知会员服务

5+阅读 · 6月23日

美以伊冲突：无人机与人工智能的运用

美以伊冲突：无人机与人工智能的运用

专知会员服务

10+阅读 · 6月23日

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

专知会员服务

4+阅读 · 6月23日

《特种部队在透明战场中的生存力》最新报告

《特种部队在透明战场中的生存力》最新报告

专知会员服务

5+阅读 · 6月23日

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

专知会员服务

8+阅读 · 6月23日

《人工智能生成的零日漏洞：对未来作战的影响》

《人工智能生成的零日漏洞：对未来作战的影响》

专知会员服务

7+阅读 · 6月23日

《理解伙伴国在防务能力选择中的偏好：探索美国解决方案的替代选择》美智库200页报告

《理解伙伴国在防务能力选择中的偏好：探索美国解决方案的替代选择》美智库200页报告

专知会员服务

4+阅读 · 6月23日

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

专知会员服务

6+阅读 · 6月22日

相关VIP内容

《用人工智能模拟视觉世界：路线图》

《用人工智能模拟视觉世界：路线图》

专知会员服务

20+阅读 · 2025年11月12日

【NeurIPS2025】VideoLucy：用于长视频理解的深度记忆回溯机制

【NeurIPS2025】VideoLucy：用于长视频理解的深度记忆回溯机制

专知会员服务

9+阅读 · 2025年10月15日

飞越鸿沟：从视角到全景视觉的综述

飞越鸿沟：从视角到全景视觉的综述

专知会员服务

24+阅读 · 2025年9月5日

【CVPR2025】ShotAdapter：基于扩散模型的文本生成多镜头视频方法

【CVPR2025】ShotAdapter：基于扩散模型的文本生成多镜头视频方法

专知会员服务

11+阅读 · 2025年5月16日

探索长视频生成的最新趋势

探索长视频生成的最新趋势

专知会员服务

23+阅读 · 2024年12月30日

【伯克利博士论文】通过视频生成学习关于世界的知识

【伯克利博士论文】通过视频生成学习关于世界的知识

专知会员服务

29+阅读 · 2024年12月19日

Sora之后，OpenAI Lilian Weng亲自撰文教你从头设计《视频生成扩散模型》

Sora之后，OpenAI Lilian Weng亲自撰文教你从头设计《视频生成扩散模型》

专知会员服务

22+阅读 · 2024年4月22日

Sora 作为 AGI 世界模型？关于《文本到视频生成》完整综述

Sora 作为 AGI 世界模型？关于《文本到视频生成》完整综述

专知会员服务

48+阅读 · 2024年3月11日

Sora视频生成模型相关论文集合！《视频生成模型作为世界模拟器》中引用的所有论文集合

Sora视频生成模型相关论文集合！《视频生成模型作为世界模拟器》中引用的所有论文集合

专知会员服务

57+阅读 · 2024年2月20日

如何生成复杂逼真3D场景？CVPR2023英伟达等提出《分层潜在扩散模型》生成复杂的开放世界3D场景

如何生成复杂逼真3D场景？CVPR2023英伟达等提出《分层潜在扩散模型》生成复杂的开放世界3D场景

专知会员服务

48+阅读 · 2023年4月20日

热门VIP内容

开通专知VIP会员享更多权益服务

重新思考无人机时代的生存能力

在人工智能加速决策环境中拓展OODA循环

反无人机拦截器训练与运用课程：对美国陆军部队发展的启示

装甲突击旅：现代战争思考、战斗与组织

相关资讯

Video Description视频描述综述论文-方法、数据集和评估指标，UWA

Video Description视频描述综述论文-方法、数据集和评估指标，UWA

专知

38+阅读 · 2020年3月5日

NLP+CV《桥接视觉与语言的研究综述》，带你全面了解视觉+语言最新应用和方法

NLP+CV《桥接视觉与语言的研究综述》，带你全面了解视觉+语言最新应用和方法

中国人工智能学会

27+阅读 · 2019年7月24日

视频生成的前沿论文，看我们推荐的7篇就够了

视频生成的前沿论文，看我们推荐的7篇就够了

人工智能前沿讲习班

34+阅读 · 2018年12月30日

全景分割任务介绍及其最新进展【附PPT与视频资料】

全景分割任务介绍及其最新进展【附PPT与视频资料】

人工智能前沿讲习班

11+阅读 · 2018年12月5日

Image Captioning 36页最新综述， 161篇参考文献

Image Captioning 36页最新综述， 161篇参考文献

专知

90+阅读 · 2018年10月23日

【论文推荐】最新八篇视频描述生成相关论文—在线视频理解、联合定位和描述事件、生成视频、跨模态注意力机制、联合事件检测和描述

【论文推荐】最新八篇视频描述生成相关论文—在线视频理解、联合定位和描述事件、生成视频、跨模态注意力机制、联合事件检测和描述

专知

11+阅读 · 2018年6月4日

【学界】极端图像压缩的生成对抗网络，可生成低码率的高质量图像

【学界】极端图像压缩的生成对抗网络，可生成低码率的高质量图像

GAN生成式对抗网络

10+阅读 · 2018年4月25日

FAIR最新视觉论文集锦：FPN，RetinaNet，Mask和Mask-X RCNN（含代码实现）

FAIR最新视觉论文集锦：FPN，RetinaNet，Mask和Mask-X RCNN（含代码实现）

AI科技评论

16+阅读 · 2018年4月7日

【论文推荐】最新六篇图像描述生成相关论文—视频摘要、注意力张量积、非自回归神经序列模型、副词识别、多主体、多样性度量

【论文推荐】最新六篇图像描述生成相关论文—视频摘要、注意力张量积、非自回归神经序列模型、副词识别、多主体、多样性度量

专知

10+阅读 · 2018年3月2日

业界 | 腾讯 AI Lab 斩获 MSCOCO Captions 冠军，领衔图像描述生成技术

业界 | 腾讯 AI Lab 斩获 MSCOCO Captions 冠军，领衔图像描述生成技术

AI科技评论

13+阅读 · 2017年11月4日

相关论文

WorldPlay: Towards Long-Term Geometric Consistency for Real-Time Interactive World Modeling

Arxiv

0+阅读 · 6月9日

Omni2Sound: Towards Unified Video-Text-to-Audio Generation

Arxiv

0+阅读 · 4月29日

World-R1: Reinforcing 3D Constraints for Text-to-Video Generation

Arxiv

0+阅读 · 4月27日

ReImagine: Rethinking Controllable High-Quality Human Video Generation via Image-First Synthesis

Arxiv

0+阅读 · 4月21日

Omni123: Exploring 3D Native Foundation Models with Limited 3D Data by Unifying Text to 2D and 3D Generation

Arxiv

0+阅读 · 4月2日

SonoWorld: From One Image to a 3D Audio-Visual Scene

Arxiv

0+阅读 · 3月30日

VideoARM: Agentic Reasoning over Hierarchical Memory for Long-Form Video Understanding

Arxiv

0+阅读 · 3月30日

VGGRPO: Towards World-Consistent Video Generation with 4D Latent Reward

Arxiv

0+阅读 · 3月27日

Generative Blocks World: Moving Things Around in Pictures

Arxiv

0+阅读 · 3月20日

Omni-Captioner: Data Pipeline, Models, and Benchmark for Omni Detailed Perception

Arxiv

0+阅读 · 3月16日

相关基金

基于自媒体处理中的极坐标下的非线性理论及超分辨率重建方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

全景聚焦合成孔径成像及其遮挡目标提取研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于多源视频的大范围场景目标跟踪

国家自然科学基金

2+阅读 · 2015年12月31日

自由视点三维视频中纹理-深度图像联合建模及应用

国家自然科学基金

0+阅读 · 2015年12月31日

多约束协同的彩色夜视影像亚像素超分辨率重建

国家自然科学基金

1+阅读 · 2015年12月31日

基于DEM样本的交互式地形合成方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

复杂场景点线光流三维重建模型的建立及鲁棒性分析

国家自然科学基金

2+阅读 · 2014年12月31日

海量Web用户生成内容物化关键技术

国家自然科学基金

2+阅读 · 2014年12月31日

动态群稀疏约束场景知识建模的感兴趣监控目标超分辨率重建

国家自然科学基金

1+阅读 · 2014年12月31日

语义关联的地理视频数据自适应组织方法

国家自然科学基金

1+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员