WorldPlay: Towards Long-Term Geometric Consistency for Real-Time Interactive World Modeling - 专知论文

会员服务 ·

0

一致 · 上下文 · 实时交互 · 交互 · 3D ·

WorldPlay: Towards Long-Term Geometric Consistency for Real-Time Interactive World Modeling

翻译：WorldPlay：面向实时交互式世界建模的长期几何一致性研究

Wenqiang Sun,Haiyu Zhang,Haoyuan Wang,Junta Wu,Zehan Wang,Zhenwei Wang,Yunhong Wang,Jun Zhang,Tengfei Wang,Chunchao Guo

from arxiv, project page: https://3d-models.hunyuan.tencent.com/world/, demo: https://3d.hunyuan.tencent.com/sceneTo3D, code: https://github.com/Tencent-Hunyuan/HY-WorldPlay

This paper presents WorldPlay, a streaming video diffusion model that enables real-time, interactive world modeling with long-term geometric consistency, resolving the trade-off between speed and memory that limits current methods. WorldPlay draws power from three key ingredients. 1) We use a Dual Action Representation to enable robust action control in response to the user's keyboard and mouse inputs. 2) To enforce long-term consistency, our Reconstituted Context Memory dynamically rebuilds context from past frames and uses temporal reframing to keep geometrically important but long-past frames accessible, effectively alleviating memory attenuation. 3) We also propose Context Forcing, a novel distillation method designed for memory-aware model. Aligning memory context between the teacher and student preserves the student's capacity to use long-range information, enabling real-time speeds while preventing error drift. Taken together, WorldPlay generates long-horizon streaming 720p video at 24 FPS with superior consistency, comparing favorably with existing techniques and showing strong generalization across diverse scenes. Project page and online demo can be found: https://3d-models.hunyuan.tencent.com/world/ and https://3d.hunyuan.tencent.com/sceneTo3D.

翻译：本文提出WorldPlay，一种流式视频扩散模型，能够实现具有长期几何一致性的实时交互式世界建模，解决了当前方法中速度与内存之间的权衡问题。WorldPlay的优势源于三个关键要素：1）我们采用双动作表征，以响应用户键盘和鼠标输入实现稳健的动作控制；2）为强制执行长期一致性，我们的重构上下文记忆机制动态地从过去帧重建上下文，并通过时间重框定使几何重要但时间久远的帧保持可访问性，有效缓解记忆衰减问题；3）我们还提出上下文强制（Context Forcing）这一针对记忆感知模型的新型蒸馏方法。通过对齐教师模型与学生模型的记忆上下文，该方法保持了学生模型使用长距离信息的能力，在实现实时速度的同时防止误差漂移。综合而言，WorldPlay能以24 FPS生成具有卓越一致性的长跨度720p流式视频，相较现有技术展现出显著优势，并在多样场景中呈现强泛化能力。项目主页与在线演示请见：https://3d-models.hunyuan.tencent.com/world/ 和 https://3d.hunyuan.tencent.com/sceneTo3D。

0

相关内容

【综述】世界模型：架构、方法、推理与应用全景

【综述】世界模型：架构、方法、推理与应用全景

专知会员服务

34+阅读 · 6月2日

从看见到认知世界：视觉世界模型综述

从看见到认知世界：视觉世界模型综述

专知会员服务

17+阅读 · 5月17日

视频理解：从几何与语义表征到统一模型架构

视频理解：从几何与语义表征到统一模型架构

专知会员服务

20+阅读 · 3月21日

三维与四维世界建模综述

三维与四维世界建模综述

专知会员服务

31+阅读 · 2025年9月12日

从二维到三维认知：通用世界模型简要综述

从二维到三维认知：通用世界模型简要综述

专知会员服务

31+阅读 · 2025年6月26日

【MIT博士论文】通过神经物理构建世界模型

【MIT博士论文】通过神经物理构建世界模型

专知会员服务

36+阅读 · 2025年4月3日

【CVPR2025】具有显式3D建模的世界一致性视频扩散

【CVPR2025】具有显式3D建模的世界一致性视频扩散

专知会员服务

11+阅读 · 2025年2月27日

【伯克利博士论文】通过视频生成学习关于世界的知识

【伯克利博士论文】通过视频生成学习关于世界的知识

专知会员服务

29+阅读 · 2024年12月19日

理解世界还是预测未来？世界模型的综合综述

理解世界还是预测未来？世界模型的综合综述

专知会员服务

78+阅读 · 2024年11月26日

Sora是世界模拟器吗? 世界模型及其以后的综述

Sora是世界模拟器吗? 世界模型及其以后的综述

专知会员服务

41+阅读 · 2024年5月9日

美国陆军研究实验室《支持C2互操作性和传感器融合的全球信息网络架构评估》2022年技术总结报告

美国陆军研究实验室《支持C2互操作性和传感器融合的全球信息网络架构评估》2022年技术总结报告

专知

64+阅读 · 2022年7月15日

3D Human相关研究总结：人体、姿态估计、人体重建等

3D Human相关研究总结：人体、姿态估计、人体重建等

PaperWeekly

27+阅读 · 2021年3月1日

【AAAI2021】面向真实世界的鲁棒视觉信息提取:新的数据集和新颖的解决方案

【AAAI2021】面向真实世界的鲁棒视觉信息提取:新的数据集和新颖的解决方案

专知

12+阅读 · 2021年2月18日

【ACM Multimedia2020】跨模态注意力Transformer模型的深度视频理解

【ACM Multimedia2020】跨模态注意力Transformer模型的深度视频理解

专知

15+阅读 · 2020年8月30日

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

专知

21+阅读 · 2019年11月14日

MediaPipe：Google Research 开源的跨平台多媒体机器学习模型应用框架

MediaPipe：Google Research 开源的跨平台多媒体机器学习模型应用框架

AI100

17+阅读 · 2019年9月14日

【泡泡点云时空】跟踪与三角测量中一种通过兴趣点网络进行多视图2D/3D刚性配准的方法

【泡泡点云时空】跟踪与三角测量中一种通过兴趣点网络进行多视图2D/3D刚性配准的方法

泡泡机器人SLAM

17+阅读 · 2019年7月8日

【大数据】StreamSets：一个大数据采集工具

【大数据】StreamSets：一个大数据采集工具

产业智能官

40+阅读 · 2018年12月5日

【干货】谷歌一个模型解决所有问题《One Model to Learn Them All》论文深度解读

【干货】谷歌一个模型解决所有问题《One Model to Learn Them All》论文深度解读

专知

10+阅读 · 2018年1月14日

视觉里程计：起源、优势、对比、应用

视觉里程计：起源、优势、对比、应用

计算机视觉life

18+阅读 · 2017年7月17日

高性能视频云转码服务的优化机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

分层异构网络面向视频流的绿色节能通信研究

国家自然科学基金

6+阅读 · 2015年12月31日

保持结构的交互式图像及视频编辑方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于人类3D视觉感应的2D到3D视频转换关键技术研究

国家自然科学基金

2+阅读 · 2015年12月31日

海量数据流实时分发技术研究

国家自然科学基金

3+阅读 · 2015年12月31日

自由视点三维视频中纹理-深度图像联合建模及应用

国家自然科学基金

0+阅读 · 2015年12月31日

多纹理多深度的3D视频码率控制研究

国家自然科学基金

0+阅读 · 2015年12月31日

带有通信量化和延时的多智能体系统一致性研究

国家自然科学基金

0+阅读 · 2014年12月31日

网络的小世界结构及其上随机游动的混合时

国家自然科学基金

1+阅读 · 2014年12月31日

城市群空间交互情景分析与多尺度协同模拟

国家自然科学基金

0+阅读 · 2014年12月31日

Holo-World: Unified Camera, Object and Weather Control for Video World Model

Arxiv

0+阅读 · 6月18日

ImageWAM: Do World Action Models Really Need Video Generation, or Just Image Editing?

Arxiv

0+阅读 · 6月17日

MaineCoon: Pursuing A Real-Time Audio-Visual Social World Model

Arxiv

0+阅读 · 6月16日

ActWorld: From Explorable to Interactive World Model via Action-Aware Memory

Arxiv

0+阅读 · 6月16日

DreamX-World 1.0: A General-Purpose Interactive World Model

Arxiv

0+阅读 · 6月15日

BiWM: Advancing Open-Source Interactive Video World Models with Bidirectional Autoregression

Arxiv

0+阅读 · 6月10日

MIND-V: Hierarchical World Model for Long-Horizon Robotic Manipulation with RL-based Physical Alignment

Arxiv

0+阅读 · 6月9日

WorldLens: Full-Spectrum Evaluations of Driving World Models in Real World

Arxiv

0+阅读 · 6月1日

Gamma-World: Generative Multi-Agent World Modeling Beyond Two Players

Arxiv

0+阅读 · 5月27日

Quantitative Video World Model Evaluation for Geometric-Consistency

Arxiv

0+阅读 · 5月14日

VIP会员

文章信息

相关主题

最新内容

《美国空军B-2“幽灵”隐身轰炸机系统工程案例研究》117页

《美国空军B-2“幽灵”隐身轰炸机系统工程案例研究》117页

专知会员服务

5+阅读 · 今天4:35

隐身技术前沿综述：物理机理、工程实践与战略展望

隐身技术前沿综述：物理机理、工程实践与战略展望

专知会员服务

3+阅读 · 今天4:24

《多变海洋环境下无人水面艇与自主水下机器人对接的最优路径规划》

《多变海洋环境下无人水面艇与自主水下机器人对接的最优路径规划》

专知会员服务

3+阅读 · 今天4:18

《以机反机：基于无人机载麦克风的空中周界入侵检测》

《以机反机：基于无人机载麦克风的空中周界入侵检测》

专知会员服务

4+阅读 · 今天4:15

《无人机脆弱性利用：网络空间力量的新域》

《无人机脆弱性利用：网络空间力量的新域》

专知会员服务

2+阅读 · 今天4:08

美空军如何将人工智能从战场部署至后方机关

美空军如何将人工智能从战场部署至后方机关

专知会员服务

11+阅读 · 7月31日

《美战争部指令文件：网络空间效应与使能能力测试评估》

《美战争部指令文件：网络空间效应与使能能力测试评估》

专知会员服务

7+阅读 · 7月31日

《史诗怒火行动：多域前瞻评估》49页报告

《史诗怒火行动：多域前瞻评估》49页报告

专知会员服务

7+阅读 · 7月31日

《英国防部：未来空战系统数字化战略》33页

《英国防部：未来空战系统数字化战略》33页

专知会员服务

5+阅读 · 7月31日

《面向自主飞行网络的智能体人工智能架构》

《面向自主飞行网络的智能体人工智能架构》

专知会员服务

7+阅读 · 7月31日

“史诗怒火”行动：现代多域作战的重要节点

“史诗怒火”行动：现代多域作战的重要节点

专知会员服务

8+阅读 · 7月30日

《下一代无线网络中的多无人机通信资源管理》

《下一代无线网络中的多无人机通信资源管理》

专知会员服务

8+阅读 · 7月30日

《高分辨率模拟下的聚合战斗建模：以“会战交锋”场景为例》

《高分辨率模拟下的聚合战斗建模：以“会战交锋”场景为例》

专知会员服务

9+阅读 · 7月30日

《人机协同在安全关键型操作决策中的应用》120页

《人机协同在安全关键型操作决策中的应用》120页

专知会员服务

8+阅读 · 7月30日

网络防御与空中力量网络防护：21世纪空中力量历史与理论的启示

网络防御与空中力量网络防护：21世纪空中力量历史与理论的启示

专知会员服务

6+阅读 · 7月30日

相关VIP内容

【综述】世界模型：架构、方法、推理与应用全景

【综述】世界模型：架构、方法、推理与应用全景

专知会员服务

34+阅读 · 6月2日

从看见到认知世界：视觉世界模型综述

从看见到认知世界：视觉世界模型综述

专知会员服务

17+阅读 · 5月17日

视频理解：从几何与语义表征到统一模型架构

视频理解：从几何与语义表征到统一模型架构

专知会员服务

20+阅读 · 3月21日

三维与四维世界建模综述

三维与四维世界建模综述

专知会员服务

31+阅读 · 2025年9月12日

从二维到三维认知：通用世界模型简要综述

从二维到三维认知：通用世界模型简要综述

专知会员服务

31+阅读 · 2025年6月26日

【MIT博士论文】通过神经物理构建世界模型

【MIT博士论文】通过神经物理构建世界模型

专知会员服务

36+阅读 · 2025年4月3日

【CVPR2025】具有显式3D建模的世界一致性视频扩散

【CVPR2025】具有显式3D建模的世界一致性视频扩散

专知会员服务

11+阅读 · 2025年2月27日

【伯克利博士论文】通过视频生成学习关于世界的知识

【伯克利博士论文】通过视频生成学习关于世界的知识

专知会员服务

29+阅读 · 2024年12月19日

理解世界还是预测未来？世界模型的综合综述

理解世界还是预测未来？世界模型的综合综述

专知会员服务

78+阅读 · 2024年11月26日

Sora是世界模拟器吗? 世界模型及其以后的综述

Sora是世界模拟器吗? 世界模型及其以后的综述

专知会员服务

41+阅读 · 2024年5月9日

热门VIP内容

开通专知VIP会员享更多权益服务

隐身技术前沿综述：物理机理、工程实践与战略展望

《以机反机：基于无人机载麦克风的空中周界入侵检测》

《美国空军B-2“幽灵”隐身轰炸机系统工程案例研究》117页

《多变海洋环境下无人水面艇与自主水下机器人对接的最优路径规划》

相关资讯

美国陆军研究实验室《支持C2互操作性和传感器融合的全球信息网络架构评估》2022年技术总结报告

美国陆军研究实验室《支持C2互操作性和传感器融合的全球信息网络架构评估》2022年技术总结报告

专知

64+阅读 · 2022年7月15日

3D Human相关研究总结：人体、姿态估计、人体重建等

3D Human相关研究总结：人体、姿态估计、人体重建等

PaperWeekly

27+阅读 · 2021年3月1日

【AAAI2021】面向真实世界的鲁棒视觉信息提取:新的数据集和新颖的解决方案

【AAAI2021】面向真实世界的鲁棒视觉信息提取:新的数据集和新颖的解决方案

专知

12+阅读 · 2021年2月18日

【ACM Multimedia2020】跨模态注意力Transformer模型的深度视频理解

【ACM Multimedia2020】跨模态注意力Transformer模型的深度视频理解

专知

15+阅读 · 2020年8月30日

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

专知

21+阅读 · 2019年11月14日

MediaPipe：Google Research 开源的跨平台多媒体机器学习模型应用框架

MediaPipe：Google Research 开源的跨平台多媒体机器学习模型应用框架

AI100

17+阅读 · 2019年9月14日

【泡泡点云时空】跟踪与三角测量中一种通过兴趣点网络进行多视图2D/3D刚性配准的方法

【泡泡点云时空】跟踪与三角测量中一种通过兴趣点网络进行多视图2D/3D刚性配准的方法

泡泡机器人SLAM

17+阅读 · 2019年7月8日

【大数据】StreamSets：一个大数据采集工具

【大数据】StreamSets：一个大数据采集工具

产业智能官

40+阅读 · 2018年12月5日

【干货】谷歌一个模型解决所有问题《One Model to Learn Them All》论文深度解读

【干货】谷歌一个模型解决所有问题《One Model to Learn Them All》论文深度解读

专知

10+阅读 · 2018年1月14日

视觉里程计：起源、优势、对比、应用

视觉里程计：起源、优势、对比、应用

计算机视觉life

18+阅读 · 2017年7月17日

相关论文

Holo-World: Unified Camera, Object and Weather Control for Video World Model

Arxiv

0+阅读 · 6月18日

ImageWAM: Do World Action Models Really Need Video Generation, or Just Image Editing?

Arxiv

0+阅读 · 6月17日

MaineCoon: Pursuing A Real-Time Audio-Visual Social World Model

Arxiv

0+阅读 · 6月16日

ActWorld: From Explorable to Interactive World Model via Action-Aware Memory

Arxiv

0+阅读 · 6月16日

DreamX-World 1.0: A General-Purpose Interactive World Model

Arxiv

0+阅读 · 6月15日

BiWM: Advancing Open-Source Interactive Video World Models with Bidirectional Autoregression

Arxiv

0+阅读 · 6月10日

MIND-V: Hierarchical World Model for Long-Horizon Robotic Manipulation with RL-based Physical Alignment

Arxiv

0+阅读 · 6月9日

WorldLens: Full-Spectrum Evaluations of Driving World Models in Real World

Arxiv

0+阅读 · 6月1日

Gamma-World: Generative Multi-Agent World Modeling Beyond Two Players

Arxiv

0+阅读 · 5月27日

Quantitative Video World Model Evaluation for Geometric-Consistency

Arxiv

0+阅读 · 5月14日

相关基金

高性能视频云转码服务的优化机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

分层异构网络面向视频流的绿色节能通信研究

国家自然科学基金

6+阅读 · 2015年12月31日

保持结构的交互式图像及视频编辑方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于人类3D视觉感应的2D到3D视频转换关键技术研究

国家自然科学基金

2+阅读 · 2015年12月31日

海量数据流实时分发技术研究

国家自然科学基金

3+阅读 · 2015年12月31日

自由视点三维视频中纹理-深度图像联合建模及应用

国家自然科学基金

0+阅读 · 2015年12月31日

多纹理多深度的3D视频码率控制研究

国家自然科学基金

0+阅读 · 2015年12月31日

带有通信量化和延时的多智能体系统一致性研究

国家自然科学基金

0+阅读 · 2014年12月31日

网络的小世界结构及其上随机游动的混合时

国家自然科学基金

1+阅读 · 2014年12月31日

城市群空间交互情景分析与多尺度协同模拟

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员