In this paper, we explore the overlooked challenge of stability and temporal consistency in interactive video generation, which synthesizes dynamic and controllable video worlds through interactive behaviors such as camera movements and text prompts. Despite remarkable progress in world modeling, current methods still suffer from severe instability and temporal degradation, often leading to spatial drift and scene collapse during long-horizon interactions. To better understand this issue, we initially investigate the underlying causes of instability and identify that the major source of error accumulation originates from the same scene, where generated frames gradually deviate from the initial clean state and propagate errors to subsequent frames. Building upon this observation, we propose a simple yet effective method, \textbf{StableWorld}, a Dynamic Frame Eviction Mechanism. By continuously filtering out degraded frames while retaining geometrically consistent ones, StableWorld effectively prevents cumulative drift at its source, leading to more stable and temporal consistency of interactive generation. Promising results on multiple interactive video models, \eg, Matrix-Game, Open-Oasis, and Hunyuan-GameCraft, demonstrate that StableWorld is model-agnostic and can be applied to different interactive video generation frameworks to substantially improve stability, temporal consistency, and generalization across diverse interactive scenarios.


翻译:本文探讨了交互式视频生成中一个被忽视的挑战——稳定性与时间一致性。该任务旨在通过相机移动和文本提示等交互行为,合成动态且可控的视频世界。尽管世界建模领域已取得显著进展,但现有方法仍存在严重的稳定性不足和时间退化问题,常常在长程交互过程中导致空间漂移和场景崩溃。为了更好地理解这一问题,我们首先探究了不稳定的根本原因,并发现误差累积的主要来源在于同一场景内:生成的帧会逐渐偏离初始的干净状态,并将误差传播至后续帧。基于这一观察,我们提出了一种简单而有效的方法——\textbf{StableWorld},即动态帧剔除机制。该方法通过持续过滤掉已退化的帧,同时保留几何一致的帧,从而从源头上有效防止累积漂移,实现更稳定、时间更一致的交互式生成。在多个交互视频模型(例如 Matrix-Game、Open-Oasis 和 Hunyuan-GameCraft)上的实验结果表明,StableWorld 具有模型无关性,可应用于不同的交互视频生成框架,显著提升其在多样化交互场景下的稳定性、时间一致性和泛化能力。

0
下载
关闭预览

相关内容

交互式生成视频综述
专知会员服务
10+阅读 · 2025年5月4日
【CVPR2025】具有显式3D建模的世界一致性视频扩散
专知会员服务
11+阅读 · 2025年2月27日
探索长视频生成的最新趋势
专知会员服务
23+阅读 · 2024年12月30日
【伯克利博士论文】通过视频生成学习关于世界的知识
专知会员服务
29+阅读 · 2024年12月19日
《AI生成视频评估综述》
专知会员服务
28+阅读 · 2024年10月30日
长视频生成的综述:挑战、方法与前景
专知会员服务
47+阅读 · 2024年3月26日
Meta-Transformer:多模态学习的统一框架
专知会员服务
59+阅读 · 2023年7月21日
Transformer如何用于视频?最新「视频Transformer」2022综述
专知会员服务
76+阅读 · 2022年1月20日
Fast-OCNet: 更快更好的OCNet.
极市平台
21+阅读 · 2019年2月10日
视频生成的前沿论文,看我们推荐的7篇就够了
人工智能前沿讲习班
34+阅读 · 2018年12月30日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
VIP会员
相关VIP内容
交互式生成视频综述
专知会员服务
10+阅读 · 2025年5月4日
【CVPR2025】具有显式3D建模的世界一致性视频扩散
专知会员服务
11+阅读 · 2025年2月27日
探索长视频生成的最新趋势
专知会员服务
23+阅读 · 2024年12月30日
【伯克利博士论文】通过视频生成学习关于世界的知识
专知会员服务
29+阅读 · 2024年12月19日
《AI生成视频评估综述》
专知会员服务
28+阅读 · 2024年10月30日
长视频生成的综述:挑战、方法与前景
专知会员服务
47+阅读 · 2024年3月26日
Meta-Transformer:多模态学习的统一框架
专知会员服务
59+阅读 · 2023年7月21日
Transformer如何用于视频?最新「视频Transformer」2022综述
专知会员服务
76+阅读 · 2022年1月20日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员