Anticipating diverse future states is a central challenge in video world modeling. Discriminative world models produce a deterministic prediction that implicitly averages over possible futures, while existing generative world models remain computationally expensive. Recent work demonstrates that predicting the future in the feature space of a vision foundation model (VFM), rather than a latent space optimized for pixel reconstruction, requires significantly fewer world model parameters. However, most such approaches remain discriminative. In this work, we introduce DeltaTok, a tokenizer that encodes the VFM feature difference between consecutive frames into a single continuous "delta" token, and DeltaWorld, a generative world model operating on these tokens to efficiently generate diverse plausible futures. Delta tokens reduce video from a three-dimensional spatio-temporal representation to a one-dimensional temporal sequence, for example yielding a 1,024x token reduction with 512x512 frames. This compact representation enables tractable multi-hypothesis training, where many futures are generated in parallel and only the best is supervised. At inference, this leads to diverse predictions in a single forward pass. Experiments on dense forecasting tasks demonstrate that DeltaWorld forecasts futures that more closely align with real-world outcomes, while having over 35x fewer parameters and using 2,000x fewer FLOPs than existing generative world models. Code and weights: https://deltatok.github.io.


翻译:预测多种未来状态是视频世界建模的核心挑战。判别式世界模型通过隐式平均可能的未来状态产生确定性预测,而现有生成式世界模型计算成本高昂。近期研究表明,在视觉基础模型(VFM)的特征空间中预测未来——而非针对像素重建优化的隐空间——所需的模型参数显著更少。然而,这类方法大多仍属于判别式模型。本文提出DeltaTok分词器,将连续帧之间的VFM特征差异编码为单个连续"增量"标记;同时提出DeltaWorld生成式世界模型,基于此类标记高效生成多样化的合理未来状态。增量标记将视频从三维时空表示压缩为一维时序序列,例如对512×512像素帧可实现1024倍标记压缩。这种紧凑表示支持可行的多假设训练策略——并行生成多个未来状态,仅对最优结果进行监督训练。推理时,该模型通过单次前向传播即可生成多样化预测。在密集预测任务上的实验表明,DeltaWorld预测的未来状态更贴近真实世界结果,同时参数量比现有生成式世界模型减少超过35倍,计算量降低2000倍。代码与权重:https://deltatok.github.io。

0
下载
关闭预览

相关内容

智能体化世界建模:基础、能力、规律及展望
专知会员服务
23+阅读 · 4月28日
【CVPR2026】GeoWorld:几何世界模型
专知会员服务
16+阅读 · 3月1日
《用人工智能模拟视觉世界:路线图》
专知会员服务
20+阅读 · 2025年11月12日
三维与四维世界建模综述
专知会员服务
30+阅读 · 2025年9月12日
走向通用人工智能之路,世界模型为何不可或缺?
专知会员服务
19+阅读 · 2025年7月1日
从二维到三维认知:通用世界模型简要综述
专知会员服务
30+阅读 · 2025年6月26日
模拟真实世界:多模态生成模型的统一综述
专知会员服务
34+阅读 · 2025年3月7日
一文概览基于深度学习的超分辨率重建架构
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
23+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
51+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Arxiv
0+阅读 · 6月11日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
8+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
10+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
6+阅读 · 6月17日
相关VIP内容
智能体化世界建模:基础、能力、规律及展望
专知会员服务
23+阅读 · 4月28日
【CVPR2026】GeoWorld:几何世界模型
专知会员服务
16+阅读 · 3月1日
《用人工智能模拟视觉世界:路线图》
专知会员服务
20+阅读 · 2025年11月12日
三维与四维世界建模综述
专知会员服务
30+阅读 · 2025年9月12日
走向通用人工智能之路,世界模型为何不可或缺?
专知会员服务
19+阅读 · 2025年7月1日
从二维到三维认知:通用世界模型简要综述
专知会员服务
30+阅读 · 2025年6月26日
模拟真实世界:多模态生成模型的统一综述
专知会员服务
34+阅读 · 2025年3月7日
相关基金
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
23+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
51+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员