Recent advances in diffusion transformers have empowered video generation models to generate high-quality video clips from texts or images. However, world models with the ability to predict long-horizon futures from past observations and actions remain underexplored, especially for general-purpose scenarios and various forms of actions. To bridge this gap, we introduce Astra, an interactive general world model that generates real-world futures for diverse scenarios (e.g., autonomous driving, robot grasping) with precise action interactions (e.g., camera motion, robot action). We propose an autoregressive denoising architecture and use temporal causal attention to aggregate past observations and support streaming outputs. We use a noise-augmented history memory to avoid over-reliance on past frames to balance responsiveness with temporal coherence. For precise action control, we introduce an action-aware adapter that directly injects action signals into the denoising process. We further develop a mixture of action experts that dynamically route heterogeneous action modalities, enhancing versatility across diverse real-world tasks such as exploration, manipulation, and camera control. Astra achieves interactive, consistent, and general long-term video prediction and supports various forms of interactions. Experiments across multiple datasets demonstrate the improvements of Astra in fidelity, long-range prediction, and action alignment over existing state-of-the-art world models.


翻译:近期扩散Transformer的进展使得视频生成模型能够从文本或图像生成高质量视频片段。然而,能够根据历史观测和动作预测长时程未来的世界模型仍未被充分探索,尤其是在通用场景和多种动作形式方面。为弥补这一空白,我们提出了Astra——一种交互式通用世界模型,可为多样化场景(如自动驾驶、机器人抓取)生成具有精确动作交互(如相机运动、机器人动作)的真实世界未来状态。我们提出了一种自回归去噪架构,使用时序因果注意力机制聚合历史观测并支持流式输出。我们采用噪声增强的历史记忆模块,以避免对过往帧的过度依赖,从而在响应性与时序连贯性之间取得平衡。为实现精确动作控制,我们引入了动作感知适配器,将动作信号直接注入去噪过程。我们进一步开发了动作专家混合机制,动态路由异构动作模态,增强了模型在探索、操控及相机控制等多样化现实任务中的泛化能力。Astra实现了交互式、连贯且通用的长时程视频预测,并支持多种形式的交互。在多个数据集上的实验表明,Astra在保真度、长程预测能力和动作对齐方面均优于现有最先进的世界模型。

0
下载
关闭预览

相关内容

从二维到三维认知:通用世界模型简要综述
专知会员服务
29+阅读 · 2025年6月26日
视频扩散模型综述:基础、实现与应用
专知会员服务
13+阅读 · 2025年4月24日
理解世界还是预测未来?世界模型的综合综述
专知会员服务
76+阅读 · 2024年11月26日
Sora是世界模拟器吗? 世界模型及其以后的综述
专知会员服务
40+阅读 · 2024年5月9日
Transformer如何用于视频?最新「视频Transformer」2022综述
专知会员服务
76+阅读 · 2022年1月20日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员