The grand vision of enabling persistent, large-scale 3D visual geometry understanding is shackled by the irreconcilable demands of scalability and long-term stability. While offline models like VGGT achieve inspiring geometry capability, their batch-based nature renders them irrelevant for live systems. Streaming architectures, though the intended solution for live operation, have proven inadequate. Existing methods either fail to support truly infinite-horizon inputs or suffer from catastrophic drift over long sequences. We shatter this long-standing dilemma with InfiniteVGGT, a causal visual geometry transformer that operationalizes the concept of a rolling memory through a bounded yet adaptive and perpetually expressive KV cache. Capitalizing on this, we devise a training-free, attention-agnostic pruning strategy that intelligently discards obsolete information, effectively ``rolling'' the memory forward with each new frame. Fully compatible with FlashAttention, InfiniteVGGT finally alleviates the compromise, enabling infinite-horizon streaming while outperforming existing streaming methods in long-term stability. The ultimate test for such a system is its performance over a truly infinite horizon, a capability that has been impossible to rigorously validate due to the lack of extremely long-term, continuous benchmarks. To address this critical gap, we introduce the Long3D benchmark, which, for the first time, enables a rigorous evaluation of continuous 3D geometry estimation on sequences about 10,000 frames. This provides the definitive evaluation platform for future research in long-term 3D geometry understanding. Code is available at: https://github.com/AutoLab-SAI-SJTU/InfiniteVGGT


翻译:实现持久、大规模三维视觉几何理解的宏伟愿景,一直受制于可扩展性与长期稳定性之间难以调和的矛盾。尽管VGGT等离线模型展现出卓越的几何理解能力,但其批处理特性使其无法应用于实时系统。流式架构虽为实时操作而设计,却存在固有缺陷:现有方法或无法支持真正无限时长的输入,或在长序列上遭受灾难性漂移。本文提出的InfiniteVGGT彻底解决了这一长期困境——这是一个因果视觉几何Transformer,通过有界且自适应、持续富有表达力的KV缓存机制,实现了滚动内存的操作化。基于此,我们设计了一种无需训练、与注意力机制无关的剪枝策略,智能丢弃过时信息,随着每帧新数据的到来有效"滚动"更新内存。InfiniteVGGT完全兼容FlashAttention,最终打破了传统权衡,在实现无限时长流式处理的同时,其长期稳定性超越了现有流式方法。此类系统的终极考验在于其在真正无限时长上的性能,由于缺乏超长期连续基准测试,该能力一直无法被严格验证。为填补这一关键空白,我们首次提出了Long3D基准测试,可对约10,000帧连续序列的三维几何估计进行严格评估,为未来长期三维几何理解研究提供了权威评估平台。代码已开源:https://github.com/AutoLab-SAI-SJTU/InfiniteVGGT

0
下载
关闭预览

相关内容

Python图像处理,366页pdf,Image Operators Image Processing in Python
【NeurIPS2019】图变换网络:Graph Transformer Network
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员