Online 3D reconstruction from streaming inputs requires both long-term temporal consistency and efficient memory usage. Although causal variants of VGGT address this challenge through a key-value (KV) cache mechanism, the cache grows linearly with the stream length, creating a major memory bottleneck. Under limited memory budgets, early cache eviction significantly degrades reconstruction quality and temporal consistency. In this work, we observe that attention in causal transformers for 3D reconstruction exhibits intrinsic spatio-temporal sparsity. Based on this insight, we propose STAC, a Spatio-Temporally Aware Cache Compression framework for streaming 3D reconstruction with large causal transformers. STAC consists of three key components: (1) a Working Temporal Token Caching mechanism that preserves long-term informative tokens using decayed cumulative attention scores; (2) a Long-term Spatial Token Caching scheme that compresses spatially redundant tokens into voxel-aligned representations for memory-efficient storage; and (3) a Chunk-based Multi-frame Optimization strategy that jointly processes consecutive frames to improve temporal coherence and GPU efficiency. Extensive experiments show that STAC achieves state-of-the-art reconstruction quality while reducing memory consumption by nearly 10x and accelerating inference by 4x, substantially improving the scalability of real-time 3D reconstruction in streaming settings.


翻译:流式输入在线三维重建需要在长期时间一致性及高效内存使用间取得平衡。尽管VGGT的因果变体通过键值(KV)缓存机制应对这一挑战,但缓存大小随流长度线性增长,成为主要内存瓶颈。在有限内存预算下,早期缓存驱逐会显著降低重建质量与时间一致性。本工作观察到,用于三维重建的因果Transformer注意力呈现内在的时空稀疏性。基于此洞察,我们提出STAC——一种面向大规模因果Transformer流式三维重建的时空感知缓存压缩框架。STAC包含三个关键组件:(1)工作时序令牌缓存机制,利用衰减累积注意力分数保留长期信息性令牌;(2)长程空间令牌缓存方案,将空间冗余令牌压缩为体素对齐表示以实现内存高效存储;(3)基于分块的多帧优化策略,通过联合处理连续帧提升时间连贯性与GPU效率。大量实验表明,STAC在实现最先进重建质量的同时,将内存消耗降低近10倍、推理速度提升4倍,显著增强了实时三维重建在流式场景中的可扩展性。

0
下载
关闭预览

相关内容

前馈式三维场景建模
专知会员服务
12+阅读 · 4月17日
【CVPR2025】BIMBA:面向长范围视频问答的选择性扫描压缩
动态三维场景重建研究综述
专知会员服务
36+阅读 · 2024年8月23日
【CVPR2024】VastGaussian: 用于大型场景重建的巨大三维高斯
【Flink】基于 Flink 的流式数据实时去重
AINLP
14+阅读 · 2020年9月29日
三维重建 3D reconstruction 有哪些实用算法?
极市平台
13+阅读 · 2020年2月23日
计算机视觉方向简介 | 三维重建技术概述
计算机视觉life
26+阅读 · 2019年6月13日
【大数据】StreamSets:一个大数据采集工具
产业智能官
40+阅读 · 2018年12月5日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
23+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
VIP会员
最新内容
ICML 2026 | CFPO:用反事实策略优化提升多模态推理
专知会员服务
0+阅读 · 11分钟前
综述 | 世界动作模型:少做梦,多行动
专知会员服务
0+阅读 · 13分钟前
美以伊冲突:无人机与人工智能的运用
专知会员服务
1+阅读 · 25分钟前
《特种部队在透明战场中的生存力》最新报告
专知会员服务
1+阅读 · 45分钟前
《人工智能生成的零日漏洞:对未来作战的影响》
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
8+阅读 · 6月22日
21世纪的无人机战争
专知会员服务
4+阅读 · 6月22日
《量子技术的军事任务技术适配与利用》
专知会员服务
5+阅读 · 6月22日
相关VIP内容
前馈式三维场景建模
专知会员服务
12+阅读 · 4月17日
【CVPR2025】BIMBA:面向长范围视频问答的选择性扫描压缩
动态三维场景重建研究综述
专知会员服务
36+阅读 · 2024年8月23日
【CVPR2024】VastGaussian: 用于大型场景重建的巨大三维高斯
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
23+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员