Feedforward geometric foundation models achieve strong short-window reconstruction, yet scaling them to minutes-long videos is bottlenecked by quadratic attention complexity or limited effective memory in recurrent designs. We present LoGeR (Long-context Geometric Reconstruction), a novel architecture that scales dense 3D reconstruction to extremely long sequences without post-optimization. LoGeR processes video streams in chunks, leveraging strong bidirectional priors for high-fidelity intra-chunk reasoning. To manage the critical challenge of coherence across chunk boundaries, we propose a learning-based hybrid memory module. This dual-component system combines a parametric Test-Time Training (TTT) memory to anchor the global coordinate frame and prevent scale drift, alongside a non-parametric Sliding Window Attention (SWA) mechanism to preserve uncompressed context for high-precision adjacent alignment. Remarkably, this memory architecture enables LoGeR to be trained on sequences of 128 frames, and generalize up to thousands of frames during inference. Evaluated across standard benchmarks and a newly repurposed VBR dataset with sequences of up to 19k frames, LoGeR substantially outperforms prior state-of-the-art feedforward methods--reducing ATE on KITTI by over 74%--and achieves robust, globally consistent reconstruction over unprecedented horizons.


翻译:前馈几何基础模型在短窗口重建中表现优异,但将其扩展至数分钟级视频时,受到二次注意力复杂度或循环设计中有穷有效存储的瓶颈。我们提出LoGeR(长上下文几何重建)——一种无需后优化即可将稠密三维重建扩展至极长序列的新型架构。LoGeR以分块方式处理视频流,利用强双向先验实现分块内高保真推理。为应对跨分块边界一致性的关键挑战,我们提出基于学习的混合存储模块。该双组件系统结合参数化测试时训练(TTT)存储来锚定全局坐标系并防止尺度漂移,同时结合非参数化滑动窗口注意力(SWA)机制以保留未压缩上下文实现高精度邻域对齐。值得关注的是,该存储架构使LoGeR能够在128帧序列上训练,并在推理阶段泛化至数千帧。在标准基准及新改造的VBR数据集(最长含1.9万帧序列)上的评估表明,LoGeR显著优于现有最先进前馈方法——在KITTI数据集上ATE降低超74%——并在前所未有的时间跨度上实现鲁棒的全局一致重建。

0
下载
关闭预览

相关内容

最新综述:速览Transformer长文本建模研究进展
专知会员服务
46+阅读 · 2023年3月15日
三维重建 3D reconstruction 有哪些实用算法?
极市平台
13+阅读 · 2020年2月23日
一文概览基于深度学习的超分辨率重建架构
国家自然科学基金
1+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
7+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
8+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
6+阅读 · 6月17日
相关VIP内容
最新综述:速览Transformer长文本建模研究进展
专知会员服务
46+阅读 · 2023年3月15日
相关基金
国家自然科学基金
1+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员