Online 3D reconstruction requires estimating camera pose and scene geometry under strict causal and bounded-memory constraints. Existing methods often suffer from drift, jitter, or collapse on long sequences. We trace these failures to a fundamental mismatch. Streaming geometry is inherently temporally heterogeneous, with evidence ranging from short-lived correspondences to persistent global scale. However, current architectures impose uniform and pathological influence patterns. For example, sliding windows enforce hard cutoffs, while ungated recurrence and causal attention cause cache saturation and spike-like attention sinks. To resolve this, we formalize geometric propagation as an \emph{evidence influence kernel} and propose HorizonStream, a long-horizon Transformer that explicitly factorizes this kernel. For the long-range temporal factor, Geometric Linear Attention learns channel-wise decay rates to enable bounded, multi-timescale propagation of geometric evidence. For the short-range spatial factor, Geometric Local Attention with Spatiotemporal RoPE performs reliable 3D matching while suppressing attention sinks. Finally, Metric Readout Tokens recover stable scale and rigid pose directly from the persistent geometric state. Extensive experiments show that HorizonStream, trained on only 48-frame clips, generalizes stably to sequences exceeding 10,000\ frames with constant memory and linear time, achieving state-of-the-art streaming 3D reconstruction performance. Project Page: https://3dagentworld.github.io/horizonstream/


翻译:在线三维重建要求在严格的因果约束和有限内存约束下估计相机位姿与场景几何。现有方法在长序列上常出现漂移、抖动或崩溃。我们追溯这些失败源于根本性失配:流式几何本质上具有时域异质性——证据涵盖从短时对应关系到持久全局尺度。然而当前架构施加了统一且病态的影响模式,例如滑动窗口强制硬截断,无门控递归与因果注意力导致缓存饱和及尖峰式注意力汇聚点。为解决此问题,我们将几何传播形式化为"证据影响核",并提出HorizonStream——一种显式分解该核的长时域Transformer。针对长程时域因子,几何线性注意力学习通道级衰减率,实现有界、多时间尺度的几何证据传播;针对短程空域因子,结合时空旋转位置编码的几何局部注意力在抑制注意力汇聚点的同时执行可靠三维匹配。最终,度量读出标记直接从持久化几何状态恢复稳定尺度与刚性位姿。大量实验表明:仅用48帧片段训练的HorizonStream,能在恒等内存与线性时间内稳定泛化至超10000帧序列,实现流式三维重建的当前最优性能。项目页面:https://3dagentworld.github.io/horizonstream/

0
下载
关闭预览

相关内容

前馈式三维场景建模
专知会员服务
12+阅读 · 4月17日
深度学习的多视角三维重建技术综述
专知会员服务
23+阅读 · 2025年6月7日
动态三维场景重建研究综述
专知会员服务
36+阅读 · 2024年8月23日
深度学习背景下的图像三维重建技术进展综述
专知会员服务
39+阅读 · 2023年9月4日
【Flink】基于 Flink 的流式数据实时去重
AINLP
14+阅读 · 2020年9月29日
三维重建 3D reconstruction 有哪些实用算法?
极市平台
13+阅读 · 2020年2月23日
计算机视觉方向简介 | 三维重建技术概述
计算机视觉life
26+阅读 · 2019年6月13日
【泡泡点云时空】FlowNet3D:学习三维点云中的场景流
泡泡机器人SLAM
41+阅读 · 2019年5月19日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
23+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
6+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
7+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
4+阅读 · 6月17日
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
23+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员