Flash-Mono: Feed-Forward Accelerated Gaussian Splatting Monocular SLAM - 专知论文

会员服务 ·

0

优化器 · SLAM · 3D · 环 · 隐状态 ·

Flash-Mono: Feed-Forward Accelerated Gaussian Splatting Monocular SLAM

翻译：暂无翻译

Zicheng Zhang,Ke Wu,Xiangting Meng,Keyu Liu,Jieru Zhao,Wenchao Ding

Monocular 3D Gaussian Splatting SLAM suffers from critical limitations in time efficiency, geometric accuracy, and multi-view consistency. These issues stem from the time-consuming $\textit{Train-from-Scratch}$ optimization and the lack of inter-frame scale consistency from single-frame geometry priors. We contend that a feed-forward paradigm, leveraging multi-frame context to predict Gaussian attributes directly, is crucial for addressing these challenges. We present Flash-Mono, a system composed of three core modules: a feed-forward prediction frontend, a 2D Gaussian Splatting mapping backend, and an efficient hidden-state-based loop closure module. We trained a recurrent feed-forward frontend model that progressively aggregates multi-frame visual features into a hidden state via cross attention and jointly predicts camera poses and per-pixel Gaussian properties. By directly predicting Gaussian attributes, our method bypasses the burdensome per-frame optimization required in optimization-based GS-SLAM, achieving a $\textbf{10x}$ speedup while ensuring high-quality rendering. The power of our recurrent architecture extends beyond efficient prediction. The hidden states act as compact submap descriptors, facilitating efficient loop closure and global $\mathrm{Sim}(3)$ optimization to mitigate the long-standing challenge of drift. For enhanced geometric fidelity, we replace conventional 3D Gaussian ellipsoids with 2D Gaussian surfels. Extensive experiments demonstrate that Flash-Mono achieves state-of-the-art performance in both tracking and mapping quality, highlighting its potential for embodied perception and real-time reconstruction applications. Project page: https://victkk.github.io/flash-mono.

翻译：暂无翻译

0

相关内容

优化器

迈向下一代 SLAM：基于 3DGS 的 SLAM 技术综述——聚焦性能、鲁棒性及未来方向

迈向下一代 SLAM：基于 3DGS 的 SLAM 技术综述——聚焦性能、鲁棒性及未来方向

专知会员服务

13+阅读 · 2月8日

【CVPR 2022】深度安全多视图聚类:降低因视图增加而导致聚类性能下降的风险，Deep Safe Multi-view Clustering: Reducing the Risk of Clustering Performance Degradation Caused by View Increase

【CVPR 2022】深度安全多视图聚类:降低因视图增加而导致聚类性能下降的风险，Deep Safe Multi-view Clustering: Reducing the Risk of Clustering Performance Degradation Caused by View Increase

专知会员服务

10+阅读 · 2022年3月12日

【CVPR 2022】基于元内存传输的跨域少镜头语义分割，Remember the Difference: Cross-Domain Few-Shot Semantic Segmentation via Meta-Memory Transfer

【CVPR 2022】基于元内存传输的跨域少镜头语义分割，Remember the Difference: Cross-Domain Few-Shot Semantic Segmentation via Meta-Memory Transfer

专知会员服务

13+阅读 · 2022年3月12日

【CVPR 2022】单目3D语义场景完成框架，MonoScene: Monocular 3D Semantic Scene Completion

【CVPR 2022】单目3D语义场景完成框架，MonoScene: Monocular 3D Semantic Scene Completion

专知会员服务

16+阅读 · 2022年3月3日

【CVPR2021】CVPR2021 | MotionRNN：针对复杂时空运动的通用视频预测模型

专知会员服务

14+阅读 · 2021年4月22日

【CVPR2020】视觉导航的神经拓扑SLAM，56页ppt，Neural Topological SLAM for Visual Navigation

【CVPR2020】视觉导航的神经拓扑SLAM，56页ppt，Neural Topological SLAM for Visual Navigation

专知会员服务

14+阅读 · 2020年6月18日

【CVPR2020】视觉导航的神经拓扑SLAM，Neural Topological SLAM for Visual Navigation

【CVPR2020】视觉导航的神经拓扑SLAM，Neural Topological SLAM for Visual Navigation

专知会员服务

52+阅读 · 2020年5月26日

视觉惯性SLAM综述

专知会员服务

87+阅读 · 2019年12月13日

FlowQA: Grasping Flow in History for Conversational Machine Comprehension

FlowQA: Grasping Flow in History for Conversational Machine Comprehension

专知会员服务

34+阅读 · 2019年10月18日

Deep Learning Based Detection and Correction of Cardiac MR Motion Artefacts During Reconstruction for High-Quality Segmentation

Deep Learning Based Detection and Correction of Cardiac MR Motion Artefacts During Reconstruction for High-Quality Segmentation

专知会员服务

59+阅读 · 2019年10月17日

综述 | 激光与视觉融合SLAM

综述 | 激光与视觉融合SLAM

计算机视觉life

18+阅读 · 2020年10月8日

【泡泡图灵智库】协同视觉-惯性SLAM

【泡泡图灵智库】协同视觉-惯性SLAM

泡泡机器人SLAM

29+阅读 · 2019年9月6日

【泡泡一分钟】单目视觉惯性SLAM的重定位，全局优化和地图融合

【泡泡一分钟】单目视觉惯性SLAM的重定位，全局优化和地图融合

泡泡机器人SLAM

59+阅读 · 2019年7月15日

【泡泡图灵智库】Detect-SLAM：目标检测和SLAM相互收益

【泡泡图灵智库】Detect-SLAM：目标检测和SLAM相互收益

泡泡机器人SLAM

14+阅读 · 2019年6月28日

【泡泡一分钟】优化对比度增强以提高SLAM重定位环境中视觉跟踪的稳健性

【泡泡一分钟】优化对比度增强以提高SLAM重定位环境中视觉跟踪的稳健性

泡泡机器人SLAM

10+阅读 · 2019年4月26日

【泡泡图灵智库】GCNv2：高效关联预测实时SLAM（arXiv）

【泡泡图灵智库】GCNv2：高效关联预测实时SLAM（arXiv）

泡泡机器人SLAM

45+阅读 · 2019年4月15日

【泡泡一分钟】CVI-SLAM –协同视觉惯性SLAM

【泡泡一分钟】CVI-SLAM –协同视觉惯性SLAM

泡泡机器人SLAM

21+阅读 · 2018年12月18日

【泡泡图灵智库】直接法视觉SLAM的光照变化鲁棒性（ICRA-33）

【泡泡图灵智库】直接法视觉SLAM的光照变化鲁棒性（ICRA-33）

泡泡机器人SLAM

24+阅读 · 2018年9月18日

【泡泡一分钟】终极SLAM？结合事件相机、RGB和IMU用于高动态、高速场景的鲁棒视觉SLAM

【泡泡一分钟】终极SLAM？结合事件相机、RGB和IMU用于高动态、高速场景的鲁棒视觉SLAM

泡泡机器人SLAM

15+阅读 · 2018年4月2日

【泡泡一分钟】动态环境下稳健的单目SLAM

【泡泡一分钟】动态环境下稳健的单目SLAM

泡泡机器人SLAM

13+阅读 · 2018年3月22日

基于空域联合时频分解的海面慢速小目标检测新方法

国家自然科学基金

3+阅读 · 2015年12月31日

2D/3D视觉信息融合仿生SLAM关键问题研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于液晶的多层湍流大气成像过程模拟技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

结构入水空泡流动的高精度SPH模拟研究

国家自然科学基金

1+阅读 · 2015年12月31日

脉冲式干扰下高超声速飞行器的有限时间状态受限控制

国家自然科学基金

0+阅读 · 2015年12月31日

三维MOFs-贵金属复合物在表面增强拉曼散射中的传感效能研究

国家自然科学基金

0+阅读 · 2015年12月31日

复杂腔体上电磁散射大波数问题非协调元逼近及加速技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

以RNF213基因创始者突变p.R4810K为TALENs核心靶点构建的新Moyamoya病斑马鱼遗传模型

国家自然科学基金

1+阅读 · 2014年12月31日

飞秒瞬态光谱测量和相干控制研究新型光敏剂咔咯能量转移和电荷转移过程

国家自然科学基金

0+阅读 · 2014年12月31日

AlGaN/GaN MIS-HEMT器件在质子辐射下的退化机理，寿命预测模型与加固技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

RMGS-SLAM: Real-time Multi-sensor Gaussian Splatting SLAM

Arxiv

0+阅读 · 4月21日

GlobalSplat: Efficient Feed-Forward 3D Gaussian Splatting via Global Scene Tokens

Arxiv

0+阅读 · 4月16日

GGD-SLAM: Monocular 3DGS SLAM Powered by Generalizable Motion Model for Dynamic Environments

Arxiv

0+阅读 · 4月14日

WaterSplat-SLAM: Photorealistic Monocular SLAM in Underwater Environment

Arxiv

0+阅读 · 4月6日

SING3R-SLAM: Submap-based Indoor Monocular Gaussian SLAM with 3D Reconstruction Priors

Arxiv

0+阅读 · 4月3日

SplatSuRe: Selective Super-Resolution for Multi-view Consistent 3D Gaussian Splatting

Arxiv

0+阅读 · 3月28日

SpeeDe3DGS: Speedy Deformable 3D Gaussian Splatting with Temporal Pruning and Motion Grouping

Arxiv

0+阅读 · 3月27日

Less Gaussians, Texture More: 4K Feed-Forward Textured Splatting

Arxiv

0+阅读 · 3月26日

Fast and Robust Deformable 3D Gaussian Splatting

Arxiv

0+阅读 · 3月21日

Monocular Object and Plane SLAM in Structured Environments

Monocular Object and Plane SLAM in Structured Environments

Arxiv

12+阅读 · 2018年9月10日

VIP会员

文章信息

相关主题

最新内容

DeepSeek 版Claude Code，免费小白安装教程来了！

DeepSeek 版Claude Code，免费小白安装教程来了！

专知会员服务

7+阅读 · 5月5日

【ICML Spotlight 2026】 T²PO: 不确定性引导的探索控制框架，实现稳定多轮Agentic强化学习

【ICML Spotlight 2026】 T²PO: 不确定性引导的探索控制框架，实现稳定多轮Agentic强化学习

专知会员服务

4+阅读 · 5月5日

基础模型驱动的工业智能体：技术成熟度、能力变迁与未竟之挑战

基础模型驱动的工业智能体：技术成熟度、能力变迁与未竟之挑战

专知会员服务

4+阅读 · 5月5日

《机动炮兵的演进与未来：技术进步、历史沿革与炮兵作战前瞻》

《机动炮兵的演进与未来：技术进步、历史沿革与炮兵作战前瞻》

专知会员服务

5+阅读 · 5月5日

《火炮弹药快速效能建模：提升互操作性与技术优势》（报告）

《火炮弹药快速效能建模：提升互操作性与技术优势》（报告）

专知会员服务

7+阅读 · 5月5日

《美空军条令出版物 2-0：情报（2026版）》

《美空军条令出版物 2-0：情报（2026版）》

专知会员服务

13+阅读 · 5月5日

美陆军“飞蝇陷阱5.0”项目将新兴技术交到作战人员手中

美陆军“飞蝇陷阱5.0”项目将新兴技术交到作战人员手中

专知会员服务

5+阅读 · 5月5日

帕兰提尔 Gotham：一个游戏规则改变器

帕兰提尔 Gotham：一个游戏规则改变器

专知会员服务

7+阅读 · 5月5日

【ICML 2026】用测试时训练线性化视觉Transformer：T⁵ 实现 Softmax 注意力到线性复杂度的快速转换

【ICML 2026】用测试时训练线性化视觉Transformer：T⁵ 实现 Softmax 注意力到线性复杂度的快速转换

专知会员服务

3+阅读 · 5月5日

【AAAI 2026】大模型做知识蒸馏：CMM将LLM特征拆解给小模型协同学习

【AAAI 2026】大模型做知识蒸馏：CMM将LLM特征拆解给小模型协同学习

专知会员服务

2+阅读 · 5月5日

【ICML Spotlight 2026 】NonZero：交互引导探索的多智能体蒙特卡洛树搜索

【ICML Spotlight 2026 】NonZero：交互引导探索的多智能体蒙特卡洛树搜索

专知会员服务

8+阅读 · 5月4日

【综述】机器人学习中的世界模型：全面综述

【综述】机器人学习中的世界模型：全面综述

专知会员服务

11+阅读 · 5月4日

伊朗的导弹-无人机行动及其对美国威慑的影响

伊朗的导弹-无人机行动及其对美国威慑的影响

专知会员服务

9+阅读 · 5月4日

《未来战术无人机系统案例研究：量身定制采办策略方法》100页报告

《未来战术无人机系统案例研究：量身定制采办策略方法》100页报告

专知会员服务

9+阅读 · 5月4日

战争贩子：2026年第一季度美国对中东潜在军售激增

战争贩子：2026年第一季度美国对中东潜在军售激增

专知会员服务

7+阅读 · 5月4日

相关VIP内容

迈向下一代 SLAM：基于 3DGS 的 SLAM 技术综述——聚焦性能、鲁棒性及未来方向

迈向下一代 SLAM：基于 3DGS 的 SLAM 技术综述——聚焦性能、鲁棒性及未来方向

专知会员服务

13+阅读 · 2月8日

【CVPR 2022】深度安全多视图聚类:降低因视图增加而导致聚类性能下降的风险，Deep Safe Multi-view Clustering: Reducing the Risk of Clustering Performance Degradation Caused by View Increase

【CVPR 2022】深度安全多视图聚类:降低因视图增加而导致聚类性能下降的风险，Deep Safe Multi-view Clustering: Reducing the Risk of Clustering Performance Degradation Caused by View Increase

专知会员服务

10+阅读 · 2022年3月12日

【CVPR 2022】基于元内存传输的跨域少镜头语义分割，Remember the Difference: Cross-Domain Few-Shot Semantic Segmentation via Meta-Memory Transfer

【CVPR 2022】基于元内存传输的跨域少镜头语义分割，Remember the Difference: Cross-Domain Few-Shot Semantic Segmentation via Meta-Memory Transfer

专知会员服务

13+阅读 · 2022年3月12日

【CVPR 2022】单目3D语义场景完成框架，MonoScene: Monocular 3D Semantic Scene Completion

【CVPR 2022】单目3D语义场景完成框架，MonoScene: Monocular 3D Semantic Scene Completion

专知会员服务

16+阅读 · 2022年3月3日

【CVPR2021】CVPR2021 | MotionRNN：针对复杂时空运动的通用视频预测模型

专知会员服务

14+阅读 · 2021年4月22日

【CVPR2020】视觉导航的神经拓扑SLAM，56页ppt，Neural Topological SLAM for Visual Navigation

【CVPR2020】视觉导航的神经拓扑SLAM，56页ppt，Neural Topological SLAM for Visual Navigation

专知会员服务

14+阅读 · 2020年6月18日

【CVPR2020】视觉导航的神经拓扑SLAM，Neural Topological SLAM for Visual Navigation

【CVPR2020】视觉导航的神经拓扑SLAM，Neural Topological SLAM for Visual Navigation

专知会员服务

52+阅读 · 2020年5月26日

视觉惯性SLAM综述

专知会员服务

87+阅读 · 2019年12月13日

FlowQA: Grasping Flow in History for Conversational Machine Comprehension

FlowQA: Grasping Flow in History for Conversational Machine Comprehension

专知会员服务

34+阅读 · 2019年10月18日

Deep Learning Based Detection and Correction of Cardiac MR Motion Artefacts During Reconstruction for High-Quality Segmentation

Deep Learning Based Detection and Correction of Cardiac MR Motion Artefacts During Reconstruction for High-Quality Segmentation

专知会员服务

59+阅读 · 2019年10月17日

热门VIP内容

开通专知VIP会员享更多权益服务

【ICML Spotlight 2026】 T²PO: 不确定性引导的探索控制框架，实现稳定多轮Agentic强化学习

《机动炮兵的演进与未来：技术进步、历史沿革与炮兵作战前瞻》

DeepSeek 版Claude Code，免费小白安装教程来了！

基础模型驱动的工业智能体：技术成熟度、能力变迁与未竟之挑战

相关资讯

综述 | 激光与视觉融合SLAM

综述 | 激光与视觉融合SLAM

计算机视觉life

18+阅读 · 2020年10月8日

【泡泡图灵智库】协同视觉-惯性SLAM

【泡泡图灵智库】协同视觉-惯性SLAM

泡泡机器人SLAM

29+阅读 · 2019年9月6日

【泡泡一分钟】单目视觉惯性SLAM的重定位，全局优化和地图融合

【泡泡一分钟】单目视觉惯性SLAM的重定位，全局优化和地图融合

泡泡机器人SLAM

59+阅读 · 2019年7月15日

【泡泡图灵智库】Detect-SLAM：目标检测和SLAM相互收益

【泡泡图灵智库】Detect-SLAM：目标检测和SLAM相互收益

泡泡机器人SLAM

14+阅读 · 2019年6月28日

【泡泡一分钟】优化对比度增强以提高SLAM重定位环境中视觉跟踪的稳健性

【泡泡一分钟】优化对比度增强以提高SLAM重定位环境中视觉跟踪的稳健性

泡泡机器人SLAM

10+阅读 · 2019年4月26日

【泡泡图灵智库】GCNv2：高效关联预测实时SLAM（arXiv）

【泡泡图灵智库】GCNv2：高效关联预测实时SLAM（arXiv）

泡泡机器人SLAM

45+阅读 · 2019年4月15日

【泡泡一分钟】CVI-SLAM –协同视觉惯性SLAM

【泡泡一分钟】CVI-SLAM –协同视觉惯性SLAM

泡泡机器人SLAM

21+阅读 · 2018年12月18日

【泡泡图灵智库】直接法视觉SLAM的光照变化鲁棒性（ICRA-33）

【泡泡图灵智库】直接法视觉SLAM的光照变化鲁棒性（ICRA-33）

泡泡机器人SLAM

24+阅读 · 2018年9月18日

【泡泡一分钟】终极SLAM？结合事件相机、RGB和IMU用于高动态、高速场景的鲁棒视觉SLAM

【泡泡一分钟】终极SLAM？结合事件相机、RGB和IMU用于高动态、高速场景的鲁棒视觉SLAM

泡泡机器人SLAM

15+阅读 · 2018年4月2日

【泡泡一分钟】动态环境下稳健的单目SLAM

【泡泡一分钟】动态环境下稳健的单目SLAM

泡泡机器人SLAM

13+阅读 · 2018年3月22日

相关论文

RMGS-SLAM: Real-time Multi-sensor Gaussian Splatting SLAM

Arxiv

0+阅读 · 4月21日

GlobalSplat: Efficient Feed-Forward 3D Gaussian Splatting via Global Scene Tokens

Arxiv

0+阅读 · 4月16日

GGD-SLAM: Monocular 3DGS SLAM Powered by Generalizable Motion Model for Dynamic Environments

Arxiv

0+阅读 · 4月14日

WaterSplat-SLAM: Photorealistic Monocular SLAM in Underwater Environment

Arxiv

0+阅读 · 4月6日

SING3R-SLAM: Submap-based Indoor Monocular Gaussian SLAM with 3D Reconstruction Priors

Arxiv

0+阅读 · 4月3日

SplatSuRe: Selective Super-Resolution for Multi-view Consistent 3D Gaussian Splatting

Arxiv

0+阅读 · 3月28日

SpeeDe3DGS: Speedy Deformable 3D Gaussian Splatting with Temporal Pruning and Motion Grouping

Arxiv

0+阅读 · 3月27日

Less Gaussians, Texture More: 4K Feed-Forward Textured Splatting

Arxiv

0+阅读 · 3月26日

Fast and Robust Deformable 3D Gaussian Splatting

Arxiv

0+阅读 · 3月21日

Monocular Object and Plane SLAM in Structured Environments

Monocular Object and Plane SLAM in Structured Environments

Arxiv

12+阅读 · 2018年9月10日

相关基金

基于空域联合时频分解的海面慢速小目标检测新方法

国家自然科学基金

3+阅读 · 2015年12月31日

2D/3D视觉信息融合仿生SLAM关键问题研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于液晶的多层湍流大气成像过程模拟技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

结构入水空泡流动的高精度SPH模拟研究

国家自然科学基金

1+阅读 · 2015年12月31日

脉冲式干扰下高超声速飞行器的有限时间状态受限控制

国家自然科学基金

0+阅读 · 2015年12月31日

三维MOFs-贵金属复合物在表面增强拉曼散射中的传感效能研究

国家自然科学基金

0+阅读 · 2015年12月31日

复杂腔体上电磁散射大波数问题非协调元逼近及加速技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

以RNF213基因创始者突变p.R4810K为TALENs核心靶点构建的新Moyamoya病斑马鱼遗传模型

国家自然科学基金

1+阅读 · 2014年12月31日

飞秒瞬态光谱测量和相干控制研究新型光敏剂咔咯能量转移和电荷转移过程

国家自然科学基金

0+阅读 · 2014年12月31日

AlGaN/GaN MIS-HEMT器件在质子辐射下的退化机理，寿命预测模型与加固技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员