UniSem: Generalizable Semantic 3D Reconstruction from Sparse Unposed Images - 专知论文

会员服务 ·

0

稀疏 · 泛化 · 分割 · 重建 · 三维重建 ·

UniSem: Generalizable Semantic 3D Reconstruction from Sparse Unposed Images

翻译：UniSem：从稀疏无位姿图像中实现可泛化的语义三维重建

Guibiao Liao,Qian Ren,Kaimin Liao,Hua Wang,Zhi Chen,Luchao Wang,Yaohua Tang

Semantic-aware 3D reconstruction from sparse, unposed images remains challenging for feed-forward 3D Gaussian Splatting (3DGS). Existing methods often predict an over-complete set of Gaussian primitives under sparse-view supervision, leading to unstable geometry and inferior depth quality. Meanwhile, they rely solely on 2D segmenter features for semantic lifting, which provides weak 3D-level and limited generalizable supervision, resulting in incomplete 3D semantics in novel scenes. To address these issues, we propose UniSem, a unified framework that jointly improves depth accuracy and semantic generalization via two key components. First, Error-aware Gaussian Dropout (EGD) performs error-guided capacity control by suppressing redundancy-prone Gaussians using rendering error cues, producing meaningful, geometrically stable Gaussian representations for improved depth estimation. Second, we introduce a Mix-training Curriculum (MTC) that progressively blends 2D segmenter-lifted semantics with the model's own emergent 3D semantic priors, implemented with object-level prototype alignment to enhance semantic coherence and completeness. Extensive experiments on ScanNet and Replica show that UniSem achieves superior performance in depth prediction and open-vocabulary 3D segmentation across varying numbers of input views. Notably, with 16-view inputs, UniSem reduces depth Rel by 15.2% and improves open-vocabulary segmentation mAcc by 3.7% over strong baselines.

翻译：从稀疏、无位姿图像中进行语义感知的三维重建对于前馈式三维高斯溅射（3DGS）而言仍具挑战。现有方法通常在稀疏视角监督下预测一组过度完备的高斯基元，导致几何结构不稳定且深度质量较差。同时，这些方法仅依赖二维分割器特征进行语义提升，这提供了较弱的3D层面且泛化性有限的监督，导致在新场景中出现不完整的三维语义。为解决这些问题，我们提出了UniSem，一个通过两个关键组件联合提升深度精度与语义泛化能力的统一框架。首先，误差感知高斯丢弃（EGD）通过利用渲染误差线索抑制冗余倾向的高斯分布，执行误差引导的容量控制，从而为改进的深度估计生成有意义、几何稳定的高斯表示。其次，我们引入了混合训练课程（MTC），该策略逐步将二维分割器提升的语义与模型自身涌现的三维语义先验相融合，并通过对象级原型对齐实现，以增强语义的一致性与完整性。在ScanNet和Replica数据集上的大量实验表明，UniSem在不同输入视角数量的情况下，在深度预测和开放词汇三维分割方面均取得了优越性能。值得注意的是，在16个输入视角下，与强基线相比，UniSem将深度相对误差（Rel）降低了15.2%，并将开放词汇分割的平均准确率（mAcc）提升了3.7%。

0

相关内容

前馈式三维场景建模

前馈式三维场景建模

专知会员服务

11+阅读 · 4月17日

深度学习的多视角三维重建技术综述

深度学习的多视角三维重建技术综述

专知会员服务

22+阅读 · 2025年6月7日

【剑桥博士论文】基于图像的三维重建：神经隐式表示的可微渲染方法

【剑桥博士论文】基于图像的三维重建：神经隐式表示的可微渲染方法

专知会员服务

18+阅读 · 2025年6月5日

【ICML2025】解决3D语言高斯溅射中的视角依赖语义

【ICML2025】解决3D语言高斯溅射中的视角依赖语义

专知会员服务

8+阅读 · 2025年6月2日

【ICLR2025】基于图形引导的图像场景重建：3D高斯散射方法

【ICLR2025】基于图形引导的图像场景重建：3D高斯散射方法

专知会员服务

13+阅读 · 2025年2月25日

【AAAI2025】FatesGS：基于深度特征一致性的高斯溅射法进行快速精确的稀疏视角表面重建

【AAAI2025】FatesGS：基于深度特征一致性的高斯溅射法进行快速精确的稀疏视角表面重建

专知会员服务

10+阅读 · 2025年1月9日

【CVPR2024】VastGaussian: 用于大型场景重建的巨大三维高斯

【CVPR2024】VastGaussian: 用于大型场景重建的巨大三维高斯

专知会员服务

25+阅读 · 2024年3月3日

深度学习背景下的图像三维重建技术进展综述

深度学习背景下的图像三维重建技术进展综述

专知会员服务

39+阅读 · 2023年9月4日

【CVPR 2022】基于实例深度估计的统一深度感知全景分割 PanopticDepth: Per-Instance Depth Estimation for Unified Depth-Aware Panoptic Segmentation

【CVPR 2022】基于实例深度估计的统一深度感知全景分割 PanopticDepth: Per-Instance Depth Estimation for Unified Depth-Aware Panoptic Segmentation

专知会员服务

18+阅读 · 2022年3月19日

【DeepMind】PolyGen: 一种三维网格的自回归生成模型，PolyGen: An Autoregressive Generative Model of 3D Meshes

【DeepMind】PolyGen: 一种三维网格的自回归生成模型，PolyGen: An Autoregressive Generative Model of 3D Meshes

专知会员服务

37+阅读 · 2020年2月27日

三维重建 3D reconstruction 有哪些实用算法？

三维重建 3D reconstruction 有哪些实用算法？

极市平台

13+阅读 · 2020年2月23日

【华南理工大学ICCV-CVPR2019】基于单一的RGB图像的拓扑感知的三维物体重建

【华南理工大学ICCV-CVPR2019】基于单一的RGB图像的拓扑感知的三维物体重建

专知

18+阅读 · 2020年1月15日

计算机视觉方向简介 | 三维重建技术概述

计算机视觉方向简介 | 三维重建技术概述

计算机视觉life

26+阅读 · 2019年6月13日

SkeletonNet：完整的人体三维位姿重建方法

SkeletonNet：完整的人体三维位姿重建方法

计算机视觉life

21+阅读 · 2019年1月21日

公开课|腾讯优图高级研究员张润泽：基于图像的大规模三维重建

公开课|腾讯优图高级研究员张润泽：基于图像的大规模三维重建

计算机视觉life

19+阅读 · 2018年12月27日

无人机图像处理技术精髓汇总 (一) 三维还原重建技术简介

无人机图像处理技术精髓汇总 (一) 三维还原重建技术简介

深度学习

13+阅读 · 2018年12月18日

计算机视觉方向简介 | 深度相机室内实时稠密三维重建

计算机视觉方向简介 | 深度相机室内实时稠密三维重建

计算机视觉life

17+阅读 · 2018年5月23日

深度学习之图像超分辨重建技术

深度学习之图像超分辨重建技术

机器学习研究会

12+阅读 · 2018年3月24日

干货 | CCCV 2017讲习班笔记-基于图像的大规模场景三维重建（下）

干货 | CCCV 2017讲习班笔记-基于图像的大规模场景三维重建（下）

AI科技评论

13+阅读 · 2017年11月13日

干货 | CCCV 2017讲习班笔记-基于图像的大规模场景三维重建（上）

干货 | CCCV 2017讲习班笔记-基于图像的大规模场景三维重建（上）

AI科技评论

10+阅读 · 2017年11月12日

基于深度学习的复杂退化模糊图像恢复

国家自然科学基金

5+阅读 · 2015年12月31日

基于体素划分模型的多视图深度信息融合三维重建研究

国家自然科学基金

2+阅读 · 2015年12月31日

非凸稀疏优化的恢复条件与低复杂度算法的研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于线性规划感知的压缩高光谱遥感图像快速重建

国家自然科学基金

0+阅读 · 2015年12月31日

图像复原中非凸稀疏优化问题的快速算法

国家自然科学基金

0+阅读 · 2015年12月31日

自由视点三维视频中纹理-深度图像联合建模及应用

国家自然科学基金

0+阅读 · 2015年12月31日

基于深度学习的三维模型检索技术

国家自然科学基金

13+阅读 · 2014年12月31日

复杂场景点线光流三维重建模型的建立及鲁棒性分析

国家自然科学基金

2+阅读 · 2014年12月31日

基于超像素稀疏表示的图像超分辨率方法研究

国家自然科学基金

1+阅读 · 2014年12月31日

动态群稀疏约束场景知识建模的感兴趣监控目标超分辨率重建

国家自然科学基金

1+阅读 · 2014年12月31日

MessyKitchens: Contact-rich object-level 3D scene reconstruction

Arxiv

0+阅读 · 3月17日

SegviGen: Repurposing 3D Generative Model for Part Segmentation

Arxiv

0+阅读 · 3月17日

VolSplat: Rethinking Feed-Forward 3D Gaussian Splatting with Voxel-Aligned Prediction

Arxiv

0+阅读 · 3月12日

3DGEER: 3D Gaussian Rendering Made Exact and Efficient for Generic Cameras

Arxiv

0+阅读 · 3月12日

Spherical-GOF: Geometry-Aware Panoramic Gaussian Opacity Fields for 3D Scene Reconstruction

Arxiv

0+阅读 · 3月9日

ZipMap: Linear-Time Stateful 3D Reconstruction with Test-Time Training

Arxiv

0+阅读 · 3月4日

OnlineX: Unified Online 3D Reconstruction and Understanding with Active-to-Stable State Evolution

Arxiv

0+阅读 · 3月3日

VIRGi: View-dependent Instant Recoloring of 3D Gaussians Splats

Arxiv

0+阅读 · 3月3日

ArtiFixer: Enhancing and Extending 3D Reconstruction with Auto-Regressive Diffusion Models

Arxiv

0+阅读 · 2月28日

RAP: Fast Feedforward Rendering-Free Attribute-Guided Primitive Importance Score Prediction for Efficient 3D Gaussian Splatting Processing

Arxiv

0+阅读 · 2月23日

VIP会员

文章信息

相关主题

最新内容

【ICML spotlight 2026】HELIX：通过可学习特征身份嵌入实现时间序列插补的混合编码框架

【ICML spotlight 2026】HELIX：通过可学习特征身份嵌入实现时间序列插补的混合编码框架

专知会员服务

0+阅读 · 8分钟前

具身智能安全综述：风险、攻击与防御的多层分类框架

具身智能安全综述：风险、攻击与防御的多层分类框架

专知会员服务

0+阅读 · 11分钟前

【ICML 2026】GLANCE：用视觉-语言好奇心驱动VLM智能体主动探索

【ICML 2026】GLANCE：用视觉-语言好奇心驱动VLM智能体主动探索

专知会员服务

2+阅读 · 今天12:09

具身AI安全综述：风险、攻击与防御

具身AI安全综述：风险、攻击与防御

专知会员服务

2+阅读 · 今天12:02

DeepSeek 版Claude Code，免费小白安装教程来了！

DeepSeek 版Claude Code，免费小白安装教程来了！

专知会员服务

13+阅读 · 5月5日

【ICML Spotlight 2026】 T²PO: 不确定性引导的探索控制框架，实现稳定多轮Agentic强化学习

【ICML Spotlight 2026】 T²PO: 不确定性引导的探索控制框架，实现稳定多轮Agentic强化学习

专知会员服务

6+阅读 · 5月5日

基础模型驱动的工业智能体：技术成熟度、能力变迁与未竟之挑战

基础模型驱动的工业智能体：技术成熟度、能力变迁与未竟之挑战

专知会员服务

8+阅读 · 5月5日

《机动炮兵的演进与未来：技术进步、历史沿革与炮兵作战前瞻》

《机动炮兵的演进与未来：技术进步、历史沿革与炮兵作战前瞻》

专知会员服务

8+阅读 · 5月5日

《火炮弹药快速效能建模：提升互操作性与技术优势》（报告）

《火炮弹药快速效能建模：提升互操作性与技术优势》（报告）

专知会员服务

10+阅读 · 5月5日

《美空军条令出版物 2-0：情报（2026版）》

《美空军条令出版物 2-0：情报（2026版）》

专知会员服务

15+阅读 · 5月5日

美陆军“飞蝇陷阱5.0”项目将新兴技术交到作战人员手中

美陆军“飞蝇陷阱5.0”项目将新兴技术交到作战人员手中

专知会员服务

7+阅读 · 5月5日

帕兰提尔 Gotham：一个游戏规则改变器

帕兰提尔 Gotham：一个游戏规则改变器

专知会员服务

9+阅读 · 5月5日

【ICML 2026】用测试时训练线性化视觉Transformer：T⁵ 实现 Softmax 注意力到线性复杂度的快速转换

【ICML 2026】用测试时训练线性化视觉Transformer：T⁵ 实现 Softmax 注意力到线性复杂度的快速转换

专知会员服务

3+阅读 · 5月5日

【AAAI 2026】大模型做知识蒸馏：CMM将LLM特征拆解给小模型协同学习

【AAAI 2026】大模型做知识蒸馏：CMM将LLM特征拆解给小模型协同学习

专知会员服务

3+阅读 · 5月5日

【ICML Spotlight 2026 】NonZero：交互引导探索的多智能体蒙特卡洛树搜索

【ICML Spotlight 2026 】NonZero：交互引导探索的多智能体蒙特卡洛树搜索

专知会员服务

8+阅读 · 5月4日

相关VIP内容

前馈式三维场景建模

前馈式三维场景建模

专知会员服务

11+阅读 · 4月17日

深度学习的多视角三维重建技术综述

深度学习的多视角三维重建技术综述

专知会员服务

22+阅读 · 2025年6月7日

【剑桥博士论文】基于图像的三维重建：神经隐式表示的可微渲染方法

【剑桥博士论文】基于图像的三维重建：神经隐式表示的可微渲染方法

专知会员服务

18+阅读 · 2025年6月5日

【ICML2025】解决3D语言高斯溅射中的视角依赖语义

【ICML2025】解决3D语言高斯溅射中的视角依赖语义

专知会员服务

8+阅读 · 2025年6月2日

【ICLR2025】基于图形引导的图像场景重建：3D高斯散射方法

【ICLR2025】基于图形引导的图像场景重建：3D高斯散射方法

专知会员服务

13+阅读 · 2025年2月25日

【AAAI2025】FatesGS：基于深度特征一致性的高斯溅射法进行快速精确的稀疏视角表面重建

【AAAI2025】FatesGS：基于深度特征一致性的高斯溅射法进行快速精确的稀疏视角表面重建

专知会员服务

10+阅读 · 2025年1月9日

【CVPR2024】VastGaussian: 用于大型场景重建的巨大三维高斯

【CVPR2024】VastGaussian: 用于大型场景重建的巨大三维高斯

专知会员服务

25+阅读 · 2024年3月3日

深度学习背景下的图像三维重建技术进展综述

深度学习背景下的图像三维重建技术进展综述

专知会员服务

39+阅读 · 2023年9月4日

【CVPR 2022】基于实例深度估计的统一深度感知全景分割 PanopticDepth: Per-Instance Depth Estimation for Unified Depth-Aware Panoptic Segmentation

【CVPR 2022】基于实例深度估计的统一深度感知全景分割 PanopticDepth: Per-Instance Depth Estimation for Unified Depth-Aware Panoptic Segmentation

专知会员服务

18+阅读 · 2022年3月19日

【DeepMind】PolyGen: 一种三维网格的自回归生成模型，PolyGen: An Autoregressive Generative Model of 3D Meshes

【DeepMind】PolyGen: 一种三维网格的自回归生成模型，PolyGen: An Autoregressive Generative Model of 3D Meshes

专知会员服务

37+阅读 · 2020年2月27日

热门VIP内容

开通专知VIP会员享更多权益服务

【ICML 2026】GLANCE：用视觉-语言好奇心驱动VLM智能体主动探索

DeepSeek 版Claude Code，免费小白安装教程来了！

具身智能安全综述：风险、攻击与防御的多层分类框架

具身AI安全综述：风险、攻击与防御

相关资讯

三维重建 3D reconstruction 有哪些实用算法？

三维重建 3D reconstruction 有哪些实用算法？

极市平台

13+阅读 · 2020年2月23日

【华南理工大学ICCV-CVPR2019】基于单一的RGB图像的拓扑感知的三维物体重建

【华南理工大学ICCV-CVPR2019】基于单一的RGB图像的拓扑感知的三维物体重建

专知

18+阅读 · 2020年1月15日

计算机视觉方向简介 | 三维重建技术概述

计算机视觉方向简介 | 三维重建技术概述

计算机视觉life

26+阅读 · 2019年6月13日

SkeletonNet：完整的人体三维位姿重建方法

SkeletonNet：完整的人体三维位姿重建方法

计算机视觉life

21+阅读 · 2019年1月21日

公开课|腾讯优图高级研究员张润泽：基于图像的大规模三维重建

公开课|腾讯优图高级研究员张润泽：基于图像的大规模三维重建

计算机视觉life

19+阅读 · 2018年12月27日

无人机图像处理技术精髓汇总 (一) 三维还原重建技术简介

无人机图像处理技术精髓汇总 (一) 三维还原重建技术简介

深度学习

13+阅读 · 2018年12月18日

计算机视觉方向简介 | 深度相机室内实时稠密三维重建

计算机视觉方向简介 | 深度相机室内实时稠密三维重建

计算机视觉life

17+阅读 · 2018年5月23日

深度学习之图像超分辨重建技术

深度学习之图像超分辨重建技术

机器学习研究会

12+阅读 · 2018年3月24日

干货 | CCCV 2017讲习班笔记-基于图像的大规模场景三维重建（下）

干货 | CCCV 2017讲习班笔记-基于图像的大规模场景三维重建（下）

AI科技评论

13+阅读 · 2017年11月13日

干货 | CCCV 2017讲习班笔记-基于图像的大规模场景三维重建（上）

干货 | CCCV 2017讲习班笔记-基于图像的大规模场景三维重建（上）

AI科技评论

10+阅读 · 2017年11月12日

相关论文

MessyKitchens: Contact-rich object-level 3D scene reconstruction

Arxiv

0+阅读 · 3月17日

SegviGen: Repurposing 3D Generative Model for Part Segmentation

Arxiv

0+阅读 · 3月17日

VolSplat: Rethinking Feed-Forward 3D Gaussian Splatting with Voxel-Aligned Prediction

Arxiv

0+阅读 · 3月12日

3DGEER: 3D Gaussian Rendering Made Exact and Efficient for Generic Cameras

Arxiv

0+阅读 · 3月12日

Spherical-GOF: Geometry-Aware Panoramic Gaussian Opacity Fields for 3D Scene Reconstruction

Arxiv

0+阅读 · 3月9日

ZipMap: Linear-Time Stateful 3D Reconstruction with Test-Time Training

Arxiv

0+阅读 · 3月4日

OnlineX: Unified Online 3D Reconstruction and Understanding with Active-to-Stable State Evolution

Arxiv

0+阅读 · 3月3日

VIRGi: View-dependent Instant Recoloring of 3D Gaussians Splats

Arxiv

0+阅读 · 3月3日

ArtiFixer: Enhancing and Extending 3D Reconstruction with Auto-Regressive Diffusion Models

Arxiv

0+阅读 · 2月28日

RAP: Fast Feedforward Rendering-Free Attribute-Guided Primitive Importance Score Prediction for Efficient 3D Gaussian Splatting Processing

Arxiv

0+阅读 · 2月23日

相关基金

基于深度学习的复杂退化模糊图像恢复

国家自然科学基金

5+阅读 · 2015年12月31日

基于体素划分模型的多视图深度信息融合三维重建研究

国家自然科学基金

2+阅读 · 2015年12月31日

非凸稀疏优化的恢复条件与低复杂度算法的研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于线性规划感知的压缩高光谱遥感图像快速重建

国家自然科学基金

0+阅读 · 2015年12月31日

图像复原中非凸稀疏优化问题的快速算法

国家自然科学基金

0+阅读 · 2015年12月31日

自由视点三维视频中纹理-深度图像联合建模及应用

国家自然科学基金

0+阅读 · 2015年12月31日

基于深度学习的三维模型检索技术

国家自然科学基金

13+阅读 · 2014年12月31日

复杂场景点线光流三维重建模型的建立及鲁棒性分析

国家自然科学基金

2+阅读 · 2014年12月31日

基于超像素稀疏表示的图像超分辨率方法研究

国家自然科学基金

1+阅读 · 2014年12月31日

动态群稀疏约束场景知识建模的感兴趣监控目标超分辨率重建

国家自然科学基金

1+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员