EndoVGGT: GNN-Enhanced Depth Estimation for Surgical 3D Reconstruction - 专知论文

会员服务 ·

0

重建 · 三维重建 · 遮挡 · 形变 · 特征空间 ·

EndoVGGT: GNN-Enhanced Depth Estimation for Surgical 3D Reconstruction

翻译：EndoVGGT：面向手术三维重建的图神经网络增强深度估计方法

Falong Fan,Yi Xie,Arnis Lektauers,Bo Liu,Jerzy Rozenblit

Accurate 3D reconstruction of deformable soft tissues is essential for surgical robotic perception. However, low-texture surfaces, specular highlights, and instrument occlusions often fragment geometric continuity, posing a challenge for existing fixed-topology approaches. To address this, we propose EndoVGGT, a geometry-centric framework equipped with a Deformation-aware Graph Attention (DeGAT) module. Rather than using static spatial neighborhoods, DeGAT dynamically constructs feature-space semantic graphs to capture long-range correlations among coherent tissue regions. This enables robust propagation of structural cues across occlusions, enforcing global consistency and improving non-rigid deformation recovery. Extensive experiments on SCARED show that our method significantly improves fidelity, increasing PSNR by 24.6% and SSIM by 9.1% over prior state-of-the-art. Crucially, EndoVGGT exhibits strong zero-shot cross-dataset generalization to the unseen SCARED and EndoNeRF domains, confirming that DeGAT learns domain-agnostic geometric priors. These results highlight the efficacy of dynamic feature-space modeling for consistent surgical 3D reconstruction.

翻译：可变形软组织的精确三维重建是手术机器人感知的关键。然而，低纹理表面、镜面高光以及器械遮挡常导致几何连续性断裂，对现有固定拓扑方法构成挑战。为此，我们提出EndoVGGT——一种配备形变感知图注意力（DeGAT）模块的几何中心框架。DeGAT并非采用静态空间邻域，而是动态构建特征空间语义图，以捕获连贯组织区域间的长程相关性。这使得结构线索能够跨遮挡区域稳健传播，强化全局一致性并提升非刚性形变恢复效果。在SCARED数据集上的大量实验表明：我们的方法显著提升了保真度，相比先前最优方法，峰值信噪比（PSNR）提升24.6%，结构相似性（SSIM）提升9.1%。关键的是，EndoVGGT展现出强大的零样本跨数据集泛化能力，对未见过的SCARED和EndoNeRF域均可适应，证实DeGAT习得了领域无关的几何先验。这些结果凸显了动态特征空间建模在实现一致性手术三维重建中的有效性。

0

相关内容

深度学习的多视角三维重建技术综述

深度学习的多视角三维重建技术综述

专知会员服务

23+阅读 · 2025年6月7日

【剑桥博士论文】基于图像的三维重建：神经隐式表示的可微渲染方法

【剑桥博士论文】基于图像的三维重建：神经隐式表示的可微渲染方法

专知会员服务

18+阅读 · 2025年6月5日

深度学习背景下的图像三维重建技术进展综述

深度学习背景下的图像三维重建技术进展综述

专知会员服务

39+阅读 · 2023年9月4日

什么是好的GNN表达？国防科大最新《图神经网络的表达能力》综述

什么是好的GNN表达？国防科大最新《图神经网络的表达能力》综述

专知会员服务

40+阅读 · 2023年8月20日

港科大最新《深度学习医学图像分割MedISeg》综述论文，21页pdf涵盖212篇文献阐述MedISeg技巧、挑战和未来方向

港科大最新《深度学习医学图像分割MedISeg》综述论文，21页pdf涵盖212篇文献阐述MedISeg技巧、挑战和未来方向

专知会员服务

42+阅读 · 2022年9月22日

南大清华发布《从单目图像中恢复三维人体网格》综述论文，涵盖246篇文献全年阐述单目3D人体网格恢复研究进展

南大清华发布《从单目图像中恢复三维人体网格》综述论文，涵盖246篇文献全年阐述单目3D人体网格恢复研究进展

专知会员服务

33+阅读 · 2022年3月21日

【ICML2021】GNNAutoScale:通过历史嵌入的可扩展和表达性的图神经网络

专知会员服务

16+阅读 · 2021年6月13日

到底什么是GNN？《图神经网络理论基础》这份DeepMind大牛Petar讲授，附96页ppt与视频

到底什么是GNN？《图神经网络理论基础》这份DeepMind大牛Petar讲授，附96页ppt与视频

专知会员服务

87+阅读 · 2021年2月26日

【DeepMind】PolyGen: 一种三维网格的自回归生成模型，PolyGen: An Autoregressive Generative Model of 3D Meshes

【DeepMind】PolyGen: 一种三维网格的自回归生成模型，PolyGen: An Autoregressive Generative Model of 3D Meshes

专知会员服务

37+阅读 · 2020年2月27日

【CIKM 2019论文】重力启发式图自编码器定向链路预测（Gravity-Inspired Graph Autoencoders for Directed Link Prediction），Guillaume Salha，Stratis Limnios

【CIKM 2019论文】重力启发式图自编码器定向链路预测（Gravity-Inspired Graph Autoencoders for Directed Link Prediction），Guillaume Salha，Stratis Limnios

专知会员服务

28+阅读 · 2019年11月20日

注意力机制 | 图卷积多跳注意力机制 | Direct multi-hop Attention based GNN

注意力机制 | 图卷积多跳注意力机制 | Direct multi-hop Attention based GNN

AINLP

22+阅读 · 2020年11月29日

三维重建 3D reconstruction 有哪些实用算法？

三维重建 3D reconstruction 有哪些实用算法？

极市平台

13+阅读 · 2020年2月23日

【泡泡图灵智库】RelocNet：一种通过连续度量学习实现相机重定位的神经网络框架

【泡泡图灵智库】RelocNet：一种通过连续度量学习实现相机重定位的神经网络框架

泡泡机器人SLAM

14+阅读 · 2019年9月5日

图神经网络GNN最新理论进展和应用探索，附报告下载

图神经网络GNN最新理论进展和应用探索，附报告下载

专知

70+阅读 · 2019年8月25日

【GNN】深度学习之上，图神经网络（GNN ）崛起

【GNN】深度学习之上，图神经网络（GNN ）崛起

产业智能官

16+阅读 · 2019年8月15日

【泡泡点云时空】跟踪与三角测量中一种通过兴趣点网络进行多视图2D/3D刚性配准的方法

【泡泡点云时空】跟踪与三角测量中一种通过兴趣点网络进行多视图2D/3D刚性配准的方法

泡泡机器人SLAM

17+阅读 · 2019年7月8日

LeCun推荐：最新PyTorch图神经网络库，速度快15倍（GitHub+论文）

LeCun推荐：最新PyTorch图神经网络库，速度快15倍（GitHub+论文）

新智元

17+阅读 · 2019年3月10日

SkeletonNet：完整的人体三维位姿重建方法

SkeletonNet：完整的人体三维位姿重建方法

计算机视觉life

21+阅读 · 2019年1月21日

【泡泡图灵智库】PointNet：用于三维分类与分割的点集深度学习（CVPR）

【泡泡图灵智库】PointNet：用于三维分类与分割的点集深度学习（CVPR）

泡泡机器人SLAM

11+阅读 · 2019年1月20日

【泡泡一分钟】基于多视图卷积网络的草图三维重建技术(3dv-66)

【泡泡一分钟】基于多视图卷积网络的草图三维重建技术(3dv-66)

泡泡机器人SLAM

11+阅读 · 2018年3月31日

3D平移不变剪切波域统计相关性驱动的多模态医学图像融合方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

动态环境下的实时高清大规模三维地形重建研究

国家自然科学基金

3+阅读 · 2015年12月31日

无力传感器策略和可逆向驱动机构并用提高手术机器人触觉感知性能的新方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于体素划分模型的多视图深度信息融合三维重建研究

国家自然科学基金

2+阅读 · 2015年12月31日

地面激光雷达与设计数据正逆向结合的建筑物三维重建技术

国家自然科学基金

0+阅读 · 2015年12月31日

面向智能穿戴设备的三维图形网格简化与渐进显示方法

国家自然科学基金

1+阅读 · 2015年12月31日

面向光学相干层析成像的三维结构化压缩感知方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于深度学习的三维模型检索技术

国家自然科学基金

13+阅读 · 2014年12月31日

一种全新的结构修改重分析方法及其应用

国家自然科学基金

0+阅读 · 2014年12月31日

Ghrelin整合调控神经血管单元网络抑制脑缺血再灌注损伤并促进神经修复

国家自然科学基金

0+阅读 · 2014年12月31日

3D-ReGen: A Unified 3D Geometry Regeneration Framework

Arxiv

0+阅读 · 4月30日

GeoRect4D: Geometry-Compatible Generative Rectification for Dynamic Sparse-View 3D Reconstruction

Arxiv

0+阅读 · 4月22日

AnyRecon: Arbitrary-View 3D Reconstruction with Video Diffusion Model

Arxiv

0+阅读 · 4月21日

Neural Surface Reconstruction from Sparse Views Using Epipolar Geometry

Arxiv

0+阅读 · 4月20日

HD-VGGT: High-Resolution Visual Geometry Transformer

Arxiv

0+阅读 · 4月10日

Graph-PiT: Enhancing Structural Coherence in Part-Based Image Synthesis via Graph Priors

Arxiv

0+阅读 · 4月7日

GeoPredict: Leveraging Predictive Kinematics and 3D Gaussian Geometry for Precise VLA Manipulation

Arxiv

0+阅读 · 4月7日

ProbeMDE: Uncertainty-Guided Active Proprioception for Monocular Depth Estimation in Surgical Robotics

Arxiv

0+阅读 · 3月24日

VoroLight: Learning Voronoi Surface Meshes via Sphere Intersection

Arxiv

0+阅读 · 3月22日

VesselTok: Tokenizing Vessel-like 3D Biomedical Graph Representations for Reconstruction and Generation

Arxiv

0+阅读 · 3月19日

VIP会员

文章信息

相关主题

最新内容

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

专知会员服务

3+阅读 · 6月22日

综述 | 3D场景图：开放挑战与未来方向

综述 | 3D场景图：开放挑战与未来方向

专知会员服务

3+阅读 · 6月22日

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

专知会员服务

3+阅读 · 6月22日

21世纪的无人机战争

21世纪的无人机战争

专知会员服务

3+阅读 · 6月22日

《伊朗与以色列-美国热战及其对数字技术的影响》

《伊朗与以色列-美国热战及其对数字技术的影响》

专知会员服务

3+阅读 · 6月22日

《量子技术的军事任务技术适配与利用》

《量子技术的军事任务技术适配与利用》

专知会员服务

3+阅读 · 6月22日

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

专知会员服务

4+阅读 · 6月22日

美国从乌克兰无人机战争中学习经验

美国从乌克兰无人机战争中学习经验

专知会员服务

7+阅读 · 6月21日

ICML 2026 | 面向视觉语言模型的语义鲁棒性认证

ICML 2026 | 面向视觉语言模型的语义鲁棒性认证

专知会员服务

5+阅读 · 6月21日

综述 | 智能体电子设计自动化：从“交接有效性”重新理解Agentic EDA

综述 | 智能体电子设计自动化：从“交接有效性”重新理解Agentic EDA

专知会员服务

8+阅读 · 6月21日

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

专知会员服务

21+阅读 · 6月20日

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

专知会员服务

5+阅读 · 6月19日

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

专知会员服务

8+阅读 · 6月19日

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

专知会员服务

7+阅读 · 6月18日

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

专知会员服务

9+阅读 · 6月18日

相关VIP内容

深度学习的多视角三维重建技术综述

深度学习的多视角三维重建技术综述

专知会员服务

23+阅读 · 2025年6月7日

【剑桥博士论文】基于图像的三维重建：神经隐式表示的可微渲染方法

【剑桥博士论文】基于图像的三维重建：神经隐式表示的可微渲染方法

专知会员服务

18+阅读 · 2025年6月5日

深度学习背景下的图像三维重建技术进展综述

深度学习背景下的图像三维重建技术进展综述

专知会员服务

39+阅读 · 2023年9月4日

什么是好的GNN表达？国防科大最新《图神经网络的表达能力》综述

什么是好的GNN表达？国防科大最新《图神经网络的表达能力》综述

专知会员服务

40+阅读 · 2023年8月20日

港科大最新《深度学习医学图像分割MedISeg》综述论文，21页pdf涵盖212篇文献阐述MedISeg技巧、挑战和未来方向

港科大最新《深度学习医学图像分割MedISeg》综述论文，21页pdf涵盖212篇文献阐述MedISeg技巧、挑战和未来方向

专知会员服务

42+阅读 · 2022年9月22日

南大清华发布《从单目图像中恢复三维人体网格》综述论文，涵盖246篇文献全年阐述单目3D人体网格恢复研究进展

南大清华发布《从单目图像中恢复三维人体网格》综述论文，涵盖246篇文献全年阐述单目3D人体网格恢复研究进展

专知会员服务

33+阅读 · 2022年3月21日

【ICML2021】GNNAutoScale:通过历史嵌入的可扩展和表达性的图神经网络

专知会员服务

16+阅读 · 2021年6月13日

到底什么是GNN？《图神经网络理论基础》这份DeepMind大牛Petar讲授，附96页ppt与视频

到底什么是GNN？《图神经网络理论基础》这份DeepMind大牛Petar讲授，附96页ppt与视频

专知会员服务

87+阅读 · 2021年2月26日

【DeepMind】PolyGen: 一种三维网格的自回归生成模型，PolyGen: An Autoregressive Generative Model of 3D Meshes

【DeepMind】PolyGen: 一种三维网格的自回归生成模型，PolyGen: An Autoregressive Generative Model of 3D Meshes

专知会员服务

37+阅读 · 2020年2月27日

【CIKM 2019论文】重力启发式图自编码器定向链路预测（Gravity-Inspired Graph Autoencoders for Directed Link Prediction），Guillaume Salha，Stratis Limnios

【CIKM 2019论文】重力启发式图自编码器定向链路预测（Gravity-Inspired Graph Autoencoders for Directed Link Prediction），Guillaume Salha，Stratis Limnios

专知会员服务

28+阅读 · 2019年11月20日

热门VIP内容

开通专知VIP会员享更多权益服务

综述 | 3D场景图：开放挑战与未来方向

21世纪的无人机战争

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

相关资讯

注意力机制 | 图卷积多跳注意力机制 | Direct multi-hop Attention based GNN

注意力机制 | 图卷积多跳注意力机制 | Direct multi-hop Attention based GNN

AINLP

22+阅读 · 2020年11月29日

三维重建 3D reconstruction 有哪些实用算法？

三维重建 3D reconstruction 有哪些实用算法？

极市平台

13+阅读 · 2020年2月23日

【泡泡图灵智库】RelocNet：一种通过连续度量学习实现相机重定位的神经网络框架

【泡泡图灵智库】RelocNet：一种通过连续度量学习实现相机重定位的神经网络框架

泡泡机器人SLAM

14+阅读 · 2019年9月5日

图神经网络GNN最新理论进展和应用探索，附报告下载

图神经网络GNN最新理论进展和应用探索，附报告下载

专知

70+阅读 · 2019年8月25日

【GNN】深度学习之上，图神经网络（GNN ）崛起

【GNN】深度学习之上，图神经网络（GNN ）崛起

产业智能官

16+阅读 · 2019年8月15日

【泡泡点云时空】跟踪与三角测量中一种通过兴趣点网络进行多视图2D/3D刚性配准的方法

【泡泡点云时空】跟踪与三角测量中一种通过兴趣点网络进行多视图2D/3D刚性配准的方法

泡泡机器人SLAM

17+阅读 · 2019年7月8日

LeCun推荐：最新PyTorch图神经网络库，速度快15倍（GitHub+论文）

LeCun推荐：最新PyTorch图神经网络库，速度快15倍（GitHub+论文）

新智元

17+阅读 · 2019年3月10日

SkeletonNet：完整的人体三维位姿重建方法

SkeletonNet：完整的人体三维位姿重建方法

计算机视觉life

21+阅读 · 2019年1月21日

【泡泡图灵智库】PointNet：用于三维分类与分割的点集深度学习（CVPR）

【泡泡图灵智库】PointNet：用于三维分类与分割的点集深度学习（CVPR）

泡泡机器人SLAM

11+阅读 · 2019年1月20日

【泡泡一分钟】基于多视图卷积网络的草图三维重建技术(3dv-66)

【泡泡一分钟】基于多视图卷积网络的草图三维重建技术(3dv-66)

泡泡机器人SLAM

11+阅读 · 2018年3月31日

相关论文

3D-ReGen: A Unified 3D Geometry Regeneration Framework

Arxiv

0+阅读 · 4月30日

GeoRect4D: Geometry-Compatible Generative Rectification for Dynamic Sparse-View 3D Reconstruction

Arxiv

0+阅读 · 4月22日

AnyRecon: Arbitrary-View 3D Reconstruction with Video Diffusion Model

Arxiv

0+阅读 · 4月21日

Neural Surface Reconstruction from Sparse Views Using Epipolar Geometry

Arxiv

0+阅读 · 4月20日

HD-VGGT: High-Resolution Visual Geometry Transformer

Arxiv

0+阅读 · 4月10日

Graph-PiT: Enhancing Structural Coherence in Part-Based Image Synthesis via Graph Priors

Arxiv

0+阅读 · 4月7日

GeoPredict: Leveraging Predictive Kinematics and 3D Gaussian Geometry for Precise VLA Manipulation

Arxiv

0+阅读 · 4月7日

ProbeMDE: Uncertainty-Guided Active Proprioception for Monocular Depth Estimation in Surgical Robotics

Arxiv

0+阅读 · 3月24日

VoroLight: Learning Voronoi Surface Meshes via Sphere Intersection

Arxiv

0+阅读 · 3月22日

VesselTok: Tokenizing Vessel-like 3D Biomedical Graph Representations for Reconstruction and Generation

Arxiv

0+阅读 · 3月19日

相关基金

3D平移不变剪切波域统计相关性驱动的多模态医学图像融合方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

动态环境下的实时高清大规模三维地形重建研究

国家自然科学基金

3+阅读 · 2015年12月31日

无力传感器策略和可逆向驱动机构并用提高手术机器人触觉感知性能的新方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于体素划分模型的多视图深度信息融合三维重建研究

国家自然科学基金

2+阅读 · 2015年12月31日

地面激光雷达与设计数据正逆向结合的建筑物三维重建技术

国家自然科学基金

0+阅读 · 2015年12月31日

面向智能穿戴设备的三维图形网格简化与渐进显示方法

国家自然科学基金

1+阅读 · 2015年12月31日

面向光学相干层析成像的三维结构化压缩感知方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于深度学习的三维模型检索技术

国家自然科学基金

13+阅读 · 2014年12月31日

一种全新的结构修改重分析方法及其应用

国家自然科学基金

0+阅读 · 2014年12月31日

Ghrelin整合调控神经血管单元网络抑制脑缺血再灌注损伤并促进神经修复

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员