A geometry-aware deep network for depth estimation in monocular endoscopy - 专知论文

会员服务 ·

0

内窥 · 内窥镜 · 深度估计 · 结构 · 几何感知 ·

2023 年 4 月 20 日

A geometry-aware deep network for depth estimation in monocular endoscopy

翻译：一种几何感知深度网络用于单目内窥镜深度估计

Yongming Yang,Shuwei Shao,Tao Yang,Peng Wang,Zhuo Yang,Chengdong Wu,Hao Liu

Monocular depth estimation is critical for endoscopists to perform spatial perception and 3D navigation of surgical sites. However, most of the existing methods ignore the important geometric structural consistency, which inevitably leads to performance degradation and distortion of 3D reconstruction. To address this issue, we introduce a gradient loss to penalize edge fluctuations ambiguous around stepped edge structures and a normal loss to explicitly express the sensitivity to frequently small structures, and propose a geometric consistency loss to spreads the spatial information across the sample grids to constrain the global geometric anatomy structures. In addition, we develop a synthetic RGB-Depth dataset that captures the anatomical structures under reflections and illumination variations. The proposed method is extensively validated across different datasets and clinical images and achieves mean RMSE values of 0.066 (stomach), 0.029 (small intestine), and 0.139 (colon) on the EndoSLAM dataset. The generalizability of the proposed method achieves mean RMSE values of 12.604 (T1-L1), 9.930 (T2-L2), and 13.893 (T3-L3) on the ColonDepth dataset. The experimental results show that our method exceeds previous state-of-the-art competitors and generates more consistent depth maps and reasonable anatomical structures. The quality of intraoperative 3D structure perception from endoscopic videos of the proposed method meets the accuracy requirements of video-CT registration algorithms for endoscopic navigation. The dataset and the source code will be available at https://github.com/YYM-SIA/LINGMI-MR.

翻译：单目深度估计对于内镜医生进行手术部位的空间感知和三维导航至关重要。然而，现有方法大多忽略了重要的几何结构一致性，不可避免地导致性能下降和三维重建的变形。针对这一问题，我们引入梯度损失以惩罚阶梯状边缘结构周围的模糊波动，引入法向损失以明确表达对频繁微小结构的敏感性，并提出几何一致性损失以将空间信息扩散至采样网格，从而约束全局几何解剖结构。此外，我们开发了一个合成RGB-深度数据集，该数据集在反射和光照变化条件下捕捉解剖结构。所提方法在不同数据集和临床图像上进行了广泛验证，在EndoSLAM数据集上实现了平均均方根误差值0.066（胃）、0.029（小肠）和0.139（结肠）。其泛化能力在ColonDepth数据集上实现了平均均方根误差值12.604（T1-L1）、9.930（T2-L2）和13.893（T3-L3）。实验结果表明，我们的方法超越了此前最先进的竞争对手，生成了更一致的深度图和合理的解剖结构。所提方法从内窥镜视频中获取的术中三维结构感知质量满足内镜导航中视频-CT配准算法的精度要求。数据集和源代码将在https://github.com/YYM-SIA/LINGMI-MR.提供。

0

相关内容

【NeurIPS 2021-康奈尔大学Guandao Yang】基于神经场的几何处理，Geometry Processing with Neural Fields

【NeurIPS 2021-康奈尔大学Guandao Yang】基于神经场的几何处理，Geometry Processing with Neural Fields

专知会员服务

25+阅读 · 2022年3月27日

【斯坦福CVPR2022】EG3D:高效的几何感知三维生成对抗网络，EG3D: Efficient Geometry-aware 3D Generative Adversarial Networks

【斯坦福CVPR2022】EG3D:高效的几何感知三维生成对抗网络，EG3D: Efficient Geometry-aware 3D Generative Adversarial Networks

专知会员服务

18+阅读 · 2022年3月15日

【CVPR 2022】一个完全无监督的框架，从噪声和部分测量中学习图像，Robust Equivariant Imaging: a fully unsupervised framework for learning to image

【CVPR 2022】一个完全无监督的框架，从噪声和部分测量中学习图像，Robust Equivariant Imaging: a fully unsupervised framework for learning to image

专知会员服务

25+阅读 · 2022年3月3日

“CVPR 2021 接受论文列表 1663篇论文都在这了

专知会员服务

32+阅读 · 2021年6月12日

【ICML2020】深度神经网络置信感知学习，Conﬁdence-Aware Learning for Deep Neural Networks

【ICML2020】深度神经网络置信感知学习，Conﬁdence-Aware Learning for Deep Neural Networks

专知会员服务

74+阅读 · 2020年7月6日

50+篇《神经架构搜索NAS》2020论文合集

专知会员服务

61+阅读 · 2020年3月19日

【牛津大学】深度残差强化学习，Deep Residual Reinforcement Learning

【牛津大学】深度残差强化学习，Deep Residual Reinforcement Learning

专知会员服务

85+阅读 · 2020年2月18日

八篇 ICCV 2019 【图神经网络（GNN）+CV】相关论文

八篇 ICCV 2019 【图神经网络（GNN）+CV】相关论文

专知会员服务

30+阅读 · 2020年1月10日

【深度估计| 2019最新综述】单目深度估计方法综述（Monocular Depth Estimation: A Survey）

专知会员服务

69+阅读 · 2019年11月23日

[综述]深度学习下的场景文本检测与识别

[综述]深度学习下的场景文本检测与识别

专知会员服务

78+阅读 · 2019年10月10日

【泡泡汇总】CVPR2019 SLAM Paperlist

【泡泡汇总】CVPR2019 SLAM Paperlist

泡泡机器人SLAM

14+阅读 · 2019年6月12日

【泡泡一分钟】FarSight：从户外图像中实现远距离深度估计

【泡泡一分钟】FarSight：从户外图像中实现远距离深度估计

泡泡机器人SLAM

11+阅读 · 2019年5月22日

Hierarchically Structured Meta-learning

Hierarchically Structured Meta-learning

CreateAMind

27+阅读 · 2019年5月22日

【泡泡一分钟】优化对比度增强以提高SLAM重定位环境中视觉跟踪的稳健性

【泡泡一分钟】优化对比度增强以提高SLAM重定位环境中视觉跟踪的稳健性

泡泡机器人SLAM

10+阅读 · 2019年4月26日

【泡泡一分钟】尺度空间中具备渐进大尺度不变性的图像匹配

【泡泡一分钟】尺度空间中具备渐进大尺度不变性的图像匹配

泡泡机器人SLAM

12+阅读 · 2018年12月7日

【泡泡一分钟】用于RGBD语义分割的三维图神经网络(ICCV2017-546)

【泡泡一分钟】用于RGBD语义分割的三维图神经网络(ICCV2017-546)

泡泡机器人SLAM

22+阅读 · 2018年12月4日

【泡泡点云时空】集成深度语义分割的3D点云配准

【泡泡点云时空】集成深度语义分割的3D点云配准

泡泡机器人SLAM

28+阅读 · 2018年11月24日

【泡泡点云时空】基于增量分割的3D点云定位方法（ICRA2018-4）

【泡泡点云时空】基于增量分割的3D点云定位方法（ICRA2018-4）

泡泡机器人SLAM

13+阅读 · 2018年10月7日

【论文推荐】最新六篇视觉问答相关论文—深度嵌入学习、句子表征学习、深度特征聚合、3D匹配、细粒度文本摘要

【论文推荐】最新六篇视觉问答相关论文—深度嵌入学习、句子表征学习、深度特征聚合、3D匹配、细粒度文本摘要

专知

12+阅读 · 2018年6月9日

【推荐】全卷积语义分割综述

【推荐】全卷积语义分割综述

机器学习研究会

19+阅读 · 2017年8月31日

基于3D稀疏表示的多模态神经导航关键技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

多模态“影像”集成个体化预测急性DebakeyⅠ型主动脉夹层外科治疗后的再发破裂

国家自然科学基金

0+阅读 · 2015年12月31日

多分辨率相机及图像超分辨率技术研究

国家自然科学基金

2+阅读 · 2014年12月31日

Calderon问题和边界刚性问题

国家自然科学基金

0+阅读 · 2013年12月31日

基于单张低精度深度图的实时精确三维曲面重建

国家自然科学基金

0+阅读 · 2012年12月31日

心肌细胞凋亡小分子探针PET显像研究

国家自然科学基金

0+阅读 · 2012年12月31日

基于超多视角成像的三维重建关键技术研究

国家自然科学基金

0+阅读 · 2011年12月31日

基于list-mode数据的快速SART真3D PET断层重建算法的研究

国家自然科学基金

0+阅读 · 2011年12月31日

增强现实中多目标3D跟踪定位和WH-SIFT特征识别方法研究

国家自然科学基金

0+阅读 · 2009年12月31日

硅基3D纳米约束型器件的制造方法研究

国家自然科学基金

0+阅读 · 2009年12月31日

A Data-Efficient Approach for Long-Term Human Motion Prediction Using Maps of Dynamics

Arxiv

0+阅读 · 2023年6月6日

Online Estimation of Self-Body Deflection With Various Sensor Data Based on Directional Statistics

Arxiv

0+阅读 · 2023年6月6日

Towards Fairness in Personalized Ads Using Impression Variance Aware Reinforcement Learning

Arxiv

0+阅读 · 2023年6月5日

H2-Mapping: Real-time Dense Mapping Using Hierarchical Hybrid Representation

Arxiv

0+阅读 · 2023年6月5日

Robust Fiber ODF Estimation Using Deep Constrained Spherical Deconvolution for Diffusion MRI

Arxiv

0+阅读 · 2023年6月5日

Introducing Depth into Transformer-based 3D Object Detection

Arxiv

0+阅读 · 2023年6月5日

PanoGRF: Generalizable Spherical Radiance Fields for Wide-baseline Panoramas

Arxiv

0+阅读 · 2023年6月2日

Transformer-based Annotation Bias-aware Medical Image Segmentation

Arxiv

0+阅读 · 2023年6月2日

Independent Modular Networks

Arxiv

0+阅读 · 2023年6月2日

Recovering 3D Human Mesh from Monocular Images: A Survey

Arxiv

12+阅读 · 2022年3月8日

VIP会员

文章信息

相关主题

最新内容

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

专知会员服务

4+阅读 · 今天14:49

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

专知会员服务

4+阅读 · 6月19日

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

专知会员服务

6+阅读 · 6月19日

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

专知会员服务

6+阅读 · 6月18日

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

专知会员服务

7+阅读 · 6月18日

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

专知会员服务

11+阅读 · 6月18日

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

专知会员服务

10+阅读 · 6月18日

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

专知会员服务

7+阅读 · 6月17日

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

专知会员服务

11+阅读 · 6月17日

学习数据的几何：形状空间分析数学综述

学习数据的几何：形状空间分析数学综述

专知会员服务

7+阅读 · 6月17日

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

专知会员服务

16+阅读 · 6月17日

定向能反无人机系统最新发展动态

定向能反无人机系统最新发展动态

专知会员服务

8+阅读 · 6月17日

从燃煤战舰到算法战争：水面指挥的永恒要求

从燃煤战舰到算法战争：水面指挥的永恒要求

专知会员服务

6+阅读 · 6月17日

《短程弹道再入飞行器拦截时间中的一项异常现象》

《短程弹道再入飞行器拦截时间中的一项异常现象》

专知会员服务

8+阅读 · 6月17日

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

专知会员服务

8+阅读 · 6月17日

相关VIP内容

【NeurIPS 2021-康奈尔大学Guandao Yang】基于神经场的几何处理，Geometry Processing with Neural Fields

【NeurIPS 2021-康奈尔大学Guandao Yang】基于神经场的几何处理，Geometry Processing with Neural Fields

专知会员服务

25+阅读 · 2022年3月27日

【斯坦福CVPR2022】EG3D:高效的几何感知三维生成对抗网络，EG3D: Efficient Geometry-aware 3D Generative Adversarial Networks

【斯坦福CVPR2022】EG3D:高效的几何感知三维生成对抗网络，EG3D: Efficient Geometry-aware 3D Generative Adversarial Networks

专知会员服务

18+阅读 · 2022年3月15日

【CVPR 2022】一个完全无监督的框架，从噪声和部分测量中学习图像，Robust Equivariant Imaging: a fully unsupervised framework for learning to image

【CVPR 2022】一个完全无监督的框架，从噪声和部分测量中学习图像，Robust Equivariant Imaging: a fully unsupervised framework for learning to image

专知会员服务

25+阅读 · 2022年3月3日

“CVPR 2021 接受论文列表 1663篇论文都在这了

专知会员服务

32+阅读 · 2021年6月12日

【ICML2020】深度神经网络置信感知学习，Conﬁdence-Aware Learning for Deep Neural Networks

【ICML2020】深度神经网络置信感知学习，Conﬁdence-Aware Learning for Deep Neural Networks

专知会员服务

74+阅读 · 2020年7月6日

50+篇《神经架构搜索NAS》2020论文合集

专知会员服务

61+阅读 · 2020年3月19日

【牛津大学】深度残差强化学习，Deep Residual Reinforcement Learning

【牛津大学】深度残差强化学习，Deep Residual Reinforcement Learning

专知会员服务

85+阅读 · 2020年2月18日

八篇 ICCV 2019 【图神经网络（GNN）+CV】相关论文

八篇 ICCV 2019 【图神经网络（GNN）+CV】相关论文

专知会员服务

30+阅读 · 2020年1月10日

【深度估计| 2019最新综述】单目深度估计方法综述（Monocular Depth Estimation: A Survey）

专知会员服务

69+阅读 · 2019年11月23日

[综述]深度学习下的场景文本检测与识别

[综述]深度学习下的场景文本检测与识别

专知会员服务

78+阅读 · 2019年10月10日

热门VIP内容

开通专知VIP会员享更多权益服务

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

相关资讯

【泡泡汇总】CVPR2019 SLAM Paperlist

【泡泡汇总】CVPR2019 SLAM Paperlist

泡泡机器人SLAM

14+阅读 · 2019年6月12日

【泡泡一分钟】FarSight：从户外图像中实现远距离深度估计

【泡泡一分钟】FarSight：从户外图像中实现远距离深度估计

泡泡机器人SLAM

11+阅读 · 2019年5月22日

Hierarchically Structured Meta-learning

Hierarchically Structured Meta-learning

CreateAMind

27+阅读 · 2019年5月22日

【泡泡一分钟】优化对比度增强以提高SLAM重定位环境中视觉跟踪的稳健性

【泡泡一分钟】优化对比度增强以提高SLAM重定位环境中视觉跟踪的稳健性

泡泡机器人SLAM

10+阅读 · 2019年4月26日

【泡泡一分钟】尺度空间中具备渐进大尺度不变性的图像匹配

【泡泡一分钟】尺度空间中具备渐进大尺度不变性的图像匹配

泡泡机器人SLAM

12+阅读 · 2018年12月7日

【泡泡一分钟】用于RGBD语义分割的三维图神经网络(ICCV2017-546)

【泡泡一分钟】用于RGBD语义分割的三维图神经网络(ICCV2017-546)

泡泡机器人SLAM

22+阅读 · 2018年12月4日

【泡泡点云时空】集成深度语义分割的3D点云配准

【泡泡点云时空】集成深度语义分割的3D点云配准

泡泡机器人SLAM

28+阅读 · 2018年11月24日

【泡泡点云时空】基于增量分割的3D点云定位方法（ICRA2018-4）

【泡泡点云时空】基于增量分割的3D点云定位方法（ICRA2018-4）

泡泡机器人SLAM

13+阅读 · 2018年10月7日

【论文推荐】最新六篇视觉问答相关论文—深度嵌入学习、句子表征学习、深度特征聚合、3D匹配、细粒度文本摘要

【论文推荐】最新六篇视觉问答相关论文—深度嵌入学习、句子表征学习、深度特征聚合、3D匹配、细粒度文本摘要

专知

12+阅读 · 2018年6月9日

【推荐】全卷积语义分割综述

【推荐】全卷积语义分割综述

机器学习研究会

19+阅读 · 2017年8月31日

相关论文

A Data-Efficient Approach for Long-Term Human Motion Prediction Using Maps of Dynamics

Arxiv

0+阅读 · 2023年6月6日

Online Estimation of Self-Body Deflection With Various Sensor Data Based on Directional Statistics

Arxiv

0+阅读 · 2023年6月6日

Towards Fairness in Personalized Ads Using Impression Variance Aware Reinforcement Learning

Arxiv

0+阅读 · 2023年6月5日

H2-Mapping: Real-time Dense Mapping Using Hierarchical Hybrid Representation

Arxiv

0+阅读 · 2023年6月5日

Robust Fiber ODF Estimation Using Deep Constrained Spherical Deconvolution for Diffusion MRI

Arxiv

0+阅读 · 2023年6月5日

Introducing Depth into Transformer-based 3D Object Detection

Arxiv

0+阅读 · 2023年6月5日

PanoGRF: Generalizable Spherical Radiance Fields for Wide-baseline Panoramas

Arxiv

0+阅读 · 2023年6月2日

Transformer-based Annotation Bias-aware Medical Image Segmentation

Arxiv

0+阅读 · 2023年6月2日

Independent Modular Networks

Arxiv

0+阅读 · 2023年6月2日

Recovering 3D Human Mesh from Monocular Images: A Survey

Arxiv

12+阅读 · 2022年3月8日

相关基金

基于3D稀疏表示的多模态神经导航关键技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

多模态“影像”集成个体化预测急性DebakeyⅠ型主动脉夹层外科治疗后的再发破裂

国家自然科学基金

0+阅读 · 2015年12月31日

多分辨率相机及图像超分辨率技术研究

国家自然科学基金

2+阅读 · 2014年12月31日

Calderon问题和边界刚性问题

国家自然科学基金

0+阅读 · 2013年12月31日

基于单张低精度深度图的实时精确三维曲面重建

国家自然科学基金

0+阅读 · 2012年12月31日

心肌细胞凋亡小分子探针PET显像研究

国家自然科学基金

0+阅读 · 2012年12月31日

基于超多视角成像的三维重建关键技术研究

国家自然科学基金

0+阅读 · 2011年12月31日

基于list-mode数据的快速SART真3D PET断层重建算法的研究

国家自然科学基金

0+阅读 · 2011年12月31日

增强现实中多目标3D跟踪定位和WH-SIFT特征识别方法研究

国家自然科学基金

0+阅读 · 2009年12月31日

硅基3D纳米约束型器件的制造方法研究

国家自然科学基金

0+阅读 · 2009年12月31日

微信扫码咨询专知VIP会员