Accurate vision-based navigation in monocular endoscopy is difficult due to limited depth cues, weak tissue texture, non-rigid deformation, and substantial appearance variation across domains, all of which complicate pose estimation, depth prediction, and image-to-anatomy alignment. Although recent vision foundation models have shown promise, their learned representations often remain insufficiently geometry-consistent, hindering stable feature correspondence and limiting their reliability for downstream navigation tasks. We propose a unified framework for learning geometry-consistent and domain-robust image representations for monocular endoscopy. The framework combines a synthetic data pipeline that provides accurate geometric supervision with Hierarchy-Aware Geometry-Semantic Adaptation, a structured alternative to standard LoRA that inserts low-rank adapters selectively across the transformer hierarchy and couples them with layer-wise training objectives to encourage geometric correspondence in intermediate features and semantic consistency in deeper features. Experiments on public and proprietary datasets show improved geometric and semantic representation quality, leading to better performance on downstream navigation tasks including pose estimation and monocular depth estimation. The learned representations show favorable synthetic-to-real transfer on clinical bronchoscopy and provide a useful initialization for adaptation to sinus endoscopy and colonoscopy under limited supervision. The framework also shows favorable scaling with model size and training data. These results support hierarchy-aware, geometry-guided adaptation as a practical approach for endoscopic representation learning.


翻译:单目内窥镜中的精准视觉导航因深度线索有限、组织纹理弱、非刚性形变及跨域外观差异大而困难重重,这些因素导致位姿估计、深度预测及图像与解剖结构对齐任务复杂化。尽管近期视觉基础模型展现出潜力,但其学习到的表示往往缺乏足够的几何一致性,阻碍了稳定的特征对应,并限制了其在导航下游任务中的可靠性。我们提出一个统一框架,用于学习单目内窥镜中几何一致且域鲁棒的图像表示。该框架结合了提供精确几何监督的合成数据流水线,以及层级感知几何语义适配——一种标准LoRA的结构化替代方案,它在Transformer层级中选择性插入低秩适配器,并配合逐层训练目标,以鼓励中间特征中的几何对应与深层特征中的语义一致性。在公开与私有数据集上的实验表明,该框架提升了几何与语义表示质量,进而改进了位姿估计与单目深度估计等下游导航任务的性能。学习到的表示在临床支气管镜中展现出良好的合成到真实迁移能力,并为在有限监督下适应鼻窦镜与结肠镜检查提供了有效初始化。该框架还随模型规模与训练数据量表现出良好的缩放特性。这些结果支持层级感知、几何引导的适配作为内窥镜表示学习的实用方案。

0
下载
关闭预览

相关内容

《战场GPS拒止环境下基于地标定位的安全路径导航》
专知会员服务
19+阅读 · 2025年5月22日
基于深度学习的图像融合方法综述
专知会员服务
57+阅读 · 2023年1月25日
基于深度学习的视觉目标检测技术综述
专知会员服务
61+阅读 · 2022年6月22日
【博士论文】多视光场光线空间几何模型研究
专知会员服务
24+阅读 · 2021年12月6日
混合增强视觉认知架构及其关键技术进展
专知会员服务
46+阅读 · 2021年11月20日
专知会员服务
31+阅读 · 2021年9月23日
视线估计(Gaze Estimation)简介(一):概述
CVer
10+阅读 · 2020年3月18日
深度学习应用在图像匹配的效果如何?
中国图象图形学报
10+阅读 · 2019年6月11日
基于深度学习的目标检测算法剖析与实现【附PPT与视频资料】
人工智能前沿讲习班
12+阅读 · 2018年12月25日
【学科发展报告】计算机视觉
中国自动化学会
43+阅读 · 2018年10月12日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
6+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
7+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
4+阅读 · 6月17日
相关VIP内容
相关基金
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员