We present CataractSAM-2, a domain-adapted extension of Meta's Segment Anything Model 2, designed for real-time semantic segmentation of cataract ophthalmic surgery videos with high accuracy. Positioned at the intersection of computer vision and medical robotics, CataractSAM-2 enables precise intraoperative perception crucial for robotic-assisted and computer-guided surgical systems. Furthermore, to alleviate the burden of manual labeling, we introduce an interactive annotation framework that combines sparse prompts with video-based mask propagation. This tool significantly reduces annotation time and facilitates the scalable creation of high-quality ground-truth masks, accelerating dataset development for ocular anterior segment surgeries. We also demonstrate the model's strong zero-shot generalization to glaucoma trabeculectomy procedures, confirming its cross-procedural utility and potential for broader surgical applications. The trained model and annotation toolkit are released as open-source resources, establishing CataractSAM-2 as a foundation for expanding anterior ophthalmic surgical datasets and advancing real-time AI-driven solutions in medical robotics, as well as surgical video understanding.


翻译:我们提出CataractSAM-2——Meta的Segment Anything Model 2的领域自适应扩展版本,专为白内障眼科手术视频的高精度实时语义分割而设计。该模型位于计算机视觉与医疗机器人的交叉领域,能够实现机器人辅助及计算机引导手术系统所必需的精确术中感知。为了减轻人工标注负担,我们引入了一种交互式标注框架,该框架结合了稀疏提示与基于视频的掩码传播。该工具显著减少了标注时间,并促进了高质量真值掩码的可扩展生成,从而加速了眼前节手术数据集的开发。我们还展示了该模型在青光眼小梁切除术中的强零样本泛化能力,证实了其跨术式实用性及更广泛外科应用的潜力。训练好的模型及标注工具包已作为开源资源发布,使CataractSAM-2成为扩展眼前段眼科手术数据集、推进医疗机器人中实时AI驱动解决方案以及手术视频理解的基石。

0
下载
关闭预览

相关内容

探究模型能力与应用的进展和边界
专知会员服务
26+阅读 · 2025年8月27日
SAM2 用于图像和视频分割:全面综述
专知会员服务
17+阅读 · 2025年3月22日
LLM in Medical Domain: 大语言模型在医学领域的应用
专知会员服务
103+阅读 · 2023年6月17日
【泡泡图灵智库】实时单目物体-模型感知稀疏SLAM(ICRA)
泡泡机器人SLAM
10+阅读 · 2019年7月12日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
VIP会员
最新内容
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
4+阅读 · 6月22日
21世纪的无人机战争
专知会员服务
4+阅读 · 6月22日
《量子技术的军事任务技术适配与利用》
专知会员服务
4+阅读 · 6月22日
美国从乌克兰无人机战争中学习经验
专知会员服务
7+阅读 · 6月21日
ICML 2026 | 面向视觉语言模型的语义鲁棒性认证
专知会员服务
5+阅读 · 6月21日
相关VIP内容
探究模型能力与应用的进展和边界
专知会员服务
26+阅读 · 2025年8月27日
SAM2 用于图像和视频分割:全面综述
专知会员服务
17+阅读 · 2025年3月22日
LLM in Medical Domain: 大语言模型在医学领域的应用
专知会员服务
103+阅读 · 2023年6月17日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员