Scaling Video Pretraining for Surgical Foundation Models - 专知论文

会员服务 ·

0

视频 · 预训练 · 数据集 · 一致 · 包含 ·

Scaling Video Pretraining for Surgical Foundation Models

翻译：扩展视频预训练用于手术基础模型

Sicheng Lu,Zikai Xiao,Jianhui Wei,Danyu Sun,Qi Lu,Keli Hu,Yang Feng,Jian Wu,Zongxin Yang,Zuozhu Liu

Surgical video understanding is essential for computer-assisted interventions, yet existing surgical foundation models remain constrained by limited data scale, procedural diversity, and inconsistent evaluation, often lacking a reproducible training pipeline. We propose SurgRec, a scalable and reproducible pretraining recipe for surgical video understanding, instantiated with two variants: SurgRec-MAE and SurgRec-JEPA. We curate a large multi-source corpus of 10,535 videos and 214.5M frames spanning endoscopy, laparoscopy, cataract, and robotic surgery. Building on this corpus, we develop a unified pretraining pipeline with balanced sampling and standardize a reproducible benchmark across 16 downstream datasets and four clinical domains with consistent data splits. Across extensive comparisons against SSL baselines and vision-language models, SurgRec consistently achieves superior performance across downstream datasets. In contrast, VLMs prove unreliable for fine-grained temporal recognition, exhibiting both performance gaps and sensitivity to prompt phrasing. Our work provides a reproducible, scalable foundation for the community to build more general surgical video models. All code, models, and data will be publicly released.

翻译：手术视频理解对于计算机辅助干预至关重要，但现有手术基础模型仍受限于数据规模有限、手术流程多样性不足以及评估标准不一致，且常缺乏可复现的训练流程。我们提出SurgRec，一种可扩展且可复现的手术视频理解预训练方案，包含两个变体：SurgRec-MAE与SurgRec-JEPA。我们构建了一个大规模多源数据集，包含10,535个视频和2.145亿帧，覆盖内窥镜、腹腔镜、白内障及机器人手术场景。基于该数据集，我们开发了统一预训练流程（含平衡采样），并在16个下游数据集及四个临床领域上标准化了可复现基准（含一致的数据划分）。在与SSL基线及视觉-语言模型的广泛对比中，SurgRec在下游数据集上持续取得更优性能。相比之下，VLM在细粒度时间识别方面表现不可靠，既存在性能差距，又对提示措辞敏感。我们的工作为社区构建更通用的手术视频模型提供了可复现、可扩展的基础。所有代码、模型和数据将公开发布。

0

相关内容

视频

【斯坦福博士论文】基础模型后训练的新方法

【斯坦福博士论文】基础模型后训练的新方法

专知会员服务

25+阅读 · 2025年11月8日

用于三维医学影像理解的综合语言–图像预训练

用于三维医学影像理解的综合语言–图像预训练

专知会员服务

7+阅读 · 2025年11月5日

视频大模型中视觉上下文表示的scaling law

视频大模型中视觉上下文表示的scaling law

专知会员服务

24+阅读 · 2024年10月21日

【NeurIPS2024】基于分层知识增强的手术流程感知视频-语言预训练

【NeurIPS2024】基于分层知识增强的手术流程感知视频-语言预训练

专知会员服务

19+阅读 · 2024年10月3日

【CVPR2023】面向不同视频的可扩展神经表示，

【CVPR2023】面向不同视频的可扩展神经表示，

专知会员服务

20+阅读 · 2023年3月28日

视觉Transformer预训练模型的胸腔X线影像多标签分类

视觉Transformer预训练模型的胸腔X线影像多标签分类

专知会员服务

14+阅读 · 2022年7月29日

视频文本预训练简述

视频文本预训练简述

专知会员服务

22+阅读 · 2022年7月24日

【KDD2020】通用文档预训练模型LayoutLM：文档结构信息和视觉信息进行建模，让模型在预训练阶段进行多模态对齐。

【KDD2020】通用文档预训练模型LayoutLM：文档结构信息和视觉信息进行建模，让模型在预训练阶段进行多模态对齐。

专知会员服务

32+阅读 · 2020年8月23日

语言视觉预训练语言模型揭密，Behind the Scene: Revealing the Secrets of Pre-trained Vision-and-Language Models

语言视觉预训练语言模型揭密，Behind the Scene: Revealing the Secrets of Pre-trained Vision-and-Language Models

专知会员服务

36+阅读 · 2020年5月20日

【DeepMind】基于变换的大规模数据对抗视频预测，Transformation-based Adversarial Video Prediction on Large-Scale Data

【DeepMind】基于变换的大规模数据对抗视频预测，Transformation-based Adversarial Video Prediction on Large-Scale Data

专知会员服务

17+阅读 · 2020年3月9日

精通ChatGPT等大模型，掌握最前沿技术，这有份绝佳资源

精通ChatGPT等大模型，掌握最前沿技术，这有份绝佳资源

机器之心

15+阅读 · 2023年4月12日

专家报告 | 给“深度”以“先验”，让你的模糊图像清晰起来！

专家报告 | 给“深度”以“先验”，让你的模糊图像清晰起来！

中国图象图形学报

15+阅读 · 2020年6月23日

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

专知

21+阅读 · 2019年11月14日

预训练语言模型关系图+必读论文列表，清华荣誉出品

预训练语言模型关系图+必读论文列表，清华荣誉出品

机器之心

18+阅读 · 2019年10月11日

最新必读【预训练语言模型(BERT/XLNet等)】论文，Google/微软/华为ICLR2020提交论文

最新必读【预训练语言模型(BERT/XLNet等)】论文，Google/微软/华为ICLR2020提交论文

专知

36+阅读 · 2019年9月29日

一大批中文（BERT等）预训练模型等你认领！

一大批中文（BERT等）预训练模型等你认领！

PaperWeekly

15+阅读 · 2019年6月25日

基于人体骨架的行为识别【附PPT与视频资料】

基于人体骨架的行为识别【附PPT与视频资料】

人工智能前沿讲习班

31+阅读 · 2019年1月15日

pytorch-pretrained-BERT：BERT PyTorch实现，可加载Google BERT预训练模型

pytorch-pretrained-BERT：BERT PyTorch实现，可加载Google BERT预训练模型

AINLP

35+阅读 · 2018年11月6日

基于深度学习的视频内容识别

基于深度学习的视频内容识别

计算机视觉战队

10+阅读 · 2017年8月18日

【Kaggle 实战分享】谷歌 YouTube-8M 大规模视频理解竞赛技术剖析

【Kaggle 实战分享】谷歌 YouTube-8M 大规模视频理解竞赛技术剖析

新智元

12+阅读 · 2017年8月3日

基于压缩感知理论的图像采样、编码和重建研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于人类3D视觉感应的2D到3D视频转换关键技术研究

国家自然科学基金

2+阅读 · 2015年12月31日

一种乳腺癌分子特异性手术导航成像方法

国家自然科学基金

1+阅读 · 2015年12月31日

扩展工作条件下基于核免疫集成的SAR目标识别关键技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于先验信息压缩感知SAR成像的信息理论限及实用算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于多模态脑影像处理和多维可视化的辅助诊疗技术研究

国家自然科学基金

4+阅读 · 2014年12月31日

基于压缩域的海量视频浓缩关键技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于多模态医学图像处理的多维可视化辅助诊疗关键技术研究

国家自然科学基金

3+阅读 · 2014年12月31日

智能视频监控中图像超分辨率重建关键技术研究

国家自然科学基金

4+阅读 · 2014年12月31日

动态群稀疏约束场景知识建模的感兴趣监控目标超分辨率重建

国家自然科学基金

1+阅读 · 2014年12月31日

SurgTEMP: Temporal-Aware Surgical Video Question Answering with Text-guided Visual Memory for Laparoscopic Cholecystectomy

Arxiv

0+阅读 · 5月4日

A Comparative Study in Surgical AI: Datasets, Foundation Models, and Barriers to Med-AGI

Arxiv

0+阅读 · 4月28日

ShapeUP: Scalable Image-Conditioned 3D Editing

Arxiv

0+阅读 · 4月27日

InHabit: Leveraging Image Foundation Models for Scalable 3D Human Placement

Arxiv

0+阅读 · 4月21日

Improving post-operative discharge destination prediction of geriatric patients with generative data augmentation

Arxiv

0+阅读 · 4月19日

Your Pre-trained Diffusion Model Secretly Knows Restoration

Arxiv

0+阅读 · 4月6日

Scaling Recurrence-aware Foundation Models for Clinical Records via Next-Visit Prediction

Arxiv

0+阅读 · 3月25日

Generative Event Pretraining with Foundation Model Alignment

Arxiv

0+阅读 · 3月24日

CataractSAM-2: A Domain-Adapted Model for Anterior Segment Surgery Segmentation and Scalable Ground-Truth Annotation

Arxiv

0+阅读 · 3月23日

Mobile-VideoGPT: Fast and Accurate Model for Mobile Video Understanding

Arxiv

0+阅读 · 3月19日

VIP会员

文章信息

相关主题

最新内容

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

专知会员服务

1+阅读 · 今天15:02

综述 | 3D场景图：开放挑战与未来方向

综述 | 3D场景图：开放挑战与未来方向

专知会员服务

1+阅读 · 今天15:00

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

专知会员服务

2+阅读 · 今天14:30

21世纪的无人机战争

21世纪的无人机战争

专知会员服务

2+阅读 · 今天14:05

《伊朗与以色列-美国热战及其对数字技术的影响》

《伊朗与以色列-美国热战及其对数字技术的影响》

专知会员服务

2+阅读 · 今天13:55

《量子技术的军事任务技术适配与利用》

《量子技术的军事任务技术适配与利用》

专知会员服务

2+阅读 · 今天13:51

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

专知会员服务

2+阅读 · 今天13:48

美国从乌克兰无人机战争中学习经验

美国从乌克兰无人机战争中学习经验

专知会员服务

7+阅读 · 6月21日

ICML 2026 | 面向视觉语言模型的语义鲁棒性认证

ICML 2026 | 面向视觉语言模型的语义鲁棒性认证

专知会员服务

5+阅读 · 6月21日

综述 | 智能体电子设计自动化：从“交接有效性”重新理解Agentic EDA

综述 | 智能体电子设计自动化：从“交接有效性”重新理解Agentic EDA

专知会员服务

7+阅读 · 6月21日

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

专知会员服务

20+阅读 · 6月20日

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

专知会员服务

5+阅读 · 6月19日

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

专知会员服务

8+阅读 · 6月19日

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

专知会员服务

7+阅读 · 6月18日

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

专知会员服务

9+阅读 · 6月18日

相关VIP内容

【斯坦福博士论文】基础模型后训练的新方法

【斯坦福博士论文】基础模型后训练的新方法

专知会员服务

25+阅读 · 2025年11月8日

用于三维医学影像理解的综合语言–图像预训练

用于三维医学影像理解的综合语言–图像预训练

专知会员服务

7+阅读 · 2025年11月5日

视频大模型中视觉上下文表示的scaling law

视频大模型中视觉上下文表示的scaling law

专知会员服务

24+阅读 · 2024年10月21日

【NeurIPS2024】基于分层知识增强的手术流程感知视频-语言预训练

【NeurIPS2024】基于分层知识增强的手术流程感知视频-语言预训练

专知会员服务

19+阅读 · 2024年10月3日

【CVPR2023】面向不同视频的可扩展神经表示，

【CVPR2023】面向不同视频的可扩展神经表示，

专知会员服务

20+阅读 · 2023年3月28日

视觉Transformer预训练模型的胸腔X线影像多标签分类

视觉Transformer预训练模型的胸腔X线影像多标签分类

专知会员服务

14+阅读 · 2022年7月29日

视频文本预训练简述

视频文本预训练简述

专知会员服务

22+阅读 · 2022年7月24日

【KDD2020】通用文档预训练模型LayoutLM：文档结构信息和视觉信息进行建模，让模型在预训练阶段进行多模态对齐。

【KDD2020】通用文档预训练模型LayoutLM：文档结构信息和视觉信息进行建模，让模型在预训练阶段进行多模态对齐。

专知会员服务

32+阅读 · 2020年8月23日

语言视觉预训练语言模型揭密，Behind the Scene: Revealing the Secrets of Pre-trained Vision-and-Language Models

语言视觉预训练语言模型揭密，Behind the Scene: Revealing the Secrets of Pre-trained Vision-and-Language Models

专知会员服务

36+阅读 · 2020年5月20日

【DeepMind】基于变换的大规模数据对抗视频预测，Transformation-based Adversarial Video Prediction on Large-Scale Data

【DeepMind】基于变换的大规模数据对抗视频预测，Transformation-based Adversarial Video Prediction on Large-Scale Data

专知会员服务

17+阅读 · 2020年3月9日

热门VIP内容

开通专知VIP会员享更多权益服务

综述 | 3D场景图：开放挑战与未来方向

21世纪的无人机战争

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

相关资讯

精通ChatGPT等大模型，掌握最前沿技术，这有份绝佳资源

精通ChatGPT等大模型，掌握最前沿技术，这有份绝佳资源

机器之心

15+阅读 · 2023年4月12日

专家报告 | 给“深度”以“先验”，让你的模糊图像清晰起来！

专家报告 | 给“深度”以“先验”，让你的模糊图像清晰起来！

中国图象图形学报

15+阅读 · 2020年6月23日

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

专知

21+阅读 · 2019年11月14日

预训练语言模型关系图+必读论文列表，清华荣誉出品

预训练语言模型关系图+必读论文列表，清华荣誉出品

机器之心

18+阅读 · 2019年10月11日

最新必读【预训练语言模型(BERT/XLNet等)】论文，Google/微软/华为ICLR2020提交论文

最新必读【预训练语言模型(BERT/XLNet等)】论文，Google/微软/华为ICLR2020提交论文

专知

36+阅读 · 2019年9月29日

一大批中文（BERT等）预训练模型等你认领！

一大批中文（BERT等）预训练模型等你认领！

PaperWeekly

15+阅读 · 2019年6月25日

基于人体骨架的行为识别【附PPT与视频资料】

基于人体骨架的行为识别【附PPT与视频资料】

人工智能前沿讲习班

31+阅读 · 2019年1月15日

pytorch-pretrained-BERT：BERT PyTorch实现，可加载Google BERT预训练模型

pytorch-pretrained-BERT：BERT PyTorch实现，可加载Google BERT预训练模型

AINLP

35+阅读 · 2018年11月6日

基于深度学习的视频内容识别

基于深度学习的视频内容识别

计算机视觉战队

10+阅读 · 2017年8月18日

【Kaggle 实战分享】谷歌 YouTube-8M 大规模视频理解竞赛技术剖析

【Kaggle 实战分享】谷歌 YouTube-8M 大规模视频理解竞赛技术剖析

新智元

12+阅读 · 2017年8月3日

相关论文

SurgTEMP: Temporal-Aware Surgical Video Question Answering with Text-guided Visual Memory for Laparoscopic Cholecystectomy

Arxiv

0+阅读 · 5月4日

A Comparative Study in Surgical AI: Datasets, Foundation Models, and Barriers to Med-AGI

Arxiv

0+阅读 · 4月28日

ShapeUP: Scalable Image-Conditioned 3D Editing

Arxiv

0+阅读 · 4月27日

InHabit: Leveraging Image Foundation Models for Scalable 3D Human Placement

Arxiv

0+阅读 · 4月21日

Improving post-operative discharge destination prediction of geriatric patients with generative data augmentation

Arxiv

0+阅读 · 4月19日

Your Pre-trained Diffusion Model Secretly Knows Restoration

Arxiv

0+阅读 · 4月6日

Scaling Recurrence-aware Foundation Models for Clinical Records via Next-Visit Prediction

Arxiv

0+阅读 · 3月25日

Generative Event Pretraining with Foundation Model Alignment

Arxiv

0+阅读 · 3月24日

CataractSAM-2: A Domain-Adapted Model for Anterior Segment Surgery Segmentation and Scalable Ground-Truth Annotation

Arxiv

0+阅读 · 3月23日

Mobile-VideoGPT: Fast and Accurate Model for Mobile Video Understanding

Arxiv

0+阅读 · 3月19日

相关基金

基于压缩感知理论的图像采样、编码和重建研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于人类3D视觉感应的2D到3D视频转换关键技术研究

国家自然科学基金

2+阅读 · 2015年12月31日

一种乳腺癌分子特异性手术导航成像方法

国家自然科学基金

1+阅读 · 2015年12月31日

扩展工作条件下基于核免疫集成的SAR目标识别关键技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于先验信息压缩感知SAR成像的信息理论限及实用算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于多模态脑影像处理和多维可视化的辅助诊疗技术研究

国家自然科学基金

4+阅读 · 2014年12月31日

基于压缩域的海量视频浓缩关键技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于多模态医学图像处理的多维可视化辅助诊疗关键技术研究

国家自然科学基金

3+阅读 · 2014年12月31日

智能视频监控中图像超分辨率重建关键技术研究

国家自然科学基金

4+阅读 · 2014年12月31日

动态群稀疏约束场景知识建模的感兴趣监控目标超分辨率重建

国家自然科学基金

1+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员