Surgical intelligence has the potential to improve the safety and consistency of surgical care, yet most existing surgical AI frameworks remain task-specific and struggle to generalize across procedures and institutions. Although multimodal foundation models, particularly multimodal large language models, have demonstrated strong cross-task capabilities across various medical domains, their advancement in surgery remains constrained by the lack of large-scale, systematically curated multimodal data. To address this challenge, we introduce Surg$Σ$, a spectrum of large-scale multimodal data and foundation models for surgical intelligence. At the core of this framework lies Surg$Σ$-DB, a large-scale multimodal data foundation designed to support diverse surgical tasks. Surg$Σ$-DB consolidates heterogeneous surgical data sources (including open-source datasets, curated in-house clinical collections and web-source data) into a unified schema, aiming to improve label consistency and data standardization across heterogeneous datasets. Surg$Σ$-DB spans 6 clinical specialties and diverse surgical types, providing rich image- and video-level annotations across 18 practical surgical tasks covering understanding, reasoning, planning, and generation, at an unprecedented scale (over 5.98M conversations). Beyond conventional multimodal conversations, Surg$Σ$-DB incorporates hierarchical reasoning annotations, providing richer semantic cues to support deeper contextual understanding in complex surgical scenarios. We further provide empirical evidence through recently developed surgical foundation models built upon Surg$Σ$-DB, illustrating the practical benefits of large-scale multimodal annotations, unified semantic design, and structured reasoning annotations for improving cross-task generalization and interpretability.


翻译:外科智能具有提升外科护理安全性与一致性的潜力,然而现有大多数外科人工智能框架仍局限于特定任务,难以在不同手术流程与机构间泛化。尽管多模态基础模型,尤其是多模态大语言模型,已在多个医学领域展现出强大的跨任务能力,但其在外科领域的进展仍受限于缺乏大规模、系统性构建的多模态数据。为应对这一挑战,我们提出Surg$Σ$,一个面向外科智能的大规模多模态数据与基础模型谱系。该框架的核心是Surg$Σ$-DB,一个旨在支持多样化外科任务的大规模多模态数据基础。Surg$Σ$-DB将异构的外科数据源(包括开源数据集、内部整理的临床数据集合以及网络来源数据)整合至统一架构中,旨在提升异构数据集间的标签一致性与数据标准化水平。Surg$Σ$-DB涵盖6个临床专科及多样化的手术类型,以前所未有的规模(超过598万组对话)为18项涵盖理解、推理、规划与生成的实用外科任务提供丰富的图像级与视频级标注。除传统的多模态对话外,Surg$Σ$-DB还纳入了层次化推理标注,为复杂外科场景中更深层次的上下文理解提供更丰富的语义线索。我们进一步通过基于Surg$Σ$-DB近期开发的外科基础模型提供实证证据,阐明大规模多模态标注、统一语义设计及结构化推理标注对于提升跨任务泛化能力与可解释性的实际益处。

0
下载
关闭预览

相关内容

基于多模态大模型的具身智能体研究进展与展望
专知会员服务
26+阅读 · 2025年7月2日
面向大模型多智能体系统的多维评估方法
专知会员服务
34+阅读 · 2025年4月15日
LLM in Medical Domain: 大语言模型在医学领域的应用
专知会员服务
103+阅读 · 2023年6月17日
大模型如何赋能医学?全科医学人工智能基础模型
专知会员服务
89+阅读 · 2023年4月13日
【ChatGPT系列报告】ChatGPT:AI模型框架研究,36页ppt
专知会员服务
174+阅读 · 2023年3月29日
多模态预训练模型简述
专知会员服务
115+阅读 · 2021年4月27日
面向多智能体博弈对抗的对手建模框架
专知
18+阅读 · 2022年9月28日
专家报告|深度学习+图像多模态融合
中国图象图形学报
12+阅读 · 2019年10月23日
专访俞栋:多模态是迈向通用人工智能的重要方向
AI科技评论
26+阅读 · 2019年9月9日
医学知识图谱构建技术与研究进展
全球人工智能
19+阅读 · 2017年11月13日
群体智能:新一代人工智能的重要方向
走向智能论坛
12+阅读 · 2017年8月16日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2013年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
Arxiv
0+阅读 · 3月12日
Arxiv
0+阅读 · 2月9日
VIP会员
最新内容
战争机器学习:数据生态系统构建(155页)
专知会员服务
5+阅读 · 今天8:10
内省扩散语言模型
专知会员服务
5+阅读 · 4月14日
国外反无人机系统与技术动态
专知会员服务
3+阅读 · 4月14日
大规模作战行动中的战术作战评估(研究论文)
未来的海战无人自主系统
专知会员服务
3+阅读 · 4月14日
美军多域作战现状分析:战略、概念还是幻想?
无人机与反无人机系统(书籍)
专知会员服务
19+阅读 · 4月14日
美陆军2026条令:安全与机动支援
专知会员服务
9+阅读 · 4月14日
相关VIP内容
基于多模态大模型的具身智能体研究进展与展望
专知会员服务
26+阅读 · 2025年7月2日
面向大模型多智能体系统的多维评估方法
专知会员服务
34+阅读 · 2025年4月15日
LLM in Medical Domain: 大语言模型在医学领域的应用
专知会员服务
103+阅读 · 2023年6月17日
大模型如何赋能医学?全科医学人工智能基础模型
专知会员服务
89+阅读 · 2023年4月13日
【ChatGPT系列报告】ChatGPT:AI模型框架研究,36页ppt
专知会员服务
174+阅读 · 2023年3月29日
多模态预训练模型简述
专知会员服务
115+阅读 · 2021年4月27日
相关基金
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2013年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员