MedGPT-oss: Training a General-Purpose Vision-Language Model for Biomedicine - 专知论文

会员服务 ·

0

模态 · 生物 · 多模 · 语言模型 · 多模态 ·

MedGPT-oss: Training a General-Purpose Vision-Language Model for Biomedicine

翻译：MedGPT-oss：训练用于生物医学领域的通用视觉-语言模型

Kai Zhang,Zhengqing Yuan,Cheng Peng,Songlin Zhao,Mengxian Lyu,Ziyi Chen,Yanfang Ye,Wei Liu,Ying Zhang,Kaleb E Smith,Lifang He,Lichao Sun,Yonghui Wu

from arxiv, Technical report, work in progress

Biomedical multimodal assistants have the potential to unify radiology, pathology, and clinical-text reasoning, yet a critical deployment gap remains: top-performing systems are either closed-source or computationally prohibitive, precluding the on-premises deployment required for patient privacy and PHI compliance. We introduce MEDGPT-OSS, an open-weight, 20B-parameter generalist vision-language model designed to facilitate open research in clinical AI. Rather than relying on architectural complexity, MEDGPT-OSS pairs the GPT-oss language backbone with a visual front-end via a optimized, three-stage training curriculum. By progressively domain-adapting these modules through rigorous data curation and long-context multimodal alignment, we demonstrate that a 20B model can bridge the capacity gap. It successfully outperforms larger open medical models on out-of-distribution (OOD) multimodal reasoning and complex text-only clinical tasks. By unifying diverse modalities under a single instruction-following interface, MEDGPT-OSS maintains a parameter-efficient footprint fully compatible with commodity GPUs. We release the complete training recipe, open-weight checkpoints, and a rigorous evaluation harness to serve as a verifiable foundation for privacy-preserving, institution-specific clinical AI research.

翻译：生物医学多模态助手有望统一放射学、病理学和临床文本推理，但一个关键的部署鸿沟依然存在：性能顶尖的系统要么是闭源的，要么计算成本过高，无法满足患者隐私和受保护健康信息合规性所要求的本地部署。我们推出MEDGPT-OSS，这是一个开放权重的200亿参数通用视觉-语言模型，旨在促进临床人工智能的开放研究。MEDGPT-OSS并非依赖架构复杂性，而是通过优化的三阶段训练课程，将GPT-oss语言主干与视觉前端相结合。通过对这些模块进行严格的数据整理和长上下文多模态对齐，逐步实现领域适应，我们证明了一个200亿参数的模型能够弥合能力差距。它在分布外多模态推理和复杂的纯文本临床任务上，成功超越了规模更大的开放医学模型。通过将多种模态统一在单一的指令跟随接口下，MEDGPT-OSS保持了参数高效的规模，完全兼容商用GPU。我们发布了完整的训练方案、开放权重的检查点以及严格的评估工具包，旨在为保护隐私、机构特定的临床人工智能研究提供一个可验证的基础。

0

相关内容

《Med3DVLM：面向三维医学图像分析的高效视觉-语言模型》

《Med3DVLM：面向三维医学图像分析的高效视觉-语言模型》

专知会员服务

9+阅读 · 2025年3月27日

ICML 2024 | Med-ST：解锁时空信息在医学多模态预训练中的能力

ICML 2024 | Med-ST：解锁时空信息在医学多模态预训练中的能力

专知会员服务

13+阅读 · 2024年7月10日

适配还是提示？微软最新《通用大模型是否超过专业领域微调大模型》论文，GPT-4多种策略提示超越医学大模型

适配还是提示？微软最新《通用大模型是否超过专业领域微调大模型》论文，GPT-4多种策略提示超越医学大模型

专知会员服务

59+阅读 · 2023年12月3日

Nat. Med. | 医学中的大型语言模型

Nat. Med. | 医学中的大型语言模型

专知会员服务

58+阅读 · 2023年9月19日

LLM in Medical Domain: 大语言模型在医学领域的应用

LLM in Medical Domain: 大语言模型在医学领域的应用

专知会员服务

103+阅读 · 2023年6月17日

大模型如何构建“医生级”问答？谷歌DeepMInd最新《基于大型语言模型的专家级医疗问答研究》论文，提出Med-PaLM 2

大模型如何构建“医生级”问答？谷歌DeepMInd最新《基于大型语言模型的专家级医疗问答研究》论文，提出Med-PaLM 2

专知会员服务

65+阅读 · 2023年5月21日

【ChatGPT系列报告】ChatGPT/GPT-4 如何赋能应用，31页pdf

【ChatGPT系列报告】ChatGPT/GPT-4 如何赋能应用，31页pdf

专知会员服务

167+阅读 · 2023年4月9日

PubMed GPT ：用于生物医学文本的特定领域大型语言模型

PubMed GPT ：用于生物医学文本的特定领域大型语言模型

专知会员服务

38+阅读 · 2022年12月19日

南京大学医学院最新《Transformer医学图像处理应用》综述论文，涵盖120多种Transformers方法及在医疗临床应用

南京大学医学院最新《Transformer医学图像处理应用》综述论文，涵盖120多种Transformers方法及在医疗临床应用

专知会员服务

124+阅读 · 2022年3月4日

美国埃默里大学医学院发布最新「医学图像配准深度学习」综述论文

美国埃默里大学医学院发布最新「医学图像配准深度学习」综述论文

专知会员服务

56+阅读 · 2020年1月7日

【ChatGPT系列报告】ChatGPT/GPT-4 如何赋能应用，31页pdf

【ChatGPT系列报告】ChatGPT/GPT-4 如何赋能应用，31页pdf

专知

29+阅读 · 2023年4月9日

【ChatGPT系列报告】人工智能行业专题报告：多模态AI研究框架，17页ppt

【ChatGPT系列报告】人工智能行业专题报告：多模态AI研究框架，17页ppt

专知

23+阅读 · 2023年4月8日

【ChatGPT系列报告】ChatGPT：存算一体，算力的下一极，47页ppt

【ChatGPT系列报告】ChatGPT：存算一体，算力的下一极，47页ppt

专知

14+阅读 · 2023年4月6日

【AI+医疗】斯坦福大学最新博士论文《深度学习在医学影像理解中的应用》，205页pdf

【AI+医疗】斯坦福大学最新博士论文《深度学习在医学影像理解中的应用》，205页pdf

专知

23+阅读 · 2022年4月5日

【干货书】MLOps是什么？MLOps实战：操作机器学习模型，461页pdf

【干货书】MLOps是什么？MLOps实战：操作机器学习模型，461页pdf

专知

15+阅读 · 2022年2月16日

美国埃默里大学医学院发布最新「医学图像配准深度学习」综述论文

美国埃默里大学医学院发布最新「医学图像配准深度学习」综述论文

专知

15+阅读 · 2020年1月7日

专家报告|深度学习+图像多模态融合

专家报告|深度学习+图像多模态融合

中国图象图形学报

12+阅读 · 2019年10月23日

基于知识图谱的智能医疗诊断系统（提供医生机器人的实现方案）

基于知识图谱的智能医疗诊断系统（提供医生机器人的实现方案）

专知

12+阅读 · 2019年3月25日

深度学习时代的图模型，清华发文综述图网络

深度学习时代的图模型，清华发文综述图网络

GAN生成式对抗网络

13+阅读 · 2018年12月23日

基于深度学习的医疗影像论文汇总（Deep Learning Papers on Medical Image Analysis）

基于深度学习的医疗影像论文汇总（Deep Learning Papers on Medical Image Analysis）

AI研习社

17+阅读 · 2017年10月21日

基于深度学习技术的视神经系统研究

国家自然科学基金

7+阅读 · 2017年12月31日

基于深度表达和迁移学习的人体检测研究

国家自然科学基金

6+阅读 · 2015年12月31日

面向聋儿言语康复的多模态人机交互模型及技术研究

国家自然科学基金

3+阅读 · 2015年12月31日

多级可控组装模拟生物体系的功能

国家自然科学基金

0+阅读 · 2015年12月31日

基于极限学习单元的多生物特征图像深度学习建模与识别研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于多模态脑影像处理和多维可视化的辅助诊疗技术研究

国家自然科学基金

4+阅读 · 2014年12月31日

基于深度信息和显著计算的手势交互技术研究及应用

国家自然科学基金

1+阅读 · 2014年12月31日

基于视频图像处理的神经导航空间配准方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

新型统计模型在精神疾病的基因、脑影像和行为数据整合中的应用

国家自然科学基金

0+阅读 · 2014年12月31日

基于多模态医学图像处理的多维可视化辅助诊疗关键技术研究

国家自然科学基金

3+阅读 · 2014年12月31日

EyeAgent: An Agentic AI System for Multimodal Clinical Decision Support in Ophthalmology

Arxiv

0+阅读 · 3月11日

MedMASLab: A Unified Orchestration Framework for Benchmarking Multimodal Medical Multi-Agent Systems

Arxiv

0+阅读 · 3月10日

MEDSYN: Benchmarking Multi-EviDence SYNthesis in Complex Clinical Cases for Multimodal Large Language Models

Arxiv

0+阅读 · 2月25日

MedProbCLIP: Probabilistic Adaptation of Vision-Language Foundation Model for Reliable Radiograph-Report Retrieval

Arxiv

0+阅读 · 2月17日

MedXIAOHE: A Comprehensive Recipe for Building Medical MLLMs

Arxiv

0+阅读 · 2月16日

MedVAR: Towards Scalable and Efficient Medical Image Generation via Next-scale Autoregressive Prediction

Arxiv

0+阅读 · 2月16日

AuthGlass: Benchmarking Voice Liveness Detection and Authentication on Smart Glasses via Comprehensive Acoustic Features

Arxiv

0+阅读 · 2月12日

MedMO: Grounding and Understanding Multimodal Large Language Model for Medical Images

Arxiv

1+阅读 · 2月6日

MeDocVL: A Visual Language Model for Medical Document Understanding and Parsing

Arxiv

0+阅读 · 2月6日

Med-Scout: Curing MLLMs' Geometric Blindness in Medical Perception via Geometry-Aware RL Post-Training

Arxiv

0+阅读 · 1月30日

VIP会员

文章信息

相关主题

最新内容

面向国防作战的最佳自主与蜂群无人机技术

面向国防作战的最佳自主与蜂群无人机技术

专知会员服务

3+阅读 · 今天8:04

《异构人类团队的协作决策过程混合建模研究》

《异构人类团队的协作决策过程混合建模研究》

专知会员服务

3+阅读 · 今天7:59

《C5ISR系统中的注意力动态与自适应决策支持研究：视觉与多模态注意力引导对任务绩效影响的递归量化分析》最新36页报告

《C5ISR系统中的注意力动态与自适应决策支持研究：视觉与多模态注意力引导对任务绩效影响的递归量化分析》最新36页报告

专知会员服务

3+阅读 · 今天7:56

《设计思维中的人机协作：生成式人工智能对共情访谈影响的探究》140页

《设计思维中的人机协作：生成式人工智能对共情访谈影响的探究》140页

专知会员服务

3+阅读 · 今天7:50

博士论文 | 面向大模型推理的内存高效算法

博士论文 | 面向大模型推理的内存高效算法

专知会员服务

3+阅读 · 7月27日

论文解读 | 从预训练到后训练：理解大模型推理能力如何形成

论文解读 | 从预训练到后训练：理解大模型推理能力如何形成

专知会员服务

4+阅读 · 7月27日

《无人系统互操作性导论——无人系统联合架构（JAUS）》

《无人系统互操作性导论——无人系统联合架构（JAUS）》

专知会员服务

12+阅读 · 7月27日

美空军新型反无人机部队初探

美空军新型反无人机部队初探

专知会员服务

7+阅读 · 7月27日

《对抗性电磁环境下远程巡飞弹作战的安全指挥与控制数据链》

《对抗性电磁环境下远程巡飞弹作战的安全指挥与控制数据链》

专知会员服务

6+阅读 · 7月27日

《北约下一代建模与仿真（NexGen M&S）计划》2026年69页

《北约下一代建模与仿真（NexGen M&S）计划》2026年69页

专知会员服务

4+阅读 · 7月27日

《防空交战流程的概率建模研究》

《防空交战流程的概率建模研究》

专知会员服务

10+阅读 · 7月27日

ICML 2026 教程 | 数值优化理论还重要吗？

ICML 2026 教程 | 数值优化理论还重要吗？

专知会员服务

6+阅读 · 7月26日

ICM 2026 | 陶哲轩：人工智能时代的数学

ICM 2026 | 陶哲轩：人工智能时代的数学

专知会员服务

9+阅读 · 7月26日

《面向可扩展高韧性无人机集群网络的速度感知分层通信框架》

《面向可扩展高韧性无人机集群网络的速度感知分层通信框架》

专知会员服务

8+阅读 · 7月26日

《面向概率推理的可定制战术引擎及其在军事任务规划中的应用》

《面向概率推理的可定制战术引擎及其在军事任务规划中的应用》

专知会员服务

11+阅读 · 7月26日

相关VIP内容

《Med3DVLM：面向三维医学图像分析的高效视觉-语言模型》

《Med3DVLM：面向三维医学图像分析的高效视觉-语言模型》

专知会员服务

9+阅读 · 2025年3月27日

ICML 2024 | Med-ST：解锁时空信息在医学多模态预训练中的能力

ICML 2024 | Med-ST：解锁时空信息在医学多模态预训练中的能力

专知会员服务

13+阅读 · 2024年7月10日

适配还是提示？微软最新《通用大模型是否超过专业领域微调大模型》论文，GPT-4多种策略提示超越医学大模型

适配还是提示？微软最新《通用大模型是否超过专业领域微调大模型》论文，GPT-4多种策略提示超越医学大模型

专知会员服务

59+阅读 · 2023年12月3日

Nat. Med. | 医学中的大型语言模型

Nat. Med. | 医学中的大型语言模型

专知会员服务

58+阅读 · 2023年9月19日

LLM in Medical Domain: 大语言模型在医学领域的应用

LLM in Medical Domain: 大语言模型在医学领域的应用

专知会员服务

103+阅读 · 2023年6月17日

大模型如何构建“医生级”问答？谷歌DeepMInd最新《基于大型语言模型的专家级医疗问答研究》论文，提出Med-PaLM 2

大模型如何构建“医生级”问答？谷歌DeepMInd最新《基于大型语言模型的专家级医疗问答研究》论文，提出Med-PaLM 2

专知会员服务

65+阅读 · 2023年5月21日

【ChatGPT系列报告】ChatGPT/GPT-4 如何赋能应用，31页pdf

【ChatGPT系列报告】ChatGPT/GPT-4 如何赋能应用，31页pdf

专知会员服务

167+阅读 · 2023年4月9日

PubMed GPT ：用于生物医学文本的特定领域大型语言模型

PubMed GPT ：用于生物医学文本的特定领域大型语言模型

专知会员服务

38+阅读 · 2022年12月19日

南京大学医学院最新《Transformer医学图像处理应用》综述论文，涵盖120多种Transformers方法及在医疗临床应用

南京大学医学院最新《Transformer医学图像处理应用》综述论文，涵盖120多种Transformers方法及在医疗临床应用

专知会员服务

124+阅读 · 2022年3月4日

美国埃默里大学医学院发布最新「医学图像配准深度学习」综述论文

美国埃默里大学医学院发布最新「医学图像配准深度学习」综述论文

专知会员服务

56+阅读 · 2020年1月7日

热门VIP内容

开通专知VIP会员享更多权益服务

《异构人类团队的协作决策过程混合建模研究》

《设计思维中的人机协作：生成式人工智能对共情访谈影响的探究》140页

面向国防作战的最佳自主与蜂群无人机技术

《C5ISR系统中的注意力动态与自适应决策支持研究：视觉与多模态注意力引导对任务绩效影响的递归量化分析》最新36页报告

相关资讯

【ChatGPT系列报告】ChatGPT/GPT-4 如何赋能应用，31页pdf

【ChatGPT系列报告】ChatGPT/GPT-4 如何赋能应用，31页pdf

专知

29+阅读 · 2023年4月9日

【ChatGPT系列报告】人工智能行业专题报告：多模态AI研究框架，17页ppt

【ChatGPT系列报告】人工智能行业专题报告：多模态AI研究框架，17页ppt

专知

23+阅读 · 2023年4月8日

【ChatGPT系列报告】ChatGPT：存算一体，算力的下一极，47页ppt

【ChatGPT系列报告】ChatGPT：存算一体，算力的下一极，47页ppt

专知

14+阅读 · 2023年4月6日

【AI+医疗】斯坦福大学最新博士论文《深度学习在医学影像理解中的应用》，205页pdf

【AI+医疗】斯坦福大学最新博士论文《深度学习在医学影像理解中的应用》，205页pdf

专知

23+阅读 · 2022年4月5日

【干货书】MLOps是什么？MLOps实战：操作机器学习模型，461页pdf

【干货书】MLOps是什么？MLOps实战：操作机器学习模型，461页pdf

专知

15+阅读 · 2022年2月16日

美国埃默里大学医学院发布最新「医学图像配准深度学习」综述论文

美国埃默里大学医学院发布最新「医学图像配准深度学习」综述论文

专知

15+阅读 · 2020年1月7日

专家报告|深度学习+图像多模态融合

专家报告|深度学习+图像多模态融合

中国图象图形学报

12+阅读 · 2019年10月23日

基于知识图谱的智能医疗诊断系统（提供医生机器人的实现方案）

基于知识图谱的智能医疗诊断系统（提供医生机器人的实现方案）

专知

12+阅读 · 2019年3月25日

深度学习时代的图模型，清华发文综述图网络

深度学习时代的图模型，清华发文综述图网络

GAN生成式对抗网络

13+阅读 · 2018年12月23日

基于深度学习的医疗影像论文汇总（Deep Learning Papers on Medical Image Analysis）

基于深度学习的医疗影像论文汇总（Deep Learning Papers on Medical Image Analysis）

AI研习社

17+阅读 · 2017年10月21日

相关论文

EyeAgent: An Agentic AI System for Multimodal Clinical Decision Support in Ophthalmology

Arxiv

0+阅读 · 3月11日

MedMASLab: A Unified Orchestration Framework for Benchmarking Multimodal Medical Multi-Agent Systems

Arxiv

0+阅读 · 3月10日

MEDSYN: Benchmarking Multi-EviDence SYNthesis in Complex Clinical Cases for Multimodal Large Language Models

Arxiv

0+阅读 · 2月25日

MedProbCLIP: Probabilistic Adaptation of Vision-Language Foundation Model for Reliable Radiograph-Report Retrieval

Arxiv

0+阅读 · 2月17日

MedXIAOHE: A Comprehensive Recipe for Building Medical MLLMs

Arxiv

0+阅读 · 2月16日

MedVAR: Towards Scalable and Efficient Medical Image Generation via Next-scale Autoregressive Prediction

Arxiv

0+阅读 · 2月16日

AuthGlass: Benchmarking Voice Liveness Detection and Authentication on Smart Glasses via Comprehensive Acoustic Features

Arxiv

0+阅读 · 2月12日

MedMO: Grounding and Understanding Multimodal Large Language Model for Medical Images

Arxiv

1+阅读 · 2月6日

MeDocVL: A Visual Language Model for Medical Document Understanding and Parsing

Arxiv

0+阅读 · 2月6日

Med-Scout: Curing MLLMs' Geometric Blindness in Medical Perception via Geometry-Aware RL Post-Training

Arxiv

0+阅读 · 1月30日

相关基金

基于深度学习技术的视神经系统研究

国家自然科学基金

7+阅读 · 2017年12月31日

基于深度表达和迁移学习的人体检测研究

国家自然科学基金

6+阅读 · 2015年12月31日

面向聋儿言语康复的多模态人机交互模型及技术研究

国家自然科学基金

3+阅读 · 2015年12月31日

多级可控组装模拟生物体系的功能

国家自然科学基金

0+阅读 · 2015年12月31日

基于极限学习单元的多生物特征图像深度学习建模与识别研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于多模态脑影像处理和多维可视化的辅助诊疗技术研究

国家自然科学基金

4+阅读 · 2014年12月31日

基于深度信息和显著计算的手势交互技术研究及应用

国家自然科学基金

1+阅读 · 2014年12月31日

基于视频图像处理的神经导航空间配准方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

新型统计模型在精神疾病的基因、脑影像和行为数据整合中的应用

国家自然科学基金

0+阅读 · 2014年12月31日

基于多模态医学图像处理的多维可视化辅助诊疗关键技术研究

国家自然科学基金

3+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员