Multimodal Large Language Models (MLLMs) show promise for medical applications, yet progress in dermatology lags due to limited training data, narrow task coverage, and lack of clinically-grounded supervision that mirrors expert diagnostic workflows. We present a comprehensive framework to address these gaps. First, we introduce DermoInstruct, a large-scale morphology-anchored instruction corpus comprising 211,243 images and 772,675 trajectories across five task formats, capturing the complete diagnostic pipeline from morphological observation and clinical reasoning to final diagnosis. Second, we establish DermoBench, a rigorous benchmark evaluating 11 tasks across four clinical axes: Morphology, Diagnosis, Reasoning, and Fairness, including a challenging subset of 3,600 expert-verified open-ended instances and human performance baselines. Third, we develop DermoGPT, a dermatology reasoning MLLM trained via supervised fine-tuning followed by our Morphologically-Anchored Visual-Inference-Consistent (MAVIC) reinforcement learning objective, which enforces consistency between visual observations and diagnostic conclusions. At inference, we deploy Confidence-Consistency Test-time adaptation (CCT) for robust predictions. Experiments show DermoGPT significantly outperforms 16 representative baselines across all axes, achieving state-of-the-art performance while substantially narrowing the human-AI gap. DermoInstruct, DermoBench and DermoGPT will be made publicly available at https://github.com/mendicant04/DermoGPT upon acceptance.


翻译:多模态大语言模型(MLLMs)在医疗应用中展现出潜力,但皮肤病学领域的进展因训练数据有限、任务覆盖范围狭窄以及缺乏模拟专家诊断流程的临床基础监督而滞后。我们提出了一个综合性框架以解决这些不足。首先,我们引入了DermoInstruct,这是一个大规模形态学锚定的指令语料库,包含211,243张图像和跨越五种任务格式的772,675条轨迹,涵盖了从形态学观察、临床推理到最终诊断的完整诊断流程。其次,我们建立了DermoBench,这是一个严格的基准测试,评估了涵盖四个临床维度(形态学、诊断、推理和公平性)的11项任务,其中包括一个包含3,600个专家验证的开放式实例及人类表现基线的挑战性子集。第三,我们开发了DermoGPT,这是一个通过监督微调并结合我们提出的形态学锚定视觉推理一致性(MAVIC)强化学习目标训练的皮肤病学推理MLLM,该目标强制视觉观察与诊断结论之间的一致性。在推理阶段,我们部署了置信度一致性测试时适应(CCT)方法以获得稳健的预测。实验表明,DermoGPT在所有维度上均显著优于16个代表性基线模型,实现了最先进的性能,同时大幅缩小了人类与AI之间的差距。DermoInstruct、DermoBench和DermoGPT将在论文被接受后于https://github.com/mendicant04/DermoGPT 公开提供。

0
下载
关闭预览

相关内容

【Tutorial】计算机视觉中的Transformer,98页ppt
专知
21+阅读 · 2021年10月25日
图机器学习 2.2-2.4 Properties of Networks, Random Graph
图与推荐
10+阅读 · 2020年3月28日
CosFace: Large Margin Cosine Loss for Deep Face Recognition论文笔记
统计学习与视觉计算组
44+阅读 · 2018年4月25日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员