Despite strong performance of deep learning models in retinal disease detection, most systems produce static predictions without clinical reasoning or interactive explanation. Recent advances in multimodal large language models (MLLMs) integrate diagnostic predictions with clinically meaningful dialogue to support clinical decision-making and patient counseling. In this study, OcularChat, an MLLM, was fine-tuned from Qwen2.5-VL using simulated patient-physician dialogues to diagnose age-related macular degeneration (AMD) through visual question answering on color fundus photographs (CFPs). A total of 705,850 simulated dialogues paired with 46,167 CFPs were generated to train OcularChat to identify key AMD features and produce reasoned predictions. OcularChat demonstrated strong classification performance in AREDS, achieving accuracies of 0.954, 0.849, and 0.678 for the three diagnostic tasks: advanced AMD, pigmentary abnormalities, and drusen size, significantly outperforming existing MLLMs. On AREDS2, OcularChat remained the top-performing method on all tasks. Across three independent ophthalmologist graders, OcularChat achieved higher mean scores than a strong baseline model for advanced AMD (3.503 vs. 2.833), pigmentary abnormalities (3.272 vs. 2.828), drusen size (3.064 vs. 2.433), and overall impression (2.978 vs. 2.464) on a 5-point clinical grading rubric. Beyond strong objective performance in AMD severity classification, OcularChat demonstrated the ability to provide diagnostic reasoning, clinically relevant explanations, and interactive dialogue, with high performance in subjective ophthalmologist evaluation. These findings suggest that MLLMs may enable accurate, interpretable, and clinically useful image-based diagnosis and classification of AMD.


翻译:尽管深度学习模型在视网膜疾病检测中表现出色,但多数系统仅生成静态预测,缺乏临床推理或交互式解释能力。多模态大语言模型的最新进展将诊断预测与具有临床意义的对话相结合,以支持临床决策和患者咨询。本研究基于Qwen2.5-VL,通过模拟医患对话对多模态大语言模型OcularChat进行微调,使其能够基于彩色眼底照片进行视觉问答以诊断年龄相关性黄斑变性。我们生成了总计705,850组模拟对话(对应46,167张彩色眼底照片)用于训练OcularChat识别关键AMD特征并生成推理预测。在AREDS数据集中,OcularChat在三个诊断任务(晚期AMD、色素异常、玻璃膜疣大小)上分别达到0.954、0.849和0.678的准确率,显著优于现有MLLMs。在AREDS2数据集中,OcularChat在所有任务中仍保持最优性能。经三位独立眼科医师评估,在5分临床评分量表中,OcularChat在晚期AMD(3.503 vs. 2.833)、色素异常(3.272 vs. 2.828)、玻璃膜疣大小(3.064 vs. 2.433)及总体印象(2.978 vs. 2.464)等指标上的平均得分均超过强基线模型。除了在AMD严重程度分类中展现出的卓越客观性能,OcularChat还具备提供诊断推理、临床相关解释及交互式对话的能力,并在主观眼科医师评估中表现优异。这些发现表明,MLLMs有望实现准确、可解释且具有临床实用性的AMD图像诊断与分类。

0
下载
关闭预览

相关内容

超威半导体公司(英语:Advanced Micro Devices, Inc.,简称AMD)是一家专注于微处理器与图形处理器设计和生产的跨国公司,总部位于美国加州旧金山湾区硅谷内的Sunnyvale。
多模态深度学习
专知会员服务
136+阅读 · 2023年1月15日
多模态人机交互综述
专知会员服务
150+阅读 · 2022年7月3日
【AI与医学】多模态机器学习精准医疗健康
多模态深度学习综述,18页pdf
专知
51+阅读 · 2020年3月29日
专访俞栋:多模态是迈向通用人工智能的重要方向
AI科技评论
27+阅读 · 2019年9月9日
这可能是「多模态机器学习」最通俗易懂的介绍
计算机视觉life
113+阅读 · 2018年12月20日
国家自然科学基金
6+阅读 · 2017年12月31日
国家自然科学基金
23+阅读 · 2016年12月31日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
13+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Arxiv
24+阅读 · 2024年2月23日
VIP会员
最新内容
ECCV 2026 | MIMFlow:MIM与归一化流统一图像生成
专知会员服务
5+阅读 · 6月25日
网状网络及其在军事领域的运用
专知会员服务
7+阅读 · 6月25日
无美国参与的欧洲战争方式(万字长文)
专知会员服务
8+阅读 · 6月25日
《国防领域敏感性分析白皮书》
专知会员服务
8+阅读 · 6月25日
综述 | 从问答到任务完成:Agent系统与Harness设计
Agentic RL:框架、实践与长程智能体训练
专知会员服务
10+阅读 · 6月24日
重新思考无人机时代的生存能力
专知会员服务
10+阅读 · 6月24日
装甲突击旅:现代战争思考、战斗与组织
专知会员服务
7+阅读 · 6月24日
在人工智能加速决策环境中拓展OODA循环
专知会员服务
10+阅读 · 6月24日
相关VIP内容
相关基金
国家自然科学基金
6+阅读 · 2017年12月31日
国家自然科学基金
23+阅读 · 2016年12月31日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
13+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员