Understanding how two radiology image sets differ is critical for generating clinical insights and for interpreting medical AI systems. We introduce RadDiff, a multimodal agentic system that performs radiologist-style comparative reasoning to describe clinically meaningful differences between paired radiology studies. RadDiff builds on a proposer-ranker framework from VisDiff, and incorporates four innovations inspired by real diagnostic workflows: (1) medical knowledge injection through domain-adapted vision-language models; (2) multimodal reasoning that integrates images with their clinical reports; (3) iterative hypothesis refinement across multiple reasoning rounds; and (4) targeted visual search that localizes and zooms in on salient regions to capture subtle findings. To evaluate RadDiff, we construct RadDiffBench, a challenging benchmark comprising 57 expert-validated radiology study pairs with ground-truth difference descriptions. On RadDiffBench, RadDiff achieves 47% accuracy, and 50% accuracy when guided by ground-truth reports, significantly outperforming the general-domain VisDiff baseline. We further demonstrate RadDiff's versatility across diverse clinical tasks, including COVID-19 phenotype comparison, racial subgroup analysis, and discovery of survival-related imaging features. Together, RadDiff and RadDiffBench provide the first method-and-benchmark foundation for systematically uncovering meaningful differences in radiological data.


翻译:理解两组放射学图像之间的差异对于生成临床见解和解释医疗人工智能系统至关重要。我们提出了RadDiff,这是一个多模态智能体系统,它执行放射科医生风格的比较推理,以描述成对放射学研究之间具有临床意义的差异。RadDiff建立在VisDiff的提议者-排序器框架之上,并融合了受真实诊断工作流程启发的四项创新:(1) 通过领域自适应视觉语言模型注入医学知识;(2) 集成图像与其临床报告的多模态推理;(3) 跨多轮推理的迭代假设细化;(4) 针对性的视觉搜索,定位并聚焦于显著区域以捕捉细微发现。为了评估RadDiff,我们构建了RadDiffBench,这是一个具有挑战性的基准测试,包含57对经过专家验证的放射学研究及其真实差异描述。在RadDiffBench上,RadDiff达到了47%的准确率,在真实报告的指导下准确率可达50%,显著优于通用领域的VisDiff基线。我们进一步展示了RadDiff在多种临床任务中的通用性,包括COVID-19表型比较、种族亚组分析以及生存相关影像特征的发现。总之,RadDiff和RadDiffBench为系统性地揭示放射学数据中有意义的差异提供了首个方法与基准基础。

0
下载
关闭预览

相关内容

【Nature通讯】深度神经网络模型中的个体差异
专知会员服务
14+阅读 · 2020年11月16日
NLP 与 NLU:从语言理解到语言处理
AI研习社
15+阅读 · 2019年5月29日
中文对比英文自然语言处理NLP的区别综述
AINLP
18+阅读 · 2019年3月20日
从语言学到深度学习NLP,一文概述自然语言处理
人工智能学家
13+阅读 · 2018年1月28日
国家自然科学基金
23+阅读 · 2016年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
最新内容
乌克兰前线的五项创新
专知会员服务
1+阅读 · 今天6:14
 军事通信系统与设备的技术演进综述
专知会员服务
1+阅读 · 今天5:59
《北约标准:医疗评估手册》174页
专知会员服务
1+阅读 · 今天5:51
《提升生成模型的安全性与保障》博士论文
专知会员服务
0+阅读 · 今天5:47
美国当前高超音速导弹发展概述
专知会员服务
4+阅读 · 4月19日
无人机蜂群建模与仿真方法
专知会员服务
9+阅读 · 4月19日
澳大利亚发布《国防战略(2026年)》
专知会员服务
4+阅读 · 4月19日
全球高超音速武器最新发展趋势
专知会员服务
3+阅读 · 4月19日
相关VIP内容
【Nature通讯】深度神经网络模型中的个体差异
专知会员服务
14+阅读 · 2020年11月16日
相关基金
国家自然科学基金
23+阅读 · 2016年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员