AI systems are being deployed across medical imaging faster than their failure modes are understood. At this point in time, the failure of greatest clinical concern is hallucination: clinically plausible but factually incorrect outputs, including fabricated anatomical structures, missed findings, incorrect laterality, and invented measurements in generated reports, with direct consequences, for example, for biopsy decisions, staging, and treatment planning. This structured narrative synthesizes peer-reviewed studies, benchmark datasets, and FDA regulatory guidance across five imaging modalities to produce a cross-modality analysis of hallucination taxonomy, etiology, detection, and mitigation. Specifically, we address three questions in this study: (1) how can existing taxonomies be unified across modalities?, (2) how do medical-specialized foundation models hallucinate less than general-purpose ones?, and (3) which mitigation strategies are effective and compatible with FDA lifecycle oversight? We note that three taxonomic frameworks together cover the imaging pipeline in a way no single framework does alone. We also highlight that general-purpose foundation models outperform medical-specialized models on hallucination-specific benchmarks, indicating that narrow domain fine-tuning can introduce overfitting-induced confabulation. At the same time, the oversight of radiologists remains essential; for instance, a very high percentage of of AI-generated flags required expert correction before clinical use. Physics-informed architectural constraints, Chain-of-Thought prompting, and human-in-the-loop safeguards each address different failure modes and is effective when combined. All findings are mapped to the FDA's Total Product Lifecycle and Predetermined Change Control Plan frameworks, which treat hallucination management as a lifecycle obligation rather than a pre-deployment checklist.


翻译:人工智能系统正以前所未有的速度部署于医学影像领域,但其故障模式尚未被充分理解。当前临床关注度最高的故障是幻觉现象:临床看似合理但事实上错误的输出,包括虚构的解剖结构、遗漏的发现、错误的侧向判断,以及生成报告中编造的测量数据,这些错误会直接导致活检决策、分期和治疗规划层面的严重后果。本结构化综述整合了经同行评议的研究论文、基准数据集及FDA监管指南,覆盖五种成像模态,构建了多模态层面的幻觉分类学、病因学、检测与缓解交叉分析。具体而言,本研究聚焦三个问题:(1)如何统一不同模态下的现有分类体系?(2)医学专用基础模型为何比通用模型产生更少的幻觉?(3)哪些缓解策略有效且符合FDA生命周期监管要求?我们注意到,三种分类框架共同覆盖了成像工作流,而单一框架无法独立实现这一目标。我们还发现,通用基础模型在幻觉专用基准测试中的表现优于医学专用模型,这表明窄域微调可能引入因过拟合导致的虚构输出。与此同时,放射科医生的监督仍然不可或缺:例如,极高比例的AI生成标志在临床使用前需经专家校正。物理约束架构、思维链提示及人机回环防御机制各针对不同故障模式,且组合使用时效果显著。所有研究结果均映射至FDA的“全产品生命周期”与“预定变更控制计划”框架,该框架将幻觉管理视为生命周期义务,而非部署前的检查清单。

0
下载
关闭预览

相关内容

大语言模型与视觉模型中的幻觉现象理解综述
专知会员服务
21+阅读 · 2025年10月2日
可解释的人工智能在生物医学图像分析中的应用综述
专知会员服务
14+阅读 · 2025年7月11日
医学应用中的可解释人工智能:综述
专知会员服务
36+阅读 · 2024年12月8日
AI在医疗中的安全挑战
专知会员服务
19+阅读 · 2024年10月5日
《大型视觉语言模型中的幻觉现象》综述
专知会员服务
57+阅读 · 2024年2月2日
Nature Medicine | 多模态的生物医学AI
专知会员服务
31+阅读 · 2022年9月25日
【AI与医学】多模态机器学习精准医疗健康
专知会员服务
83+阅读 · 2022年4月25日
【AI与医学】多模态机器学习精准医疗健康
【综述】医疗可解释人工智能综述论文
专知
33+阅读 · 2019年7月18日
国家自然科学基金
23+阅读 · 2016年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
4+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
6+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
3+阅读 · 6月17日
相关VIP内容
相关基金
国家自然科学基金
23+阅读 · 2016年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员