Evaluating the clinical correctness and reasoning fidelity of automatically generated medical imaging reports remains a critical yet unresolved challenge. Existing evaluation methods often fail to capture the structured diagnostic logic that underlies radiological interpretation, resulting in unreliable judgments and limited clinical relevance. We introduce AgentsEval, a multi-agent stream reasoning framework that emulates the collaborative diagnostic workflow of radiologists. By dividing the evaluation process into interpretable steps including criteria definition, evidence extraction, alignment, and consistency scoring, AgentsEval provides explicit reasoning traces and structured clinical feedback. We also construct a multi-domain perturbation-based benchmark covering five medical report datasets with diverse imaging modalities and controlled semantic variations. Experimental results demonstrate that AgentsEval delivers clinically aligned, semantically faithful, and interpretable evaluations that remain robust under paraphrastic, semantic, and stylistic perturbations. This framework represents a step toward transparent and clinically grounded assessment of medical report generation systems, fostering trustworthy integration of large language models into clinical practice.


翻译:评估自动生成的医学影像报告的临床正确性与推理忠实性,仍是一个关键但尚未解决的挑战。现有评估方法往往难以捕捉放射学解读背后结构化的诊断逻辑,导致判断不可靠且临床相关性有限。我们提出了AgentsEval,一个模拟放射科医师协作诊断工作流程的多智能体流式推理框架。通过将评估过程分解为可解释的步骤——包括标准定义、证据提取、对齐和一致性评分——AgentsEval提供了显式的推理轨迹和结构化的临床反馈。我们还构建了一个基于多领域扰动的基准测试,涵盖五个医学报告数据集,涉及多种成像模态和受控的语义变异。实验结果表明,AgentsEval能够提供临床对齐、语义忠实且可解释的评估,并在释义、语义和风格扰动下保持稳健性。该框架代表了迈向医学报告生成系统透明化且基于临床的评估的一步,有助于推动大型语言模型在临床实践中可信赖的集成。

0
下载
关闭预览

相关内容

多维度对特定行业主题进行系统性分析、概括与总结。
智能体评判者(Agent-as-a-Judge)研究综述
专知会员服务
37+阅读 · 1月9日
智能体工程(Agent Engineering)
专知会员服务
27+阅读 · 2025年12月31日
AI Agent:基于大模型的自主智能体
专知会员服务
248+阅读 · 2023年9月9日
【AI与医学】多模态机器学习精准医疗健康
国家自然科学基金
23+阅读 · 2016年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
19+阅读 · 2012年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
VIP会员
相关基金
国家自然科学基金
23+阅读 · 2016年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
19+阅读 · 2012年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员