Medical report generation (MRG) aims to automatically derive radiology-style reports from medical images to aid in clinical decision-making. However, existing methods often generate text that mimics the linguistic style of radiologists but fails to guarantee clinical correctness, because they are trained on token-level objectives which focus on word-choice and sentence structure rather than actual medical accuracy. We propose a semantic-driven reinforcement learning (SRL) method for medical report generation, adopted on a large vision-language model (LVLM). SRL adopts Group Relative Policy Optimization (GRPO) to encourage clinical-correctness-guided learning beyond imitation of language style. Specifically, we optimise a report-level reward: a margin-based cosine similarity (MCCS) computed between key radiological findings extracted from generated and reference reports, thereby directly aligning clinical-label agreement and improving semantic correctness. A lightweight reasoning format constraint further guides the model to generate structured "thinking report" outputs. We evaluate Medical Report Generation with Sematic-driven Reinforment Learning (MRG-R1), on two datasets: IU X-Ray and MIMIC-CXR using clinical efficacy (CE) metrics. MRG-R1 achieves state-of-the-art performance with CE-F1 51.88 on IU X-Ray and 40.39 on MIMIC-CXR. We found that the label-semantic reinforcement is better than conventional token-level supervision. These results indicate that optimizing a clinically grounded, report-level reward rather than token overlap,meaningfully improves clinical correctness. This work is a prior to explore semantic-reinforcement in supervising medical correctness in medical Large vision-language model(Med-LVLM) training.


翻译:医学报告生成(MRG)旨在从医学图像中自动生成放射学风格的报告,以辅助临床决策。然而,现有方法生成的文本往往仅模仿放射科医师的语言风格,却无法保证临床正确性,因为这些方法基于词元级目标进行训练,侧重于词汇选择和句子结构,而非实际的医学准确性。我们提出了一种用于医学报告生成的语义驱动强化学习(SRL)方法,该方法基于大型视觉语言模型(LVLM)实现。SRL采用组相对策略优化(GRPO),以鼓励超越语言风格模仿的临床正确性引导学习。具体而言,我们优化了一个报告级奖励:基于从生成报告和参考报告中提取的关键放射学发现计算出的边际余弦相似度(MCCS),从而直接对齐临床标签一致性并提升语义正确性。一个轻量级的推理格式约束进一步引导模型生成结构化的“思维报告”输出。我们在两个数据集(IU X-Ray 和 MIMIC-CXR)上使用临床效能(CE)指标评估了语义驱动强化学习的医学报告生成方法(MRG-R1)。MRG-R1 在 IU X-Ray 上达到 CE-F1 51.88,在 MIMIC-CXR 上达到 40.39,实现了最先进的性能。我们发现,标签语义强化优于传统的词元级监督。这些结果表明,优化基于临床的报告级奖励而非词元重叠,能显著提升临床正确性。本研究是探索在医学大型视觉语言模型(Med-LVLM)训练中利用语义强化监督医学正确性的先导工作。

0
下载
关闭预览

相关内容

【NeurIPS2023】CQM: 与量化世界模型的课程强化学习
专知会员服务
25+阅读 · 2023年10月29日
UTC: 用于视觉对话的任务间对比学习的统一Transformer
专知会员服务
14+阅读 · 2022年5月4日
Single-Shot Object Detection with Enriched Semantics
统计学习与视觉计算组
14+阅读 · 2018年8月29日
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
16+阅读 · 2013年12月31日
VIP会员
相关基金
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
16+阅读 · 2013年12月31日
Top
微信扫码咨询专知VIP会员