Recent reinforcement learning (RL) approaches have advanced radiology report generation (RRG), yet two core limitations persist: (1) report-level rewards offer limited evidence-grounded guidance for clinical faithfulness; and (2) current methods lack an explicit self-improving mechanism to align with clinical preference. We introduce clinically aligned Evidence-aware Self-Correcting Reinforcement Learning (ESC-RL), comprising two key components. First, a Group-wise Evidence-aware Alignment Reward (GEAR) delivers group-wise, evidence-aware feedback. GEAR reinforces consistent grounding for true positives, recovers missed findings for false negatives, and suppresses unsupported content for false positives. Second, a Self-correcting Preference Learning (SPL) strategy automatically constructs a reliable, disease-aware preference dataset from multiple noisy observations and leverages an LLM to synthesize refined reports without human supervision. ESC-RL promotes clinically faithful, disease-aligned reward and supports continual self-improvement during training. Extensive experiments on two public chest X-ray datasets demonstrate consistent gains and state-of-the-art performance.


翻译:最近的强化学习方法推动了放射学报告生成领域的发展,但仍存在两个核心局限:(1) 报告级奖励对临床准确性提供的基于证据的指导有限;(2) 当前方法缺乏明确的自我改进机制以对齐临床偏好。我们提出临床对齐的、证据感知的自纠正强化学习(ESC-RL),包含两个关键组件。首先,分组证据感知对齐奖励(GEAR)提供分组级、证据感知的反馈:对真阳性结果强化一致性证据支撑,对假阴性结果恢复遗漏发现,对假阳性结果抑制无依据内容。其次,自纠正偏好学习(SPL)策略自动从多个含噪声观测构建可靠的疾病感知偏好数据集,并利用大型语言模型在没有人工监督的情况下合成优化报告。ESC-RL促进临床可靠、疾病对齐的奖励,并支持训练过程中的持续自我改进。在两个公开胸部X光数据集上的大量实验表明,该方法取得持续提升并达到最优性能。

0
下载
关闭预览

相关内容

面向视觉的强化学习综述
专知会员服务
21+阅读 · 2025年8月12日
深度强化学习中的奖励模型:综述
专知会员服务
29+阅读 · 2025年6月20日
基于表征学习的离线强化学习方法研究综述
专知会员服务
29+阅读 · 2024年7月2日
基于人工反馈的强化学习综述
专知会员服务
65+阅读 · 2023年12月25日
【CVPR2023】基于动态图增强对比学习的胸部X光报告生成
专知会员服务
21+阅读 · 2023年3月23日
基于模型的强化学习综述
专知会员服务
149+阅读 · 2022年7月13日
【综述】自动驾驶领域中的强化学习,附18页论文下载
专知会员服务
176+阅读 · 2020年2月8日
「基于通信的多智能体强化学习」 进展综述
基于模型的强化学习综述
专知
42+阅读 · 2022年7月13日
【MIT博士论文】数据高效强化学习,176页pdf
【强化学习】强化学习/增强学习/再励学习介绍
产业智能官
10+阅读 · 2018年2月23日
关于强化学习(附代码,练习和解答)
深度学习
38+阅读 · 2018年1月30日
【强化学习】强化学习+深度学习=人工智能
产业智能官
55+阅读 · 2017年8月11日
国家自然科学基金
23+阅读 · 2016年12月31日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
40+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
24+阅读 · 2015年12月31日
国家自然科学基金
31+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2013年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
国家自然科学基金
23+阅读 · 2009年12月31日
Arxiv
0+阅读 · 4月28日
VIP会员
最新内容
美国从乌克兰无人机战争中学习经验
专知会员服务
1+阅读 · 今天15:03
ICML 2026 | 面向视觉语言模型的语义鲁棒性认证
专知会员服务
0+阅读 · 今天14:31
学习数据的几何:形状空间分析数学综述
专知会员服务
8+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
10+阅读 · 6月17日
相关VIP内容
面向视觉的强化学习综述
专知会员服务
21+阅读 · 2025年8月12日
深度强化学习中的奖励模型:综述
专知会员服务
29+阅读 · 2025年6月20日
基于表征学习的离线强化学习方法研究综述
专知会员服务
29+阅读 · 2024年7月2日
基于人工反馈的强化学习综述
专知会员服务
65+阅读 · 2023年12月25日
【CVPR2023】基于动态图增强对比学习的胸部X光报告生成
专知会员服务
21+阅读 · 2023年3月23日
基于模型的强化学习综述
专知会员服务
149+阅读 · 2022年7月13日
【综述】自动驾驶领域中的强化学习,附18页论文下载
专知会员服务
176+阅读 · 2020年2月8日
相关基金
国家自然科学基金
23+阅读 · 2016年12月31日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
40+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
24+阅读 · 2015年12月31日
国家自然科学基金
31+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2013年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
国家自然科学基金
23+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员