Chest X-ray report generation (CXR-RG) has the potential to substantially alleviate radiologists' workload. However, conventional autoregressive vision--language models (VLMs) suffer from high inference latency due to sequential token decoding. Diffusion-based models offer a promising alternative through parallel generation, but they still require multiple denoising iterations. Compressing multi-step denoising to a single step could further reduce latency, but often degrades textual coherence due to the mean-field bias introduced by token-factorized denoisers. To address this challenge, we propose \textbf{ECHO}, an efficient diffusion-based VLM (dVLM) for chest X-ray report generation. ECHO enables stable one-step-per-block inference via a novel Direct Conditional Distillation (DCD) framework, which mitigates the mean-field limitation by constructing unfactorized supervision from on-policy diffusion trajectories to encode joint token dependencies. In addition, we introduce a Response-Asymmetric Diffusion (RAD) training strategy that further improves training efficiency while maintaining model effectiveness. Extensive experiments demonstrate that ECHO surpasses state-of-the-art autoregressive methods, improving RaTE and SemScore by \textbf{64.33\%} and \textbf{60.58\%} respectively, while achieving an \textbf{$8\times$} inference speedup without compromising clinical accuracy.


翻译:摘要:胸部X光报告生成(CXR-RG)有望大幅减轻放射科医生的工作负担。然而,传统自回归视觉-语言模型(VLM)由于采用顺序式词元解码,存在高推理延迟的问题。基于扩散的模型通过并行生成提供了有前景的替代方案,但仍需要多次去噪迭代。将多步去噪压缩为单步可进一步降低延迟,但词元因子化解噪器引入的平均场偏差常导致文本连贯性下降。为解决这一挑战,我们提出用于胸部X光报告生成的高效扩散型VLM(dVLM)——**ECHO**。ECHO通过新颖的直接条件蒸馏(DCD)框架实现稳定的每步单步推理,该框架利用基于策略的扩散轨迹构建非因子化监督,编码联合词元依赖关系,从而缓解平均场限制。此外,我们提出响应非对称扩散(RAD)训练策略,在保持模型有效性的同时进一步提升训练效率。大量实验表明,ECHO超越现有最优自回归方法,将RaTE和SemScore分别提升**64.33%**和**60.58%**,同时实现**8倍**推理加速且不牺牲临床准确性。

0
下载
关闭预览

相关内容

《基于扩散模型的条件图像生成》综述
专知会员服务
44+阅读 · 2024年10月1日
【CVPR2023】基于动态图增强对比学习的胸部X光报告生成
专知会员服务
21+阅读 · 2023年3月23日
视觉Transformer预训练模型的胸腔X线影像多标签分类
专知会员服务
14+阅读 · 2022年7月29日
高效的文本生成方法 — LaserTagger 现已开源
TensorFlow
30+阅读 · 2020年2月27日
最新《生成式对抗网络GAN进展》论文
专知
95+阅读 · 2019年4月5日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
最新内容
重新思考无人机时代的生存能力
专知会员服务
5+阅读 · 今天7:44
装甲突击旅:现代战争思考、战斗与组织
专知会员服务
4+阅读 · 今天7:28
在人工智能加速决策环境中拓展OODA循环
专知会员服务
4+阅读 · 今天7:18
军事欺骗:供作战战术指挥官使用的工具
专知会员服务
4+阅读 · 今天7:03
综述 | 世界动作模型:少做梦,多行动
专知会员服务
6+阅读 · 6月23日
美以伊冲突:无人机与人工智能的运用
专知会员服务
10+阅读 · 6月23日
《特种部队在透明战场中的生存力》最新报告
专知会员服务
5+阅读 · 6月23日
相关基金
Top
微信扫码咨询专知VIP会员